푸른 잠수함의 세상 이야기

네이버, '웹문서 검색을 고도화하는 그리핀(Griffin) 프로젝트' 돌입 본문

긴급 기사

네이버, '웹문서 검색을 고도화하는 그리핀(Griffin) 프로젝트' 돌입

푸른 잠수함 2017. 12. 8. 00:29


지난 7일 네이버가 웹사이트검색을 고도화시키는 작업에 돌입했습니다. 


네이버 통합검색 고객센터 내용에 따르면



2017년 12월 7일, 네이버는 AI기술을 활용해 웹문서 검색을 고도화하는 ‘그리핀(Griffin) 프로젝트’의 일환으로, 이용자에게 신뢰할 수 있는 웹페이지를 더욱 정확하고 신속하게 찾아서 보여줄 수 있도록 각각 나눠져있던 ‘웹문서’와 ‘사이트’ 영역을 <웹사이트>로 통합하여 서비스를 제공하게 되었습니다.


※ 그리핀(Griffin) 프로젝트
AI 등 최신기술들을 활용해 웹문서 검색을 보다 고도화하는 한편, 이용자가 웹문서검색을 통해 공신력있는 정보에 보다 신속하고 정확하게 접근할 수 있도록 하는 것을 목표로, 1) 수집 시스템 2) 스팸 시스템 3) 검색 랭킹을 개선하는 프로젝트

▶ 그리핀 프로젝트 소개 포스팅 보기


‘웹문서’와 ‘사이트’ 탭이 통합되고, 통합된 탭의 명칭은 ‘웹사이트’로 변경되었습니다.


영역 명칭은 ‘웹사이트’로 변경되지만 당분간 통합검색결과 내에서는 사이트와 웹문서를 한시적으로 구분해 노출하며, 웹사이트 탭 안에서는 기존의 웹문서와 사이트 검색결과를 선택해 볼 수 있는 옵션을 제공해, 이용자들의 혼란을 방지하고자 합니다.


기존 사이트 영역에서 노출이 되고 있는 사이트들에 대해서는 타 영역을 통해서도 잘 반영 및 노출될 수 있도록 연구를 진행하고 있습니다.


네이버 검색은 웹사이트 통합을 통해 기존에 인위적으로 나누어져 있던 정보들을 한데 모아 보다 일목요연하게, 또한 더욱 공정하게 정보를 노출할 수 있는 기회를 제공하기 위해 노력해나갈 예정입니다. 


< 위 글의 내용 이미지 >



위에 쓰여진 ▶ 그리핀 프로젝트 소개 포스팅 보기를 누르시면 아래와 같은 페이지로 이동하게 되죠.

아래 나와있는 글은 신화속의 그리핀을 다룬 프로젝트인데요, 자세항 내용은 세부적인 글을 참조하시면 됩니다. 




네이버 웹문서검색을 고도화하는 그리핀(Griffin) 프로젝트


지난 3년여간 웹 상의 사이트 개수는 22% 이상 증가하였으며, 이에 따라 웹 페이지 개수도 급격히 늘어났습니다. 한글 웹문서도 과거에 비해 많이 늘어났지만, 단순히 수가 늘어났다고 해서 웹문서들의 품질도 함께 좋아졌다고 보기는 어려운 상황입니다.
 
모바일 환경에 최적화 되어있지 않은 페이지들, 검색이 잘 될만한 키워드를 나열하거나 반복해서 사용해 이용자에게 혼란을 주는 문서들, 무단으로 내용을 복사해 믿을 만한 정보를 제공하지 않는 문서 등 이용자들의 피드백이 좋지 않은 웹문서들도 많이 있기 때문입니다.

구조화된 데이터 (open graph, schema.org)를 사용하는 등 적극적으로 콘텐츠를 잘 정리한 웹문서들이 많아지면서, 이러한 새로운 형식의 웹문서들도 잘 수집할 수 있는 고도의 수집 기술, 그리고 이들을 검색결과에 잘 보여주는 것 (Rich UI)도 필요하게 되었습니다.


신화 속 그리핀 이미지 (출처: 위키피디아)

지금까지 이야기한 웹문서 환경의 변화들을 반영하기 위해 네이버는 그리핀 (Griffin) 프로젝트를 시작했습니다.

그리핀은 그리스 신화에 나오는 전설의 동물로, 사자의 몸통에 독수리의 머리, 날개, 앞발을 가졌고, 산에서 금은보석을 찾아내 보금자리를 만드는 일에 열중합니다. 그리핀처럼 개편된 웹문서검색도 이용자에게 도움이 될 만한 유용한 피처를 찾는 것에 열중하고자 하는 기술적 지향점을 가지고 있습니다.

그리핀 프로젝트 이전에도 네이버는 신뢰할만한 웹문서검색 환경을 만들기 위해 꾸준히 노력해 왔는데요, 이러한 노력과 관련해서는 지난 포스팅에서도 다룬 바 있습니다.

네이버 웹문서검색 이야기 포스팅 보기>


그리핀 프로젝트는 AI등 최신기술들을 활용해 웹문서검색을 보다 고도화하는 한편, 이용자가 웹문서검색을 통해 공신력있는 정보에 보다 신속하고 정확하게 접근할 수 있도록 하는 것을 목표로 진행되고 있습니다.  
 
그러기 위해서는 1) 좋은 웹문서를 잘 가져오고 (수집 시스템 개선), 2) 이용자 피드백이 좋지 않은 문서들에 대응하는 한편 (스팸 시스템 개선), 3) 이용자들이 좋은 웹문서를 판단하는 가치가 반영된 랭킹 시스템을 만들어야 (검색 랭킹 개선) 하는데요.
그래서 그리핀 프로젝트는 이 세 가지 측면에서 웹문서검색을 개선하고 있습니다.

 

1) 수집 시스템 개선 실시간 수집 시스템을 통한 공신력 있는 문서 수집

웹문서검색이 잘 이루어지기 위해서는 우선적으로 좋은 웹문서가 잘 수집되어야 하는데요, 검색 시점을 기준으로 많은 사람들이 신뢰할만한 내용을 담고 있는 웹문서를 신속하게 수집할 수 있도록 수집 시스템을 강화하고 있습니다.

· 더 신속한 수집: 웹문서 수집봇(crawler)이 뉴스/위키백과 등 신규 콘텐츠를 상시로 모니터링하며 새로 등장하는 웹페이지를 빠짐없이 발견하고, 즉시 수집해 검색에 반영합니다. 이와 함께 유효하지 않은 페이지나 중복된 콘텐츠에 대한 필터링 성능도 향상시켜 수집 리소스가 낭비되지 않을 수 있도록 하고 있습니다.
이러한 스트리밍 구조의 문서 수집 시스템을 통해 최근에 이용자들이 잘 방문하지 않는 사이트 보다는 현재 시점에서 이용자들이 선호하는 웹사이트의 문서를 더 빨리 발견해 수집 로봇을 내보내고, 이용자 선호도 변화를 보다 빠르게 반영할 수 있게 되었습니다.

· 더 광범위한 수집: 방문 수는 적어도 공신력 있는 정보가 있는 웹페이지 (공공기관, 학술기관, 학회 등)를 적극적으로 발견해 수집하는 한편, 전문정보 등 국내 이용자가 많이 찾는 해외웹문서도 보다 광범위하게 수집해 이전보다 20% 정도 많은 양의 문서를 수집하게 되었습니다.

해외 전문정보 검색품질 개선 사례



2) 스팸 시스템 개선 딥러닝 기술로 복잡다단해진 스팸 패턴에도 대응

이용자 피드백이 좋지 않은 문서에 대응하기 위해 딥러닝 기술을 기반으로 새로이 등장하는 복잡하고 다양한 스팸 패턴에 대응할 수 있는 알고리즘을 적용하였습니다.

· 더 강력한 스팸 탐지: 문서의 노출/클릭 패턴 분석 및 내용의 충실성을 판단하는 데에 다양한 AI 기법들을 활용함으로써 스팸 문서 처리 성능이 열 배 가량 향상되었고, 이에 따라 이용자가 스팸 문서를 만날 가능성도 현저히 낮아졌습니다.

· 더 촘촘한 스팸 탐지: 개선된 스팸 시스템이 스팸 탐지 로직을 뚫는 데에 성공한 페이지들을 더 꼼꼼히 모니터링하고, 콘텐츠 소비를 방해하거나 정보 접근을 제한하는 페이지에 대해 주기적으로 이용자의 피드백을 받아 적용합니다.
 


3) 검색 랭킹 개선 이용자의 검색 의도까지 고려하는 AI 기반의 피처 추가

개편된 랭킹 시스템은 이용자들이 좋은 웹문서를 판단하는 가치는 물론, 이용자의 의도도 반영해 더 믿을 수 있고 정확한 검색 결과를 제공합니다.

· 더 투명한 검색 랭킹: 여러 곳에서 인용되는 동시에 이용자들이 계속 돌려보며 꾸준히 소비되는 화제성, 작성자와 게시물에 대한 평판, 공신력 있는 출처라는 세 가지 이용자 가치가 반영될 수 있는 검색 랭킹을 만들어가고 있습니다.

검색어에 대한 공신력 있는 정보가 잘 노출될 수 있도록 랭킹을 개선한 사례

또한 웹문서에 대한 이용자들의 피드백을 상시로 반영해 이용자들이 선호하는 가치가 랭킹에 반영될 수 있도록 노력하고 있습니다.

· 더 똑똑한 검색 랭킹: AI 기반 매칭기술을 추가해 이용자의 검색 의도를 찰떡같이 알아듣고가장 믿을만한 정보를 제공하는 랭킹 시스템으로 발전해 나가고 있습니다.
이러한 노력의 일환으로 질의상의 단어와 문서상의 단어가 불일치하는 부분을 개선하였는데요. 예를 들어 질의어에 자주 등장하는 ’00 가는 법과 매칭되는 문서의 제목은 ’00 오시는 길’, ’약도’, ‘길찾기등인 경우가 많은데, 서로 다른 단어가 사용되었어도 이 문서들이 잘 매칭될 수 있도록 했습니다.

의미적으로 단어들을 매칭시켜 랭킹을 개선한 사례


좋은 품질의 웹문서들이 이용자들에 의해 많이 소비되고, 또 그로 인해 다시 이용자들의 선호를 받을만한 좋은 웹문서들이 만들어지는 선순환이 이루어질 수 있도록 그리핀 프로젝트는 계속될 예정입니다



앞으로의 네이버 검색은 그리핀 프로젝트로 인해 검색 정확도가 높아질 것으로 보이네요. 한편으론 힘들게 포스팅했는데, 안드로메다로 날라가버리면 어찌하나 걱정도 되는 부분입니다 ㅠㅠ...   











Comments