인공지능 플랫폼

Copyright © www.datalink.kr.
All Rights Reserved.
사이트 내 전체검색

왁자지껄

AI 활용 플랫폼

시맨틱 검색이란 무엇인가?

페이지 정보

profile_image
작성자 최고관리자
댓글 0건 조회 556회 작성일 24-01-09 16:02

본문

(아래 내용은 시맨틱 검색이란 무엇인가? | 시맨틱 검색 종합 안내서 | Elastic 에서 퍼온 글입니다) 

시맨틱 검색 정의

시맨틱 검색은 단어와 구문의 의미를 해석하는 검색 엔진 기술입니다. 시맨틱 검색의 결과는 쿼리의 단어와 문자 그대로 일치하는 콘텐츠가 아니라 쿼리의 의미와 일치하는 콘텐츠를 반환합니다.

시맨틱 검색은 검색자의 의도와 검색 컨텍스트에서 단어를 이해하는 것을 포함하는 일련의 검색 엔진 기능입니다.

이러한 유형의 검색은 자연어를 보다 정확하고 상황에 맞게 해석하여 검색 결과의 품질을 향상시키기 위한 것입니다. 시맨틱 검색은 머신 러닝 및 인공 지능과 같은 기술의 도움을 받아 검색 의도를 의미론적인 의미와 일치시킴으로써 이를 달성합니다.

시맨틱 검색은 어떻게 작동하는가?

시맨틱 검색은 벡터 검색을 통해 제공되며, 벡터 검색은 시맨틱 검색이 컨텍스트 관련성과 의도 관련성을 기반으로 콘텐츠를 제공하고 순위를 매길 수 있도록 합니다. 벡터 검색은 검색 가능한 정보의 세부 정보를 관련 용어나 항목의 필드 또는 벡터로 인코딩한 후 벡터를 비교하여 어떤 것이 가장 유사한지 결정합니다.

벡터 검색이 가능한 시맨틱 검색은 쿼리 파이프라인의 양쪽 끝에서 동시에 작업하여 결과를 생성합니다. 쿼리가 실행되면 검색 엔진은 쿼리를 데이터 및 관련 컨텍스트의 수치 표현인 임베딩으로 변환합니다. 이는 벡터에 저장됩니다. kNN 알고리즘, 즉 k-최근접 유사 항목(k-nearest neighbor) 알고리즘은 기존 문서의 벡터(텍스트에 관한 시맨틱 검색)를 쿼리 벡터와 일치시킵니다. 그러면 시맨틱 검색은 결과를 생성하고 개념적 관련성을 기반으로 순위를 매깁니다.

  1. 쿼리가 실행되면 검색 엔진은 쿼리를 데이터 및 관련 컨텍스트의 수치 표현인 임베딩으로 변환합니다. 이는 벡터에 저장됩니다.
  2. kNN 알고리즘, 즉 k-최근접 유사 항목(k-nearest neighbor) 알고리즘은 기존 문서의 벡터(텍스트에 관한 시맨틱 검색)를 쿼리 벡터와 일치시킵니다.
  3. 그러면 시맨틱 검색은 결과를 생성하고 개념적 관련성을 기반으로 순위를 매깁니다.

컨텍스트
시맨틱 검색에서 컨텍스트는 검색자의 지리적 위치, 쿼리 단어의 텍스트 컨텍스트 또는 검색자의 검색 기록 컨텍스트와 같은 추가 정보를 나타낼 수 있습니다.

시맨틱 검색은 컨텍스트 단서를 사용하여 수백만 개의 예시 데이터 세트에서 단어의 의미를 결정합니다. 시맨틱 검색은 유사한 컨텍스트에서 사용될 수 있는 다른 단어도 식별합니다.

예를 들어, "football"을 검색하면 미국에서는 "축구(soccer)"를 의미하고 영국을 비롯한 세계의 다른 지역에서는 "풋볼(football)"를 의미합니다. 시맨틱 검색은 사용자의 지리적 위치를 기반으로 결과를 구별할 것입니다.

검색자 의도
시맨틱 검색의 역할은 사용자의 경험을 향상시키는 것입니다. 가장 정확도가 높은 결과를 제공할 수 있도록, 사용자의 요구 사항을 이해하기 위해 사용자의 의도를 해석합니다. 사용자가 정보를 원하는가? 사용자가 구매를 하려고 하는가? 쿼리와 해당 컨텍스트를 기반으로, 시맨틱 검색은 관련성 순으로 결과의 순위를 매깁니다.

가장 높은 등급의 제품을 먼저 생성하고 가장 낮은 등급의 제품을 더 아래로 생성하는 등 쿼리 분류 설정을 통해 시맨틱 검색을 수정하거나 개선할 수도 있습니다.

사용자의 검색 환경을 개인 맞춤 설정

Diagram showing the steps of generative AI including vector representation and transforming into embedding

시맨틱 검색과 키워드 검색 비교

시맨틱 검색과 키워드 검색의 차이점은 키워드 검색은 단어와 단어, 단어와 동의어, 단어와 유사한 단어가 일치하는 결과를 반환한다는 것입니다. 시맨틱 검색은 쿼리에 포함된 단어의 의미와 일치하는 것을 찾습니다. 어떤 경우에는 시맨틱 검색이 직접적인 단어 일치가 있는 결과를 생성하지 않을 수도 있지만 사용자의 의도와는 일치하게 됩니다.

키워드 검색 엔진은 동의어나 단어 생략과 같은 쿼리 확장 또는 완화 도구를 사용합니다. 또한 오타 허용, 토큰화, 정규화와 같은 자연어 처리 및 이해 도구도 사용합니다. 반면, 시맨틱 검색은 벡터 검색을 통해 의미와 일치하는 쿼리 결과를 반환할 수 있습니다.

"초콜릿 밀크"를 생각해 보세요. 시맨틱 검색 엔진은 "초콜릿 밀크"와 "밀크 초콜릿"을 구별할 것입니다. 쿼리의 키워드는 동일하더라도, 쓰여진 순서에 따라 의미가 달라집니다. 인간으로서, 우리는 밀크 초콜릿이 다양한 초콜릿을 가리키는 반면, 초콜릿 밀크는 초콜릿 맛이 나는 우유라는 것을 이해합니다.

시맨틱 검색이 중요한 이유는 무엇인가?

시맨틱 검색은 더 넓은 검색 표면을 용이하게 하기 때문에 중요합니다. 벡터 검색을 기반으로 하기 때문에 시맨틱 검색은 쿼리의 컨텍스트와 더불어 의도가 결과를 산출하는 보다 직관적인 검색 경험을 가능하게 합니다.

시맨틱 검색 알고리즘은 전환율, 이탈률 등 다양한 핵심 성과 지표(KPI)를 통해 계속해서 "학습"하므로, 시맨틱 검색은 사용자 만족도를 높이는 데 도움이 됩니다.

시맨틱 검색의 예

시맨틱 검색은 사용자의 지리적 맥락, 사용자의 과거 검색 기록, 사용자 의도를 기반으로 결과를 제공합니다.

개인 맞춤 설정은 검색자의 이전 검색 및 상호 작용을 사용하여 응답 관련성과 순위를 결정합니다. 시맨틱 검색은 다른 사용자가 가져온 응답과 어떻게 상호 작용했는지에 따라 결과 순위를 다시 매길 수도 있습니다. 예를 들어, 검색 엔진에 "레스토랑"을 입력하면 해당 지역에 있는 검색 결과가 표시됩니다.

사용자의 의도를 더 잘 이해하면, 시맨틱 검색은 "Creuset과 Staub 더치 오븐 비교"와 같은 쿼리에 대해 제품 비교를 우선 순위화하는 내용으로 응답할 수 있는데, 바로 그것이 사용자의 의도이기 때문입니다. 시맨틱 검색은 "최고의 Staub 딜" 또는 "Creuset 할인" 뒤에 숨은 의도를 구매 의도로 인식하고 그에 따른 응답을 제공할 것입니다.

또 다른 예는 예측 텍스트입니다. 검색창에 쿼리를 입력하면, 시맨틱 검색을 사용하여 쿼리를 완료하고 컨텍스트, 일반적인 검색 및 과거 검색 기록을 기반으로 관련 검색어를 제안합니다.

시맨틱 검색의 이점

시맨틱 검색은 검색 경험을 개선함으로써 기업과 고객에게 이익이 됩니다.

고객이 더 쉽게 사용할 수 있습니다
고객은 전문 용어를 기억하지 못하거나 특정 제품 이름을 기억하지 못할 수도 있습니다. 시맨틱 검색을 통해 고객은 모호한 검색 쿼리를 입력하고 구체적인 결과를 얻을 수 있습니다. 고객은 설명을 사용하여 검색하여 그 이름을 찾을 수도 있습니다. 예를 들어, 알고 있는 가사를 검색하고 제목을 찾아 노래를 찾을 수 있습니다.

시맨틱 검색은 의도와 컨텍스트를 고려하여 의미를 해석하기 때문에 고객 측의 경험은 인간의 상호 작용처럼 느껴집니다.

개념은 키워드보다 더 강력합니다
키워드가 아닌 개념을 일치시킴으로써 시맨틱 검색은 보다 정확한 결과를 산출합니다. 차원 임베딩을 통해 벡터는 단어를 개념으로 나타냅니다. "Car"는 더 이상 "car" 또는 "cars"에만 일치하는 것이 아니라 "driver", "insurance", "tires", "electric", "hybrid" 등과도 일치합니다. 왜냐하면 이러한 단어들이 "car"의 벡터에 연결되어 있기 때문입니다.

따라서 벡터 검색 기반의 시맨틱 검색은 토큰으로 표현되는 키워드를 단순히 일치시키는 개념으로 확장됩니다.

비즈니스에 더 적합합니다
시맨틱 검색은 사용자 의도를 이해함으로써 매출과 고객 만족도를 높일 수 있습니다. 사용자 의도는 정보를 찾거나, 거래를 하거나, 탐색을 하거나 또는 상업적인 것일 수 있습니다. 의도를 이해하면 검색 엔진이 고객의 요구를 더 잘 충족시킬 수 있습니다. 이는 고객과 브랜드의 관계를 향상시켜 비즈니스에 더 좋습니다.

Elasticsearch를 사용한 시맨틱 검색

Elasticsearch 플랫폼에는 시맨틱 검색 모델인 Elastic Learned Sparse EncodeR(ELSER)을 포함한 머신 러닝 및 AI 솔루션이 탑재되어 있습니다. 이 NLP 모델은 배포하기 쉬운 도구에서 시맨틱 검색이 가능하도록 Elastic에 의해 훈련되었습니다.

Elasticsearch는 빠른 검색, 미세 조정된 정확도, 효율적인 확장을 위한 강력한 분석을 위해 데이터를 안전하게 저장합니다. Elasticsearch는 데이터 수집, 보강, 저장, 분석 및 시각화를 위한 무료 개방형 도구 세트인 Elastic Stack의 핵심 구성 요소입니다.

Elasticsearch에 대해 자세히 알아보기

관련 시맨틱 검색 용어집

임베딩: 임베딩은 단어 의미를 벡터로 표현한 것입니다. 이는 검색을 위해 처리될 때 단어가 취하는 형식입니다.

역 인덱스: 역 인덱스는 검색 엔진이 정보를 검색할 수 있도록 해주는 데이터베이스입니다. 단어를 숫자로 또는 숫자를 숫자로, 데이터베이스, 문서 또는 문서 집합의 위치와 일치시킵니다. 레코드 수준 인덱스는 단어를 하나 또는 여러 문서와 일치시킵니다. 단어 수준 인덱스는 단어를 문서 내의 위치와 일치시킵니다.

자연어 처리(NLP): 자연어 처리는 컴퓨터가 인간의 언어를 이해하고 처리할 수 있도록 하는 컴퓨터 과학, 언어학, 인공 지능의 하위 분야입니다. 정규화: 정규화(Normalization)는 데이터의 수치값을 공통 척도로 변환하는 과정을 말합니다.

의미론(시맨틱스): 의미론은 의미와 관련된 언어학과 논리학의 한 분야입니다. 또한 컴퓨터 과학 및 철학의 하위 분야이기도 합니다.

토큰화: NLP에서 토큰화는 문장을 토큰, 즉 더 작은 정보 단위로 변환하는 프로세스를 의미합니다. 보다 빠른 컴퓨터 처리를 가능하게 하는 프로세스입니다.


 

댓글목록

등록된 댓글이 없습니다.