V-Ghost

영상 및 이미지 데이터 수집과 영상 속 음원 파일 추출 프로세스

솔루션 소개

웹 크롤러는 Google, Bing, Yahoo !, DuckDuckGo, Baidu, Yandex 등 많은 검색 엔진이 있습니다. 그들 각각은 스파이더 봇을 사용하여 페이지를 색인합니다.

가장 인기있는 웹 사이트에서 크롤링 프로세스를 시작합니다. 웹 봇의 주요 목적은 각 페이지 내용의 핵심을 전달하는 것입니다. 따라서 웹 스파이더는이 페이지에서 단어를 찾은 후 다음에 쿼리에 대한 정보를 찾을 때 검색 엔진에서 사용할 단어 목록을 작성합니다.

인터넷의 모든 페이지는 하이퍼 링크로 연결되므로 사이트 스파이더는 해당 링크를 찾아 다음 페이지로 이동할 수 있습니다. 웹 봇은 모든 컨텐츠와 연결된 웹 사이트를 찾을 때만 중지됩니다. 그런 다음 기록 된 정보를 서버에검색 색인을 보내 저장합니다.

페이지의 색인이 생성되면 크롤링이 즉시 중지되지 않습니다. 검색 엔진은 웹 스파이더를 주기적으로 사용하여 페이지가 변경되었는지 확인합니다. 변경 사항이 있으면 검색 엔진의 색인이 그에 따라 업데이트됩니다.

그림1

< 웹 크롤러의 개요 >

그림2

< V·T-Ghost의 수집 내용 안내 >

V-Ghost는 필요한 정보와 관련된 키워드 링크(노드)정보를 수집하고 노드를 바탕으로 영상관련(영상, 이미지 등) 데이터를 1차적으로 수집합니다. 이 후 영상데이터를 음성데이터로 변환하여 저장 합니다. 이 과정에서 분석에 필요한 형식을 맞추기 위해서 wav, flac, pcm 등 확장자와 샘플링 주기를 고려한 주파수와 bit 채널 수를 조정하여 저장하는 프로세스이다.

Template Design © JSDATA. All rights reserved.
X