RSS
 

Философия индексации информации поисковыми машинами.

09 Июл

Поисковая философия

У всего в этой жизни есть своя философия . Это красноречивое утверждение базируется на следующем определении Живого – системы, которая стремится к самоупорядочению. Поиск информации – это то же упорядочение этой же информации по тем или иным законам живого мира интернета. Раньше когда число компьютеров во всём мире не превышало несколько тысяч, это процесс жизни не был столь явным и очевидным. Да и не было особого смысла в поисковых алгоритмах.

Можно сказать, что давным давно – эти компьютеры представляли из себя одноклеточные организмы, которые впоследствии начали связываться посредством нервной системы интернет кабелей. Постепенно этот организм развивался. И возникла необходимость упорядочения всей совокупности накопленных данных. Конечно программы писали люди и можно сказать, что интернет- это всего лишь реализация труда совокупности учёных, инженеров и впоследствии просто пользователей. Но есть одно но. Сейчас глобальная сеть – это уже самоорганизующуюся система, которая очень сильно связана  со всеми сферами деятельности человека.

И сложность комплекса такого организма как интернет уже в пору описывать моделями ограниченной диффузии частиц, либо стохастической броуновской динамики. Уже совокупные факторы влияющие на дальнейшее усложнение этой системы настолько сложны, что надо прибегать к каким либо средним силам для описания дальнейшей динамики роста сети. И конечно как естественный результат роста информации возникают появляются вопросы индексации для дальнейшего поиска и релевантности запросов конечного пользователя. Поэтому и существует некая базовая философия поисковых систем, которая является фундаментом к строительству основного алгоритма. Вот на этом и остановимся ниже.

Поисковая машина

Главный шаг при реализации поискового алгоритма – это разработка методики сбора информации. В ряде случаев для этого применяется ползание (начинается обход небольшого набора документов и перехода по ссылка в нём). Возможно отправной точкой может являться совокупность документов в сети интранет.

Дальше формируется большая таблица, содержащая список документов и вхождений различных слов. Сами докумены могут и не храниться, а только ссылка на их местонахождение.

Ну и конечно последний шаг- это возврат ранжированного списка в ответ на запрос. Теперь имея совокупность информации в индексе – найти документы по словам сравнительно несложно. Только вот возникает вопрос – а как организовать ранжирование под запрос? Как иерархировать информацию?

Можно придумать большое количество метрик и недостатка в средствах контроля не будет… Но вот как сделать этот поиск удобным человеку. Как создать алгоритм в котором человеческий запрос будет  иметь максимально релевантный ответ. Как заставить ПС искать то, что хочется а не то, что выдается? Можно ли заставить обучаться поисковый алгоритм под конкретного пользователя.

В результате требуется построить нейронную сеть для ранжирования запросов. Такая сеть обучается ассоциировать запросы с результатами в зависимости от того, по каким ссылкам щёлкает пользователь, получив список результатов. Эта информация позволяет изменить сортировку результатов с учётом того, как человек переходил по найденным ссылкам в прошлом.

Вот и вся философия ну или почти вся. Философия по идее не имеет ограничений, так что идеологию поиска информации можно рассматривать достаточно долго. Но вот практическая реализация достаточно нетривиальна. Поэтому и существуют такие Монстры как Гугл, YAhoo, Яндекс, Рамблер. И наверное эта область развития поиска информации будет только развиваться. А мне лично будет дальше интересно познавать эту живую совокупность множества ПК в пределах сети интернет…

Google Bookmarks Reddit Technorati Yahoo My Web БобрДобр.ru Memori.ru МоёМесто.ru
 
Нет комментариев

Опубликовано в рубрике Индексация

 

Прокомментировать

 
 
 
Система Orphus

Enter your email address:

Delivered by FeedBurner

.