| Порівняння різних пошукових систем |
|
There are no translations available. Для порівняння різних пошукових систем найчастіше використовують індекси пошукових систем – об’єми баз даних індексів веб-документів. Проведемо невеликий експеримент, доступний кожному. Виберемо найвідоміші англомовні пошукові системи: Ask– одна з найстаріших пошукових систем (створена в 1996 році); Google – найпопулярніша пошукова система, за допомогою якої шукають інформацію понад 60% користувачів Інтернету; Yahoo! – відома пошукова система, об’єм індексу якої більший індексу Google; Cuil – амбітна пошукова система, яка відкрилась в липні 2008 року, створена колишніми співробітниками Google; Bing – “дитя” Microsoft, яке швидко завоювало прихильність. Виконаємо пошук в кожній з наведених систем коротких слів, які найчастіше зустрічаються в англомовних документах, щоб оцінити об’єм індексу пошуковиків. Для порівняння результати зведені в табл. 1.
Навіть цей простий експеримент дозволить зробити певні висновки:
Повторимо експеримент, але вже для російськомовного пошуку, вибравши, окрім Google, три головні пошуковики з Росії: Яндекс, Рамблер і Апорт. Останні два відносять всі прийменники до стоп-слів, тому довелось додати два короткі слова “ка” і “ок”, які не так часто зустрічаються в документах, але дозволяють оцінити відносні об’єми індексів. Результати наведені в табл. 2.
Висновки:
Залишається питання релевантності пошуку і для того, щоб продемонструвати, наскільки системи різняться цим параметром, знову експериментуємо, але вже з пошуком українською мовою лише на сайтах України. Обираємо Google, Яндекс та найвідоміший національний пошуковик Мета. Знову виникає проблема для порівняння, бо Мета також ігнорує пошук прийменників і навіть слово “є”. Доводиться обмежуватися лише відносними об’ємами індексів та шукати документи з короткими словами, в першу чергу, зі словами, які мають характерні українські літери “і” ,“ї” та “є”. Крім того довелось експеримент трохи змінити, додавши пошук в Яндексі та Google не лише документів з ключовими словами, а і взяти їх в “лапки”, щоб виконати пошук за правилом пошуку “цілої фрази”. Результати, наведені в табл. 3, потребують деяких коментарів.
1. Для Google мі і ми – це одне і те ж саме, аналогічно для їв та ів. Також і в інших коротких словах літери і та и Google не розрізняє і лише пошук за методом “цілої фрази” дозволяє отримати більш релевантні результати, які за кількістю в 5-30 разів менші від попередніх (виділено в табл. 3). Інша причина нерелевантності пошуку за допомогою Google – віднесення знаку апострофа до роздільних знаків. Це означає, що при пошуку слова є ми отримуємо в результатах також документи зі словами “б’є”, “олів’є”, “круп’є”, “Тев’є” тощо. Беручи до уваги, що в українській мові достатня кількість слів, які закінчуються на “’є”, то зрозуміло, що хибних результатів досить багато. При цьому з табл. 3 видно, що навіть метод пошуку “цілої фрази” не дозволяє збільшити релевантність пошуку. 2. Яндекс не відрізняє є від е і тому при пошуку слова “є” в результатах будуть присутні всі документи зі скороченими іменами та по-батькові “Е.”. Аналіз першої сотні знайдених сторінок так і не прояснив, чому при пошуку “точної фрази” для “є” різко збільшується кількість знайдених документів. При пошуку документів зі словом “ок” Яндекс вносить в результати і документи зі словами “Ока”, “Оки” та подібними, що різко збільшує кількість знайдених документів. 3. Національна Мета значно відстає за індексом від Google та Яндексу. Загальних висновків два:
Останні статті за темою:
|

























