Ефективний пошук в Інтернеті

There are no translations available.

Для порівняння різних пошукових систем найчастіше використовують індекси пошукових систем – об’єми баз даних індексів веб-документів.

Проведемо невеликий експеримент, доступний кожному. Виберемо найвідоміші англомовні пошукові системи:

Ask– одна з найстаріших пошукових систем (створена в 1996 році);

Google – найпопулярніша пошукова система, за допомогою якої шукають інформацію понад 60% користувачів Інтернету;

Yahoo! – відома пошукова система, об’єм індексу якої більший індексу Google;

Cuil – амбітна пошукова система, яка відкрилась в липні 2008 року, створена колишніми співробітниками Google;

Bing – “дитя” Microsoft, яке швидко завоювало прихильність.

Виконаємо пошук в кожній з наведених систем коротких слів, які найчастіше зустрічаються в англомовних документах, щоб оцінити об’єм індексу пошуковиків. Для порівняння результати зведені в табл. 1.

Навіть цей простий експеримент дозволить зробити певні висновки:

Об’єм індексу Yahoo! переважає індекс Google більше, ніж в 2 рази.
Ask за об’ємом індексу значно відстає від своїх конкурентів.
Bing дійсно може незабаром скласти серйозну конкуренцію Google.
Статистика, надана Cuil, надто суперечлива і не може сприйматися всерйоз до уваги.

Повторимо експеримент, але вже для російськомовного пошуку, вибравши, окрім Google, три головні пошуковики з Росії: Яндекс, Рамблер і Апорт. Останні два відносять всі прийменники до стоп-слів, тому довелось додати два короткі слова “ка” і “ок”, які не так часто зустрічаються в документах, але дозволяють оцінити відносні об’єми індексів. Результати наведені в табл. 2.

Висновки:

Індекс Апорту в 10 разів менший індексу Рамблера, який приблизно в 50 разів поступається індексу Яндекса.
В російськомовному сегменті Яндекс за індексом майже в 20 разів переважає Google, а якщо взяти до уваги функціональні можливості Яндекса при виконанні складних запитів, то альтернативи йому в даному сегменті немає.

Залишається питання релевантності пошуку і для того, щоб продемонструвати, наскільки системи різняться цим параметром, знову експериментуємо, але вже з пошуком українською мовою лише на сайтах України. Обираємо Google, Яндекс та найвідоміший національний пошуковик Мета. Знову виникає проблема для порівняння, бо Мета також ігнорує пошук прийменників і навіть слово “є”. Доводиться обмежуватися лише відносними об’ємами індексів та шукати документи з короткими словами, в першу чергу, зі словами, які мають характерні українські літери “і” ,“ї” та “є”. Крім того довелось експеримент трохи змінити, додавши пошук в Яндексі та Google не лише документів з ключовими словами, а і взяти їх в “лапки”, щоб виконати пошук за правилом пошуку “цілої фрази”.

Результати, наведені в табл. 3, потребують деяких коментарів.

1. Для Google мі і ми – це одне і те ж саме, аналогічно для їв та ів. Також і в інших коротких словах літери і та и Google не розрізняє і лише пошук за методом “цілої фрази” дозволяє отримати більш релевантні результати, які за кількістю в 5-30 разів менші від попередніх (виділено в табл. 3). Інша причина нерелевантності пошуку за допомогою Google – віднесення знаку апострофа до роздільних знаків. Це означає, що при пошуку слова є ми отримуємо в результатах також документи зі словами “б’є”, “олів’є”, “круп’є”, “Тев’є” тощо. Беручи до уваги, що в українській мові достатня кількість слів, які закінчуються на “’є”, то зрозуміло, що хибних результатів досить багато. При цьому з табл. 3 видно, що навіть метод пошуку “цілої фрази” не дозволяє збільшити релевантність пошуку.

2. Яндекс не відрізняє є від е і тому при пошуку слова “є” в результатах будуть присутні всі документи зі скороченими іменами та по-батькові “Е.”. Аналіз першої сотні знайдених сторінок так і не прояснив, чому при пошуку “точної фрази” для “є” різко збільшується кількість знайдених документів. При пошуку документів зі словом “ок” Яндекс вносить в результати і документи зі словами “Ока”, “Оки” та подібними, що різко збільшує кількість знайдених документів.

3. Національна Мета значно відстає за індексом від Google та Яндексу.

Загальних висновків два:

Для українських сайтів індекс Google менший від індексу Яндекса не так сильно, як для російськомовних сайтів – приблизно в 2 рази.
Релевантність пошуку ані Google, ані Яндексу на українських сайтах не задовольняє потреби користувача

Google+

Останні статті за темою: