Предыдущая тема :: Следующая тема |
Автор |
Сообщение |
Strucka
Зарегистрирован: 15.09.2006 Сообщения: 4
|
Добавлено: Пт Сен 15 2006 21:17 Заголовок сообщения: Посик и определение ключевых слов |
|
|
Вот так вот примерно можно обозвать.
Идей: есть текст ,положим нам надо определить ключевые слова данного тектса.
Что это за слова? Они должны определять некую тематику документа.
К примеру в тексте говорится о парниковом эффекте. Возможны ключевые слова - испарение , лед , СО2 . океан и тд
Как можно выявить такие слова, если при банальном подсчете частоты встречаемости самое распротранненое - предлоги и тд...
Задача: определить математическую формулу(о как) которая может определить с какой -то долей вероятности будет ли данное слово ключевым или нет. При этом проверки накладываемые на "верность ключа" надо придумать свои.
Если у кого-нибудь есть какие-то варианты хотя бы части этой формулы или какие-то идеи по накладываемым проверкам и алгоритму их реализации просю делиться. |
|
Вернуться к началу |
|
|
Kefir
Зарегистрирован: 16.04.2005 Сообщения: 443 Откуда: Пермь
|
Добавлено: Пн Сен 18 2006 08:24 Заголовок сообщения: |
|
|
Есть словари частоты встречаемости слов. Я качал такой словарь с сайта какого-то института ИИ (гугл Вам в помощь) . Очевидно, что если слово в тексте встречается заметно чаще, чем это указано в словаре, то это слово является ключевым. Если слова вообще нет в словаре, то скорее всего либо это слово с ошибкой, либо ключевое. _________________ Самоловских Виталий aka Kefir |
|
Вернуться к началу |
|
|
Kefir
Зарегистрирован: 16.04.2005 Сообщения: 443 Откуда: Пермь
|
Добавлено: Пн Сен 18 2006 08:26 Заголовок сообщения: |
|
|
Да, совссем забыл, Вам нужно еще почитать про алгоритмы выделения основы слова. _________________ Самоловских Виталий aka Kefir |
|
Вернуться к началу |
|
|
|