Лемма — неизмененная, исходня форма слова. Для существительных это именительный падеж и единственное число, для глаголов — форма слова, отвечающая на вопрос «что делать?».
Для чего используется лемматизация
Лемматизация — процесс выявления лемм, который применяется поисковиками при индексации сайтов. Она часто используется для морфологического анализа текстов и является одной из прикладных дисциплин языкознания.
Этот процес позволяет хранить информацию о каждой странице у себя в индексе в виде набора слов, приведенных, по сути, к единому знаменателю.
Лемматизация применяется для ускорения индексации и формирования ответа на поисковый запрос, за счет сокращения словоформ, необходимых к изучению, анализу и разбору поисковиком. Вы можете ввести: «куплю футболку» или «купить футболку» — поисковик преобразует эти слово в «купить футболка», таким образом, выдавая один и тот же результат для разных по написанию и одинаковых по смыслу запросов.
Кроме ускорения индексации, поисковики используют лемматизацию для оценки уникальности контента разделяя содержимое страницы на шинглыи анализируя затем леммы в пределах каждого из них. Программа ищет выбранный набор лемм в других текстах, которые также прошли первый пункт. В случае нахождения совпадений, леммы второго текста признаются неуникальными.
Лемматизация в SEO помогает оптимизаторам подобрать семантическое ядро для сайта. Роль технологии в этом процессе в том, что:
- лемматизация запросов исключает дубли. К примеру, «куплю дом в Питере» и «купить дом Санкт-Петербург» — это одинаковые запросы;
- ключи в исходной форме гораздо проще отсортировать;
- можно оценить частотность того или иного запроса.
Смотрите также:
— пассаж