Национальный корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.
Национальный корпус создается лингвистами для научных исследований и обучения языку.
Национальный корпус русского языка используется поисковой системой Яндекс при разборе поискового запроса от посетителя для выявления синонимов, оммонимов и возможных словоформ.
Состав национальный корпус русского языка:
Подкорпус | Число текстов | Число предложений | Число словоупотреблений | % словоупотреблений |
Основной корпус | 76 882 | 17 574 752 | 209 198 275 | 57.3% |
- в том числе со снятой омонимией | 2 147 | 516 852 | 5 944 188 | 1.6% |
Газетный корпус | 181 175 | 8 553 495 | 113 292 003 | 31.0% |
Диалектный корпус | 197 | 20 273 | 194 283 | 0.1% |
Обучающий корпус | 229 | 65 666 | 664 751 | 0.2% |
Параллельный корпус | 370 | 1 609 609 | 24 022 437 | 6.6% |
Поэтический корпус | 41 448 | 638 861 | 6 738 474 | 1.8% |
Устный корпус | 3 034 | 1 604 626 | 10 122 579 | 2.8% |
Мультимедийный корпус | 31 741 | 148 619 | 648 576 | 0.2% |
Всего: | 335 076 | 30 215 901 | 364 881 378 | 100% |
Пример распределения слова «сайт» по годам (частота на миллион словоформ)