Подкорпусы Национального корпуса казахского языка

Лингвистический корпус – это информационно-справочная база письменных и устных текстов на определенном языке в электронной форме, которая облегчает поиск языковых единиц (особенно слов, фраз). Он отображает результат поиска в естественном контексте.

Большинство языков мира создали свои национальные корпуса, которые отличаются друг от друга в основном научной обработкой текстов, полнотой базы и разнообразием подкорпусов.

Значение национального корпуса:

Корпус может предлагать все виды текстов на языке (художественные, публицистические, учебные, научные, деловые, разговорные, диалектные и т.д.). Соответственно, данные тексты вводятся в корпус поэтапно. Хорошая представительность корпуса связана со значительным увеличением количества словоупотреблений (сотни миллионов).

База корпуса содержит дополнительную информацию в виде аннотаций или в виде обозначений о характере введенных текстов. С помощью нее можно получить консолидированную информацию. База корпуса постоянно совершенствуется и пополняется.

Для чего нужен корпус?

Национальный корпус нужен, прежде всего, для научного изучения лексики и грамматики языка, изменений, происходивших в нем на протяжении сотен лет;

Оптимизирует поиск информации благодаря современному технологическому развитию;

Упрощает анализ, обработку обширных материалов, получение статистических данных;

Позволяет составить необходимые словари, исходя из базы данных корпуса;

Национальные корпуса также важны для обучения языку как родному или иностранному и.т.д.

В мире учебники и учебные программы теперь ориентированы на корпус. Иностранцы, школьники, учителя, журналисты, редакторы или писатели могут быстро и эффективно проверить особенности употребления незнакомого слова или грамматической формы, используя корпус.

Данный сайт подготовлен в рамках государственного заказа на основе проекта «Разработка публицистического подкорпуса национального корпуса казахского языка». Проект планируется реализовать в период с 2021 по 2025 годы. В 2021 году в базу корпуса было направлено введение 2 млн. слов, которое было выполнено.

Корпус предназначен для широкого круга лиц, начиная с профессиональных лингвистов и заканчивая учителями, обучающимися, изучающими язык, а также интересующимися казахским языком в целом. Находится в свободном доступе для общественности.

Инструкция