Қазақ тілі ұлттық корпусының кіші корпустары

Лингвистикалық корпус – тілдік құбылыстарды (әсіресе сөз, фразаларды) іздеуді жеңілдететін белгілі бір тілдегі жазбаша және ауызша мәтіндердің электронды түрде жинақталған ақпараттық-анықтамалық базасы. Ол іздеу нәтижесін табиғи контексте көрсетеді.

Әлемдегі тілдердің біршамасы өздерінің ұлттық корпустарын жасаған, олар  бір-бірінен негізінен мәтіндерді ғылыми өңдеуі, база толықтығы мен субкорпустарының алуандығы бойынша ерекшеленеді.

Ұлттық корпустың маңызы:

Корпус тілдегі мәтіндердің мүмкіндігінше барлық типтерін (көркем, публицистикалық, оқу, ғылыми, іскери, ауызекі сөйлеу, диалектілік, т.б.) ұсына алады, сәйкесінше кезең-кезеңімен бұл мәтіндер корпусқа енгізіледі. Корпустың жақсы болуы оның сөзқолданыс санының (жүздеген млн)  мейілінше артуымен байланысты.

Корпус базасында енгізілген мәтіндердің сипаты туралы аннотация немесе белгіленім түріндегі қосымша ақпарат болады. Ол арқылы бір жерге шоғырландырылған мәлімет алынады. Корпус базасы үнемі үздіксіз жетілдіріліп, толықтырылып отырады.

Корпус не үшін қажет?

Ұлттық корпус алдымен тілдің лексикасы мен грамматикасын, ондағы жүздеген жылдар бойы болған өзгерістерді  ғылыми зерттеу үшін қажет;

Қазіргі технологиялық дамудың арқасында ақпаратты іздеуді оңтайландырады;

Ауқымды материалдарды талдау, өңдеуді, статистикалық мәліметтерді алуды оңайлатады;

Қажетті сөздіктерді корпус базасына негіздеп құрастыру мүмкіндігі болады, т.б.

Ұлттық корпустар тілді ана тілі немесе шеттілі ретінде үйрету үшін де маңызды. Әлем тілдерінде оқулықтар мен оқу бағдарламалары қазір корпусқа бағытталған. Шетелдік, мектеп оқушысы, мұғалім, журналист, редактор және жазушы корпусты қолдана отырып, бейтаныс сөзді немесе грамматикалық форманы қолдану ерекшеліктерін тез және тиімді тексере алады.

Бұл сайт мемлекеттік тапсырма  аясында «Қазақ тілінің ұлттық корпусының публицистикалық кіші корпусын әзірлеу» жобасы негізінде дайындалды.  Жобаны 2021-2025 жылдар аралығында жүзеге асыру жоспарланған.

2021 жылы басталып, корпус сайты әзірленген «Қазақ тілінің ұлттық корпусының публицистикалық кіші корпусы» базасы 2 млн. сөзқолданысты құрады. Аталған жоба Мемлекеттік тапсырыспен орындалды. "Қазақ тілі ұлттық корпусының публицистикалық мәтіндер кіші корпусы" жобасы «Ұлттық рухани жаңғыру» ұлттық жобасының аясындағы «Қазақ тілі ұлттық корпусының бес кіші корпусын» әзірлеу жобасы бойынша әрі қарай жүзеге асырылды. Жобаны іске асыру міндетіне сәйкес 2022 жылға межелі индикаторлық көрсеткіш – 10 000 000 сөзқолданыс (базаға енгізілген сөзқолданыс қорын есепке алғанда), және 3000000 сөзқолданыс қосымша тапсырыс негізінде орындалды, көрсеткішке 3 млн сөзқолданыс қосылып, корпусқа енгізіліп, өңделді.

2022 жылы корпус базасында барлығы 13 000 000 сөзқолданыс болды.

2023 жылғы нысаналы индикатор бойынша 20 000 000 сөзқолданысқа жеткізу межеленген, 3 миллион қосымша орындалғандықтан, 23 миллион сөзқолданыс жинақталды.

2024 жылғы жоспар бойынша 10 млн сөзқолданыс жинақталуы қажет.

Корпус кәсіби лингвистерден бастап мұғалімдерге, білім алушыларға, тіл үйренушілерге, жалпы  қазақ тіліне қызығушылығы бар көпшілікке арналған. Жұртшылыққа еркін қолжетімді.

Қолдану бойынша нұсқаулық

Негізгі ұғымдар

A PHP Error was encountered

Severity: Notice

Message: fwrite(): write of 53 bytes failed with errno=28 No space left on device

Filename: drivers/Session_files_driver.php

Line Number: 267

Backtrace:

A PHP Error was encountered

Severity: Warning

Message: session_write_close(): Failed to write session data using user defined save handler. (session.save_path: /var/lib/php/sessions)

Filename: Unknown

Line Number: 0

Backtrace: