Atameken Business қазақ тілді виртуалды жүргізушіні іске қосады

4358

7 наурыз күні Sana есімді жүргізуші қалың көрермен назарына ұсынылады. 

Atameken Business қазақ тілді виртуалды жүргізушіні іске қосады

Қазақстандық медиа кеңістікте алғаш жасанды интеллектіге негізделген цифрлық технологияларды енгізген Atameken Business телеарнасы десек артық айтпағанымыз болар. Міне, үш жылдан бері тікелей эфирде I-Sanj – Қазақстандағы алғашқы виртуалды жүргізуші "жұмыс істеп келеді". Робот елімізде танымал актер Санжар Мәдидің виртуалды көшірмесі. Ал бүгін,  7 наурызда телеарнада кезекті цифрлық жаңалық – қазақ тіліндегі алғашқы виртуалды жүргізуші – i-Sana тікелей эфирге шығады.

Медиахолдингтің басшысы Қанат Сахария атап өткендей, телеарна жаңа технологиялар мен заман талаптарына сай болуға ұмтылады.

"Бізге адам қиялынан асып түсер жаңаша дүниенің бәрі қызық. Медиакеңістік күн санап өзгеріп жатыр, біз де уақыт талабынан қалыс қалмауыз керек. Қазақ тілінің дамуы – осы жобада да басымдыққа ие мәселе. Ана тілімізді халықаралық жоғары технологиялық процесстер мен жүйелерге бейімдеу аса маңызды. Бұл бағытта қазақ тілін дамытуға біздің стейкхолдерлер көп көңіл бөледі. Atameken Business арнасы мен Inbusiness.kz сайты іске қосылған күннен екі тілде бірдей ақпарат таратып келе жатқанын ерекше атап өткім келеді. Қазақ редакциясы – орыс тілді бағдарламалар мен мақалалардың аударылған түрі емес, кәсіби журналистер мен сарапшылар басын қосқан толыққанды жеке редакция. Ана тілімізде сайрайтын біздің жаңа виртуалды жүргізушіміз қазақтілді көрермендеріміздің көңілінен шығады деген үміттеміз ", – деді Қанат Сахария.

Жаңа виртуалды жүргізушінің прототипі ретінде журналист, тележүргізуші, "Қазақ аруы" Гран-при жүлдегері Сания Темірхан таңдалды.

Мәселенің техникалық жағы туралы айтатын болсақ, роботты әзірлеу Python бағдарламалау тілінде жүргізілді. Виртуалды жүргізушіні құруда еңбек еткендер  –Александр Серов пен Вячеслав Бублик. Олар жұмыс барысының қыр-сырымен бөлісті.

Машиналық оқыту модельдерімен жұмыс істеу үшін әзірлеушілер кең таралған PyTorch фрэймворкын қолданды. Бейнені жылдам түрлендіру үшін әзірлеушілер wav2lip машиналық оқыту моделін негізге алған. Ол қалай жұмыс істейді? Wav2lip бірнеше модельдерден тұрады: сараптамалық модель, аудио кескін генераторы, визуалды кескін сапасының дискриминаторы. Сапаны жақсарту жолында конфигурацияланған AutoVC бағдарламалық жасақтамасы дауысты түрлендіру үшін қолданылды. Сөйлеу синтезі үшін Tacotron 2 қолданылды, дауыстан сөйлеу генерациясының нейрондық желісі.

Бағдарламаны әзірлеушілердің артикуляцияға, мимикаға дейін барлығын қайталау арқылы таңдалған адамға ең жақын нұсқаны жасап, қазақ сөзін синтездеуі жобаның бірегейлігін көрсетеді.

Қазақ тілді виртуалды жүргізуші тұлғасының жұмысына жеке тоқталып өтсек, алдымен әзірлеушілер сараптамалық модельді аудио (сөйлеу) және бейне (бет) фрагментінің бір-біріне сәйкес келетіндігін анықтауға үйретуі керек. Бұл қадамда енгізілетін ақпаратты мұқият дайындау өте маңызды: кадрдағы беттің орналасуын анықтау, аудиодан бөгде шуды жою, синхрондауды қамтамасыз ету. Келесі кезекте  –машиналық оқыту.

Одан кейін әзірлеушілер генераторды аудио негізінде аудио сәйкестігінің сараптамалық моделін, сондай-ақ кескін сапасы бойынша дискриминаторды қанағаттандыратын кескін жасауға үйретеді.

Әрі қарай тағы бір маңызды қадам – дауыспен жұмыс істеу. Ондағы негізгі мәселе  –сөйлеу барысынан сөздерді бөлек шығарып, оның жеке сипаттамаларын алып тастау.

Содан кейін алынған ақпаратқа сүйене отырып, басқа жеке сипаттамаларымен сөйлеуді қалпына келтіру керек. Жаңа синтезделген дауыс күрделілігі бойынша кез-келген ақпаратты жасанды интеллект арқылы мүмкіндігінше анық әрі мәнерлі түрде айта алады.

Естеріңізге сала кетейік, виртуалды жүргізушіні ертең, 7 наурызда тікелей эфирде тамашалауға болады. 

Telegram
БІЗДІҢ ТЕЛЕГРАМ АРНАМЫЗҒА ҚОСЫЛЫҢЫЗ Ең соңғы жаңалықтар осында
Жазылу
Telegram арнамызға жазылыңыз! Жаңалықтар туралы бірінші біліңіз
Жазылу