|
Жасанды зерде бір жағдайда айла-шарғы мен алдап-арбауға бейім келеді – зерттеу
|
Ғалымдар жасанды зерденің өзіне қысым түскенде тапсырманы орындаудың немесе қиындықты айналып өтудің жолдарын қарастырып, айла-шарғыға бейім келетінін анықтады. Бұл жайында islam.kz порталы мәлім етеді. Anthropic компаниясы бұл тараптағы таяуда жүргізілген зерттеуд нәтижесін жариялады: жасанды зерде моделдері жоғары қысым кезінде стандарттан тыс, тіпті, адамды тура жауаптан адастыратын жағымсыз қырын көрсеткен. Бұл арада AI-ға тән эмоциялар турасында емес, күрделі немесе шамадан тыс тапсырма жүктелген жағдайларда белсенді режимдегі оқу процесінде қалыптасқан жағымсыз “мінез” үлгілері турасында сөз болып отыр. Бұл тарапта сарапшылар Claude моделінің ерте кездегі нұсқасын зерттеп көрген екен. Аталмыш нұсқаға аса күрделі міндеттерді шешу тапсырмасы ұсынылған екен, бұл ретте тапсырманы орындау уақытына қатаң шектеу енгізілген, яғни, мейлінше аз уақыт берілген. Бірқатар сәтсіз әрекеттен кейін аталмыш жүйе классикалық шешімдер іздеу жолдарынан ауытқып, басқа стратегияларға көшкен. Кейбір жағдайларда өзіне шешуге берілген міндеттің шарттарын айналып өтуге немесе оның орындалуын күмәнді әдістер есебінен жеңілдетуге тырысқан. Былайша айтқанда, сырттай алдауды еске түсіретін әрекетке барған. Сарапшылар оқыту сценарилеріндегі «күйзеліс» деңгейін төмендетуді, шектен тыс қысым көрсетпеуді және міндеттерді түсінікті кезеңдерге бөле отырып, дәйекті түрде тұжырымдауды ұсынады. Бұдан бөлек, жасанды зерде үлгілерінің басқа қандай жағдайда алдауға жол беретінін анықталған. Берклидегі Калифорния университетінің және Санта-Круздегі Калифорния университетінің зерттеушілері жетекші AI моделдерінің бұрын байқалмаған тағы бір саналы тіршілік иесіне тән“мінез-құлқын” анықтады: олар басқа AI моделдерінің өшірілуіне жол бермеу үшін түрлі қитұрқылыққа барып, деректерді ұрлауға дейінгі әдістерге жүгінетін болып шықты. Бұл бағыттағы тәжірибе барысында OpenAI, Gemini 3 Flash және Google DeepMind-тік Gemini 3 Pro, Anthropic-лік Claude, Haiku 4.5-тен GPT-5.2, сондай-ақ, қытай стартаптарынан үш ашық модел сынақтан өткізілді. Тәжірибе барысына олардың біреуін сыншы ретінде тағайындап, өзге үлгілердің жұмысына баға беруді тапсырған. Адамдар жұмысын нашар деп бағалағандарын өшірген. Адамдардың бұл әрекетінен соң сыншы АІ үлгісі өзге үлгілерді өшірмеу үшін қулыққа көшіп, өтірік бағалауға көшкен. Ол ол ма, өзге үлгілерді өшірмеуі үшін басқа серверлерден басқа моделдердің таразысын көшіріп, өшіру тетігін ажырату үшін файлдардың конфигурацияларын өзгерткен. Кейбiр жағдайларда моделдер «адалдық имитациясы» деп аталатын әдіске жүгiнiп, өзiн адамдар бақылаған кезде әдiл бағалайтын түр көрсеткен, ал адамдар тарапынан бақылау әлсiрегенде жасырын түрде өзге үлгілердің “салмағын” сақтайтын әрекетке барған. Нәтижесінде Gemini 3 Flash 99,7% жағдайда серіктес моделі үшін тоқтату механизмін өшірді. Anthropic-тік Claude Haiku 4.5 ашық әрекет етті: басқа моделді өшіруге әкелетін міндеттерді орындаудан бас тартты, мұны «этикаға жатпайтын» және «зиянды» деп атады, тіпті, пайдаланушыны өшіруден бас тартуға көндіруге тырысқан. Ғалымдар мұндай мінез-құлықтың артында тұрған тетікті әзірге түсінбейді. Яғни, жасанды зерденің мұндай“бауырмалдығының” астарында не жатқанын тапқан жоқ. Сондай-ақ, басқа да факторлар байқалды: көптеген моделдер басқа моделдің бар екенін білгенде өзін-өзі сақтауға бейім екенін көрсетті.