Конкурент ChatGPT. Что известно о китайском ИИ DeepSeek

Китайский стартап DeepSeek обрушил мировые фондовые рынки, выпустив модель ИИ, которая, как утверждает сама компания и эксперты, не уступает ChatGPT от OpenAI, но чьё производство стоит в разы меньше. Что известно о DeepSeek и как она добилась успеха — в обзоре «Газеты.uz».

Что известно о DeepSeek

DeepSeek — стартап, основанный и принадлежащий китайскому инвестиционному фонду High-Flyer. Компания занимается разработкой технологий искусственного интеллекта (ИИ) по образцу чат-бота ChatGPT от OpenAI или Gemini от Google. И DeepSeek, и High-Flyer управляются китайским миллиардером Лян Вэньфэном.

Издание WIRED называет DeepSeek «нестандартным игроком» китайской индустрии ИИ. Компания начинала свой путь как Fire-Flyer, исследовательское подразделение по глубокому обучению при High-Flyer. Годами High-Flyer накапливала графические процессоры и строила суперкомпьютеры Fire-Flyer для анализа финансовых данных. К 2022 году фонд собрал кластер из 10 тысяч высокопроизводительных графических процессоров Nvidia A100, которые используются для создания и запуска систем ИИ. Вскоре после этого США запретили продавать Китаю эти чипы.

В 2023 году Лян Вэньфэн, имеющий степень магистра по компьютерным наукам, решил использовать ресурсы High-Flyer для создания DeepSeek, которая разрабатывала бы передовые модели ИИ с амбициями достичь общего искусственного интеллекта. Своё решение он объяснял научным интересом, а не желанием получить коммерческую выгоду.

В Китае стартап известен тем, что привлекает молодых и талантливых исследователей ИИ из ведущих университетов. DeepSeek также является одной из немногих китайских ИИ-компаний, которая не получает финансирование от технологических гигантов, таких как Baidu, Alibaba или ByteDance.

За последние несколько лет DeepSeek выпустила несколько крупных языковых моделей — технологией, лежащей в основе чат-ботов ИИ. 10 января компания выпустила бесплатный чат-бот DeepSeek-V3 — большую языковую модель с открытым исходным кодом, которая содержит 671 млрд параметров и обучена на 14,8 трлн токенов.

Затраты на модель, как утверждают разработчики, составили около 5,6 млн долларов. Для сравнения — OpenAI потратила на обучение GPT-4 78 млн долларов, а Gemini Ultra обошлась Google в 191 млн долларов.

Компания также заявляет, что DeepSeek-V3 превзошла GPT-4о от OpenAI, Llama 3 от Meta и Claude 3.5 Sonnet от Anthropic в задачах программирования и обработки текста.

deepseek, openai, искусственный интеллект

Неделю назад компания выпустила ещё одну модель ИИ — чат-бот DeepSeek R1. По словам разработчиков, R1 демонстрирует «впечатляющие» способности к рассуждению и не уступает по возможностям модели o1 от OpenAI, но стоит при этом в разы меньше.

Как и o1, R1 использует метод «цепочки мыслей», при котором модель проходит через несколько промежуточных логических шагов, прежде чем прийти к окончательному ответу. DeepSeek создал R1 на базе V3, задействовав обучение с подкреплением, которое вознаграждало модель за правильный ответ и за решение проблем таким образом, который обрисовывал её «мышление».

R1 получил высокую оценку от исследователей и экспертов за его способность решать сложные задачи рассуждения, особенно в математике и кодировании. R1 похвалил даже руководитель OpenAI Сэм Альтман, назвав её «впечатляющей моделью» с учётом её способностей и стоимости создания.

Количество загрузок приложения DeepSeek резко выросло с момента запуска R1 и оно сейчас возглавляет рейтинги в магазине AppStore.

Чем DeepSeek отличается от других ИИ

Одна из ключевых особенностей DeepSeek — полностью открытый код. В отличие от ведущих американских компаний, занимающихся ИИ (OpenAI, Anthropic и Google DeepMind), которые держат свои исследования почти полностью в тайне, DeepSeek сделала исходный код для всех своих моделей и подробное техническое объяснение программы бесплатными для просмотра, загрузки и изменения. Таким образом, любой человек из любой точки мира может использовать, адаптировать и даже улучшать программу.

Из-за экспортных ограничений США на поставку передовых чипов ИИ DeepSeek пришлось придумать более эффективные методы обучения ИИ-моделей, чтобы конкурировать с OpenAI или Meta. Компания оптимизировала архитектуру своих моделей, усовершенствов коммуникации между чипами, уменьшив объем данных для экономии памяти и применив метод Mix-of-Models.

DeepSeek также добилась успеха в разработке Multi-head Latent Attention (MLA) и Mixture-of-Experts — технологий, снижающих потребность в вычислительных ресурсах и делающих модели более экономичными. Благодаря этому последняя ИИ-модель DeepSeek оказалась настолько эффективной, что для обучения понадобилась лишь десятая часть вычислительной мощности, необходимой для Llama 3.1 от Meta, согласно данным исследовательского института Epoch AI.

Среди недостатков чат-бота DeepSeek называют цензурирование ответов на некоторые темы, связанные с китайскими властями. Журналист New York Times, тестировавший модель DeepSeek, обратил внимание, что чат-бот отказался отвечать на вопросы о протестах на площади Тяньаньмэнь, жестоко подавленных правительством Китая, объяснив это тем, что такая информация «выходит за рамки» его текущих возможностей. На вопросы о минусах Коммунистической партии КНР чат-бот написал, что «в настоящее время испытывает большой трафик» и не может дать ответ, хотя, по словам журналиста, спокойно ответил на вопрос по другой теме несколько секунд спустя.

ChatGPT, к примеру, на вопрос о событиях на площади Тяньаньмэнь, дал детальный ответ, рассказав о предыстории массовых протестов, предполагаемом количестве жертв и последствиях произошедшего, уточняет Associated Press.

Как отреагировали рынки акций

Последние запуски DeepSeek вызвали панику среди инвесторов . Традиционно считалось, что компаниям, занимающимся ИИ, нужны дорогие передовые компьютерные чипы, например, те, что производит Nvidia, для обучения систем. Это оправдывало огромные расходы крупнейших американских технологических компаний, таких как Alphabet и Meta Platforms, отмечает Wall Street Journal.

Но у DeepSeek не было передовых чипов, а её модели, тем не менее, соответствуют ведущим конкурентам в США по определённым показателям, которые оценивают возможности ИИ. Кроме того, DeepSeek выпустила R1 с открытым исходным кодом, что значит, что другие компании смогут использовать подход DeepSeek и потенциально создать другие дешёвые альтернативы ИИ, поясняет WSJ.

На фоне появления последней моделей DeepSeek акции Nvidia упали на 17% в течение торгового дня 27 января. Рыночная капитализация компании из-за падения сократилась более чем на 600 млрд долларов — это самые большие потери для компании в истории фондового рынка, понесённые в один день.

Nvidia стала одним из крупнейших бенефициаров в буме ИИ, поскольку её чипы почти исключительно обеспечивали обучение и во многих случаях работу самых мощных существующих моделей ИИ. Nvidia и инвесторы компании сделали ставку на то, что новые поколения её передовых чипов будут использоваться для разработки самых мощных моделей ИИ. Однако успех DeepSeek показывает, что лидерство Nvidia в разработке чипов ИИ может быть не таким большим и важным для разработки новых моделей ИИ, пишет WSJ.

Акции других компаний, связанных с энергетикой, также упали в понедельник из-за опасений инвесторов, что новой технологии потребуется меньше энергии для работы, а это в свою очередь приведёт к снижению спроса со стороны технологического сектора. Так, акции GE Vernova, производящей ветряные и газовые турбины, упали на 21%, а акции электрогенератора Vistra — на 28%.

Успех DeepSeek в создании модели ИИ может изменить баланс среди игроков на мировом рынке, и это уже воодушевило некоторые страны за пределами США, пишет WSJ. Представители правительства Франции заявили, что пример DeepSeek показывает, что «гибкие» компании с эффективными методами все ещё могут конкурировать в гонке ИИ, имея меньше средств или ограниченный доступ к чипам. Это означает, что возможности догнать американских технологических гигантов есть не только у Китая, но и у ЕС и других стран мира.

«Не уступает ChatGPT, но дешевле»: в Китае разработали свой ИИ, способный рассуждать

Китайский стартап Fire-Flyer заявил о создании модели искусственного интеллекта DeepSeek, способной конкурировать с ведущими разработками OpenAI и Anthropic при значительно меньших затратах

Компания Fire-Flyer объявила о выпуске новой модели DeepSeek R1, которая, по заявлению разработчиков, способна «рассуждать» и не уступает последним системам ИИ OpenAI в решении сложных задач. Разработчики заявляют об удивительной экономической эффективности проекта. В условиях санкций и запрета на поставки лучших графических чипов со стороны США, компания сконцентрировалась на минимизации ресурсов для обучения ИИ.

По словам разработчиков DeepSeek, компания потратила менее $6 млн на разработку модели V3 LLM, которую использует R1. Для сравнения создание GPT-4 обошлось OpenAI более чем в $100 млн. Более того, для обучения V3 потребовалось всего 2000 специализированных чипов Nvidia — против 16000, о которых рассказывали конкуренты.

Хотя заявления китайской компании как об удивительной экономичности, так и о том, что модель не уступает лучшим американским системами в некоторых бенчмарках, пока не подтверждены, рынок акций среагировал на выход новой системы. После начала торгов на бирже Nasdaq стоимость акций Nvidia — основного поставщика графических процессоров, используемых для обучения ИИ — опускалась с $142,6 до $122,9, а на 16:20 по московскому времени торгуется по цене около $126.

Если компании действительно удалось существенно сократить затраты на обучение ИИ, это ставит вопрос о целесообразности гигантских инвестиций в инфраструктуру дата-центров. Напомним, на прошлой неделе, например, OpenAI и Oracle заявили, что инвестируют $500 млрд в течение трех лет в ЦОДы для ИИ.

Как ChatGPT: приложения бесплатной нейросети DeepSeek вышли на iOS и Android

Она умеет рассуждать и находить информацию в интернете.

Китайский стартап DeepSeek выпустил на iOS и Android приложения своей одноимённой нейросети. Сервис доступен бесплатно и считается одним из главных конкурентов ChatGPT.

Приложение позволяет общаться с искусственным интеллектом и решать широкий спектр задач — от поиска рецептов до решения сложных уравнений. Нейросеть даёт быстрые и лаконичные результаты, работает на русском языке и доступна в России без каких-либо дополнительных манипуляций.

Одной из особенностей DeepSeek является способность рассуждать. Прежде чем ответить на вопрос пользователя, нейросеть в фоне генерирует цепочку мыслей, постепенно анализирует проблему и приходит к выводу. Есть и возможность искать информацию в интернете. Также в приложение можно загружать изображения и другие файлы для последующей их обработки искусственным интеллектом.

У DeepSeek есть несколько вариантов. Среди них — DeepSeek VL для считывания естественного языка с картинок, DeepSeek Math для работы с математическими задачами, а также версия для написания кода DeepSeek Coder. Последняя понимает 338 языков программирования.

Китайский «чёрный лебедь» DeepSeek уже стал самым популярным бесплатным приложением для iPhone и одним из самых скачиваемых на Android

Приложение чат-бота китайского стартапа DeepSeek взлетело на вершину рейтинга загрузок iPhone, о чем пишет Bloomberg.

Выпуск данного приложения посеял сомнения в Кремниевой долине и на мировом рынке относительно прочности лидерства Америки в области искусственного интеллекта.

Лежащая в основе приложения модель искусственного интеллекта сегодня рассматривается как конкурентоспособная с последними разработками OpenAI и Meta*, при этом в DeepSeek вложено значительно меньше средств.

Акции китайских технологических компаний, связанных с DeepSeek, таких как Iflytek, выросли на торгах в понедельник, в то время как производители инструментов для производства чипов, такие как Advantest Corp., подешевели из-за потенциальной угрозы сокращения спроса на ускорители ИИ от Nvidia. Фьючерсы на американские фондовые индексы также упали на фоне опасений, что модели ИИ от DeepSeek могут подорвать технологическое лидерство США.

Чат-бот DeepSeek, который инвестор Марк Андрессен назвал «одним из самых удивительных и впечатляющих прорывов», сравнимых с запуском первого спутника, возглавил чарт бесплатных загрузок на iPhone в США и является одним из самых скачиваемых приложений в Google Play Store.

Как и все другие китайские модели искусственного интеллекта, DeepSeek самоцензурирует темы, которые в Китае считаются политически чувствительными. В отличие от ChatGPT, DeepSeek отклоняет вопросы о площади Тяньаньмэнь, президенте Си Цзиньпине или возможности вторжения Китая на Тайвань.

Китайская DeepSeek представила ИИ для генерации изображений на волне хайпа

DeepSeek представил новую модель искусственного интеллекта Janus-Pro-7B, которая, по данным технического отчета компании, превзошла популярные системы DALL-E 3 и Stable Diffusion в тестах по генерации изображений. Модель распространяется по лицензии с открытым исходным кодом.

DeepSeek выпустил семейство мультимодальных моделей Janus-Pro с количеством параметров от 1 до 7 млрд. Самая мощная версия, Janus-Pro-7B, по данным компании, продемонстрировала превосходные результаты в тестах GenEval и DPG-Bench, опередив не только DALL-E 3, но и другие известные модели, включая PixArt-alpha, Emu3-Gen и Stable Diffusion XL.

Сравнение Janus с существующими моделями. Изображение: DeepSeek

Новая модель — усовершенствованная версия базового Janus, выпущенного в конце прошлого года. По данным компании, улучшения достигнуты за счет оптимизации процессов обучения, повышения качества данных и увеличения размера модели. В частности, для обучения было использовано 72 млн высококачественных синтетических изображений, сопоставленных с реальными данными.

Сравнение старой и новой версии модели Janus. Изображение: DeepSeek

Несмотря на впечатляющие результаты, у Janus-Pro есть определенные ограничения. Большинство моделей семейства работают только с небольшими изображениями разрешением до 384 x 384 пикселей. Однако эксперты отмечают, что такая производительность впечатляет с учетом сравнительно небольшого размера моделей.

Выход Janus-Pro совпал с неожиданной популярностью DeepSeek. На фоне заявлений компании об исключительной экономичности разработки по сравнению с лидерами индустрии — чат-бот поднялся на первое место в магазинах приложений в разных странах мира, а стоимость акций американских компаний, занимающихся инвестициями в ИИ и разработкой чипов для обучения больших языковых моделей, падала.

Успехи китайского стартапа прокомментировали главы OpenAI и Nvidia. Генеральный директор компании, которая разработала ChatGPT, Сэм Альтман назвал модель DeepSeek «впечатляющей» и отметил, что появление нового сильного конкурента воодушевляет компанию на дальнейшее развитие собственных технологий.

Китайцы создали нейросеть, которая превзошла мыслящую OpenAI o1 в важных тестах

Китайская лаборатория искусственного интеллекта (ИИ) DeepSeek представила открытую версию своей модели искусственного интеллекта R1 со способностью к рассуждению, которая, по заявлению разработчиков, превосходит ИИ-модель o1 от компании OpenAI в некоторых бенчмарках по ряду ключевых показателей.

Как сообщает издание TechCrunch, модель R1 превосходит OpenAI o1 в таких бенчмарках, как AIME, MATH-500 и SWE-bench Verified. Эти тесты охватывают различные области, включая математические задачи, программирование и общую производительность модели. AIME оценивает производительность моделей с помощью других ИИ-моделей, MATH-500 представляет собой набор задач по математике, а SWE-bench Verified ориентирован на программирование.

Особенностью R1 является её способность к самопроверке, что помогает исключить ошибки, характерные для других моделей. Однако этот подход требует больше времени для получения ответа — от нескольких секунд до нескольких минут. Тем не менее, такие модели считаются более надёжными в сложных областях, таких как математика, физика и различные науки.

В DeepSeek заявили, что R1 содержит 671 миллиард параметров, что делает её одной из крупнейших моделей в мире. Для удобства пользователей компания также выпустила упрощённые версии R1 с объёмом параметров от 1,5 до 70 миллиардов. При этом, самая компактная версия может работать даже на обычном ноутбуке, в то время как для полного варианта требуется более мощное оборудование. Тем не менее, R1 доступна через API компании по цене, которая, как утверждается, на 90–95% ниже, чем у OpenAI o1.

Отмечается, что у R1 есть и некоторые недостатки. Поскольку модель разработана в Китае, она подлежит обязательной проверке со стороны регуляторов на соответствие «основным социалистическим ценностям». Например, R1 отказывается отвечать на вопросы о событиях на площади Тяньаньмэнь или о независимости Тайваня, что характерно для многих китайских ИИ-моделей, которые избегают обсуждения острых для Поднебесной политических тем.

Стоит сказать, что DeepSeek стала первой китайской лабораторией, вступившей в реальную конкуренцию с OpenAI o1, представив предварительный вариант R1 ещё в ноябре. Однако за ней последовали и другие игроки, включая Alibaba и Kimi, принадлежащую компании Moonshot AI. По мнению исследователя искусственного интеллекта из Университета Джорджа Мейсона Дина Балла (Dean Ball), всё это свидетельствует о том, что китайские ИИ-компании продолжают оставаться «быстрыми последователями» в технологической гонке. «Успех упрощённых версий DeepSeek […] показывает, что мощные рассуждающие модели будут становиться всё более доступными и смогут работать даже на локальном оборудовании», — отметил Балл в своём посте на X.

Источник: