Стартап Subquadratic заявляет о прорыве в архитектуре больших языковых моделей
  • Как делать подвесной потолок из гипсокартона?

Стартап Subquadratic заявляет о прорыве в архитектуре больших языковых моделей


1 Star2 Stars3 Stars4 Stars5 Stars (Нет оценок)
Загрузка...

Базирующийся в Майами стартап Subquadratic вышел из режима скрытности, представив технологию, которая, по утверждению разработчиков, позволяет преодолеть фундаментальные математические ограничения современных нейросетей. Компания анонсировала модель SubQ 1M-Preview, использующую архитектуру с линейным ростом вычислительных затрат относительно объема контекста.

Преодоление квадратичного барьера

Традиционные архитектуры на базе трансформеров, используемые в передовых моделях, полагаются на механизм внимания, при котором каждый токен сравнивается с каждым другим. Из-за этого при удвоении входных данных объем вычислений возрастает в четыре раза. Это создает серьезные экономические барьеры для обработки длинных контекстов.

Технология Subquadratic Sparse Attention (SSA) предлагает иной подход: модель обучается определять, какие сравнения токенов действительно значимы, и вычисляет внимание только для них. По данным компании, такой метод позволяет:

  • Ускорить предварительное заполнение (prefill) в 7,2 раза при объеме контекста 128 000 токенов.
  • Достичь 52,2-кратного ускорения при работе с контекстом в 1 миллион токенов.
  • Снизить вычислительные затраты до 1000 раз по сравнению с классическими моделями при обработке 12 миллионов токенов.

Рыночные перспективы и инвестиции

Компания привлекла 29 миллионов долларов посевных инвестиций при оценке бизнеса в 500 миллионов долларов. В число инвесторов вошли соучредитель Tinder Джастин Матин и бывшие партнеры SoftBank. На данный момент Subquadratic запустила закрытое бета-тестирование трех продуктов: API с полным доступом к контекстному окну, командного инструмента для программирования SubQ Code и поискового сервиса SubQ Search.

Реакция экспертного сообщества

Заявления компании вызвали острую дискуссию среди исследователей искусственного интеллекта. Скептики указывают на ряд спорных моментов:

  • Использование весов существующих моделей с открытым кодом в качестве базы для дообучения.
  • Избирательный выбор бенчмарков, сфокусированных только на задачах кодинга и длинного контекста.
  • Разрыв между результатами в лабораторных условиях (показатель 83 в тесте MRCR v2) и показателями сторонней верификации для финального продукта (65,9).
  • Отсутствие рецензируемых научных публикаций, подтверждающих заявленные показатели.

Критики также проводят параллели с историей других стартапов, обещавших радикальное повышение эффективности, но не предоставивших публичных доказательств работоспособности технологий в широком масштабе. Команда Subquadratic, состоящая из 11 исследователей с докторскими степенями, настаивает на необходимости эмпирической проверки и планирует представить полную документацию в ближайшем будущем.

Независимо от того, является ли Subquadratic прорывом или преувеличением, сама постановка вопроса о линейном масштабировании остается одной из важнейших задач в индустрии ИИ. Успешная реализация такой архитектуры может сделать избыточными многие сложные надстройки для RAG-систем (поиска по внешним базам данных) и кардинально изменить экономику внедрения больших языковых моделей в корпоративный сектор.

* — деятельность компании Meta* (владеет Instagram* и Facebook*) запрещена на территории РФ


Подпишитесь на новости блога
Добавить в закладки
Поучаствуйте в опросе:
Какой у вас потолок?
Топ комментаторов:
serge(54)
сергей(33)
Гала(25)
adianon(19)
RomanB
RomanB(13)
Maxut
Maxut(11)