Самое интересное в обзорах

Именно поэтому ведущим лабораториям ИИ нужны высокоточные системы тестирования. «Это не та область, где производительность 99 % или одна ошибка на 100 000… допустимы, — считает Хайдеке. — Нам в основном нужно, что-то вроде почти идеального».

OpenAI — не единственная компания, обеспокоенная неправомерным использованием своих моделей, когда дело касается разработки оружия. По мере того, как модели становятся более совершенными, их потенциал для преступного использования растёт. Недавно компания Anthropic выпустила продвинутую модель Claude Opus 4 с более строгими протоколами безопасности, чем у любой из предыдущих моделей.

 Источник изображений: unsplash.com

В соответствии с политикой ответственного масштабирования, созданной по образцу уровней биологической угрозы (BSL) правительства США, ей присвоен третий «уровень безопасности ИИ» (AI Safety Level) ASL-3. Все предыдущие модели Anthropic отнесены к уровню ASL-2. Третьему уровню безопасности соответствуют продвинутые модели, которые достаточно мощны, чтобы представлять значительные риски, такие как помощь в разработке оружия или автоматизация разработки систем ИИ.

Недавно Claude Opus 4 попала в заголовки СМИ после попытки шантажировать инженера, чтобы избежать отключения в ходе строго контролируемого теста. Ранние версии этой модели были готовы выполнять опасные инструкции, например, планирование террористических атак. Компания заверила общественность, что эта проблема была решена внесением изменений в набор обучающих данных.

Источник:

Теги: openai, anthropic, биологическая угроза, химическое оружие, разработка ии, искусственный интеллект, тестирование, безопасность
openai, anthropic, биологическая угроза, химическое оружие, разработка ии, искусственный интеллект, тестирование, безопасность

Soft
Hard
Тренды 🔥
Microsoft запустила ИИ-рестайлинг фотографий — и это не Copilot 4 ч.
YouTube завалил некоторых пользователей проверками CAPTCHA перед просмотром видео 5 ч.
Q-Day ближе, чем все думали: Google резко приблизила сроки взлома почти всей современной криптографии 5 ч.
В России арестовали администратора одной из крупнейших хакерских площадок LeakBase 6 ч.
Разработчик «Мира танков» решил проблему с долгом государству на 11 миллиардов рублей — исполнительное производство прекращено 6 ч.
Nvidia выпустила драйвер-заплатку для исправления подтормаживаний в Arknights: Endfield 6 ч.
Древний ужас пробуждается в геймплейном трейлере Cthulhu: The Cosmic Abyss — детективного хоррора по мотивам творчества Лавкрафта 7 ч.
Google выпустила ИИ-модель Lyria 3 Pro для генерации трёхминутных музыкальных треков — но не бесплатно 8 ч.
Надёжный инсайдер раскрыл главную игру апрельской линейки PS Plus за неделю до официального анонса 8 ч.
«Яндекс» и UserGate представили совместное решение для киберзащиты по принципу сетевого доверия 9 ч.
Новая статья: Система жидкостного охлаждения ID-Cooling FX360 LCD: кому котиков? Недорого 5 ч.
MaxSun представила свои варианты Arc Pro B70 — с активным и пассивным охлаждением 8 ч.
Google поведёт квантовые компьютеры по гибридному пути: к сверхпроводящим кубитам добавят нейтральные атомы 8 ч.
ASRock представила юбилейную матплату Z890 Taichi 10th Anniversary с обновлённым дизайном 8 ч.
Dell представила обновлённые ноутбуки серии Pro — они стали тоньше и получили свежие чипы Intel и AMD 10 ч.
Intel выпустила Xeon 600 с 12–86 ядрами для рабочих станций и Core Ultra 300 vPro для бизнес-ноутбуков 10 ч.
Samsung представила смартфоны Galaxy A37 и A57 с чипами Exynos и улучшенной защитой от влаги по цене $450–550 10 ч.
Intel выпустила «Больших боевых магов» — видеокарты Arc Pro B70 и B65 с 32 Гбайт GDDR6 для профессионалов 11 ч.
MSI представила блоки питания со встроенным зуммером — он громко предупредит об угрозе расплавления видеокарты 11 ч.
Австралия решила надавить на ИИ ЦОД, частично отказавшись от рыночного подхода 11 ч.