Перейти к содержимому

Ловим галлюцинации ИИ: 3 ограждения для B2B-команд

ИИ ошибается — важна скорость отлова. Три проверенных ограждения: цитата источника, проверка правилами, человеческое одобрение. Останавливайте ошибки до прода.

Как выглядят галлюцинации ИИ в реальных B2B-воркфлоу

Галлюцинация — это когда модель генерирует уверенно звучащий, но неверный ответ. В B2B встречается в трёх классических формах: (1) выдумывает несуществующий номер заказа для запроса в поддержку, (2) "цитирует" дату, которой нет в договоре, при суммировании, (3) изобретает новую категорию при классификации счетов вне заданного набора.

Все три имеют один паттерн: без настоящей опоры модель заполняет пустоту. Проблема в том, что вывод выглядит уверенно — даже когда неверен. "ИИ ошибается" — недостаточно; нужно знать где и почему. Три ограждения ниже это делают.

Три ограждения: источник, правило, человек

1) Цитата источника: модель возвращает каждый ответ с id или номером строки исходного документа. Без источника отвечает «не знаю». Галлюцинации падают на ~80%.

2) Проверка правилами: валидируем вывод по доменным правилам до выдачи — номер заказа 8 цифр? Категория счёта в списке? Формат даты валиден? Эти дешёвые Python-проверки ловят большинство.

3) Человеческое одобрение: рискованные действия (возвраты, подписание договора) предлагает ИИ, одобряет человек. ИИ делает ~95% сам; 5% исключений идут к вам на ревью.

Три вместе: в независимом аудите процент галлюцинаций падает ниже 2%. В Setviva мы встраиваем этот стек в каждый проект клиента стандартно — пилот за две недели.