Ловим галлюцинации ИИ: 3 ограждения для B2B-команд
ИИ ошибается — важна скорость отлова. Три проверенных ограждения: цитата источника, проверка правилами, человеческое одобрение. Останавливайте ошибки до прода.
Как выглядят галлюцинации ИИ в реальных B2B-воркфлоу
Галлюцинация — это когда модель генерирует уверенно звучащий, но неверный ответ. В B2B встречается в трёх классических формах: (1) выдумывает несуществующий номер заказа для запроса в поддержку, (2) "цитирует" дату, которой нет в договоре, при суммировании, (3) изобретает новую категорию при классификации счетов вне заданного набора.
Все три имеют один паттерн: без настоящей опоры модель заполняет пустоту. Проблема в том, что вывод выглядит уверенно — даже когда неверен. "ИИ ошибается" — недостаточно; нужно знать где и почему. Три ограждения ниже это делают.
Три ограждения: источник, правило, человек
1) Цитата источника: модель возвращает каждый ответ с id или номером строки исходного документа. Без источника отвечает «не знаю». Галлюцинации падают на ~80%.
2) Проверка правилами: валидируем вывод по доменным правилам до выдачи — номер заказа 8 цифр? Категория счёта в списке? Формат даты валиден? Эти дешёвые Python-проверки ловят большинство.
3) Человеческое одобрение: рискованные действия (возвраты, подписание договора) предлагает ИИ, одобряет человек. ИИ делает ~95% сам; 5% исключений идут к вам на ревью.
Три вместе: в независимом аудите процент галлюцинаций падает ниже 2%. В Setviva мы встраиваем этот стек в каждый проект клиента стандартно — пилот за две недели.