Искусственный интеллект против юристов: тестирование нейросетей на процессуальном законодательстве

Юрист Андрей Стуколов провёл тестирование популярных ИИ-моделей на знание процессуального законодательства. В испытании участвовали ChatGPT 4o, Claude 3.5 Sonnet, Scholar GPT и другие. Результаты оказались неожиданными!

Искусственный интеллект выходит на арену юриспруденции

ИИ-модели всё активнее осваивают профессии, требующие высокой точности и глубоких знаний. Если ранее они применялись в основном для рутинных задач, то теперь способны анализировать сложные правовые вопросы.

Чтобы проверить, насколько хорошо нейросети ориентируются в процессуальном законодательстве, российский юрист Андрей Стуколов провел эксперимент: он протестировал ведущие языковые модели на знание различий между обыском, осмотром места происшествия и оперативно-розыскным обследованием помещений. Это сложные юридические процедуры, требующие детального понимания нюансов законодательства.

Как проходил тест?

Для эксперимента использовался единый набор из 10 вопросов, каждый из которых разбит на три критерия оценки (всего 30 критериев). У моделей была только одна попытка дать ответ – без возможности уточнять условия или исправлять ошибки.

В тестировании участвовали:

ChatGPT (версии 4o и 1o)
Claude (версии 3.5 Sonnet и Opus)
Scholar GPT
Yandex GPT 4 Pro
GigaChat
Deepseek
Gemini 2.0 Flash
Perplexity

Результаты тестирования

Без доступа к базам нормативно-правовых актов (НПА):

Claude 3.5 Sonnet – 78,3% правильных ответов
ChatGPT 4o – 76,7%
Scholar GPT – 61,7%
Deepseek R1 – 63,3%
Yandex GPT 4 Pro – 65%
GigaChat – 58,3%

С доступом к актуальным НПА:

Claude 3.5 Sonnet – 91,7%
ChatGPT 4o – 90,7%
Scholar GPT – 83,3%
Deepseek R1 – 83,3%
Yandex GPT 4 Pro – данных нет
GigaChat – 46,7% (результат ухудшился)

Анализ результатов

Лидерство за Claude 3.5 Sonnet и ChatGPT 4o

Обе модели показали высокий уровень понимания процессуального законодательства. Claude 3.5 Sonnet оказался чуть точнее, что связано с его детальной аргументацией ответов и корректными ссылками на нормы права.

Scholar GPT – лучший среди специализированных моделей

Хотя он уступил лидерам, его результат оказался выше, чем у большинства конкурентов. Особенно заметен рост точности при наличии доступа к НПА.

Российские нейросети пока отстают

Yandex GPT 4 Pro занял 5-е место, показав 65% правильных ответов. GigaChat от Сбербанка неожиданно ухудшил свои результаты после подключения базы нормативных актов, что ставит вопросы о корректности его алгоритмов обработки данных.

Доступ к базе НПА значительно улучшает результаты

У большинства моделей точность ответов возросла на 15–20% при подключении актуальных законодательных данных. Исключением стал GigaChat, у которого результаты, наоборот, снизились.

Выводы и перспективы

Современные ИИ могут анализировать процессуальное законодательство с точностью выше 90%, если у них есть доступ к актуальной нормативной базе.

Они не заменят профессиональных юристов, но способны стать мощным инструментом для проверки нормативных актов, подготовки исков и анализа судебных решений.

Для эффективного использования нейросетей в правовой сфере важно корректно формулировать запросы и предоставлять релевантные данные.

В будущем возможна интеграция ИИ с профессиональными юридическими системами («Гарант», «Консультант Плюс»), что позволит значительно ускорить обработку правовой информации.

А что если провести аналогичный тест среди профессиональных юристов?

Автор исследования отмечает, что было бы интересно сравнить ИИ-модели с живыми специалистами. Возможно, в некоторых аспектах машины окажутся даже точнее!

ЦифраСтрой

Искусственный интеллект выходит на арену юриспруденции

Как проходил тест?

Результаты тестирования

Анализ результатов

Выводы и перспективы