О науке, высшей школе, жизни учёных на Дальнем Востоке : Большие языковые модели в научной работе

Актуальная тема

Искусственный интеллект (ИИ) стал частью современной реальности. Он всё глубже проникает в повседневную жизнь человека, значительно упрощая, делая её более комфортной и эффективной. ИИ помогает нам в образовании, написании научной работы, уточнении диагноза в здравоохранении, развлечениях и в других сферах человеческой деятельности.

Фотопортрет человека, видео, сделанные «руками» ИИ, ещё можно отличить от созданных «по старинке», но нет сомнения в том, что это различие временно. Скоро политики «заговорят» (неотличимыми от своих голосами) на любых иностранных языках, актеры появятся в фильмах, в которых не принимали участия, и так далее.

Сейчас много говорят о рисках, связанных со стремительным развитием технологий ИИ, поэтому важно определить границы допустимого использования машинного интеллекта в человеческой деятельности. Только так мы сможем получить максимальную пользу от ИИ.

Автор этого материала, Сергей Туранов прошёл курс по ИИ для учёных, в ходе которого нашлось много ответов и появилось немало вопросов. Он при помощи бота добавил абзацы, исходя из контекста и сохраняя стиль автора, и теперь читателям предстоит угадать, какая часть текста была сгенерирована с помощью ИИ.

Сергей Викторович ТУРАНОВ

Большие языковые модели в научной работе –

пренебречь нельзя использовать

Есть такая профессия – запросы для нейросетей составлять. Промпт-инженер называется. Возникла она в ответ на широкое распространение больших языковых моделей (или LLMs), одно из главных воплощений которых сейчас у всех на слуху – так называемый GPT (Generative Pre-trained Transformer). Чат-бот. Ты ему задаёшь вопрос – он тебе генерирует (точнее предсказывает) ответ в соответствии с исполнением твоего запроса и своими внутренними возможностями. И дважды два посчитает, и рассказ напишет в стиле известного писателя, если нужно, и код программный подправит. А что делать в тех случаях, когда ответ непрост, не предполагает однозначности, и от него зависит что-нибудь более или менее существенное? Чем лучше вы разбираетесь в какой-либо области, тем чаще будете ловить коварную нейросеть на вольной интерпретации фактов, а то и вовсе за придумыванием собственных. Последнее – проявление так называемых «галлюцинаций». В контексте работы с ИИ их можно рассматривать как создание фактически неверной информации или выводов, которые модель представляет как истинные.

Фрагмент рисунка (Figure 1) из отозванной статьи в журнале Frontiers in Cell and Developmental Biology сгенерирован инструментами ИИ

Вот тут-то и обнаруживается необходимость знания параметров модели бота и основных принципов грамотного составления запроса (промптинга). Потому как ограничений после проживания эйфории от встречи с таким инструментом может оказаться больше, чем возможностей. И все эти возможности призван раскрыть «укротитель» нейросетей, упомянутый выше промпт-инженер.

На этом этапе можно либо завершить взаимодействие с LLMs, как делают многие по аналогии с ситуацией из анекдота про суровых лесорубов и новую японскую бензопилу, либо присмотреться к преимуществам, которые может предоставить данный инструмент в руках пользователя, осознающего все его достоинства и недостатки.

Так почему бы не использовать такой инструмент в повседневных задачах научной деятельности? Я выделил наиболее очевидные области применения LLMs в научной работе, а также попробовал рассмотреть доступные доводы за и против.

Автоматизация рутинных задач

Из года в год нам приходится иметь дело с написанием множества отчётов, заявок, представлений, отзывов и т.д. Разумеется, у каждого учёного за время работы формируется не один обновляющийся шаблон на все случаи жизни. Нейросети могут существенно облегчить задачи такого рода, при этом копируя ваш собственный стиль написания. Например, суммируя информацию о статьях, тезисах и прочие предложенные данные, нейросеть сможет на основе этого составить годовой отчёт, используя для примера оформления отчёты прошлых лет. В то же время прогнозируема зависимость от автоматизации, которая может уменьшить внимание к важным деталям.

Помощь при написании рецензий

Имея в распоряжении инструменты LLMs, можно упростить процедуру отзыва или сгладить сам процесс, независимо от степени добросовестности ваших коллег. Например, авторы сделали два больших филогенетических дерева (одно – по полному митохондриальному геному, другое – по его небольшому фрагменту) для группы организмов, а вот таблицу с исходными данными для этого анализа не сделали. При первом взгляде наборы данных двух деревьев сильно отличались, и сравнивать их было очень сложно. Я попросил GPT извлечь информацию о видовых названиях и номерах доступа (GenBank accession numbers) из картинок этих деревьев. Он не только сделал это, но и суммировал всю информацию в общую таблицу, из которой сразу всё стало ясно. Недостатки всё те же, что и в первом пункте. Инструмент полезен, но не всемогущ. И бывает так, что эффективнее всё сделать классическим способом.

ИИ сопоставит ваши данные с опубликованными

Если вас заинтересовал какой-то метод, описанный в научной статье, LLM поможет вам не только разобраться в интерпретации метода, описав визуализированные в статье результаты и предложив альтернативные методы, но и сгенерирует программный код или алгоритм действий, который позволит выполнить вам то же самое и для своих данных, сравнив их, например, с тем, что получилось в статье. В настоящее время GPT снабжён интерпретатором кода (в первую очередь на языке Python). Необходимо в то же время отметить, что для воспроизведения результатов желательны (но не обязательны) навыки программирования.

ИИ поможет в самообучении

Использование ИИ сокращает время освоения методик, упрощает понимание результатов из дисциплин смежных или далёких от вашей. Это актуально в настоящее время, когда будущий диплом о повышении квалификации может устареть ещё на стадии обучения. Однако при этом для оценки получаемых знаний на предмет продукта «галлюцинирования» всё же придётся воспользоваться помощью коллеги либо сравнивать разные результаты ответа на один и тот же запрос, выполненный множество раз.

ИИ подготовит литературный обзор по интересующей теме

С помощью ИИ обзор формируется не просто по ключевым словам, но и исходя из контекста запроса. Проводится сравнение результатов из разных источников, выделение главных идей из больших массивов текста, а также предоставляются ссылки на сами источники, что делает результат запроса верифицируемым.

Описание результатов

Если LLM может описать и интерпретировать картинку из опубликованной статьи, то и свежевыстраданной картинкой из вашей работы, разумеется, тоже не станет пренебрегать. Особенно это должно помогать при «страхе белого листа». А там уж, перефразируя классика, «минута, и статьи свободно потекут».

Подготовка рукописи к подаче в журнал

LLMs неплохо выполняют форматирование рукописей, перевод и корректуру текста, в том числе могут выдать текст в строгом академическом стиле. Но не попадите в ловушку: этот текст (например, текст перевода) будет расцениваться специальными программами как созданный искусственным интеллектом. В настоящее время некоторые журналы категорически не принимают искусственно созданные тексты, в то время как другие просто настаивают на упоминании инструментов ИИ в самой рукописи.

Генерация идей, гипотез

В своих размышлениях я время от времени отмечаю, что инсайт – дело добровольное. Это саркастическая рефлексия по поводу ограниченности алгоритмического пути решения научных проблем и слабой предсказуемости возникновения прорывных идей. Оперируя большими объёмами информации, LLMs и прочие инструменты ИИ проявляют впечатляющие способности к креативности. Это, в частности, видно из последних открытий новых лекарственных препаратов.

Преимущества LLMs в подготовке докладов и презентаций

Использование больших языковых моделей в подготовке докладов и презентаций облегчает многие процессы. Например, LLMs могут автоматически анализировать и суммировать информацию из различных докладов коллег, что позволяет создать осмысленные, содержательные презентации с акцентом на ключевые моменты. Это способствует более глубокому пониманию материала и улучшает качество общения на научных симпозиумах и конференциях.

Теперь о недостатках инструментов на основе больших языковых моделей

Российскому пользователю официально дважды заблокирован путь к использованию наиболее распространенных сейчас инструментов LLMs. Во-первых, по причине блокировки российских IP-адресов соответствующими сервисами. Во-вторых, в связи с банальной ненулевой стоимостью (в долларах США) продвинутых версий этих сервисов, а именно их возможности я описывал выше. В открытый доступ в недавнем времени вышел российский аналог таких инструментов, YandexGPT. Но возможности его пока скромны. Ожидаем развития в ближайшем будущем.

При работе с LLMs отмечались и утечки данных. Это, правда, вряд ли касается диагноза описанного кем-нибудь очень немодельного организма. Больше ценится программный код.

Основным недостатком неграмотного использования LLMs является риск получения ошибочной или непроверенной информации. Если результаты, сгенерированные моделью, не подвергаются последующей проверке, это может привести к распространению недостоверных данных, что крайне негативно сказывается на качестве исследований и подрывает доверие к научной работе.

Другой существенный недостаток заключается в ограниченности объёма информации, которую модель может обработать за один раз (ограничение на количество токенов). Это означает, что при работе с большими массивами данных может потребоваться разбиение информации на части, что увеличивает время на обработку и уменьшает общую эффективность работы с данными.

«Дайте мне точку опоры, и я переверну Землю», – сказал Архимед. Перефразируя его, можно сказать: «дайте мне грамотный промпт (а, скорее, серию промптов), и я напишу… статью, диссертацию, заявку на грант, научно-популярную книгу и т.д.». Видимо, неслучайно зарплата укротителей генеративных нейросетей, промпт-инженеров, столь высока.

Сергей ТУРАНОВ,

старший научный сотрудник лаборатории глубоководных исследований ННЦМБ ДВО РАН, кандидат биологических наук

Сергей Викторович ТУРАНОВ

Фото автора

О науке, высшей школе, жизни учёных
на Дальнем Востоке

пятница, 3 мая 2024 г.

Большие языковые модели в научной работе – пренебречь нельзя использовать

Комментариев нет:

Отправить комментарий

Science. Editors' Choice

Женщина прекрасна всегда!

пятница, 3 мая 2024 г.