banner
Дом / Новости / Серия CWDN: Разработчик
Новости

Серия CWDN: Разработчик

May 22, 2023May 22, 2023

Последние тенденции в разработке программного обеспечения от сети разработчиков приложений Computer Weekly.

Это гостевой пост для Computer Weekly Developer Network, написанный Апарной Лакшмиратан, вице-президентом по продуктам Snorkel AI — компании, известной своей технологией, которая помогает предприятиям создавать или адаптировать базовые модели (FM) и модели большого языка (LLM) для выполнения с высокой точностью для объектов, специфичных для предметной области.

Лакшмиратан полностью пишет следующее:

Если все сделано правильно, маркировка данных может улучшить работу разработчиков.

Это утверждение может показаться странным. Процесс разметки данных часто представляет собой необходимую и неприятную работу. Но использование программного и итеративного подхода может помочь наладить межфункциональное понимание между профильными экспертами и группами данных, поскольку они кодируют организационные знания для более быстрого создания более качественных и ценных моделей.

Ученые, работающие с данными, и специалисты по машинному обучению знают, как обращаться с данными и строить модели. Укажите им желаемый результат, и они будут использовать данные для создания приложения, которое эффективно достигнет этого результата.

Однако этот результат не всегда может полностью соответствовать меняющимся потребностям бизнеса. В разрозненных организациях лидер составляет план, и каждая команда выполняет свою часть. Если первоначальная цель не попала в цель, то и окончательное исполнение будет таким же. Это может привести к неприятному опыту для разработчиков моделей, когда неудовлетворительные результаты производства вынуждают немедленно провести капитальный ремонт.

Используя логику маркировки, разработчики могут обнаружить эти несоответствия и соответствующим образом скорректировать их.

Аутсорсинговая маркировка данных разрывает цепочку понимания

Разметка данных, переданная на аутсорсинг, усугубляет проблему разрозненного понимания. При аутсорсинге компании предоставляют подрядчику по маркировке необработанные данные, а также инструкции о том, когда наносить каждую этикетку.

Если оставить в стороне присущие риски безопасности, этот подход разрывает цепочку знаний внутри вашей организации. Ваши профильные эксперты определяют правила. Их применяет подрядчик. Ваша команда по обработке данных получает помеченные данные, практически не понимая, почему применяются эти метки. Это оставляет мало возможностей изучить ранее невидимые контуры проблемы и поддаться им.

Программная маркировка может облегчить проблему разрозненных знаний благодаря практическому сотрудничеству. Специалисты по данным и внутренние эксперты работают вместе, чтобы систематизировать с трудом заработанную интуицию в масштабируемые функции. Иногда это простой поиск по ключевым словам. Иногда это сложные вызовы больших языковых моделей. Тем не менее, этот процесс вызывает обсуждение между командами, которое помогает исследовать основные предположения.

Лакшмиратан: Программная маркировка может облегчить проблему разрозненных знаний благодаря практическому сотрудничеству.

Некоторые правила, определенные экспертами в данной области, будут слишком широкими и приведут к ложным срабатываниям. Определенный набор правил также может оставить нетронутыми большие части данных. Или, возможно, процесс обнаруживает, что определенная схема меток не соответствует реальным потребностям приложения.

Однажды мы работали с крупным американским банком, которому требовалась модель классификации кредитных документов. Банк не мог передать маркировку данных на аутсорсинг из-за конфиденциальности документов. Итак, внутренние эксперты вручную рассортировали контракты по восьми категориям. Это заняло шесть месяцев. Затем руководители бизнес-направления поняли, что задача на самом деле требует 30 категорий. Столкнувшись с перспективой реализации еще одного шестимесячного проекта по маркировке, банк начал искать другое решение и остановился на программной маркировке – к большому облегчению своих внутренних экспертов.

Такой результат был крайним, но не редкостью. Люди, работающие над проектами по маркировке, часто обнаруживают, что схемы нуждаются в корректировке. Возможно, менее важный ярлык встречается настолько редко, что его следует игнорировать. Другие метки, возможно, придется объединить или разделить. Программная маркировка позволяет экспертам в данной области и специалистам по машинному обучению обнаруживать и учитывать эти первоначальные недостатки в процессе эксплуатации, а не ждать отзывов о развертывании.