Обучение искусственного интеллекта. Обучение без учителя

Содержание

Как работает обучение без учителя.
Виды обучения искусственного интеллекта.
Кластеризация.
Эксклюзивная кластеризация.
Иерархическая кластеризация.
Перекрывающаяся кластеризация.
Вероятностная кластеризация.
Ассоциации в обучении искусственного интеллекта.
Алгоритмы обучения без учителя.
Априорный алгоритм.
Алгоритм ECLAT.
Алгоритм роста частого шаблона (FP).
K-средства кластеризации.
Анализ главных компонентов (PCA).
Обучение искусственного интеллекта. Контролируемое и неконтролируемое обучение.
Примеры машинного обучения без учителя.

Как работает обучение без учителя.

Обучение искусственного интеллекта без учителя основано на анализе немаркированных данных и поиске в них скрытых структур. В отличие от контролируемого обучения, где специалист предоставляет помеченные данные, например, изображения кошек, которые помечены как кошки, и система учится на их основе, при обучении без учителя человек даёт только фотографии, и система сама должна определить, являются ли они изображениями кошек. Для машинного обучения без учителя необходимо иметь огромное количество данных. Это также верно и для обучения с учителем, так как с увеличением числа примеров модель становится более точной.

В начале процесса обучения без учителя исследователи, обучают алгоритмы при помощи наборов специальных данных, которые не имеют меток или классификации для каждой точки информации. Главная цель обучения алгоритма заключается в выявлении закономерностей в этих данных и классификации точек на основе этих выявленных закономерностей.

Пример, связанный с изображениями кошек, позволяет алгоритму научиться определять особые приметы кошек, такие как усы, длинные хвосты и острые когти.

Процесс обучения заключается в том, что машина учится распознавать и классифицировать предметы, также как это присуще людям. Допустим, вы никогда не пробовали кетчуп или соус чили. Если вам предложат две бутылки без маркировки с кетчупом и соусом и попросят вас их попробовать, вы сможете различить их вкусы. И при этом вы сможете определить особенности каждого соуса (один будет кислым, а другой острым), на этом этапе не обязательно знать их название. Пробуя каждый из них несколько раз, вы лучше узнаете принадлежащий каждому продукту вкус. Вскоре вы сможете сгруппировать блюда по добавленному соусу, просто пробовав их.

Таким образом можно обнаружить уникальные характеристики, которые отличают два различных соуса и группу блюд, анализируя их вкус. Для классификации необходимости знать названия соусов или блюд нет. Можно даже назвать один из них сладким соусом, а другой - острым. Этот процесс напоминает то, как машины обучаются распознавать закономерности и классифицировать данные без помощи учителя.

В том же примере контролируемое обучение будет заключаться в том, что кто-то заранее сообщит вам названия соусов и их вкус.

Виды обучения искусственного интеллекта.

Виды обучения без учителя можно разделить на две группы: кластеризации и ассоциации.

Кластеризация.

Кластеризация или кластерный анализ — это процесс группировки объектов в кластеры. Элементы с наибольшим сходством группируются вместе, а остальные попадают в другие группы. Примером кластеризации может быть группировка пользователей YouTube на основе их истории просмотров.

В зависимости от того, как работают эти процессы, кластеризацию можно разделить на четыре группы:

Эксклюзивная кластеризация.

Как следует из названия, эксклюзивная кластеризация означает, что точка данных или объект могут существовать только в одном кластере.

Иерархическая кластеризация.

Попытка создать иерархию кластеров. Существует два типа иерархической кластеризации: агломеративная и дивизионная (разделённая).

Агломерация следует восходящему подходу: изначально каждая точка данных рассматривается как отдельный кластер, а пары кластеров объединяются по мере продвижения вверх по иерархии.

Разделение является полной противоположностью агломерации. Каждая точка данных начинается в одном кластере и разделяется по мере продвижения вниз по иерархии.

Перекрывающаяся кластеризация.

Перекрытие позволяет группировать точки данных в два или более кластеров.

Вероятностная кластеризация.

Вероятностная кластеризация использует распределения вероятностей для создания кластеров. Например, «зеленые носки», «синие носки», «зеленая футболка» и «синяя футболка» можно сгруппировать либо в две категории «зеленые» и «синие», либо «носки» и «футболка». ".

Кластеризация становится возможной благодаря таким алгоритмам, как кластеризация k-средних и анализ главных компонентов (PCA).

Ассоциации в обучении искусственного интеллекта.

Обучение правилам ассоциации (ARL) — это метод обучения без учителя, используемый для поиска связей между переменными в больших базах данных. В отличие от некоторых алгоритмов машинного обучения, ARL способен обрабатывать нечисловые точки.

В более простом смысле ARL — это поиск того, как определенные переменные связаны друг с другом. Например, люди, покупающие мотоцикл, скорее всего, купят шлем.

Поиск таких отношений может быть экономически выгоден. Например, если клиенты, покупающие продукт X, склонны покупать продукт Y, интернет-магазин может рекомендовать продукт Y всем, кто покупает продукт X.

Обучение правилам ассоциации использует в своей основе операторы if/then (если/то). Эти утверждения могут выявить связи между независимыми данными. Кроме того, закономерности или отношения «если/то» наблюдаются с использованием поддержки и уверенности.

Поддержка определяет, как часто отношение if/then появляется в базе данных. Доверие определяет, сколько раз это соотношение оказывалось действительным.

Анализ рыночной корзины и анализ использования Интернета становятся возможными благодаря такому правилу ассоциации.

Алгоритмы обучения без учителя.

Обучение правилам ассоциации реализуется с помощью специальных алгоритмов.

Инструменты, используемые для реализации правил ассоциации, включают в себя такие алгоритмы как:
Алгоритм Apriori), алгоритм ECLAT и алгоритм роста частого шаблона (FP).

Априорный алгоритм.

Алгоритм Apriori создан для интеллектуального анализа данных. Это полезно для анализа баз данных, содержащих большое количество транзакций, например базы данных, содержащей список товаров, купленных покупателями в супермаркете. Он используется для выявления анализа потребительской корзины, чтобы определить набор товаров, которые покупатели с большей вероятностью купят вместе.

Алгоритм ECLAT.

Кластеризация классов эквивалентности и обход решетки снизу вверх, или сокращенно ECLAT, — это алгоритм интеллектуального просмотра данных, используемый для анализа набора и поиска часто встречающихся элементов.

Алгоритм априори использует горизонтальный формат данных, поэтому ему необходимо несколько раз сканировать базу данных для выявления часто встречающихся элементов. С другой стороны, ECLAT придерживается вертикального подхода и, как правило, работает быстрее, поскольку ему необходимо сканировать базу данных только один раз.

Алгоритм роста частого шаблона (FP).

Алгоритм роста частого шаблона (FP) является улучшеной версией алгоритма Apriori. Этот алгоритм представляет базу данных в виде древовидной структуры, известной как частое дерево или шаблон.

Такое дерево используется для поиска наиболее часто встречающихся шаблонов. В то время как алгоритму Apriori необходимо сканировать базу данных n+1 раз (где n — длина самой длинной модели), алгоритму роста FP требуется всего два сканирования.

K-средства кластеризации.

Многие итерации алгоритма K широко используются в области науки о данных. Проще говоря, этот алгоритм кластеризации группирует похожие элементы в кластеры. Количество кластеров представлено k. Таким образом, если значение k равно 3, всего будет три кластера.

Этот метод кластеризации делит немаркированный набор данных так, что каждая точка данных принадлежит только одной группе со схожими свойствами. Ключевым моментом является нахождение K-центров, называемых центроидами кластеров.

Каждый кластер будет иметь один центроид, и, увидев новую точку данных, алгоритм определит ближайший кластер, к которому принадлежит точка данных, на основе таких показателей, как евклидово расстояние.

Анализ главных компонентов (PCA).

Анализ главных компонент (PCA) — это метод уменьшения размерности, обычно используемый для уменьшения размерности больших наборов данных. Это делается путем преобразования большего количества переменных в меньшее, при этом они будут содержать почти всю информацию, присутствующую в большом наборе данных.

Уменьшение количества переменных может немного повлиять на точность, но это, в большинстве случаев, приемлемый компромисс ради простоты. Это связано с тем, что меньшие наборы данных легче анализировать, а алгоритмам машинного обучения не нужно сильно «потеть», чтобы получить ценную информацию.

Обучение искусственного интеллекта. Контролируемое и неконтролируемое обучение.

Обучение без присмотра значительно отличается от обучения под присмотром, где учитель контролирует каждый шаг обучаемого. Вместо этого, в обучении без присмотра нет учителя, который бы следил за процессом и давал правильные ответы на каждую задачу.
Следовательно, с точки зрения вычислительной сложности, обучение без присмотра является более сложным и трудоемким процессом по сравнению с обучением под присмотром. Однако оно имеет свои преимущества, особенно для интеллектуального анализа данных и получения представления о структуре данных перед применением какого-либо классификатора.

Применение обучения без учителя может быть полезным в случаях, когда имеется большое количество немаркированных данных, хотя оно может вызвать некоторые неудобства для ученых, работающих с информацией. В контролируемом обучении легче измерять точность моделей благодаря использованию помеченных проверочных наборов. Однако это не относится к моделям обучения без присмотра.

Онлайн-процесс обучения без учителя позволяет алгоритмам UL обрабатывать данные в режиме реального времени, в то время как обучение с учителем происходит оффлайн.

Классификация и регрессия — это две основные области обучения с учителем, в то время как вопросы ассоциации и кластеризации являются прерогативой обучения без учителя.

Помимо того, что существует контролируемое и неконтролируемое обучение, существует также полуконтролируемое обучение и обучение с подкреплением.

Полуконтролируемое обучение является смесью контролируемого и неконтролируемого обучения, где система получает общий обзор, немного обучаясь. Часть обучающих данных будет помечена, в то время как остальные останутся без пометок.

Система искусственного интеллекта, работающая на основе обучения с подкреплением (RL), ИИ сталкивается с игровой средой, где главной задачей является максимизация вознаграждения. Для достижения этой цели система должна осваивать новые навыки, опираясь на метод проб и ошибок, и с каждым шагом повышать свои шансы на получение вознаграждения.

Важно отметить основные отличия между обучением с учителем и без учителя.

Обучение без присмотра	Обучение под присмотром
Сложный процесс, требующий больше вычислительных ресурсов и отнимающий много времени	Это относительно просто и требует меньше вычислительных ресурсов
Набор обучающих данных не помечен	Набор обучающих данных помечен
Менее точно, но не критично	Высокая точность
Сложно оценить точность модели	Легче оценить точность модели
Количество классов неизвестно	Количество классов известно
Обучение происходит в режиме реального времени	Обучение происходит офлайн

Примеры машинного обучения без учителя.

Как упоминалось ранее, обучение без учителя может быть самоцелью и использоваться для поиска скрытых закономерностей в огромных объемах данных – нереальная задача для людей.

Обнаружение аномалий.

Это процесс поиска атипичных точек в наборах данных, который полезен для обнаружения мошеннических действий.

Компьютерное зрение.

Также известно как распознавание изображений, этот способ идентификации объектов на изображениях необходим для беспилотных автомобилей и ценится в отрасли здравоохранения для сегментации изображений.

Рекомендательные системы.

Анализируя исторические данные, алгоритмы обучения без присмотра рекомендуют продукты, которые клиент купит с наибольшей вероятностью.

Личность клиента.

Обучение без присмотра может помочь компаниям построить точную личность клиента путем анализа данных о покупательских привычках.

Предоставление алгоритмов самим себе.

Возможность самостоятельного обучения делает обучение без учителя самым быстрым способом анализа огромных объемов данных. Конечно, выбор между контролируемым или неконтролируемым (или полуконтролируемым) обучением зависит от проблемы, которую вы пытаетесь решить, а также от времени, и объема доступных данных. Тем не менее, обучение без присмотра может сделать все ваши усилия более масштабируемыми.

ИИ, который мы имеем сегодня, не способен перечить приказам своих создателей, не говоря уже о мировом господстве. Но разработки в этой области делают возможными невероятные достижения, такие как беспилотные автомобили, чат-боты и многое другое. Хотя это и называется узким ИИ, но он не так слаб, как кажется.