February 2016 Download this article as a PDFAbstract

Цель этой статьи заключается в том, чтобы дать определение вторжений обучения, определить его отличительные аспекты и представить рекомендации по улучшению обучения вторжений как практика домена. Авторы определяют обучение вторжений как коллекция сетевых алгоритмов, которые учиться и контролировать потоковой передачи данных сети, в результате методов эффективного обнаружения вторжений для обеспечения безопасности и устойчивости систем предприятия. Сетевые алгоритмы опираться на достижения в кибер обороне и кибер наступательных потенциалов. Вторжение обучение является новым домен, который рисует от машины обучения, обнаружение вторжений и потоковой передачи данных сети. Вторжение обучения позволяет значительно повысить безопасность предприятия и отказоустойчивость посредством расширенной периметра обороны и может смягчить растущие угрозы, с которыми сталкиваются предприятия охраны периметра. Статья будет представлять интерес для исследователей, спонсоров и предпринимателей, заинтересованных в повышении безопасности и отказоустойчивости.

Введение

Вторжение, обучение предлагает потенциал значительного улучшения безопасности и отказоустойчивости систем предприятия и увеличить способность предприятий адаптироваться к противникам и изменения в бизнес-среде. Эта статья помещает новые области вторжений, обучения на пересечении машины обучения, обнаружение вторжений и потоковой передачи данных сети. Машинное обучение относится к алгоритмам, которые сначала обучить со ссылкой, для «узнать» свою специфику, развернуть на ранее невиданные входные данные для процесса фактического обнаружения (Sommer & Пэксон, 2010). Обнаружение вторжений является процесс мониторинга событий, происходящих в компьютерной системе или сети и их анализ на предмет возможных инцидентов, которые являются нарушениями или неминуемой угрозы нарушения политики безопасности компьютера, приемлемой использования политики или практики безопасности (Scarfone & Mell, 2007). При потоковой передачи данных сети, мы подразумеваем потоки различных и разнообразных сетевых событий, протекающей по сети с течением времени. Это определение согласуется с определением потока данных, предоставляемых Savvius (2016).

Мы опираться на результаты обзора литературы, проведенного с целью определения вторжений обучения. Мы начинаем с резюме обзора литературы и затем определить вторжений обучения, определить его отличительные аспекты и дать рекомендации по продвижению новой дисциплины. Мы в конце с нашими выводами.

Обзор литературы

Мы провели систематический обзор повествования для выявления последних достижений, опубликованных в научной литературе в отношении машины обучения, потоковой передачи данных сети и обнаружение вторжений. Статьи на английском языке журналов, опубликованных с 2010 по 2015 год в Северной Америке и Европе были рассмотрены. Мы организовали литературу в пять тем: i) функция извлечения, ii) обучения алгоритмов, iii) Кластеризация, iv) наборов данных и v) Инструменты.

Функция извлечения

Функция извлечения — это процесс определения подмножества компонентов из исходного набора. Цель функции извлечения, чтобы найти сочетание оригинальных элементов или данных атрибутов, которые могут лучше описать внутреннюю структуру данных. Три основные алгоритмы, которые используются для извлечения компонентов являются: местности, сохранение проекции (линейные проекционная карты, вытекающие из решения вариационной задачи оптимально сохранить структуру соседства), линейный анализ дискриминационных (метод для поиска линейной комбинации переменных, оптимально отделяет классы) и анализ компонентов принцип (линейная техника, которая проецирует данные по направлениям максимальной дисперсии) (Фишер , 1936; Он, 2005; Паракаш & Surendran, 2013).

Системы обнаружения вторжений используют функцию извлечения для определения, какие функции или атрибуты могут помочь с обнаружением вредоносного трафика (Laxhammer, 2014). Мы обнаружили две задачи извлечения компонента в контексте потоковой передачи данных сети. Во-первых, динамическое изменение характера потоков приводит к в решении задач, касающихся эволюции особенностей (появление новых возможностей), эволюция концепции (новые классы превращаются в поток) и концепция дрейфа (основные понятия изменения) (Момин & Hambir, 2015). Вторая задача заключается, что потоки данных являются, в принципе, бесконечной длины (Масуд соавт, 2010). Большинство существующих данных потока классификации методов адрес только бесконечной длины и концепции дрейфа проблемы; Эволюция концепции и эволюция функции игнорируются. Перед лицом динамического противника не обращая внимания концепции эволюции и особенность эволюции увеличивает риск предприятия.

Алгоритмы обучения

Три новых алгоритмов машинного обучения играют важную роль в обучении вторжений: активное обучение, состязательность обучения и конформным прогнозирования. Активное обучение subfield искусственного интеллекта и машинного обучения, и это относится к изучению компьютерных систем, которые улучшают с опытом и профессиональной подготовки (уляжется, 2012). Состязательность обучения относится к изучению методов эффективного машинного обучения против враждебного противника (Хуан соавт., 2011). Конформное предсказание относится к хеджирования индивидуальных прогнозов, сделанных машинного обучения алгоритмов с допустимых мер доверия (Laxhammar & Falkman, 2011).

Присутствие противника меняет динамику для изучения алгоритмов. Противник будет пытаться отравить или манипулировать данными таким образом, чтобы алгоритмы лечить вредоносные как доброкачественная. Это состязательная контексте привело к исследованиям на как алгоритмы можно отучиться отравленными и загрязненных данных (Цао & Ян, 2015).

Кластеризация

Организация данных в разумные группировки является одним из основных способов понимания и обучения (Джайн, 2010). Кластеризация используется для обнаружения неизвестных атак и обнаружить необычные действия или шаблоны использования в данных трафика в режиме реального времени. Значение кластеризации происходит от обнаружения групп и структур данных, которые, в некотором роде похожи друг на друга, без предварительного знания структур данных.

Алгоритмы потока данных могут только считывать входящие данные один раз и должны сделать это в контексте того, чтобы реагировать в режиме реального времени с ограниченной памятью. Эти алгоритмы могут обеспечить только приблизительные результаты и должны поддерживать меняющиеся концепции (Нгуен & Luo, 2013).

Поскольку потоки данных в реальном времени неограниченные, это будет только можно обработать часть всего данных один поток «окна» в то время (Нгуен & Luo, 2013). Существуют различные виды алгоритмов, основанных на windows. Например раздвижные окна алгоритм анализирует последние точки данных и подходит для приложений, где только самая последняя информация представляет интерес. Основным недостатком является, что он игнорирует части потоков данных. Противник может манипулировать скользящее окно таким образом, чтобы злоумышленные действия происходят в тех частях потоков, игнорируются алгоритмом.

Наборы данных

Набор данных содержит сетевой трафик, который используется для сравнения производительности сетевых вторжений алгоритмов. Наборы данных могут включать сочетание вредоносного трафика, не вредоносный трафик и определил функции, которые можно использовать для тестирования. Наиболее часто используемые исследователи использования набора данных для обнаружения вторжений датируется 1999 Кубок KDD. Это удивительно, что dataset с 1999 года по-прежнему широко используется, учитывая значительные изменения в атаке инструменты, методы, и типы данных, которые произошли с тех пор.

По-прежнему используется набор данных KDD Кубок 1999 предполагает, что разработка или доступ к современным наборам данных является серьезной проблемой. Права на частную жизнь, конфиденциальность и интеллектуальная собственность являются все проблемы, которые препятствуют доступу к данным реальной сети. Хотя другие наборы данных, реальность такова, что действительно современные потоковых данных недоступны за пределами крупных Интернет-провайдеров. Отсутствие новых наборов данных тормозит научно обоснованных экспериментов новых алгоритмов.

Инструменты

Многие публично доступных экспериментов, которые применяют машинного обучения для обнаружения вторжений используют инструмент называется массовым онлайн анализ (Моа). MOA — структура машинного обучения, которая содержит алгоритмы обработки в реальном времени потока. Это не ориентированный на заказчика для обработки нескольких узлов и масштабируемых распространяемым.

Однако существуют масштабируемые и распространяемым обучения машины обработки двигателей, которые могут обрабатывать информацию в реальном времени потоковой передачи (например, Самоа). Однако они не были обнаружены широко в потокового обнаружения вторжений машинного обучения экспериментов. Мы не определили, почему такая ситуация существует, хотя мы отмечаем, что Самоа является относительно новым проектом Apache. Самоа является одной из немногих открытых инструментов, специально предназначенных для распределенных и true реального времени потоковое (Landset соавт, 2015). Apache Spark с MLib также включает распределенную архитектуру для обработки потоков данных.

Определение вторжений обучения

В этом разделе мы предлагаем определение вторжений обучения на основе четырех элементов: i) конечный результат заражения обучения; II) цель конечного результата; III) механизм, используемый для доставки конечного результата; и iv) взаимозависимость между обучением вторжений и научно -технического прогресса.

Мы предлагаем следующее определение вторжений обучения:

Обучение вторжений является коллекция сетевых алгоритмов, которые учиться и контролировать потоковой передачи данных сети приводит в методы обнаружения эффективных вторжений для обеспечения безопасности и устойчивости систем предприятия. Сетевые алгоритмы опираться на достижения в кибер обороне и кибер наступательных потенциалов.

Мы были характерны элементы, лежащие в основе этого определения следующим образом:

  1. Конечный результат: Методы эффективного обнаружения вторжений на потоковой передачи данных сети.
  1. Целевой показатель конечного результата: Безопасность и отказоустойчивость систем предприятия является ключевой целевой результат.
  1. Механизм, используемый для доставки конечного результата: Алгоритмы сети, учиться и контролировать потоковой передачи данных сети.
  1. Взаимозависимость этого механизма от научно -технического прогресса: Механизмы должны опираться на достижения в кибер обороне и кибер наступательных возможностей (например, новые алгоритмы машинного обучения, новых атак), которые сами по себе были информированы междисциплинарного мышления.

Отличительные аспекты

Мы считаем, что есть пять отличительных аспектов вторжения, обучения домена по отношению к машине обучения, обнаружение вторжений и потоковая передача доменов:

  1. Анализ в реальном времени потоковых данных сети: Вторжение обучения должны отвечать вторжений в режиме реального времени. В отличие от аналитика больших данных вторжений обучения требует приближениями, окон и другие методы для получения эффективного своевременного анализа масштабируемых сетевых данных (Аггарвал, 2007).
  2. Высокая стоимость неудачи: Стоимость сбоя алгоритмов машинного обучения гораздо выше для обнаружения вторжений (например, потеря интеллектуальной собственности и повреждение бренда) по сравнению с другими приложениями машинного обучения, таких как оптическое распознавание символов (Sommer & Пэксон, 2010).
  3. Состязательность контекст: Вторжение обучения должны заниматься существование талантливых и решительных противников. Присутствие противника требует обучения вторжений должны развиваться с текущих достижений в кибер обороне и кибер наступательных возможностей (Цао & Ян, 2015; Корона и др., 2013).
  4. Разнообразие сетевого трафика: Вторжение обучения должны заниматься изменчивость сетевого трафика (например, пропускная способность, балансировка нагрузки и запросов на подключение). Разнообразие трафика усложняет перспективу «нормальный» и поэтому затрудняет способность выявлять аномалии (Sommer & Пэксон, 2010).
  5. Останец детекция: Алгоритмы машинного обучения лучше находить сходства чем аномалии. Как отметил Sommer и Паксон (2010), «Классическая машина обучения приложение является проблема классификации, а не обнаружения значимых выбросов, как того требует система обнаружения аномалий».

Рекомендации

Приводимые ниже рекомендации направлены на исследователей, спонсоров и предпринимателей, заинтересованных в обучении вторжений:

  1. Понимаете модель угроз. Например исследователи должны знать стоимость пропущенных атак (Sommer & Пэксон, 2010).
  2. Учиться, отучиться и переучиваться. Противники будут действовать в заблуждение алгоритмов путем руля анализов признать вредоносные как доброкачественная. Эффективное реагирование на такие нападения нуждаются в развитии. Корона и коллеги (2013) изучить состязательность атак против систем обнаружения вторжений, а также связанных с таксономиями и потенциальные решения для известных проблем. Эта перспектива приводит к концепции систем «отучиться» или забывая о том, что они были неправильно «уроки» (Цао & Янг, 2015).

  3. Выберите область узкого исследования. Цели исследования должны быть конкретными. Например исследователи должны определить точно, какие виды атак обнаруживаются и какие методы должны быть применены. Исследования должны быть в состоянии ответить на такие вопросы о том, какие атаки обнаруживаются и причины того, почему нападения в настоящее время признается (Sommer & Пэксон, 2010).
  4. Разработка новых наборов данных. Для продвижения вторжений, обучения в качестве домена практики, новых наборов данных, отражающих текущий сетевой трафик необходимо разработать. Для оценок, основанных на фактических данных важно экспериментировать с реальным наборами данных при соблюдении общественных норм, таких, как конфиденциальность и коммерческие проблемы.
  5. Разработка инструментов обучения вторжений открытым исходным кодом, которые можно масштабировать. Исследователи необходим доступ к масштабируемой машины, средства обучения. Несмотря на масштабируемые специализированные инструменты, исследователи во всем мире должны иметь доступ к инструментам, которые способны анализировать реальность сегодняшней сетевой трафик. Вторжение обучения не может заранее в отсутствие инструментов масштабируемой машинного обучения.

  6. Улучшить онлайн аналитика. Вторжение обучения требует сочетания анализа онлайн и оффлайн. Чтобы правильно проникновения в режиме реального времени отклика, баланс между онлайн и оффлайн analytics необходимо более сильно склоняюсь к онлайн.
  7. Автоматизация ответов. Это все очень хорошо, чтобы признать наличие аномальных или вредоносных действий. Однако существует необходимость пойти дальше и внедрить обучение вторжений в контроллеры предприятия. С высоко масштабируемой и переменчивой атак оборонительные ответы должны реагировать в натуре.

  8. Предвидеть атаки. Наблюдая за динамики сообщества противника, можно предвидеть атаки и соответствующим образом реагировать. Такие исследования будут двигаться обнаружения и обнаружения за пределами периметра предприятия.

  9. Улучшения функций извлечения. Исследования должны быть направлены на расширить набор извлекаемых функций, которые связаны с вредоносным трафиком. Это исследование может оставаться на уровне сетевого потока, но богаче теории могут обеспечить более существенную отдачу.

Заключение

В этой статье мы ввели концепцию вторжений, обучения как домен, который рисует от машины обучения, обнаружение вторжений и потоковой передачи данных сети. Основным преимуществом вторжений обучения является, что он может значительно повысить безопасность предприятия и отказоустойчивость посредством расширенной периметра обороны.

Мы определили набор уникальных атрибутов и рекомендаций для продвижения обучения вторжений. Для вторжений, обучения для достижения своих целей повышения безопасности и надежности, эти рекомендации не должны рассматриваться изолированно, но строить друг на друга: сквозной мышления (над машиной обучения, обнаружение вторжений и потоковой передачи), который фокусируется на отличительные аспекты обучения вторжений будет способствовать прогрессу.

Наша наиболее важная рекомендация, пожалуй, разработка новых наборов данных, которые отражают современные сети данных и вредоносных программ. Отсутствие таких наборов данных является серьезным препятствием для проверки методов обучения вторжений. Права на частную жизнь, конфиденциальность, т. д., являются проблемы, которые препятствуют развитию таких наборов данных. Мы в конце этой статьи «призыв к действию» для разработки таких наборов данных, должным образом сообщил исследователи, защитников частной жизни, политики персонала и так далее, так что социальные проблемы решаются.

 

Выражение признательности

Авторы благодарят Dan Craigen, научный консультант в создание безопасности коммуникаций и приглашенный научный сотрудник в программе управления инновационной технологии, за его неоценимый вклад в развитие и уточнение этой статьи.

 


Ссылки

Аггарвал, C. (ред.) 2007. Потоки данных: Модели и алгоритмы. Нью-Йорк: Спрингер.

Цао, ю. & Янг, Дж. к 2015 году. К тому, чтобы системы забыть с машиной отучиться. В работе симпозиума 2015 IEEE по безопасности и конфиденциальности: 463 – 480. Нью-Йорк,
IEEE.http://dx.doi.org/10.1109/SP.2015.35

Корона, и., Джачинто, ф г. & Roli, 2013. Состязательность нападения на системы обнаружения вторжений: Таксономией, решения и открытые вопросы. Информатика, 239:
201-225.http://dx.doi.org/10.1016/j.ins.2013.03.022

Фишер, р. а. 1936. Использование нескольких измерений в таксономических проблем. Летопись евгеники, 7(2):
179-188.http://dx.doi.org/10.1111/j.1469-1809.1936.tb02137.x

Он X. 2005. Населенный пункт сохранение прогнозов. Докторская диссертация, Университет Чикаго.

Хуан, л., Иосиф, а. д., Нельсон, б., Рубинштейн, б. И.п. & Tygar, ж. д 2011. Состязательность машинного обучения. В ходе 4-го практикума ACM по безопасности и искусственного интеллекта:
43-58.http://dx.doi.org/10.1145/2046684.2046692

Джайн, а. 2010. Кластеризация данных: 50 лет за K-средства. Модель распознавания письма, 31(8):
651-666.http://dx.doi.org/10.1016/j.patrec.2009.09.011

Landset, S., Khoshgoftaar, т. м., Рихтер, а. н. & Hasanin, т. к 2015 году. Обзор инструментов открытого источника для машинного обучения с больших данных в экосистеме Hadoop. Журнал больших данных, 2(1):
1 – 36.http://dx.doi.org/10.1186/s40537-015-0032-1

Laxhammer, р. 2014. Обнаружение конформное аномалии: Обнаружение ненормальных траекторий в видеонаблюдения. Докторская диссертация, Университет Skövde школы информатики, Швеция.

Laxhammar, р. & Falkman, 2011 г. Обнаружения последовательных конформное аномалий в траектории Hausdorff расстояния. В работе XIV Международной конференции по синтезу информации. Нью-Йорк, IEEE.

Масуд, м., Чэнь Q., го, ж., Хан, л & Хан, Дж., Thuraisingham, б. м. 2010. Классификация и обнаружение новых классов потоков данных в пространстве динамического компонента. В работе Европейской конференции по машинному обучению и обнаружение знаний в базах данных: 337 – 352,
2010.http://dx.doi.org/10.1109/TKDE.2010.61

Момин, н. & Hambir, н. 2015. Обследование на различные классификации и подходы обнаружения новых классов для функции меняющихся потока данных. Междисциплинарный журнал исследований в области инженерных и технологии, 2(1): 342-346.

Нгуен, K. & Luo, з. 2013 г. Надежное расположение Крытый прогнозирование с использованием конформное прогноза. Летопись математики и искусственного интеллекта, 74(1):
133-153.http://dx.doi.org/10.1007/s10472-013-9384-4

Паракаш, д & Surendran, S. 2013. Обнаружение и анализ скрытой деятельности в социальных сетях. Международный журнал компьютерных приложений, 77(16):
34 – 38.http://dx.doi.org/10.5120/13570-1404

Savvius. 2016. Глоссарий сетевых терминов. Savvius. Доступ к 15 февраля,
2016:http://www.wildpackets.com/resources/compendium/glossary_of_networking_t...

Scarfone, K. & Mell, р. 2007. Руководство для обнаружения вторжений и системы предотвращения (ВПЛ). NIST специальная публикация 800-94. Гейтерсберг, MD: Национальный институт стандартов и технологий.

Осядет, б. 2012. Активное обучение. Синтез лекции по искусственного интеллекта и машинного обучения, 6(1):
1 – 114.http://dx.doi.org/10.2200/S00429ED1V01Y201207AIM018

Зоммер, р. & Пэксон. 2010. За пределами закрытого мира: На использование машинного обучения для обнаружения сетевых вторжений. В работе симпозиума 2010 IEEE по безопасности и конфиденциальности:
305-316.http://dx.doi.org/10.1109/SP.2010.25

Добавить новый комментарий

Обычный текст

  • Теги HTML не разрешены.
  • Адреса электронной почты и адреса страниц включите в ссылки автоматически.
  • Строки и параграфы переносятся автоматически.