Сентябрь 2009

«Трудность заключается не столько в разработке новых идей, как и спасаясь от старых».

Джон Мейнард Кейнс

Следующий обзор предоставляет список открытого программного обеспечения (OSS) Инструменты, используемые в бизнес-аналитики (BI) и систем хранения данных. Критерии выбора инструмента основан на частоте и валюты из релизов и ли продукт выпустила стабильное строение, которое может использоваться в производственной среде. Мы представляем только те решения, которые имели обновления в течение последних двух лет. Наше исследование посмотрел на инструменты BI в следующих категориях: i) базы данных; II) экстракт/преобразование/загрузки (ETL); III) основные данные управления; IV) BI отчетности инструменты; и v) интеллектуального анализа данных. В случае пакет программного обеспечения открытым исходным кодом, перекрывающей категории мы делим комплект программного обеспечения на отдельные его части для удобства классификации.

Критерии обзора

В следующих таблицах мы определяем «Полностью открытым исходным кодом» означает программные решения, которые предлагают все их исходный код для общественности под открытым исходным кодом лицензии. «Y» используется в этом столбце, чтобы указать, что программное обеспечение попадает в эту категорию. Решения, которые предоставляют версии программного обеспечения, содержащие дополнительные функции или функции, не предлагая этот исходный код свободно для публики перечислены как «-» в этой колонке. Любые функции, упомянутые в таблицах относятся только к версии полностью открытым исходным кодом программного обеспечения. Организации, не обеспечивают коммерческую поддержку для своего продукта, но которые указывают их клиентов поддержки сторонних решений, получить «Y *» в столбце коммерческой поддержки таблиц, чтобы указать, что коммерческая поддержка доступна. Наш анализ основан на обзоре рынка инструментов OSS по состоянию на Июль 2009.

Системы управления базами данных

Существует широкий спектр систем управления базами данных (СУБД) для решения хранилища данных. Стандартные реляционные базы данных, таких как MySQL и PostgreSQL, доминируют открытым исходным кодом базы данных рынка на некоторое время. В последнее время новые системы баз данных открытым исходным кодом появились, предназначенных для уникальных потребностей хранения данных. Колонка ориентированные базы данных, такие как Infobright, LucidDB и MonetDB увеличение данных производительности путем сохранения данных в столбцах, а не строк. Эта функция имеет важное значение для хранилища данных, где Оптимизация чтения имеет приоритет над write оптимизация и типичные запросы взглянуть на атрибуты столбца для набора записей, вместо того, чтобы компоненты строки.

Там было несколько событий в области распределенных вычислений таких как облачные вычисления. Представленные ниже решения распределенных баз данных построены на вершине открытым исходным кодом Java framework для распределенных систем: Hadoop. Базы данных на основе Hadoop лучше всего подходит для хранилищ данных, число которых в сотни миллионов строк или больше. Эти системы хранилища данных обычно используются для веб-аналитики высокого трафика веб-сайтов. И наконец хотя есть несколько открытых встраиваемых баз данных решений, ни один из них являются масштабируемыми в необходимом большинстве систем хранилища данных и по этой причине, были исключены из этого исследования.

В таблице 1 перечислены типы баз данных, коммерческая поддержка доступности и последней версии системы управления базами данных открытым исходным кодом.

Таблица 1: Системы управления базами данных открытым исходным кодом

Изображение: Market1.png

Извлечение, преобразование и загрузить средства

ETL — наиболее трудоемкий компонент жизненного цикла разработки хранилища данных. Обычно только по этой причине, важно иметь хороший инструмент, который: i) позволяет пользователю взаимодействовать с как много различных исходных систем, насколько это возможно; II) поддерживает приемлемый уровень удобства использования и производительности; и iii) предоставляет метаданные относительно преобразований, проведенных против данных. Есть еще несколько открытым исходным кодом ETL инструментов, доступных сегодня, обеспечивают хорошую производительность, хорошая ошибка обработки и управления метаданными. Эти инструменты приведены в таблице 2.

Таблица 2: Открытым исходным кодом ETL инструменты

Изображение: Market2.png

Управление мастер-данными

Наборы данных в среде BI часто поступают из многих различных исходных систем, начиная от электронных таблиц планирования приложений (ERP) для данных сторонних ресурсов. Данные могут иметь одинаковые данные ключа измерения повторяются в более чем одного источника. Средства управления (MDM) основными данными используются для выявления повторяющихся записей и объединить их в одну единую запись, которая затем хранится в хранилище данных.

Же клиент может рассматриваться как потенциальным руководством отдела маркетинга и существующего клиента отделом биллинга. Возможно этот клиент может получать услуги и маркетинговые материалы для поощрения покупки службы уже используется. Системы хранилища данных консолидации этих двух записей в один с помощью инструментов МДМ, обеспечения согласованности информацию о клиенте и статус через бизнес-системы.

В таблице 3 приведены в настоящее время открытым исходным кодом инструменты MDM.

Таблица 3: Открытым исходным кодом инструменты MDM

Изображение: Market3.png

BI отчетности и аналитики инструменты

BI отчетности и аналитики инструменты являются пользователи обычно используют для доступа к данных хранилища данных, поэтому важно, что инструмент быть интуитивно понятным и удобным для пользователей. Есть несколько решений открытым исходным кодом, которые обеспечивают множество функций, ориентированных на различные группы пользователей, таких как разработчики отчетов, принимающих решения и неспециализированные пользователей. Важно изучить как можно больше инструментов как можно перед выбором, какое программное обеспечение пакет подходит именно для вашей организации. В таблице 4, мы ориентируемся на четырех общих черт, найденных в BI reporting программное обеспечение: стандартные отчеты, нерегламентированных отчетов, OLAP отчетов и панелей мониторинга.

Стандартные средства отчетности могут решать различные бизнес отчетности, такие, как ежемесячные продажи магазина или продукта. Ad-hoc отчетность позволяет нетехническим пользователям разрабатывать отчеты «на лету», без каких-либо знаний языка структурированных запросов (SQL) или базовой структуры базы данных. Отчеты OLAP относится к интерактивной аналитической обработки, техника, специально для повышения производительности запросов BI, предварительно агрегирования данных и общих аналитических задач и мульти-размерно моделирования данных. Преимущество наличия возможностей OLAP является легкость, с которой пользователи могут развернуть вниз и ролл до на различных уровнях иерархии данных как по странам, по провинциям, в по регионам, в хранилище. Панели мониторинга используются определяемые пользователем визуальных резюме ключевых бизнес показателей, позволяя пользователю взаимодействовать с диаграмм и графиков для детализации в конкретных областях.

В таблице 4 приведена сводка открытых отчетов и аналитики инструментов, включая, какие функции доступны для каждого решения.

Таблица 4: Открытым исходным кодом отчетности и аналитики инструменты

Изображение: Market4.png

Средства интеллектуального анализа данных

Методы интеллектуального анализа данных используются в системах BI для определения закономерностей и взаимосвязей между атрибутами данных и возможных результатов. Хранилища данных являются наиболее распространенным источником данных для интеллектуального анализа данных BI, поскольку они, как правило, наиболее полные и обширный источник данных, имеющихся в компании и хорошо подходит для анализа временных рядов. Интеллектуального анализа данных имеет потенциал обнаружения корреляции, которые скрыты в море данных. Например с помощью методов интеллектуального анализа данных, компания с достаточными данными о клиентах может определить, какие контакты, на основе их атрибутов, таких как возраст, местоположение и семейное положение, скорее всего, ответить на прямой почтовой рассылки маркетинговой кампании. В свою очередь это может помочь компании снизить расходы путем только тех клиентов, которые являются скорее всего, ответить на объявление.

В таблице 5 перечислены средства интеллектуального анализа данных в настоящее время открытым исходным кодом.

Таблица 5: Средства интеллектуального анализа данных Open Source

Изображение: Market5.png

Резюме

До недавнего времени рынок BI доминирует крупные сдержащих поставщиков программного обеспечения. Период созревания для open source BI решений прошло, и многие из этих компаний и сообществ в настоящее время непосредственно конкурируют за доли рынка в нескольких категориях BI. BI потребители теперь дают различные решения с открытым кодом предприятия готовы BI на выбор для удовлетворения своих бизнес-требований, что делает их программное обеспечение решений, гораздо более привлекательны. Если настоящее время вездесущность открытым исходным кодом базы данных могут использоваться в качестве индикатора, то будущее выглядит очень ярко для поставщиков решений открытым исходным кодом BI, а также для пользователей BI мира.

Доля этой статьи:

Цитируете эту статью:

Оцените содержание: 
Нет голосов были поданы еще. Скажи свое слово!

Добавить новый комментарий

Обычный текст

  • Теги HTML не разрешены.
  • Адреса электронной почты и адреса страниц включите в ссылки автоматически.
  • Строки и параграфы переносятся автоматически.