Top.Mail.Ru

Теория Больших данных

Ознакомьтесь с теорией. За ознакомление с теорией начисляются баллы.

Большие данные или Big Data - это структурированные или неструктурированные наборы цифровых данных большого объема. Эти данные часто обновляются и находятся в разных источниках. Например, они собираются с миллионов цифровых устройств, подключенных к сети (с компьютеров, смартфонов, устройств интернета вещей и других), а также из приложений и социальных сетей, из файлов банковских транзакций, поисковых запросов и других.

Большие данные обрабатывают с помощью специальных автоматизированных инструментов, чтобы затем использовать для статистики, анализа, прогнозов и принятия решений.

Термин «большие данные» предложил редактор журнала Nature Клиффорд Линч в спецвыпуске 2008 года, где он говорил о взрывном росте объемов информации в мире.

2015-й считается годом перехода к массовому практическому применению больших данных. В настоящее время большие данные широко используются в науке, промышленности, сельском хозяйстве, государственном управлении и других направлениях деятельности.

Большие данные принято определять по пяти наиболее важным характеристикам:

  • Характеристика 1. Объем (Volume) - для Больших данных предполагается объем от 150 гигабайт в сутки.
  • Характеристика 2. Скорость (Velocity) - Большие данные предполагают высокую скорость генерации.
  • Характеристика 3. Разнообразие (Variety) - Большие данные формируются из различных источников и в виде множества разнообразных форматов (видео, фотографии, звуковые записи, текстовые сообщения, файлы транзакций, комментарии, ссылки, фиксация просмотров страниц).
  • Характеристика 4. Достоверность (Veracity) или Качество - данные высокой достоверности ценны для анализа и вносят значимый вклад в общие результаты.
  • Характеристика 5. Ценность (Value) – польза, которую можно получить путем обработки и анализа больших наборов данных.

Под технологиями Больших данных (Big Data Technologies) понимают весь комплекс специальных автоматизированных инструментов, программных и аппаратных решений, связанных между собой и с другими необходимыми системами и сервисами, которые предназначены для работы с большими данными.

Технологии больших данных включают в себя:

  • Массивную параллельную обработку (Massively Parallel Processing);
  • Инструменты и методы интеллектуального анализа данных (Data mining tools and techniques);
  • Распределенные файловые системы и базы данных (Distributed file systems and databases);
  • Платформы облачных вычислений (Cloud computing platforms);
  • Масштабируемые системы хранения (Scalable storage systems).

Как правило, большие данные хранятся в Центрах обработки данных (ЦОД, дата-центр). ЦОД представляет собой помещение со сложной инфраструктурой, в котором размещено оборудование для хранения и обработки данных, а также функционируют системы, обеспечивающие безопасность данных и бесперебойную работу оборудования (климат-контроль, системы пожаротушения, резервные источники питания, системы контроля и управления доступом, защита от хакерских атак).

Для хранения данных используются и облачные решения.

Завершить прохождение