Всеки ден големите организации се актуализират с технологиите, които улесняват и подхождат по-добре на всяка компания, изправени пред големи предизвикателства, които им позволяват да откриват и анализират отвъд инструментите, които се използват ежедневно, именно за тях тя е създадена това, което е известно като големи данни или масивни данни на испански, които са мащабни системи за съхранение на данни.
Това явление за съхранение е поставено в рамката на новите информационни и комуникационни технологии. Големите данни са това, което заема всички дейности, свързани със системите, които съхраняват голям набор от данни. Една от основните характеристики е, че тя манипулира голямо количество информация, като я събира, класифицира и след това съхранява. Целта на тази колекция е да създава статистически отчети, които да се използват от организации, или като анализ на бизнес планове, реклама, шпионаж, наред с други.
Маржът за съхранение нараства през годините, тъй като от 2008 г. нивото на съхранение се измерва в петабайта до зетабайта данни. Експертите периодично търсят нови мерки за съхранение, защото има определени области, в които трябва да се съхраняват големи количества данни и съществуващите програми не са много оптимални.
Има хиляди инструменти за създаване и управление на големи данни, но не всички са еднакви, има три вида данни, които са:
- Структурирани данни: са тези, при които данните имат много специфична структура, като дати, числа и др. Пример за тях са електронните таблици.
- Неструктурирани данни: обикновено това са данни, които имат определен формат и не могат да се съхраняват в електронна таблица, още по-малко да манипулират информацията, пример за PDF документи.
- Полуструктурирани данни: този тип данни няма определен формат, тъй като има свои собствени полуструктурирани метаданни, пример за това са HTML кодовете.