Frei übersetzt bedeutet ‚Big Data‚ erst einmal eine Riesenmenge an Daten. Die kann auf verschiedenste Weise gewonnen werden, es hängt auch davon ab, von wem und durch welche Mittel sie wo geschürft wurden. Eine Adressdatenbank ist etwas ganz anderes als Forenchats, Börsennotierungen oder gespeicherte Werte in einem Fahrtenschreiber oder der Blackbox eines Flugzeugs. Und doch sind das nur drei Beispiele für Big Data, die einem Auswerter vorliegen könnten. Es handelt sich bei Big Data also um eine Rohmasse an Informationen, gesammelt und verfügbar, aber noch unverwertet. Was folgt, wird mit dem Begriff ‚Data Mining‚ beschrieben. Damit ist nicht gemeint, die Menge Rohdaten überhaupt erst zu finden, sondern sie auszuwerten. Also aus uninteressanter Masse die wertvollen Informationen, die den Betrachter allein interessieren, herauszufiltern und einer Verwertung zuzuführen.
Die Datenmenge kann unter sehr verschiedenen Gesichtspunkten nach ihrer Brauchbarkeit evaluiert werden. Dazu suchte man nach Bewertungsmöglichkeiten für die Instrumente, die dabei eingesetzt werden, um diese zu verbessern. Ursprünglich waren es nur drei, nämlich eine Untersuchung nach Größe der Datenmasse, der Geschwindigkeit, mit der sie prozessiert werden kann, und wie vielfältig die Typen der Datenformate sein können – etwa Bilder, Videos, Sensorikwerte … Später entwickelte man weitere Aspekte zum Sammeln von Datenmengen, die da sind: Qualitätsgarantie (Einschätzung, wie verlässlich die Daten sind), Glaubwürdigkeit (zu ihrer Echtheit) und die reine Brauchbarkeit der herausgefilterten Daten (sehr spezifisch, für den Zweck des Verwerters). Dafür werden Suchmaschinen konzipiert, die sich sehr genau auf ein Data Mining nach Vorgaben einrichten lassen. Sind sie aber zu fein eingestellt, kann es sein, dass eigentlich brauchbare Daten nicht erkannt werden und unter den Tisch fallen. Beispielsweise, wenn zu einem Suchwort nicht an Synonyme gedacht wird, oder bei Zahlenwerten keine Näherungswerte/Toleranzen inkludiert werden (nur genau 1,0; aber nicht 0,99 oder 1,01).
Der Verwerter steht vor dem Dilemma, gleichzeitig eine möglichst große Menge Big Data in kürzester Zeit verwerten zu wollen, aber gleichzeitig möglichst genau herauszufiltern, was für ihn wirklich von Wert ist. Es geht um Datenmengen, die ein Mensch unmöglich in vertretbarer Zeit händisch filtern könnte. Die Analysen der Datenmasse sollen zu effektiver Entscheidungsfindung beitragen oder ermöglichen, sich auf eine sich dadurch herauskristallisierende Situation einzustellen. Da das Sammeln von Big Data für manche Anwendungen riesigen Speicherplatz für eine Zwischenlagerung nötig macht, bietet sich Cloud Computing an, um physische Festplatten nicht zuzumüllen und die Netzwerkverbindung zu überlasten, sondern die Masse in der Cloud temporär einzulagern, um sie dort auszuwerten, und nach dem Farmen durch eine neue Ladung zu ersetzen. Alle Vorgänge rund um Big Data lassen sich mit fünf aufeinanderfolgenden logischen Schritten gliedern: Erfassung, Speicherung, Verarbeitung, Analyse und die Visualisierung der Ergebnisse (also ihre nachvollziehbare Präsentation an die Entscheidungsträger).