KDD gegen Data Mining
KDD (Knowledge Discovery in Datenbanken) ist ein Bereich der Informatik, das die Tools und Theorien umfasst, die Menschen beim Extrahieren nützlicher und bisher unbekannter Informationen helfen (i.e. Wissen) aus großen Sammlungen digitalisierter Daten. KDD besteht aus mehreren Schritten, und Data Mining ist einer von ihnen. Data Mining ist die Anwendung eines bestimmten Algorithmus, um Muster aus Daten zu extrahieren. Trotzdem werden KDD und Data Mining austauschbar verwendet.
Was ist KDD?
Wie oben erwähnt, ist KDD ein Bereich der Informatik, das sich mit der Extraktion bisher unbekannter und interessanter Informationen aus Rohdaten befasst. KDD ist der gesamte Prozess des Versuchs, Daten zu verstehen, indem er geeignete Methoden oder Techniken entwickelt. Dieser Prozess befasst sich mit der Zuordnung von Daten auf niedriger Ebene in andere Formen. Diese sind kompakter, abstrakter und nützlicher. Dies wird erreicht, indem kurze Berichte erstellt, der Prozess des Datenerzeugs und die Entwicklung von Vorhersagemodellen erstellt werden, die zukünftige Fälle vorhersagen können. Aufgrund des exponentiellen Datenwachstums, insbesondere in Bereichen wie Business, ist KDD zu einem sehr wichtigen Prozess geworden. Zum Beispiel wurde es derzeit für verschiedene Anwendungen wie Analyse des sozialen Netzwerks, Betrugserkennung, Wissenschaft, Investition, Fertigung, Telekommunikation, Datenreinigung, Sport, Informationsabruf und hauptsächlich für Marketing verwendet. KDD wird normalerweise verwendet, um Fragen wie die Hauptprodukte zu beantworten, die dazu beitragen könnten, im nächsten Jahr einen hohen Gewinn in Wal-Mart zu erzielen?. Dieser Prozess hat mehrere Schritte. Es beginnt mit der Entwicklung eines Verständnisses der Anwendungsdomäne und des Ziels und dann ein Zieldatensatz. Darauf folgt die Reinigung, Vorverarbeitung, Reduzierung und Projektion von Daten. Der nächste Schritt besteht darin. Schließlich ist entdecktes Wissen Konsolidate durch Visualisierung und/oder Interpretation.
Was ist Data Mining?
Wie oben erwähnt, ist Data Mining nur ein Schritt innerhalb des gesamten KDD -Prozesss. Es gibt zwei wichtige Data Mining -Ziele, die durch das Ziel der Anwendung definiert sind, und sie sind nämlich Überprüfung oder Entdeckung. Überprüfung besteht darin, die Hypothese des Benutzers über Daten zu überprüfen, während die Entdeckung automatisch interessante Muster findet. Es gibt vier große Data Mining -Aufgabe: Clustering, Klassifizierung, Regression und Assoziation (Zusammenfassung). Das Clustering identifiziert ähnliche Gruppen aus unstrukturierten Daten. Klassifizierung sind Lernregeln, die auf neue Daten angewendet werden können. Die Regression findet Funktionen mit minimalem Fehler, um Daten zu modellieren. Und Assoziation sucht nach Beziehungen zwischen Variablen. Anschließend muss der spezifische Data Mining -Algorithmus ausgewählt werden. Abhängig vom Ziel können verschiedene Algorithmen wie lineare Regression, logistische Regression, Entscheidungsbäume und naive Bayes ausgewählt werden. Dann werden Muster von Interesse an einer oder mehreren Repräsentationsformen durchsucht. Schließlich werden Modelle entweder mithilfe der prädiktiven Genauigkeit oder der Verständlichkeit bewertet.
Was ist der Unterschied zwischen KDD und Data Mining?
Obwohl die beiden Begriffe KDD und Data Mining stark austauschbar verwendet werden, beziehen sie sich auf zwei verwandte, aber leicht unterschiedliche Konzepte. KDD ist der Gesamtprozess des Extrahierens von Wissen aus Daten, während Data Mining ein Schritt im KDD -Prozess ist, der sich mit der Identifizierung von Mustern in Daten befasst. Mit anderen Worten, Data Mining ist nur die Anwendung eines bestimmten Algorithmus, der auf dem Gesamtziel des KDD -Prozesses basiert.