Co je dolování dat? Základy a jeho techniky.

Obsah:

Video: Co je dolování dat? Základy a jeho techniky.

Video: Co je dolování dat? Základy a jeho techniky.
Video: Enable Hyper-V on Windows 10 Home 2024, Březen
Co je dolování dat? Základy a jeho techniky.
Co je dolování dat? Základy a jeho techniky.
Anonim

Založení čtvrté průmyslové revoluce bude do značné míry záviset Data a Připojení. Analýza služeb schopný rozvíjet nebo vytvářet řešení pro dolování dat, bude v tomto ohledu hrát klíčovou roli. Mohlo by pomoci při analýze a předvídání výsledků nákupního chování zákazníků pro cílení potenciálních kupujících. Data se stanou novým přírodním zdrojem a proces extrakce relevantních informací z těchto netříděných dat bude mít nesmírný význam. Jako takové, správné pochopení termínu - Dolování dat, její procesy a aplikace by nám mohly pomoci při vývoji holistického přístupu k tomuto buzzwordu.

Základy dolování dat a jejich techniky

Image
Image

Data mining, také známý jako Zjišťování znalostí v datech (KDD) je o vyhledávání velkých úložišť dat pro odhalení vzorků a trendů, které přesahují jednoduchou analýzu. Toto však není jediným krokem, ale vícestupňovým procesem a dokončeným v různých fázích. Tyto zahrnují:

1] Shromažďování a příprava dat

Začíná to sběrem dat a jejich správnou organizací. To pomáhá výrazně zlepšit šance na nalezení informací, které lze zjistit pomocí dolování dat

2] Modelování a hodnocení

Druhým krokem v procesu dolování dat je aplikace různých modelovacích technik. Ty se používají k kalibraci parametrů na optimální hodnoty. Použité techniky jsou z velké části závislé na analytických schopnostech potřebných pro řešení rozsahu organizačních potřeb a na dosažení rozhodnutí.

Podívejme se stručně na některé techniky dolování dat. Bylo zjištěno, že většina organizací kombinuje dvě nebo více technik dolování dat dohromady, aby vytvořila vhodný proces, který splňuje jejich obchodní požadavky.

Číst: Co je to velká data?

Techniky dolování dat

  1. Asociace - Asociace je jednou z nejznámějších technik dolování dat. V tomto případě je vzorek dešifrován na základě vztahu mezi položkami ve stejné transakci. Proto je také známá jako relační technika. Velcí prodejci značek se spoléhají na tuto techniku k tomu, aby vyhledávali nákupní návyky / preference zákazníků. Například při sledování nákupních návyků lidí mohou prodejci zjistit, že zákazník vždy kupuje krém při nákupu čokolád, a proto naznačují, že příště, když si kupují čokoládu, mohou také chtít koupit krém.
  2. Klasifikace - Tato technika dolování dat se liší od výše uvedeného tak, že je založena na strojovém učení a používá matematické techniky, jako je lineární programování, rozhodovací stromy, neuronová síť. Při klasifikaci se firmy snaží vytvořit software, který se může naučit klasifikovat datové položky do skupin. Například společnost může definovat klasifikaci v aplikaci, že "vzhledem ke všem záznamům zaměstnanců, kteří se nabídli odstoupit od společnosti, předvídat počet osob, u nichž je pravděpodobné, že budou v budoucnu rezignovat od společnosti." Podle tohoto scénáře společnost může klasifikovat záznamy zaměstnanců do dvou skupin, a to "odchod" a "pobyt". Potom může svůj software pro dolování dat použít k zařazení zaměstnanců do samostatných skupin vytvořených dříve.
  3. Klastrování - Různé objekty, které vykazují podobné vlastnosti, jsou seskupeny dohromady v jediném klastru prostřednictvím automatizace. Mnoho takových klastrů je vytvořeno jako třídy a předměty (s podobnými charakteristikami) jsou umístěny v něm odpovídajícím způsobem. Abychom to lépe pochopili, zvážme příklad správy knih v knihovně. V knihovně je rozsáhlá sbírka knih plně katalogizována. Položky stejného typu jsou uvedeny společně. To nám usnadňuje najít knihu, která nás zajímá. Stejně tak pomocí clusteringové techniky můžeme uchovávat knihy, které mají v jedné skupině nějaké podobnosti a přiřadit jim vhodné jméno. Takže pokud čtenář chtít uchopit knihu relevantní pro jeho zájem, musí jít jen do té police místo toho, aby vyhledal celou knihovnu. Technika shlukování tedy definuje třídy a umisťuje objekty do každé třídy, zatímco v klasifikačních technikách jsou objekty zařazovány do předdefinovaných tříd.
  4. Předpověď - Předpověď je technika dolování dat, která se často používá v kombinaci s jinými technikami dolování dat. Zahrnuje analýzu trendů, klasifikaci, porovnávání vzoru a vztah. Analyzováním minulých událostí nebo případů ve správném pořadí lze bezpečně předvídat budoucí událost. Například technika předpovídající analýzy může být použita při prodeji k předvídání budoucího zisku, pokud je prodej zvolen jako nezávislá proměnná a zisk jako proměnná závislá na prodeji. Na základě údajů o historickém prodeji a zisku lze nakreslit naměřenou regresní křivku, která se používá k predikci zisku.
  5. Rozhodovací stromy - V rámci stromu rozhodování začínáme jednoduchou otázkou, která má několik odpovědí. Každá odpověď vede k další otázce, která pomůže klasifikovat nebo identifikovat data tak, aby mohla být kategorizována, nebo aby mohla být předpovězena na základě každé odpovědi. Například Následující strom rozhodování používáme k určení, zda chceme hrát kriket ODI: Strom pro rozhodování o dolování dat: Počínaje kořenovým uzlem, pokud prognóza počasí předpovídá dešť, pak bychom se měli vyhýbat zápasu dne. Alternativně, pokud je předpověď počasí jasná, měli bychom hrát zápas.

Data Mining je jádrem úsilí o analýzu v celé řadě průmyslových odvětví a oborů, jako je komunikace, pojišťovnictví, vzdělávání, výroba, bankovnictví a maloobchod, a další. Proto je správné informace o tom, že je nutné použít různé techniky.

Doporučuje: