Išplėstinė paieška
 
 
 
Pradžia>Informatika>Duomenų suliejimas
   
   
   
naudingas 0 / nenaudingas 0

Duomenų suliejimas

  
 
 
1234567891011121314
Aprašymas

Abstrakčiai. Pristatymas. Teorinė duomenų sutraukimo konstrukcija. Duomenų grupavimas į regionus. Momentų skaičiavimas. Sutrauktų duomenų elementų ir susietų svorių generavimas. Pavyzdys. Susijęs darbas. Duomenų sutraukimo skaičiavimo sudėtingumas. Išvados.

Ištrauka

Duomenų gavybos savybė, kuri išskiria ją iš "klasikinio" mašininio mokymo (ML – machine learning) ir statistinio modeliavimo (SM) yra mastelis. Pristatome metodiką, kuri nukreipia skalę į naują madą, kuri turi potenciją iš pagrindų pakeisti lauką. Kol metodika daugiausiai taikoma plačiųjų (eilutė – stulpelis) duomenų aibėms, tikimasi, kad ji bus pritaikyta ir kitiems pavaizdavimams.
Mūsų problemos sprendimas nėra svarstyti individualius ML ar SM metodus. Teiksime pirmenybę nagrinėjimui visiems egzistuojantiems metodams peržiūrint duomenų aibes. Metodas pavadintas suliejimu. Šis metodas akivaizdžiai parodys bet kokiais pavyzdžiais ir teoriniais argumentais kaip ir kodėl tai veikia gerai.
Liejimas susideda is trijų modulio pakopų: grupavimo, momento pagavimo ir generavimo. Šios trys pakopos apibrėžia susiliejimo principą, kuriuo originalas (labai didelė duomenų aibė) yra padalyjama į skirtingas grupes; kiekvienos grupės viduje paskaičiuojama žemos eilės momentų serijos; ir pabaigoje, šie momentai praeina nusistovėjusią tvarką, kuri generuoja pseudo duomenis, kurie tiksliai atstato momentus.
GMG suliejimo proceso rezultatas yra sulietos duomenų aibės, turinčios pradinių duomenų struktūrą, ir dar papildomai kiekvieno pseudo duomens svorį, kuris atspindi pradinių duomenų išsibarstymą grupėse. Bet kuris ML ar SM metodas, kuris naudoja svorį, gali būti panaudotas svertinių pseudo duomenų analizei. Pagal konstrukciją, rezultatų analizė bus analogiška pradinių duomenų aibių analizei.
Liejimas turėtų sietis su daugeliu KDD podalykių:
Statistika: liejimas apibendrina pakankamumo principą parametrų bei modelio erdvei;
Duomenų bazės peržiūra: sutrauktų duomenų aibė, atspindinti didelę duomenų aibę, kuriai atliekama analizė, parodanti kaip duomenų kubai vykdo greitas užklausas;
Algoritmai: GMG žingsniai gali būti pristatyti bei įrodyti kaip greiti bei tikslūs;
Mašinų mokymas: išplečiant egzistuojančius ML metodus svertiniams duomenims ir išedant naujus metodus, kurie tinka šiai struktūrai.

1. Pristatymas
Viena pagrindinių kliūčių efektyviai duomenų gavybai yra labai didelių duomenų aibių valdymo ir analizavimo sudėtingumas. Modelio paieškos ir modelio taikymo procesas reikalauja daugkartinės duomenų peržiūros, tačiau kol kas neįmanoma sudėti didžiulių duomenų aibių į fizinę atmintį.
Yra du galimi problemos sprendimo būdai: konstruoti didžiulių duomenų aibių santraukas, pagal kurias būtų atliekama norima analizė; arba analizuoti atsitiktinai pasirinktus didžiulių duomenų aibių elementus. Abu sprendimai turi trūkumų. Sudėtinga sudaryti apibendrinančias santraukas. Jei norimas modelis yra specifinis, pvz., daugialypės regresinės analizės aibė, tuomet statistinė teorija dažnai siūlo pakankamą statistiką, kuri gali būti paskaičiuojama vieną kartą peržiūrint didelį duomenų failą nelaikant šio failo atmintyje. Tačiau atitinkamas santraukas reikia iš anksto sudaryti priklausomai nuo pasirinkto modelio. Tai tradicinė vištos ir kiaušinio problema: santraukai nusakyti reikalingas modelis; teisingai pasirinkti modelį reikia peržiūrėti duomenis.
Kita strategija – didelių duomenų bazių eilučių atsitiktinių pavyzdžių pasirinkimas – lengvai pasiekiama. Pavyzdys gali būti analizuojamas laisvai pasirenkamu statistiniu metodu, nevaržomu galimu netinkamos santraukos statistikos pasirinkimu. Didžiausias šios strategijos trūkumas yra netikslumas, gaunamas dėl atsitiktinai pasirenkamų duomenų įvairovės.
Susipažinsime su metodika, vadinama sutraukimu, kuria bandoma suderinti geriausias duomenų santraukos ir atsitiktinio pasirinkimo savybes. Duomenų sutraukimas efektyviai apibendrina didelę duomenų aibę mažesniu variantu (dažnai keleto dydžių), turinčiu tų pačių kintamųjų kaip ir pradinė duomenų aibė. Sutraukta duomenų aibė žymiai geriau atitinka didelės duomenų aibės įvairovės išsibarstymą nei atsitiktinis elementų parinkimas. Kiekvienas sutrauktosios duomenų bazės elementas turi svorį, ir tų svorių suma lygi pradinės duomenų bazės elementų skaičiui. Teorija, pagrįsta Teiloro eilutės aproksimacijos į tikimybinę funkciją teigia, kad sutrauktų duomenų svorių analizė teikia tikslius artinius rezultatų, kurie būtų gauti taikant beveik bet kurį atitinkamą modelį didesnei duomenų aibei, link.
Duomenų sutraukimas gali būti interpretuojamas kaip duomenų bazės suspaudimo praradimo forma. Dabartinių darbų duombazių literatūroje reikšmingą dalį užima metodų duombazių ir ypač duomenų kubų suspaudimo praradimo tyrimas. Tačiau duomenų sutraukimas turi kitokį tikslą. Duomenų kubo suspaudimo praradimas gali būti priimtinas, jei duomenų kubo sričių pagrindinės užklausos turi nedidelę paklaidą. Duomenų sutraukimas yra priimtinas, jei skirtingas užklausų tipas turi nedidelę paklaidą, t. y., statistinio modelio parinkimą. Taigi čia pasiūlyta metodika yra naudinga duomenų kaupyklų statistinei analizei.
Tarkime, kad didelė duomenų aibė turi paprastą "plokščią" struktūrą, kurią sudaro labai didelis skaičius eilučių arba elementų, kurių kiekvieną sudaro pastovus atributų ar kintamųjų skaičius. Kintamieji yra besąlyginiai (pastovaus masto) arba kiekybiniai (matavimų masto). Duomenų sutraukimo metodika susideda iš tokių žingsnių (taikomų nuosekliai):
Duomenų grupavimas į regionus: Besąlyginiai kintamieji natūraliai sudaro grupes. Kiekybiniams kintamiesiems dirbtinai sukuriamas grupės ar regionai iš pavienių kintamųjų kvantilių arba iš duomenų naudojimo sferų. ...

Rašto darbo duomenys
Tinklalapyje paskelbta2008-04-24
DalykasInformatikos referatas
KategorijaInformatika
TipasReferatai
Apimtis12 puslapių 
Literatūros šaltiniai0
Dydis297.36 KB
AutoriusEglė
Viso autoriaus darbų51 darbas
Metai2005 m
Klasė/kursas3
Mokytojas/DėstytojasV. Kandis
Švietimo institucijaVilniaus Gedimino Technikos Universitetas
Failo pavadinimasMicrosoft Word Duomenu suliejimas [speros.lt].doc
 

Panašūs darbai

Komentarai

Komentuoti

 

 
[El. paštas nebus skelbiamas]

 
 
  • Referatai
  • 12 puslapių 
  • Vilniaus Gedimino Technikos Universitetas / 3 Klasė/kursas
  • V. Kandis
  • 2005 m
Ar šis darbas buvo naudingas?
Taip
Ne
0
0
Pasidalink su draugais
Pranešk apie klaidą