Big Data – mitä ovat big datajärjestelmät? Big Data -teknologioiden kehittäminen. Mitä on Big data: Keräsimme kaikki tärkeimmät asiat big datasta Big data nykymaailmassa

Big data (tai Big Data) on joukko menetelmiä valtavien määrien jäsenneltyä tai jäsentämätöntä tietoa käsittelemiseen. Big data -asiantuntijat käsittelevät ja analysoivat sitä visuaalisten, ihmisen havaittavien tulosten saamiseksi. Look At Me keskusteli ammattilaisten kanssa ja selvitti, mikä on tilanne ison datan käsittelyssä Venäjällä, missä ja mitä on parasta opiskella tällä alalla työskenteleville.

Alexey Ryvkin big datan, asiakasviestinnän ja numeromaailman päätrendeistä

Opiskelin Moskovan elektroniikkainstituutissa. Pääasia, jonka sain sieltä pois, oli fysiikan ja matematiikan perustiedot. Samanaikaisesti opintojeni kanssa työskentelin T&K-keskuksessa, jossa olin mukana kehittämässä ja toteuttamassa melunkestäviä koodausalgoritmeja turvalliseen tiedonsiirtoon. Kandidaatin tutkinnon jälkeen astuin kauppakorkeakoulun yritysinformatiikan maisteriohjelmaan. Sen jälkeen halusin työskennellä IBS:ssä. Olin onnekas, että tuolloin, johtuen iso määrä hankkeisiin tehtiin lisärekrytointi harjoittelijoita, ja useiden haastattelujen jälkeen aloin työskennellä IBS:ssä, joka on yksi suurimmista venäläisistä alan yrityksistä. Kolmessa vuodessa minusta tuli harjoittelijasta yritysratkaisuarkkitehti. Tällä hetkellä kehitän Big Data -teknologioiden osaamista finanssi- ja telekommunikaatioalan asiakasyrityksille.

Ihmisille, jotka haluavat työskennellä big datan kanssa, on kaksi pääerikoisalaa: analyytikot ja IT-konsultit, jotka luovat teknologioita big datan kanssa työskentelyyn. Lisäksi voidaan puhua myös Big Data Analyst eli suoraan datan parissa työskentelevien ihmisten ammatista asiakkaan IT-alustan kanssa. Aikaisemmin nämä olivat tavallisia matemaattisia analyytikoita, jotka tunsivat tilastoja ja matematiikkaa ja käyttivät tilastollisia ohjelmistoja data-analyysiongelmien ratkaisemiseen. Nykyään tilasto- ja matematiikan tietämyksen lisäksi tarvitaan myös tekniikan ja tietojen elinkaaren ymmärtämistä. Tämä on mielestäni ero nykyaikaisten data-analyytikkojen ja aiemmin tulleiden analyytikoiden välillä.

Erikoistumiseni on IT-konsultointi, eli keksin ja tarjoan asiakkaille tapoja ratkaista liiketoiminnan ongelmia IT-teknologioiden avulla. Konsultointiin tulee erilaisia ​​kokeneita ihmisiä, mutta tämän ammatin tärkeimpiä ominaisuuksia ovat kyky ymmärtää asiakkaan tarpeet, halu auttaa ihmisiä ja organisaatioita, hyvät kommunikaatio- ja tiimitaidot (koska se on aina asiakkaan kanssa työskentelyä ja tiimissä), hyvät analyyttiset taidot. Sisäinen motivaatio on erittäin tärkeä: työskentelemme kilpailuympäristössä ja asiakas odottaa epätavallisia ratkaisuja ja kiinnostusta työhön.

Suurin osa ajastani kuluu asiakkaiden kanssa kommunikointiin, heidän liiketoimintatarpeidensa virallistamiseen ja heidän auttamiseensa kehittämään sopivinta teknologia-arkkitehtuuria. Valintakriteereillä on tässä oma erikoisuutensa: lisäksi toiminnallisuutta ja TCO (Total cost of ownership) järjestelmän ei-toiminnalliset vaatimukset ovat erittäin tärkeitä, useimmiten nämä ovat vasteaika ja tiedonkäsittelyaika. Asiakkaan vakuuttamiseksi käytämme usein proof of concept -lähestymistapaa - tarjoamme "testaamaan" teknologiaa ilmaiseksi jossain tehtävässä, kapealla datajoukolla varmistaaksemme, että tekniikka toimii. Ratkaisun on luotava asiakkaalle kilpailuetu hankkimalla lisäetuja (esim. x-sell, ristiinmyynti) tai ratkaisemalla jokin liike-elämän ongelma, esim. korkeatasoinen lainapetos.

Olisi paljon helpompaa, jos asiakkaat tulisivat valmiin tehtävän kanssa, mutta toistaiseksi he eivät ymmärrä, että on ilmestynyt vallankumouksellinen tekniikka, joka voi muuttaa markkinoita parissa vuodessa

Mitä ongelmia kohtaat? Markkinat eivät ole vielä valmiita käyttämään big data -teknologioita. Olisi paljon helpompaa, jos asiakkaat tulisivat valmiin tehtävän kanssa, mutta he eivät toistaiseksi ymmärrä, että on ilmaantunut vallankumouksellinen tekniikka, joka voi muuttaa markkinoita parissa vuodessa. Tästä syystä työskentelemme pääasiassa käynnistystilassa – emme vain myy teknologioita, vaan aina vakuutamme asiakkaat siitä, että heidän on investoitava näihin ratkaisuihin. Tämä on visionäärien asema - näytämme asiakkaille, kuinka he voivat muuttaa liiketoimintaansa datan ja IT:n avulla. Me luomme tämän uusi markkina- kaupallisen IT-konsultoinnin markkinat Big Datan alalla.

Jos henkilö haluaa harjoittaa data-analyysiä tai IT-konsultointia Big Datan alalla, niin ensimmäinen asia, joka on tärkeä, on matemaattinen tai tekninen koulutus ja hyvä matemaattinen koulutus. On myös hyödyllistä hallita tiettyjä teknologioita, esimerkiksi SAS-, Hadoop-, R-kieli- tai IBM-ratkaisuja. Lisäksi sinun tulee olla aktiivisesti kiinnostunut Big Datan sovelluksista – esimerkiksi siitä, miten sitä voidaan hyödyntää luottopisteytyksen parantamiseen pankissa tai asiakkaiden elinkaaren hallintaan. Tätä ja muuta tietoa voi saada saatavilla olevista lähteistä: esimerkiksi Coursera ja Big Data University. Wharton University of Pennsylvaniassa toimii myös Customer Analytics Initiative, jossa on julkaistu paljon mielenkiintoista materiaalia.

Suuri ongelma alallamme työskenteleville on selkeä tiedon puute Big Datasta. Et voi mennä kirjakauppaan tai jollekin verkkosivustolle ja saada esimerkiksi kattavaa tapauskokoelmaa kaikista Big Data -teknologioiden sovelluksista pankeissa. Tällaisia ​​hakemistoja ei ole. Osa tiedoista on kirjoissa, osa kerätään konferensseissa ja osa sinun on keksittävä itse.

Toinen ongelma on, että analyytikot viihtyvät numeromaailmassa, mutta he eivät aina viihdy liiketoiminnassa. Nämä ihmiset ovat usein sisäänpäinkääntyneitä ja heillä on vaikeuksia kommunikoida, minkä vuoksi heidän on vaikea viestiä tutkimustuloksista vakuuttavasti asiakkaille. Näiden taitojen kehittämiseksi suosittelen kirjoja, kuten Pyramid Principle, Speak the Language of Diagrams. Ne auttavat kehittämään esitystaitoja ja ilmaisevat ajatuksesi ytimekkäästi ja selkeästi.

Osallistuminen erilaisiin case-mestaruuskilpailuihin opiskelun aikana Kansallisen tutkimusyliopiston kauppakorkeakoulussa auttoi minua paljon. Case-mestaruuskilpailut ovat opiskelijoille suunnattuja älyllisiä kilpailuja, joissa heidän on tutkittava yritysongelmia ja ehdotettava niihin ratkaisuja. On olemassa kahta tyyppiä: konsulttiyritysten tapausmestaruuskilpailut, esimerkiksi McKinsey, BCG, Accenture, sekä itsenäiset tapausmestaruudet, kuten Changellenge. Niihin osallistuessani opin näkemään ja ratkaisemaan monimutkaisia ​​ongelmia - ongelman tunnistamisesta ja jäsentämisestä sen ratkaisusuositusten puolustamiseen.

Oleg Mikhalsky Venäjän markkinoista ja uuden tuotteen luomisen erityispiirteistä big datan alalla

Ennen Acronikseen liittymistä olin jo mukana tuomassa uusia tuotteita markkinoille muiden yritysten markkinoille. Se on aina yhtä aikaa mielenkiintoista ja haastavaa, joten kiinnostuin heti mahdollisuudesta työskennellä pilvipalvelujen ja tiedontallennusratkaisujen parissa. Kaikki aikaisempi kokemukseni IT-alalta, mukaan lukien oma startup-projektini I-kiihdytin, auttoi tällä alueella. Myös kaupallinen koulutus (MBA) auttoi perusinsinööritutkinnon lisäksi.

Venäjällä suuret yritykset - pankit, matkapuhelinoperaattorit jne. - Big data -analyysiä tarvitaan, joten maassamme on mahdollisuuksia niille, jotka haluavat työskennellä tällä alalla. Totta, monet hankkeet ovat nykyään integraatioprojekteja eli ulkomaisen kehityksen tai avoimen lähdekoodin tekniikoiden pohjalta. Tällaisissa hankkeissa ei luoda täysin uusia lähestymistapoja ja teknologioita, vaan olemassa olevaa kehitystä mukautetaan. Acronisissa valittiin eri tie, ja analysoituamme saatavilla olevat vaihtoehdot päätimme panostaa omaan kehitykseemme, jonka tuloksena saatiin luotettava iso datan tallennusjärjestelmä, joka ei ole halvempi kuin esimerkiksi Amazon S3, mutta toimii luotettavasti. ja tehokkaasti ja huomattavasti pienemmässä mittakaavassa. Myös suurilla Internet-yrityksillä on omaa kehitystä big datassa, mutta ne keskittyvät enemmän sisäisiin tarpeisiin kuin ulkopuolisten asiakkaiden tarpeisiin.

On tärkeää ymmärtää trendit ja taloudelliset voimat, jotka vaikuttavat big datan kenttään. Tätä varten sinun on luettava paljon, kuunneltava IT-alan arvovaltaisten asiantuntijoiden puheita ja osallistuttava temaattisiin konferensseihin. Nyt lähes jokaisessa konferenssissa on Big Data -osio, mutta ne kaikki puhuvat siitä eri näkökulmasta: teknologian, liiketoiminnan tai markkinoinnin näkökulmasta. Voit mennä projektityöhön tai harjoittelemaan yritykseen, joka jo johtaa tämän aiheen projekteja. Jos olet varma kyvyistäsi, ei ole liian myöhäistä järjestää startup Big Datan alalla.

Ilman jatkuvaa yhteyttä markkinoihin uusi kehitys on vaarassa jäädä lunastamatta

Totta, kun olet vastuussa uudesta tuotteesta, paljon aikaa käytetään markkina-analytiikkaan ja kommunikointiin potentiaalisten asiakkaiden, kumppaneiden ja ammattitaitoisten analyytikoiden kanssa, jotka tietävät paljon asiakkaista ja heidän tarpeistaan. Ilman jatkuvaa yhteyttä markkinoihin uusi kehitys on vaarassa jäädä lunastamatta. Epävarmuustekijöitä on aina paljon: sinun on selvitettävä, keitä varhaiset omaksujat ovat, mitä sinulla on tarjota heille ja miten houkutella massayleisöä. Toiseksi tärkein tehtävä on muotoilla ja välittää kehittäjille selkeä ja kokonaisvaltainen näkemys lopputuotteesta motivoidakseen heitä työskentelemään olosuhteissa, joissa jotkin vaatimukset saattavat vielä muuttua ja prioriteetit riippuvat palautetta, tulevat ensimmäisiltä asiakkailta. Siksi tärkeä tehtävä on toisaalta asiakkaiden ja toisaalta kehittäjien odotusten hallinta. Jotta kumpikaan ei menetä kiinnostusta ja vie projektia päätökseen. Ensimmäisen onnistuneen projektin jälkeen se helpottuu ja suurin haaste on löytää oikea kasvumalli uudelle liiketoiminnalle.

(kirjaimellisesti - Suuri data)? Katsotaanpa ensin Oxford-sanakirjaa:

Data- suuret, merkit tai symbolit, joita tietokone käyttää ja jotka voidaan tallentaa ja välittää muodossa sähköiset signaalit, tallennettu magneettiselle, optiselle tai mekaaniselle tietovälineelle.

Termi Suuri data käytetään kuvaamaan suurta tietojoukkoa, joka kasvaa eksponentiaalisesti ajan myötä. Koneoppiminen on välttämätöntä näin suuren tietomäärän käsittelemiseksi.

Big Datan tarjoamat edut:

  1. Tietojen kerääminen eri lähteistä.
  2. Liiketoimintaprosessien parantaminen reaaliaikaisen analytiikan avulla.
  3. Valtavien tietomäärien tallentaminen.
  4. Näkemyksiä. Big Data on havainnollistavampaa piilotettua tietoa käyttämällä strukturoitua ja puolistrukturoitua dataa.
  5. Big data auttaa sinua vähentämään riskejä ja tekemään älykkäitä päätöksiä oikean riskianalyysin avulla

Esimerkkejä Big Datasta

New Yorkin pörssi tuottaa päivittäin 1 teratavu edellisen istunnon kaupankäyntitiedot.

Sosiaalinen media: Tilastot osoittavat, että Facebook lataa joka päivä 500 teratavua uutta dataa syntyy pääasiassa kuvien ja videoiden lataamisen sosiaalisten verkostojen palvelimille, viestien, viestien alla olevien kommenttien ja niin edelleen vuoksi.

Suihkumoottori tuottaa 10 teratavua tiedot 30 minuutin välein lennon aikana. Koska lentoja tehdään tuhansia joka päivä, datamäärä on petabyyttiä.

Big Data -luokitus

Big data -lomakkeet:

  • Strukturoitu
  • Strukturoimaton
  • Puolirakenteinen

Strukturoitu muoto

Tietoa, jota voidaan tallentaa, käyttää ja käsitellä kiinteässä muodossa, kutsutaan strukturoiduksi. Ajan mittaan tietojenkäsittelytiede on edistynyt suuresti tekniikoiden parantamisessa tämäntyyppisten tietojen kanssa (jos muoto on tiedossa etukäteen) ja oppinut hyötymään siitä. Kuitenkin nykyään on jo ongelmia, jotka liittyvät volyymien kasvuun useiden zettatavujen alueella mitattuihin kokoihin.

1 zettatavu vastaa miljardia teratavua

Näitä lukuja tarkasteltaessa on helppo nähdä Big Data -termin todenperäisyys ja tällaisten tietojen käsittelyyn ja tallentamiseen liittyvät vaikeudet.

Relaatiotietokantaan tallennetut tiedot ovat jäsenneltyjä ja näyttävät esimerkiksi yrityksen työntekijöiden taulukoilta

Strukturoimaton muoto

Tieto, jonka rakennetta ei tunneta, luokitellaan jäsentämättömäksi. Suuren koonsa lisäksi tälle muodolle on ominaista useita käsittely- ja poistamisvaikeuksia. hyödyllistä tietoa. Tyypillinen esimerkki jäsentämättömästä tiedosta on heterogeeninen lähde, joka sisältää yhdistelmän yksinkertaisia ​​tekstitiedostoja, kuvia ja videoita. Nykyään organisaatioilla on pääsy suuriin määriin raakadataa tai jäsentelemätöntä dataa, mutta ne eivät osaa poimia siitä arvoa.

Puolirakenteinen muoto

Tämä luokka sisältää molemmat edellä kuvatut, joten puolistrukturoidulla tiedolla on jonkinlainen muoto, mutta sitä ei itse asiassa määritetä relaatiotietokantojen taulukoilla. Esimerkki tästä kategoriasta on XML-tiedostossa esitetyt henkilötiedot.

Prashant RaoUros35 Seema R.Nainen41 Satish ManeUros29 Subrato RoyUros26 Jeremiah J.Uros35

Big Datan ominaisuudet

Big Datan kasvu ajan myötä:

Sininen väri edustaa strukturoitua dataa (Enterprise data), joka on tallennettu relaatiotietokantoihin. Muut värit osoittavat eri lähteistä (IP-puhelut, laitteet ja anturit, sosiaaliset verkot ja verkkosovellukset) peräisin olevaa jäsentämätöntä dataa.

Gartnerin mukaan iso data vaihtelee volyymin, syntynopeuden, lajikkeen ja vaihtelevuuden suhteen. Tarkastellaanpa näitä ominaisuuksia tarkemmin.

  1. Äänenvoimakkuus. Itse termi Big Data liittyy suureen kokoon. Tietojen koko on kriittinen mittari määritettäessä mahdollista poimittavaa arvoa. Joka päivä 6 miljoonaa ihmistä käyttää digitaalista mediaa ja tuottaa arviolta 2,5 kvintiljoona tavua dataa. Siksi tilavuus on ensimmäinen huomioitava ominaisuus.
  2. Monimuotoisuus- seuraava näkökohta. Se viittaa heterogeenisiin lähteisiin ja tiedon luonteeseen, joka voi olla joko jäsenneltyä tai jäsentämätöntä. Aikaisemmin laskentataulukot ja tietokannat olivat ainoat tietolähteet, joita otettiin huomioon useimmissa sovelluksissa. Nykyään myös sähköpostien, valokuvien, videoiden, PDF-tiedostojen ja äänen muodossa olevat tiedot otetaan huomioon analyyttisissa sovelluksissa. Tämä monimuotoinen jäsentämätön data johtaa ongelmiin varastoinnissa, louhinnassa ja analysoinnissa: 27 % yrityksistä ei ole varma, että he työskentelevät oikeiden tietojen kanssa.
  3. Sukupolven nopeus. Se, kuinka nopeasti tiedot kerätään ja käsitellään vaatimusten täyttämiseksi, määrittää potentiaalin. Nopeus määrittää tiedonkulun nopeuden lähteistä - liiketoimintaprosesseista, sovelluslokeista, sosiaalisista verkostoista ja mediasivustoista, antureista, mobiililaitteista. Tietovirta on valtava ja jatkuvaa ajan myötä.
  4. Vaihtuvuus kuvaa tietojen vaihtelua tietyissä pisteissä, mikä vaikeuttaa käsittelyä ja hallintaa. Esimerkiksi suurin osa tiedoista on luonteeltaan strukturoimatonta.

Big Datan analytiikka: mitkä ovat big datan edut

Tavaroiden ja palveluiden myynninedistäminen: Pääsy tietoihin hakukoneista ja sivustoista, kuten Facebook ja Twitter, antaa yrityksille mahdollisuuden kehittää markkinointistrategioita tarkemmin.

Palvelun parantaminen asiakkaille: Perinteiset asiakaspalautejärjestelmät korvataan uusilla, jotka käyttävät Big Dataa ja Natural Language Processing -tekniikkaa asiakaspalautteen lukemiseen ja arvioimiseen.

Riskien laskeminen liittyy uuden tuotteen tai palvelun julkaisuun.

Toiminnallinen tehokkuus: Big data on jäsennelty, jotta tarvittava tieto saadaan nopeasti poimittua ja saadaan nopeasti tarkkoja tuloksia. Tämä Big Datan ja tallennustekniikoiden yhdistelmä auttaa organisaatioita optimoimaan työnsä harvoin käytetyllä tiedolla.

Tietojen kasvun jatkuva kiihtyminen on olennainen osa nykyaikaista todellisuutta. Sosiaaliset verkostot, mobiililaitteet, mittalaitteiden tiedot, yritystiedot ovat vain muutamia lähteitä, jotka voivat tuottaa jättimäisiä määriä dataa.

Tällä hetkellä termistä Big Data on tullut melko yleinen. Kaikki eivät vielä ole tietoisia siitä, kuinka nopeasti ja syvästi suurten tietomäärien käsittelytekniikat muuttavat yhteiskunnan monimuotoisimpia puolia. Muutoksia tapahtuu eri alueilla, jotka synnyttävät uusia ongelmia ja haasteita muun muassa tietoturva-alalla, jossa sen tärkeimpien näkökohtien, kuten luottamuksellisuuden, eheyden, saatavuuden jne., tulisi olla etualalla.

Valitettavasti monet nykyaikaiset yritykset turvautuvat Big Data -teknologiaan luomatta asianmukaista infrastruktuuria, joka varmistaa keräämiensä ja tallentamiensa valtavien tietomäärien luotettavan tallennuksen. Toisaalta blockchain-tekniikka kehittyy tällä hetkellä nopeasti, ja se on suunniteltu ratkaisemaan tämä ja monet muut ongelmat.

Mikä on Big Data?

Itse asiassa termin määritelmä on yksinkertainen: "big data" tarkoittaa erittäin suurten tietomäärien hallintaa sekä niiden analysointia. Jos katsomme laajemmin, tämä on tietoa, jota ei voida käsitellä klassisilla menetelmillä sen suurten määrien vuoksi.

Itse termi Big Data ilmestyi suhteellisen äskettäin. Google Trendsin mukaan termin aktiivinen suosion kasvu tapahtui vuoden 2011 lopussa:

Vuonna 2010 alkoi ilmestyä ensimmäiset suoraan big datan käsittelyyn liittyvät tuotteet ja ratkaisut. Vuoteen 2011 mennessä useimmat suurimmista IT-yrityksistä, mukaan lukien IBM, Oracle, Microsoft ja Hewlett-Packard, käyttävät aktiivisesti termiä Big Data liiketoimintastrategioissaan. Vähitellen markkina-analyytikot tietotekniikat aloittavat aktiivisen tämän käsitteen tutkimuksen.

Tällä hetkellä tämä termi on saavuttanut huomattavan suosion ja sitä käytetään aktiivisesti monilla aloilla. Ei kuitenkaan voida varmuudella sanoa, että Big Data olisi jonkinlainen pohjimmiltaan uusi ilmiö – päinvastoin big data lähteitä on ollut olemassa jo vuosia. Markkinoinnissa näitä ovat tietokannat asiakkaiden ostoista, luottohistoriasta, elämäntavoista jne. Vuosien mittaan analyytikot ovat käyttäneet näitä tietoja auttamaan yrityksiä ennustamaan asiakkaiden tulevia tarpeita, arvioimaan riskejä, muokkaamaan kuluttajien mieltymyksiä ja paljon muuta.

Tällä hetkellä tilanne on muuttunut kahdella tavalla:

— Erilaisten tietokokonaisuuksien analysointiin ja vertailuun on syntynyt kehittyneempiä työkaluja ja menetelmiä.
— Analyysityökaluja on täydennetty monilla uusilla tietolähteillä, mikä johtuu laajasta siirtymisestä digitaalisia teknologioita sekä uusia tiedonkeruu- ja mittausmenetelmiä.

Tutkijat ennustavat, että Big Data -teknologioita käytetään aktiivisemmin teollisuudessa, terveydenhuollossa, kaupassa, valtionhallinnossa ja muilla eri aloilla ja toimialoilla.

Big Data ei ole tietty tietojoukko, vaan joukko menetelmiä sen käsittelemiseksi. Big datan määräävä piirre ei ole vain sen määrä, vaan myös muut työvoimavaltaisia ​​tiedonkäsittely- ja analysointiprosesseja kuvaavat kategoriat.

Käsittelyn alkutiedot voivat olla esimerkiksi:

— lokit Internetin käyttäjien käyttäytymisestä;
- Esineiden internet;
- sosiaalinen media;
— säätiedot;
— suurten kirjastojen digitoidut kirjat;
— ajoneuvojen GPS-signaalit;
— tiedot pankkiasiakkaiden liiketoimista;
— tiedot matkaviestinverkon tilaajien sijainnista;
— tiedot ostoista suurissa vähittäiskauppaketjuissa jne.

Ajan myötä tiedon määrä ja sen lähteiden määrä kasvavat jatkuvasti, ja tätä taustaa vasten uusia tiedonkäsittelymenetelmiä syntyy ja olemassa olevia parannetaan.

Big Datan perusperiaatteet:

— Horisontaalinen skaalautuvuus – tietojoukot voivat olla valtavia, mikä tarkoittaa, että suuren datan käsittelyjärjestelmän on laajennettava dynaamisesti volyymien kasvaessa.
— Vikasietoisuus – vaikka jotkin laiteelementit pettäisivät, koko järjestelmän on pysyttävä toimintakunnossa.
— Tietojen sijainti. Suurissa hajautetuissa järjestelmissä data on tyypillisesti hajautettu huomattavaan määrään koneita. Kuitenkin aina kun se on mahdollista ja resurssien säästämiseksi, tiedot käsitellään usein samalla palvelimella, johon ne tallennetaan.

Kaikkien kolmen periaatteen vakaaseen toimintaan ja vastaavasti suuren datan tallennuksen ja käsittelyn korkeaan tehokkuuteen tarvitaan uusia läpimurtotekniikoita, kuten esimerkiksi blockchain.

Miksi tarvitsemme big dataa?

Big Datan laajuus laajenee jatkuvasti:

– Bigdataa voidaan käyttää lääketieteessä. Näin ollen potilaalle voidaan tehdä diagnoosi ei pelkästään potilaan sairaushistorian analyysin perusteella, vaan myös huomioiden muiden lääkäreiden kokemus, tiedot potilaan asuinalueen ympäristötilanteesta ja monet muut tekijät.
— Big Data -teknologioita voidaan käyttää järjestämään miehittämättömien ajoneuvojen liikkumista.
— Käsittelemällä suuria tietomääriä voit tunnistaa kasvot valokuvissa ja videoissa.
— Big Data -teknologioita voivat käyttää vähittäiskauppiaat – kauppayritykset voivat aktiivisesti käyttää sosiaalisten verkostojen tietojoukkoja räätälöidäkseen tehokkaasti mainoskampanjoitaan, jotka voidaan kohdistaa maksimaalisesti tietylle kuluttajasegmentille.
Tämä tekniikka käytetään aktiivisesti vaalikampanjoiden järjestämisessä, myös yhteiskunnan poliittisten mieltymysten analysoinnissa.
— Big Data -teknologioiden käyttö on olennaista tulonvarmistusluokan (RA) ratkaisuissa, jotka sisältävät työkaluja epäjohdonmukaisuuksien havaitsemiseen ja syvälliseen tietojen analysointiin, mikä mahdollistaa todennäköisten tietojen menetyksen tai vääristymisen oikea-aikaisen tunnistamisen, mikä saattaa johtaa taloudelliset tulokset.
— Televiestintäpalveluntarjoajat voivat yhdistää suurdataa, mukaan lukien maantieteellinen sijainti; Nämä tiedot puolestaan ​​voivat olla kaupallisesti kiinnostavia mainostoimistoille, jotka voivat käyttää niitä kohdennetun ja paikallisen mainonnan näyttämiseen, sekä jälleenmyyjille ja pankeille.
— Bigdatalla voi olla tärkeä rooli päätettäessä vähittäismyymälän avaamisesta tietyssä paikassa vahvan kohdennetun ihmisvirran läsnäolotietojen perusteella.

Näin ollen Big Data -teknologian ilmeisin käytännön sovellus on markkinoinnin alalla. Internetin kehityksen ja kaikenlaisten viestintälaitteiden yleistymisen ansiosta käyttäytymistiedot (kuten puheluiden määrä, ostotottumukset ja ostokset) tulevat saataville reaaliajassa.

Big data -teknologioita voidaan käyttää tehokkaasti myös rahoituksessa, sosiologisessa tutkimuksessa ja monilla muilla aloilla. Asiantuntijat väittävät, että kaikki nämä big datan käyttömahdollisuudet ovat vain näkyvä osa jäävuorta, koska näitä teknologioita käytetään paljon suurempia määriä tiedustelu- ja vastatiedustelussa, sotilasasioissa sekä kaikessa, mitä yleisesti kutsutaan informaatiosodaksi.

Yleisesti sanottuna Big Datan kanssa työskentelyn järjestys koostuu tietojen keräämisestä, saadun tiedon jäsentämisestä raporttien ja kojetaulujen avulla ja sitten toimintasuositusten laatimisesta.

Pohditaanpa lyhyesti Big Data -teknologioiden käyttömahdollisuuksia markkinoinnissa. Kuten tiedät, markkinoijalle tieto on tärkein ennustamisen ja strategian kehittämisen työkalu. Big data -analyysiä on käytetty menestyksekkäästi jo pitkään kuluttajien kohdeyleisön, kiinnostuksen kohteiden, kysynnän ja aktiivisuuden määrittämiseen. Erityisesti big data -analyysi mahdollistaa mainonnan (RTB-huutokauppamallin - Real Time Bidding) näyttämisen vain niille kuluttajille, jotka ovat kiinnostuneita tuotteesta tai palvelusta.

Big Datan käyttö markkinoinnissa antaa liikemiehille mahdollisuuden:

— Opi tuntemaan kuluttajasi paremmin, houkuttelemaan samanlaista yleisöä Internetissä;
— arvioida asiakastyytyväisyyden astetta;
— ymmärtää, vastaako ehdotettu palvelu odotuksia ja tarpeita;
— löytää ja ottaa käyttöön uusia tapoja lisätä asiakkaiden luottamusta;
— luoda projekteja, joilla on kysyntää jne.

Google.trends-palvelu voi esimerkiksi ilmoittaa markkinoijalle ennusteen tietyn tuotteen kausittaisesta kysynnän aktiivisuudesta, vaihteluista ja napsautusten maantieteellisestä sijainnista. Jos vertaat näitä tietoja vastaavan laajennuksen keräämiin tilastotietoihin omalla verkkosivustollasi, voit laatia mainosbudjetin jakautumissuunnitelman, josta käy ilmi kuukausi, alue ja muut parametrit.

Monien tutkijoiden mukaan Trumpin vaalikampanjan menestys piilee Big Datan segmentoinnissa ja käytössä. Yhdysvaltain tulevan presidentin tiimi pystyi jakamaan yleisön oikein, ymmärtämään sen toiveet ja näyttämään juuri sen viestin, jonka äänestäjät haluavat nähdä ja kuulla. Näin ollen Data-Centric Alliancen Irina Belyshevan mukaan Trumpin voitto oli pitkälti mahdollista Internet-markkinoinnin epätyypillisen lähestymistavan ansiosta, joka perustui Big Dataan, psykologiseen ja käyttäytymisanalyysiin sekä personoituun mainontaan.

Trumpin poliittiset strategit ja markkinoijat käyttivät erityisesti kehitettyä matemaattista mallia, joka mahdollisti kaikkien yhdysvaltalaisten äänestäjien datan syvällisen analysoinnin ja niiden systematisoinnin tehden erittäin tarkan kohdistuksen paitsi maantieteellisten ominaisuuksien, myös äänestäjien aikomusten, intressien, Heidän psykotyyppinsä, käyttäytymisominaisuuksiensa jne. Jälkeen Tästä syystä markkinoijat järjestivät yksilöllistä kommunikointia kunkin kansalaisryhmän kanssa heidän tarpeidensa, mielialojensa, poliittisten näkemystensä perusteella, psykologiset ominaisuudet ja jopa ihonvärin, käyttäen erilaista viestiä lähes jokaiselle äänestäjälle.

Hillary Clinton käytti kampanjassaan "aikatestattuja" sosiologisiin tietoihin ja tavanomaiseen markkinointiin perustuvia menetelmiä jakaen äänestäjät vain muodollisesti homogeenisiin ryhmiin (miehet, naiset, afroamerikkalaiset, latinalaisamerikkalaiset, köyhät, rikkaat jne.) .

Tuloksena voitti se, joka arvosti uusien teknologioiden ja analyysimenetelmien potentiaalia. On huomionarvoista, että Hillary Clintonin kampanjakulut olivat kaksi kertaa niin suuret kuin hänen vastustajansa:

Tiedot: Pew Research

Big Datan käytön tärkeimmät ongelmat

Suuren hinnan lisäksi yksi tärkeimmistä Big Datan toteuttamista eri alueilla vaikeuttavista tekijöistä on käsiteltävän datan valinnan ongelma eli sen määrittäminen, mitkä tiedot on haettava, tallennettava ja analysoitava ja mitkä. ei oteta huomioon.

Toinen Big Datan ongelma on eettinen. Toisin sanoen herää looginen kysymys: voidaanko tällaista tiedonkeruuta (etenkin ilman käyttäjän tietämättä) pitää yksityisyyden loukkauksena?

Ei ole mikään salaisuus, että tiedot on tallennettu hakukoneet Googlen ja Yandexin avulla IT-jättiläiset voivat jatkuvasti parantaa palveluitaan, tehdä niistä käyttäjäystävällisiä ja luoda uusia interaktiivisia sovelluksia. Tätä varten hakukoneet keräävät käyttäjätietoja käyttäjien toiminnasta Internetissä, IP-osoitteita, maantieteellisiä sijaintitietoja, kiinnostuksen kohteita ja verkko-ostoksia, henkilötietoja, sähköpostiviestejä jne. Kaikki tämä mahdollistaa kontekstuaalisen mainonnan näyttämisen käyttäjien Internetissä käyttäytymisen mukaisesti. Tällöin käyttäjien suostumusta ei yleensä kysytä, eikä mahdollisuutta valita, mitä tietoja itsestään antaa. Eli oletusarvoisesti kaikki kerätään Big Dataan, joka sitten tallennetaan sivustojen tietopalvelimille.

Tämä johtaa seuraavaan tärkeään ongelmaan koskien tietojen tallennuksen ja käytön turvallisuutta. Onko esimerkiksi kuluttajien käyttämä tietty analytiikka-alusta turvallinen? automaattinen tila lähettää tietosi? Lisäksi monet yritysten edustajat havaitsevat pulaa korkeasti koulutetuista analyytikoista ja markkinoijista, jotka pystyvät käsittelemään tehokkaasti suuria tietomääriä ja ratkaisemaan tiettyjä liiketoimintaongelmia heidän avullaan.

Kaikista Big Datan käyttöönoton vaikeuksista huolimatta yritys aikoo lisätä investointeja tälle alueelle. Gartnerin tutkimuksen mukaan Big Dataan sijoittavien toimialojen johtajia ovat media-, vähittäis-, tele-, pankki- ja palveluyritykset.

Blockchain- ja Big Data -teknologioiden välisen vuorovaikutuksen näkymät

Integraatiolla Big Datan kanssa on synergistinen vaikutus ja se avaa yrityksille monia uusia mahdollisuuksia, mukaan lukien:

— saada yksityiskohtaisia ​​tietoja kuluttajien mieltymyksistä, joiden perusteella voit rakentaa yksityiskohtaisia ​​analyyttisiä profiileja tietyille toimittajille, tuotteille ja tuotekomponenteille;
— yhdistää yksityiskohtaiset tapahtumatiedot ja kulutustilastot tietyt ryhmät tuotteet eri käyttäjäryhmille;
— saada yksityiskohtaisia ​​analyyttisiä tietoja toimitus- ja kulutusketjuista, valvoa tuotehäviöitä kuljetuksen aikana (esimerkiksi tietyntyyppisten tavaroiden kuivumisen ja haihtumisen aiheuttama painonmenetys);
— torjua tuoteväärennöksiä, tehostaa rahanpesun ja petosten torjuntaa jne.

Pääsy yksityiskohtaisiin tavaroiden käyttöä ja kulutusta koskeviin tietoihin paljastaa merkittävästi Big Data -teknologian mahdollisuudet keskeisten liiketoimintaprosessien optimoinnissa, sääntelyriskejen vähentämisessä, uusien kaupallistamismahdollisuuksien paljastamisessa ja kuluttajien tämänhetkisiä mieltymyksiä parhaiten vastaavien tuotteiden luomisessa.

Kuten tiedetään, suurimpien rahoituslaitosten edustajat ovat jo osoittaneet suurta kiinnostusta lohkoketjuteknologiaan, mukaan lukien jne. Sveitsin rahoitusholdingyhtiön UBS:n IT-päällikön Oliver Bussmannin mukaan lohkoketjuteknologia voi "lyhentää tapahtuman käsittelyaikaa useista päivistä useisiin". minuuttia”.

Lohkoketjun analysointimahdollisuudet Big Data -teknologian avulla ovat valtavat. Hajautettu pääkirjatekniikka varmistaa tiedon eheyden sekä koko tapahtumahistorian luotettavan ja läpinäkyvän tallennuksen. Big Data puolestaan ​​tarjoaa uusia työkaluja tehokkaaseen analysointiin, ennustamiseen, talouden mallintamiseen ja näin ollen avaa uusia mahdollisuuksia tietoisempien johtamispäätösten tekemiseen.

Blockchainin ja Big Datan tandemia voidaan käyttää menestyksekkäästi terveydenhuollossa. Kuten tiedetään, epätäydelliset ja puutteelliset tiedot potilaan terveydestä lisäävät suuresti virheellisen diagnoosin ja väärin määrätyn hoidon riskiä. Lääketieteellisten laitosten asiakkaiden terveyttä koskevien kriittisten tietojen tulee olla mahdollisimman suojattuja, niillä on oltava muuttumattomat ominaisuudet, niiden on oltava todennettavissa, eikä niitä saa käsitellä.

Lohkoketjussa oleva tieto täyttää kaikki yllä olevat vaatimukset ja voi toimia korkealaatuisena ja luotettavana lähdetietona uusien Big Data -tekniikoiden syvälliseen analysointiin. Lisäksi hoitolaitokset voisivat lohkoketjun avulla vaihtaa luotettavaa tietoa vakuutusyhtiöiden, oikeusviranomaisten, työnantajien, tieteelliset laitokset ja muut lääketieteellistä tietoa tarvitsevat organisaatiot.

Big Data ja tietoturva

Laajassa merkityksessä tietoturvallisuus on tiedon ja sitä tukevan infrastruktuurin suojaamista vahingossa tai tahallisesti luonnollisilta tai keinotekoisilta negatiivisilta vaikutuksilta.

Alueella tietoturva Big Data kohtaa seuraavat haasteet:

— tietosuojaan ja niiden eheyden varmistamiseen liittyvät ongelmat;
— ulkopuolisen toiminnan ja luottamuksellisten tietojen vuotamisen riski;
— luottamuksellisten tietojen virheellinen säilyttäminen;
— tietojen katoamisen riski esimerkiksi jonkun ilkeän toiminnan vuoksi;
— riski siitä, että kolmannet osapuolet käyttävät henkilötietoja väärin jne.

Yksi suurimmista suurista dataongelmista, jotka blockchain on suunniteltu ratkaisemaan, on tietoturva-ala. Varmistamalla kaikkien perusperiaatteidensa noudattamisen hajautettu rekisteritekniikka voi taata tietojen eheyden ja luotettavuuden, ja yhden vikakohdan puuttuessa lohkoketju tekee tietojärjestelmien toiminnan vakaaksi. Hajautettu pääkirjatekniikka voi auttaa ratkaisemaan tietoon kohdistuvan luottamuksen ongelman sekä mahdollistaa yleisen tiedon jakamisen.

Tieto on arvokas voimavara, mikä tarkoittaa, että tietoturvan perusasioiden varmistamisen on oltava etusijalla. Selviytyäkseen kilpailussa yritysten on pysyttävä ajan tasalla, mikä tarkoittaa, että ne eivät voi sivuuttaa lohkoketjuteknologian ja Big Data -työkalujen tarjoamia mahdollisuuksia ja etuja.

Tiedätkö tämän kuuluisan vitsin? Big Data on kuin seksiä ennen 18:aa:

  • kaikki ajattelevat sitä;
  • kaikki puhuvat siitä;
  • kaikki luulevat, että heidän ystävänsä tekevät sen;
  • melkein kukaan ei tee tätä;
  • kuka tahansa tekee sen huonosti;
  • kaikki ajattelevat, että se toimii paremmin ensi kerralla;
  • kukaan ei ryhdy turvatoimiin;
  • joku hävettää myöntää, ettei hän tiedä jotain;
  • jos joku onnistuu jossain, siitä on aina paljon melua.

Mutta olkaamme rehellisiä, minkä tahansa hypetyksen yhteydessä tulee aina esiin tavallinen uteliaisuus: minkälaista meteliä siellä on ja onko siellä jotain todella tärkeää? Lyhyesti sanottuna kyllä, on. Yksityiskohdat ovat alla. Olemme valinneet sinulle Big Data -teknologioiden hämmästyttävimmät ja mielenkiintoisimmat sovellukset. Tämä pieni markkinatutkimus selkeitä esimerkkejä käyttäen kohtaa meidät yksinkertaisen tosiasian kanssa: tulevaisuus ei tule, ei tarvitse "odota vielä n vuotta ja taikuudesta tulee totta." Ei, se on jo saapunut, mutta on silti näkymätöntä silmälle ja siksi singulariteetin polttaminen ei ole vielä polttanut tiettyä kohtaa työmarkkinoilla niin paljon. Mennä.

1 Kuinka Big Data -teknologioita sovelletaan siellä, missä ne ovat syntyneet

Tietotiede sai alkunsa suuret IT-yritykset, joten niiden sisäinen tietämys tällä alueella on mielenkiintoisinta. Kampanja Google, Map Reduce -paradigman syntypaikka, jonka ainoa tarkoitus on kouluttaa ohjelmoijiaan koneoppimistekniikoissa. Ja tässä on heidän kilpailuetunsa: uuden tiedon hankinnan jälkeen työntekijät ottavat käyttöön uusia menetelmiä niissä Google-projekteissa, joissa he työskentelevät jatkuvasti. Kuvittele, kuinka valtava on luettelo alueista, joilla kampanja voi mullistaa. Yksi esimerkki: käytetään neuroverkkoja.

Yhtiö ottaa koneoppimisen käyttöön kaikissa tuotteissaan. Sen etuna on laaja ekosysteemi, joka sisältää kaikki digitaaliset laitteet, käytetään jokapäiväisessä elämässä. Tämä antaa Applelle mahdollisuuden saavuttaa mahdoton tason: kampanjalla on enemmän käyttäjätietoja kuin millään muulla. Samalla tietosuojakäytäntö on erittäin tiukka: yhtiö on aina kehunut, ettei se käytä asiakastietoja mainostarkoituksiin. Näin ollen käyttäjätiedot on salattu niin, että Applen lakimiehet tai edes luvan saaneet FBI eivät voi lukea niitä. Sieltä löydät hieno arvostelu Applen kehitys tekoälyn alalla.

2 Big Data 4 pyörällä

Nykyaikainen auto on tietovarasto: se kerää kaiken tiedon kuljettajasta, ympäristöstä, kytketyistä laitteista ja itsestään. Pian yksittäinen ajoneuvo, joka on liitetty tällaiseen verkkoon, tuottaa jopa 25 Gt tietoa tunnissa.

Autonvalmistajat ovat käyttäneet ajoneuvojen telematiikkaa useiden vuosien ajan, mutta nyt lobbataan kehittyneemmän tiedonkeruumenetelmän puolesta, joka hyödyntää täysimääräisesti Big Dataa. Tämä tarkoittaa, että tekniikka voi nyt varoittaa kuljettajaa huonoista tieolosuhteista aktivoimalla automaattisesti lukkiutumattomat jarrut ja luistonestojärjestelmät.

Muut yritykset, mukaan lukien BMW, käyttävät Big Data -tekniikkaa yhdistettynä testattavista prototyypeistä kerättyihin tietoihin, ajoneuvon sisäisiin virhemuistijärjestelmiin ja asiakkaiden valituksiin tunnistaakseen mallin heikkouksia tuotannon varhaisessa vaiheessa. Nyt kuukausia kestävän tietojen manuaalisen arvioinnin sijaan käytetään modernia algoritmia. Virheet ja vianetsintäkustannukset pienenevät, mikä nopeuttaa BMW:n tiedon analysointityönkulkua.

Asiantuntijoiden arvioiden mukaan verkkoon liitettyjen autojen markkinoiden liikevaihto nousee 130 miljardiin dollariin vuoteen 2019 mennessä. Tämä ei ole yllättävää, kun otetaan huomioon, kuinka nopeasti autonvalmistajat integroivat ajoneuvoon olennaisesti kuuluvia teknologioita.

Big Datan käyttö auttaa tekemään autosta turvallisemman ja toimivamman. Siten Toyota integroimalla tietoliikennemoduulit (DCM). Tämä Big Data -työkalu käsittelee ja analysoi DCM:n keräämiä tietoja saadakseen siitä lisäarvoa.

3 Big Datan soveltaminen lääketieteessä


Big Data -teknologioiden käyttöönotto lääketieteen alalla antaa lääkäreille mahdollisuuden tutkia sairautta perusteellisemmin ja valita kullekin tapaukselle tehokkaan hoitomuodon. Tietojen analysoinnin ansiosta terveydenhuollon työntekijöiden on helpompi ennakoida pahenemisvaiheita ja ryhtyä ennaltaehkäiseviin toimenpiteisiin. Tuloksena on tarkempi diagnoosi ja paremmat hoitomenetelmät.

Uusi tekniikka antoi meille mahdollisuuden tarkastella potilaiden ongelmia eri näkökulmasta, mikä johti aiemmin tuntemattomien ongelman lähteiden löytämiseen. Esimerkiksi jotkut rodut ovat geneettisesti alttiimpia sydänsairauksille kuin muut etniset ryhmät. Nyt kun potilas valittaa tietystä sairaudesta, lääkärit ottavat huomioon tiedot hänen rotunsa jäsenistä, jotka valittivat samasta ongelmasta. Tietojen keräämisen ja analysoinnin avulla voimme oppia paljon enemmän potilaista: ruokamieltymyksistä ja elämäntavoista DNA:n geneettiseen rakenteeseen sekä solujen, kudosten ja elinten metaboliitteihin. Siten Kansas Cityssä sijaitseva Center for Children's Genomic Medicine käyttää potilaita ja analysoi syöpää aiheuttavia geneettisen koodin mutaatioita. Yksilöllinen lähestymistapa jokaiseen potilaaseen, hänen DNA:nsa huomioon ottaen, nostaa hoidon tehokkuuden laadullisesti eri tasolle.

Big Datan käytön ymmärtäminen on ensimmäinen ja erittäin tärkeä muutos lääketieteen alalla. Kun potilas on hoidossa, sairaala tai muu terveydenhuollon laitos voi saada paljon olennaista tietoa henkilöstä. Kerättyjä tietoja käytetään sairauksien uusiutumisen ennustamiseen tietyllä tarkkuudella. Esimerkiksi, jos potilas on saanut aivohalvauksen, lääkärit tutkivat tietoja aivoverenkiertohäiriön ajankohdasta, analysoivat aikaisempien ennakkotapausten välistä väliaikaa (jos sellaisia ​​on) kiinnittäen erityistä huomiota stressitilanteisiin ja raskaaseen fyysiseen rasitukseen potilaan elämässä. Näiden tietojen perusteella sairaalat laativat potilaalle selkeän toimintasuunnitelman aivohalvauksen estämiseksi tulevaisuudessa.

Myös puettavat laitteet auttavat tunnistamaan terveysongelmia, vaikka henkilöllä ei olisi selviä oireita tietystä sairaudesta. Sen sijaan, että lääkäri arvioi potilaan tilaa pitkän tutkimusjakson kautta, hän voi tehdä johtopäätöksiä kuntoseurantalaitteen tai älykellon keräämien tietojen perusteella.

Yksi viimeisimmistä esimerkeistä on . Kun miehellä tutkittiin uutta lääkkeen väliin jääneen kohtauksen varalta, lääkärit havaitsivat, että miehellä oli paljon vakavampi terveysongelma. Tämä ongelma osoittautui eteisvärinäksi. Diagnoosi tehtiin sen ansiosta, että osaston henkilökunta pääsi käsiksi potilaan puhelimeen, eli hänen kuntoseurantaansa liittyvään sovellukseen. Hakemuksen tiedot osoittautuivat avaintekijäksi diagnoosin määrittämisessä, koska miehellä ei tutkimushetkellä havaittu sydämen poikkeavuuksia.

Tämä on vain yksi harvoista tapauksista, jotka näkyvät miksi käyttää big dataa on niin merkittävä rooli lääketieteen alalla nykyään.

4 Tietojen analysoinnista on jo tullut vähittäiskaupan ydin

Käyttäjien kyselyjen ja kohdistuksen ymmärtäminen on yksi suurimmista ja julkisuudellisimmista Big Data -työkalujen sovellusalueista. Big Data auttaa analysoimaan asiakkaiden tottumuksia, jotta voidaan ymmärtää paremmin kuluttajien tarpeita tulevaisuudessa. Yritykset pyrkivät laajentamaan perinteistä tietojoukkoa sosiaalisten verkostojen tiedoilla ja selaimen hakuhistorialla luodakseen mahdollisimman täydellisen asiakaskuvan. Joskus suuret organisaatiot päättävät luoda oman ennustemallinsa globaaliksi tavoitteeksi.

Esimerkiksi Target-myymäläketju onnistuu syvällisen data-analyysin ja oman ennustejärjestelmän avulla määrittämään suurella tarkkuudella - . Jokaiselle asiakkaalle annetaan tunnus, joka puolestaan ​​on linkitetty luottokorttiin, nimeen tai sähköposti. Tunniste toimii eräänlaisena ostoskorina, johon tallennetaan tietoa kaikesta, mitä henkilö on koskaan ostanut. Verkoston asiantuntijat ovat havainneet, että raskaana olevat naiset ostavat aktiivisesti hajusteettomia tuotteita ennen raskauden toista kolmannesta, ja ensimmäisten 20 viikon aikana he käyttävät kalsium-, sinkki- ja magnesiumlisäravinteita. Saatujen tietojen perusteella Target lähettää asiakkaille kuponkeja vauvantuotteisiin. Lasten tavaroiden alennukset "laimennetaan" muiden tuotteiden kuponkeilla, jotta pinnasängyn tai vaippojen ostotarjoukset eivät näytä liian häiritseviltä.

Jopa ministeriöt ovat löytäneet tavan käyttää Big Data -tekniikoita vaalikampanjoiden optimointiin. Jotkut uskovat, että Barack Obaman voitto vuoden 2012 Yhdysvaltain presidentinvaaleissa johtui hänen analyytikkotiiminsä erinomaisesta työstä, joka käsitteli valtavia tietomääriä oikealla tavalla.

5 Big Data suojaa lakia ja järjestystä


Muutaman viime vuoden aikana lainvalvontaviranomaiset ovat kyenneet selvittämään, miten ja milloin Big Dataa käytetään. On tunnettu tosiasia, että National Security Agency käyttää Big Data -teknologioita terrori-iskujen estämiseen. Muut osastot käyttävät kehittyneitä menetelmiä pienempien rikosten estämiseksi.

Los Angelesin poliisilaitos käyttää . Hän tekee niin kutsuttua ennakoivaa poliisitoimintaa. Käyttämällä rikosilmoituksia tietyn ajanjakson aikana, algoritmi tunnistaa alueet, joilla rikollisuutta todennäköisimmin tapahtuu. Järjestelmä merkitsee tällaiset alueet kaupungin kartalle pienillä punaisilla neliöillä ja tiedot välittyvät välittömästi partioautoille.

Chicagon poliisit käyttää Big Data -teknologioita hieman eri tavalla. Windy Cityn lainvalvontaviranomaiset tekevät samoin, mutta sen tarkoituksena on hahmotella "riskipiiri", joka koostuu ihmisistä, jotka voivat olla aseellisen hyökkäyksen uhri tai osallistuja. The New York Timesin mukaan tämä algoritmi antaa henkilölle haavoittuvuusluokituksen hänen rikoshistoriansa perusteella (pidätykset ja ampumiseen osallistuminen, kuuluminen rikollisryhmiin). Järjestelmän kehittäjä kertoo, että vaikka järjestelmä tutkii henkilön rikoshistoriaa, se ei ota huomioon toissijaisia ​​tekijöitä, kuten henkilön rotua, sukupuolta, etnistä taustaa ja sijaintia.

6 Kuinka Big Data -teknologiat auttavat kaupunkeja kehittymään


Veniamin toimitusjohtaja Joao Barros näyttää kartan Wi-Fi-reitittimien seurannasta Porton linja-autoissa

Tietojen analysointia käytetään myös parantamaan useita kaupunkien ja maiden elämän näkökohtia. Voit esimerkiksi optimoida liikennevirtoja, kun tiedät tarkalleen, miten ja milloin käyttää Big Data -tekniikoita. Tätä varten autojen liikkuminen verkossa otetaan huomioon, sosiaalinen media ja säätiedot analysoidaan. Nykyään useat kaupungit ovat sitoutuneet käyttämään data-analytiikkaa yhdistääkseen liikenneinfrastruktuurin muun tyyppiseen infrastruktuuriin apuohjelmia yhdeksi kokonaisuudeksi. Tämä on "älykkään" kaupungin käsite, jossa bussit odottavat myöhäisiä junia ja liikennevalot pystyvät ennustamaan liikenneruuhkia liikenneruuhkien minimoimiseksi.

Big Data -teknologioihin perustuen Long Beachin kaupungissa on käytössä älykkäitä vesimittareita, joita käytetään laittoman kastelun pysäyttämiseen. Aiemmin niitä käytettiin kotitalouksien vedenkulutuksen vähentämiseen (enimmäistulos oli 80 %). Makean veden säästäminen on aina kiireellinen kysymys. Varsinkin kun osavaltiossa on pahin koskaan kirjattu kuivuus.

Los Angelesin liikenneministeriön edustajat ovat liittyneet Big Datan käyttäjien luetteloon. Viranomaiset valvovat liikennekameraantureilta saatujen tietojen perusteella liikennevalojen toimintaa, mikä puolestaan ​​mahdollistaa liikenteen säätelyn. Tietokoneistettu järjestelmä ohjaa noin 4 500 tuhatta liikennevaloa ympäri kaupunkia. Virallisten tietojen mukaan uusi algoritmi auttoi vähentämään ruuhkia 16 %.

7 Markkinoinnin ja myynnin edistyksen moottori


Markkinoinnin Big Data -työkalujen avulla voidaan tunnistaa, mitkä ideat ovat tehokkaimpia edistämään tietyssä myyntisyklin vaiheessa. Data-analyysi määrittää, kuinka investoinnit voivat parantaa asiakassuhteen hallintaa, mikä strategia tulisi valita tulosprosentin kasvattamiseksi ja miten optimoida elinkaari asiakas. Liiketoiminnassa, joka liittyy pilviteknologiat Big Data -algoritmeja käytetään selvittämään, miten asiakkaan hankintakustannukset voidaan minimoida ja heidän elinkaartaan pidentää.

Hinnoittelustrategioiden eriyttäminen asiakkaan järjestelmän sisäisen tason mukaan on ehkä tärkein asia, johon Big Dataa käytetään markkinoinnin alalla. McKinsey havaitsi, että noin 75 prosenttia keskimääräisen yrityksen tuloista tulee ydintuotteista, joista 30 prosenttia on hinnoiteltu väärin. Yhden prosentin hinnankorotus lisää liikevoittoa 8,7 %.

Forresterin tutkimusryhmä havaitsi, että data-analytiikan avulla markkinoijat voivat keskittyä asiakassuhteiden onnistumiseen. Asiakkaan kehityksen suuntaa tarkastelemalla asiantuntijat voivat arvioida heidän uskollisuutensa tasoa sekä pidentää elinkaarta tietyn yrityksen kontekstissa.

Myyntistrategioiden optimointi ja uusille markkinoille tulon vaiheet geoanalytiikan avulla näkyvät biolääketeollisuudessa. McKinseyn mukaan lääkkeitä valmistavat yritykset käyttävät keskimäärin 20–30 prosenttia voitoistaan ​​hallintoon ja myyntiin. Jos yritykset aktivoituvat käyttää Big Dataa Kannattavimpien ja nopeimmin kasvavien markkinoiden tunnistamiseksi kustannuksia alennetaan välittömästi.

Data-analytiikka on keino yrityksille saada täydellinen kuva liiketoimintansa keskeisistä näkökohdista. Liikevaihdon kasvattaminen, kustannusten vähentäminen ja käyttöpääoman vähentäminen ovat kolme tavoitetta, jotka ovat modernia liiketoimintaa yrittää ratkaista analyyttisten työkalujen avulla.

Lopuksi 58 % markkinointijohtajista väittää, että Big Data -teknologioiden käyttöönotto näkyy hakukoneoptimoinnissa (SEO), sähköposti- ja mobiilimarkkinoinnissa, joissa data-analyysillä on merkittävin rooli markkinointiohjelmien muodostuksessa. Ja vain 4 % vähemmän vastaajista luottaa siihen, että Big Data tulee olemaan merkittävässä roolissa kaikissa markkinointistrategioissa monien vuosien ajan.

8 Globaali data-analyysi

Yhtä utelias ei ole... On mahdollista, että koneoppiminen on lopulta ainoa voima, joka pystyy säilyttämään herkän tasapainon. Aihe ihmisen vaikutuksesta ilmaston lämpenemiseen herättää edelleen paljon kiistaa, joten vain luotettavat, suurten tietomäärien analysointiin perustuvat ennustavat mallit voivat antaa tarkan vastauksen. Loppujen lopuksi päästöjen vähentäminen auttaa meitä kaikkia: kulutamme vähemmän energiaan.

Nyt Big Data ei ole abstrakti käsite, joka saattaa löytää sovelluksensa muutaman vuoden kuluttua. Tämä on täysin toimiva teknologiasarja, joka voi olla hyödyllinen lähes kaikilla ihmisen toiminnan aloilla: lääketieteestä ja yleisestä tilauksesta markkinointiin ja myyntiin. Big Datan aktiivisen integroinnin vaihe jokapäiväinen elämä on juuri alkanut, ja kuka tietää, mikä on Big Datan rooli muutaman vuoden kuluttua?

Big data on laaja käsite epätavanomaisille strategioille ja teknologioille, joita tarvitaan tietojen keräämiseen, järjestämiseen ja käsittelyyn suurista tietojoukoista. Vaikka yksittäisen tietokoneen käsittely- tai tallennuskapasiteetin ylittävän tiedon käsittelyn haaste ei ole uusi, tämän tyyppisen tietojenkäsittelyn laajuus ja arvo ovat laajentuneet merkittävästi viime vuosina.

Tämä artikkeli opastaa sinut peruskäsitteiden läpi, joita saatat kohdata tutkiessasi big dataa. Siinä käsitellään myös joitakin tällä alalla tällä hetkellä käytössä olevista prosesseista ja teknologioista.

Mitä on big data?

"Big datan" tarkkaa määritelmää on vaikea ilmaista, koska projektit, toimittajat, ammatinharjoittajat ja liike-elämän ammattilaiset käyttävät sitä hyvin eri tavoin. Tämä huomioon ottaen big data voidaan määritellä seuraavasti:

  • Suuret tietojoukot.
  • Luokka laskentastrategioita ja teknologioita, joita käytetään suurten tietojoukkojen käsittelyyn.

Tässä yhteydessä "suuri tietojoukko" tarkoittaa tietojoukkoa, joka on liian suuri käsiteltäväksi tai tallennettavaksi perinteisillä työkaluilla tai yhdelle tietokoneelle. Tämä tarkoittaa, että suurten tietojoukkojen yleinen mittakaava muuttuu jatkuvasti ja voi vaihdella merkittävästi tapauskohtaisesti.

Big Data Systems

Big datan kanssa työskentelyn perusvaatimukset ovat samat kuin minkä tahansa muun tietojoukon. Prosessin jokaisessa vaiheessa kohdattava valtava mittakaava, käsittelynopeus ja dataominaisuudet asettavat kuitenkin merkittäviä uusia haasteita työkalujen kehitykselle. Useimpien big datajärjestelmien tavoitteena on ymmärtää ja kommunikoida suuria määriä heterogeenista dataa, mikä ei olisi mahdollista perinteisillä menetelmillä.

Vuonna 2001 Gartnerin Doug Laney esitteli "big datan kolme V:tä" kuvaamaan joitain ominaisuuksia, jotka erottavat big datan käsittelyn muun tyyppisestä tietojenkäsittelystä:

  1. Volyymi (tietojen määrä).
  2. Nopeus (tietojen keräämisen ja käsittelyn nopeus).
  3. Variety (erilaisia ​​käsiteltäviä tietoja).

Tietojen määrä

Käsiteltävän tiedon laaja mittakaava auttaa määrittelemään isot datajärjestelmät. Nämä tietojoukot voivat olla suuruusluokkaa suurempia kuin perinteiset tietojoukot, mikä vaatii suurempaa huomiota käsittelyn ja tallennuksen jokaisessa vaiheessa.

Koska vaatimukset ylittävät yhden tietokoneen kyvyt, tietokoneryhmien resurssien yhdistämisen, jakamisen ja koordinoinnin ongelma ilmenee usein. Klusterin hallinta ja algoritmit, jotka voivat pilkkoa tehtäviä pienempiin osiin, ovat yhä tärkeämpiä tällä alueella.

Kertyminen ja käsittelynopeus

Toinen ominaisuus, joka erottaa merkittävästi big datan muista tietojärjestelmistä, on nopeus, jolla tieto liikkuu järjestelmän läpi. Tiedot tulevat usein järjestelmään useista lähteistä, ja ne on käsiteltävä reaaliajassa järjestelmän nykyisen tilan päivittämiseksi.

Tämä välittömän palautteen painottaminen on saanut monet toimijat luopumaan eräsuuntautuneesta lähestymistavasta reaaliaikaisen suoratoistojärjestelmän hyväksi. Dataa lisätään, käsitellään ja analysoidaan jatkuvasti, jotta se pysyy ajan tasalla uuden tiedon tulvista ja antaa arvokkaita oivalluksia varhaisessa vaiheessa, kun se on olennaisinta. Tämä edellyttää vankkoja järjestelmiä, joissa on erittäin saatavilla olevia komponentteja, jotka suojaavat dataputken vikoja vastaan.

Erilaisia ​​käsiteltyjä tietotyyppejä

Big datassa on monia ainutlaatuisia haasteita käsiteltyjen lähteiden laajan valikoiman ja niiden suhteellisen laadun vuoksi.

Tiedot voivat olla peräisin sisäiset järjestelmät, kuten sovellus- ja palvelinlokit, sosiaalisen median kanavista ja muista ulkoisista API-liittymistä, fyysisten laitteiden antureista ja muista lähteistä. Big data -järjestelmien tavoitteena on käsitellä mahdollisesti hyödyllistä dataa alkuperästä riippumatta yhdistämällä kaikki tiedot yhdeksi järjestelmäksi.

Mediamuodot ja -tyypit voivat myös vaihdella huomattavasti. Mediatiedostot (kuvat, videot ja ääni) yhdistetään tekstitiedostoihin, strukturoituihin lokeihin jne. Perinteisemmät tietojenkäsittelyjärjestelmät odottavat tietojen tulevan putkistoon jo merkittyinä, muotoiltuina ja järjestettyinä, mutta suuret datajärjestelmät yleensä nielevät ja tallentavat dataa yrittäessään tallentaa. niitä alkutila. Ihannetapauksessa kaikki raakadatan muunnokset tai muutokset tapahtuvat muistissa käsittelyn aikana.

Muut ominaisuudet

Ajan mittaan harjoittajat ja organisaatiot ovat ehdottaneet alkuperäisen "kolmen V:n" laajennuksia, vaikka näillä innovaatioilla on tapana kuvata ongelmia pikemminkin kuin big datan ominaisuuksia.

  • Todellisuus: Lähteiden moninaisuus ja käsittelyn monimutkaisuus voivat aiheuttaa ongelmia arvioitaessa tietojen laatua (ja siten tuloksena olevan analyysin laatua).
  • Vaihtuvuus: Muutokset tiedoissa johtavat suuriin laatuvaihteluihin. Lisäresursseja voidaan tarvita heikkolaatuisten tietojen tunnistamiseen, käsittelyyn tai suodattamiseen tietojen laadun parantamiseksi.
  • Arvo: Big datan perimmäinen tavoite on arvo. Joskus järjestelmät ja prosessit ovat hyvin monimutkaisia, mikä vaikeuttaa tietojen käyttöä ja todellisten arvojen poimimista.

Big Datan elinkaari

Joten miten suurdataa todella käsitellään? Toteuttamiseen on useita erilaisia ​​lähestymistapoja, mutta strategioissa ja ohjelmistoissa on yhteisiä piirteitä.

  • Tietojen syöttäminen järjestelmään
  • Tietojen tallennus tallennustilaan
  • Tietojen laskeminen ja analyysi
  • Tulosten visualisointi

Ennen kuin tarkastelemme näitä neljää työnkulkuluokkaa yksityiskohtaisesti, puhutaan klusterilaskennasta, tärkeästä strategiasta, jota monet big data -työkalut käyttävät. Tietojenkäsittelyklusterin perustaminen on keskeinen teknologia, jota käytetään elinkaaren jokaisessa vaiheessa.

Klusterilaskenta

Big datan laadusta johtuen yksittäiset tietokoneet eivät sovellu tietojen käsittelyyn. Klusterit sopivat tähän paremmin, koska ne pystyvät käsittelemään big datan tallennus- ja laskentatarpeita.

Big data -klusterointiohjelmisto yhdistää monien pienten koneiden resurssit ja pyrkii tarjoamaan useita etuja:

  • Resurssien yhdistäminen: Suurten tietojoukkojen käsittely vaatii suuria määriä suoritin- ja muistiresursseja sekä paljon vapaata tallennustilaa.
  • Korkea käytettävyys: Klusterit voivat tarjota eritasoisia vikasietokykyä ja saatavuutta, jotta laitteisto- tai ohjelmistovirheet eivät vaikuta tietojen käyttöön ja käsittelyyn. Tämä on erityisen tärkeää reaaliaikaisen analytiikan kannalta.
  • Skaalautuvuus: klusterit tukevat nopeaa vaakasuuntaista skaalausta (uusien koneiden lisääminen klusteriin).

Jotta voit työskennellä klusterissa, tarvitset työkaluja klusterin jäsenyyden hallintaan, resurssien jakelun koordinointiin ja yksittäisten solmujen työskentelyn ajoittamiseen. Klusterijäsenyyttä ja resurssien allokointia voidaan käsitellä ohjelmilla, kuten Hadoop YARN (Yet Another Resource Negotiator) tai Apache Mesos.

Esivalmistettu laskentaklusteri toimii usein selkärankana, jonka kanssa muut tietokoneet käsittelevät tietoja. ohjelmisto. Laskentaklusteriin osallistuvat koneet liittyvät tyypillisesti myös hajautetun tallennusjärjestelmän hallintaan.

Vastaanotetaan tietoja

Tietojen käsittely on prosessi, jossa järjestelmään lisätään raakadataa. Tämän toimenpiteen monimutkaisuus riippuu suurelta osin tietolähteiden muodosta ja laadusta sekä siitä, missä määrin tiedot täyttävät käsittelyn vaatimukset.

Voit lisätä big dataa järjestelmään erikoistyökaluilla. Apache Sqoopin kaltaiset tekniikat voivat ottaa olemassa olevia tietoja relaatiotietokannoista ja lisätä ne big datajärjestelmään. Voit myös käyttää Apache Flume- ja Apache Chukwa -projekteja, jotka on suunniteltu sovellus- ja palvelinlokien kokoamiseen ja tuontiin. Viestinvälittäjiä, kuten Apache Kafkaa, voidaan käyttää rajapintana eri datageneraattoreiden ja ison datajärjestelmän välillä. Kehykset, kuten Gobblin, voivat yhdistää ja optimoida kaikkien liukuhihnan lopussa olevien työkalujen tuotoksen.

Tietojen käsittelyn aikana suoritetaan yleensä analysointi, lajittelu ja merkitseminen. Tätä prosessia kutsutaan joskus ETL:ksi (extract, transform, load), joka tarkoittaa extract, transform ja load. Vaikka termi yleensä viittaa vanhoihin tietovarastointiprosesseihin, sitä käytetään joskus suuriin tietojärjestelmiin. Tyypillisiä toimintoja ovat saapuvien tietojen muokkaaminen muotoilua, luokittelu ja merkitseminen, suodatus tai tietojen vaatimustenmukaisuuden tarkistaminen.

Ihannetapauksessa vastaanotettu data läpikäy minimaalisen muotoilun.

Tietovarasto

Kun tiedot on vastaanotettu, ne siirtyvät tallennustilaa hallitseviin komponentteihin.

Tyypillisesti raakadatan tallentamiseen käytetään hajautettuja tiedostojärjestelmiä. Ratkaisut, kuten Apache Hadoopin HDFS, mahdollistavat suurten tietomäärien kirjoittamisen useisiin klusterin solmuihin. Tämä järjestelmä tarjoaa laskentaresurssien pääsyn tietoihin, voi ladata tietoja klusterin RAM-muistiin muistitoimintoja varten ja käsitellä komponenttien vikoja. HDFS:n sijasta voidaan käyttää muita hajautettuja tiedostojärjestelmiä, mukaan lukien Ceph ja GlusterFS.

Tietoja voidaan myös tuoda muihin hajautettuihin järjestelmiin jäsennellymmän pääsyn saamiseksi. Hajautetut tietokannat, erityisesti NoSQL-tietokannat, sopivat hyvin tähän rooliin, koska ne pystyvät käsittelemään heterogeenista dataa. On olemassa monia erilaisia ​​tyyppejä hajautettuja tietokantoja, valinta riippuu siitä, kuinka haluat järjestää ja esittää tiedot.

Tietojen laskeminen ja analyysi

Kun tiedot ovat saatavilla, järjestelmä voi aloittaa käsittelyn. Laskentakerros on ehkä järjestelmän vapain osa, koska vaatimukset ja lähestymistavat voivat vaihdella huomattavasti tiedon tyypistä riippuen. Tietoja käsitellään usein toistuvasti joko käyttämällä yhtä työkalua tai käyttämällä useita työkaluja erityyppisten tietojen käsittelemiseen.

Eräkäsittely on yksi menetelmistä suurten tietojoukkojen laskentaan. Tämä prosessi sisältää tietojen jakamisen pienempiin osiin, kunkin osan ajastamisen erilliselle koneelle, tietojen järjestämisen uudelleen välitulosten perusteella ja sitten lopputuloksen laskemisen ja keräämisen. Apache Hadoopin MapReduce käyttää tätä strategiaa. Eräkäsittely on hyödyllisintä, kun käsitellään erittäin suuria tietojoukkoja, jotka vaativat melko paljon laskentaa.

Muut työmäärät vaativat reaaliaikaista käsittelyä. Tiedot on kuitenkin käsiteltävä ja valmisteltava välittömästi, ja järjestelmän on reagoitava ajoissa, kun uutta tietoa tulee saataville. Yksi tapa toteuttaa reaaliaikainen käsittely on käsitellä jatkuvaa tietovirtaa, joka koostuu yksittäisistä elementeistä. Toinen Yleiset luonteenpiirteet Reaaliaikaiset prosessorit laskevat tiedot klusterin muistissa välttäen tarvetta kirjoittaa levylle.

Apache Storm, Apache Flink ja Apache Spark tarjoavat erilaisia ​​tapoja toteuttaa reaaliaikainen käsittely. Nämä joustavia teknologioita voit valita parhaan lähestymistavan jokaiseen yksittäiseen ongelmaan. Yleensä reaaliaikainen käsittely soveltuu parhaiten järjestelmään muuttuvien tai nopeasti lisättyjen pienten tietopalojen analysointiin.

Kaikki nämä ohjelmat ovat kehyksiä. On kuitenkin monia muita tapoja laskea tai analysoida dataa big datajärjestelmässä. Nämä työkalut liittyvät usein yllä oleviin kehyksiin ja tarjoavat lisärajapintoja olla vuorovaikutuksessa alempien tasojen kanssa. Esimerkiksi Apache Hive tarjoaa tietovarastoliittymän Hadoopille, Apache Pig tarjoaa kyselyrajapinnan ja vuorovaikutuksia SQL-tiedot tarjotaan käyttämällä Apache Drilliä, Apache Impalaa, Apache Spark SQL:ää ja Prestoa. Koneoppiminen käyttää Apache Sparkin Apache SystemML:ää, Apache Mahoutia ja MLlibiä. Suoraan analyyttiseen ohjelmointiin, jota dataekosysteemi tukee laajasti, käytetään R:tä ja Pythonia.

Tulosten visualisointi

Usein tiedon trendien tai muutosten tunnistaminen ajan mittaan on tärkeämpää kuin tuloksena saadut arvot. Tietojen visualisointi on yksi hyödyllisimmistä tavoista tunnistaa trendejä ja järjestää suuria määriä tietopisteitä.

Reaaliaikaista käsittelyä käytetään sovellusten ja palvelinten mittareiden visualisointiin. Tiedot muuttuvat usein, ja suuret vaihtelut mittareissa osoittavat yleensä merkittävän vaikutuksen järjestelmien tai organisaatioiden terveyteen. Prometheuksen kaltaisia ​​projekteja voidaan käyttää datavirtojen ja aikasarjojen käsittelyyn ja näiden tietojen visualisointiin.

Yksi suosittu tapa visualisoida tietoja on elastinen pino, joka tunnettiin aiemmin nimellä ELK-pino. Logstashia käytetään tiedon keräämiseen, Elasticsearchia tietojen indeksointiin ja Kibanaa visualisointiin. Elastic-pino voi toimia ison datan kanssa, visualisoida laskelmien tuloksia tai olla vuorovaikutuksessa raakamittareiden kanssa. Samanlainen pino voidaan saada yhdistämällä Apache Solr indeksointia varten Kibana-haarukkaan nimeltä Banana visualisointia varten. Tämän pinon nimi on Silk.

Toinen visualisointitekniikka tietojen kanssa vuorovaikutukseen on asiakirjat. Tällaiset projektit mahdollistavat tietojen interaktiivisen tutkimisen ja visualisoinnin sopivassa muodossa jakaminen ja tietojen esittäminen. Suosittuja esimerkkejä tämäntyyppisistä käyttöliittymistä ovat Jupyter Notebook ja Apache Zeppelin.

Big Datan sanasto

  • Big data on laaja termi datajoukoille, joita tavanomaiset tietokoneet tai työkalut eivät pysty käsittelemään kunnolla niiden määrän, nopeuden ja vaihtelevuuden vuoksi. Termiä käytetään yleisesti myös teknologioissa ja strategioissa tällaisten tietojen kanssa työskentelemiseksi.
  • Eräkäsittely on laskentastrategia, joka sisältää tietojen käsittelyn suurissa sarjoissa. Tyypillisesti tämä menetelmä on ihanteellinen ei-kiireellisten tietojen käsittelyyn.
  • Klusteroitu laskenta on käytäntö, jossa yhdistetään useiden koneiden resurssit ja hallitaan niiden jaettuja ominaisuuksia tehtävien suorittamiseksi. Tässä tapauksessa tarvitaan klusterinhallintakerros, joka käsittelee yksittäisten solmujen välistä viestintää.
  • Datajärvi on suuri arkisto kerättyä dataa suhteellisen raakatilassa. Termiä käytetään usein viittaamaan jäsentämättömään ja usein muuttuvaan big dataan.
  • Tiedonlouhinta on laaja termi erilaisille käytännöille löytää kuvioita suurista tietojoukoista. Se on yritys järjestää datamassa ymmärrettävämmäksi ja yhtenäisemmäksi tiedoiksi.
  • Tietovarasto on suuri, organisoitu arkisto analysointia ja raportointia varten. Toisin kuin datajärvi, varasto koostuu muotoilluista ja hyvin järjestetyistä tiedoista, jotka on integroitu muihin lähteisiin. Tietovarastot mainitaan usein big datan yhteydessä, mutta ne ovat usein osa perinteisiä tietojenkäsittelyjärjestelmiä.
  • ETL (extract, transform, and load) – tietojen purkaminen, muuntaminen ja lataaminen. Tämä on prosessi raakadatan hankkimiseksi ja valmistelemiseksi käyttöä varten. Se liittyy tietovarastoihin, mutta tämän prosessin piirteitä löytyy myös suurten datajärjestelmien putkistosta.
  • Hadoop on avoimen lähdekoodin Apache-projekti lähdekoodi big dataa varten. Se koostuu hajautetusta tiedostojärjestelmä nimeltä HDFS ja klusterin ja resurssien ajoitus nimeltä YARN. MapReduce-laskentamoottori tarjoaa eräkäsittelyominaisuudet. Nykyaikaiset Hadoop-asennukset voivat käyttää muita laskenta- ja analytiikkajärjestelmiä MapReducen rinnalla.
  • Muistissa oleva laskenta on strategia, joka sisältää kokonaisten toimivien tietojoukkojen siirtämisen klusterin muistiin. Välilaskutoimituksia ei kirjoiteta levylle, vaan ne tallennetaan muistiin. Tämä antaa järjestelmille valtavan nopeusedun I/O-sidottuihin järjestelmiin verrattuna.
  • Koneoppiminen on tutkimusta ja käytäntöä suunnitella järjestelmiä, jotka voivat oppia, mukauttaa ja kehittyä niille syötetyn tiedon perusteella. Tämä tarkoittaa yleensä ennustavien ja tilastollisten algoritmien toteuttamista.
  • Kartan vähentäminen (jota ei pidä sekoittaa Hadoopin MapReduceen) on laskentaklusterin ajoitusalgoritmi. Prosessi sisältää tehtävän jakamisen solmujen kesken ja välitulosten saamisen, sekoittamisen ja sitten yksittäisen arvon tulostamisen jokaiselle sarjalle.
  • NoSQL on laaja termi, joka viittaa tietokantoihin, jotka on suunniteltu perinteisen relaatiomallin ulkopuolelle. NoSQL-tietokannat sopivat hyvin big datalle joustavuuden ja hajautetun arkkitehtuurinsa ansiosta.
  • Virtauskäsittely on käytäntö, jossa lasketaan yksittäisiä datakappaleita niiden liikkuessa järjestelmän läpi. Tämä mahdollistaa reaaliaikaisen data-analyysin ja soveltuu aikaherkkien tapahtumien käsittelyyn nopeilla mittareilla.
Tunnisteet: ,