Tortura d’aigua: una analogia analítica va massa lluny

analítica per degoteig

Les dades, com l’aigua, es presenten de moltes formes. La ment humana ha evolucionat fins a filtrar la majoria de les dades que se’ns presenten perquè simplement n’hi ha molta.

Quan obriu els ulls i les orelles, hi ha dades a tot arreu. El color de la paret, el so de l’aire condicionat i l’olor del cafè del vostre veí es tracten com la humitat. L’aigua està a l’aire tot el temps, però no és útil posar-hi molta atenció.

Quan l’aigua es condensa en boira, l’obliga a veure-la i fa que sigui encara més difícil entendre el món que us envolta. Els conjunts de dades incomplets, les dades corrompudes, les males ciències, les conclusions falses i el biaix cognitiu us fan perdre el camí entre la boira.

Les dades cauen com la pluja. Quan només n’hi ha una mica, és increïblement insatisfactori: és suficient per embrutar el cotxe i confondre la conversa. Et trobes netejant el lloc de les ulleres mentre algú escolta algun punt de dades aleatori, recollit d’alguna font fosca.

  • Aigua ranci en un estany poc profund és perillós. Les dades, recollides d’un subministrament poc fiable, ni netejades ni normalitzades i que es deixen estancar, poden portar fàcilment a conclusions errònies.
  • A degoteig constant d'aigua pot ser suficient per omplir una cantina o mantenir un ecosistema forestal. Només tres punts de dades (el nombre de correus electrònics enviats, versus oberts, versus clics) poden mantenir un programa de màrqueting.
  • A flux més sa de dades en forma de petit rierol es poden utilitzar per banyar-se. Un flux continu de dades permet fer comparacions i comparacions històriques. L'optimització de la pàgina de destinació es pot aconseguir amb dades de conversió constants.
    A riu modest pot alimentar un molí per serrar fusta o moldre blat. Un motor de recomanacions només necessita l’aportació fiable d’un grapat d’afluents per proporcionar un augment del valor dels carros de la compra.
  • A cascada pot impulsar una enorme roda hidràulica i una afluència suficient d’informació pot conduir a un sistema de contingut dinàmic i en temps real.
  • A riu això és prou ampli i profund per donar suport a tota una indústria del transport. Les dades suficients poden fer flotar barcasses i vaixells de càrrega en forma de col·lecció de cookies de xarxes publicitàries, agregadors de dades del programa de targetes de fidelització i corredors de dades.

Quan les dades arriben en quantitats previstes en els temps previstos, es poden capturar, canalitzar i utilitzar. Els sistemes de reg, les preses i els embassaments proporcionen una sensació de control i permeten construir una infraestructura cada vegada més àmplia amb canals, panys i preses. Els magatzems de dades s’han construït sobre fluxos menys fiables.

La neteja és al costat de la divinitat

L’aigua neta és vital per a l’èxit de la vida, el reg, les centrals elèctriques en funcionament, etc. La definició de “neta” pot canviar a l’efecte; està bé si hi ha algues a l'aigua que refreden una central elèctrica i no és acceptable si hi ha més de 10 parts per mil milions d'arsènic a l'aigua potable.

Les dades són les mateixes. En una sol·licitud de correu directe, el fet que tingueu el títol d'una persona (senyor, senyora, senyora) és irrellevant ... tret que envieu a metges. Però les dades brutes us enganxaran cada cop.

Com a científic principal de dades dels EUA, DJ Patil, poseu-ho en una cimera de la primera ronda de CTO: "Si no esteu pensant en com mantenir netes les vostres dades des del principi, esteu f ^ ¢ & ed. Ho garanteixo. Intentar netejar-lo després del fet trigarà almenys mesos ".

Si escalfeu aigua fins al punt d’ebullició, pot alimentar tota una revolució industrial. Les dades semblen fer el mateix. Des del moment en què els ordinadors podien emmagatzemar i calcular, les dades s’han recollit tan ràpidament com es podria crear l’equip d’emmagatzematge per fer-ho.

El llac de dades

A mesura que les dades d’aquests afluents passen a través dels motors dels molins, tot acaba al llac, darrere de la presa. Com que les dades es publiquen de manera controlada, alimenta les turbines de la indústria de dades; aquells motors gegants de processament de dades amb noms com Google i Facebook. Aquí no hi haurà sequera.

I, finalment, hi ha una bassa d'aigua profunda, esperant que l'analista pugui capbussar-se. Equip de busseig i pistola de llança a la mà, l'analista investiga les profunditats, traça un nou terreny i descobreix noves espècies. És un moment molt emocionant per ser explorador de dades.

Per això, tants d 'ells han estat presentant - se al Cimera eMetrics des del 2002. La propera oportunitat és a Boston, del 27 de setembre a l’1 d’octubre del 2015.

Registre de cimeres eMetrics

Un pont llunyà

I què hi ha del poder de les dades per tallar el proper Gran Canó? Què passa amb la fusió glacial de dades estructurades? Com tractem les aigües residuals en un món cada cop més conscient de la privadesa?

Són preguntes per a una altra vegada i aigua sota el pont.

Què et sembla?

Aquest lloc utilitza Akismet per reduir el correu no desitjat. Esbrineu com es processa el vostre comentari.