CRM i plataformes de dadesComerç electrònic i venda al detallMàrqueting per correu electrònic i automatització

Estandardització de dades: definir, provar i transformar

Tot i que les organitzacions es mouen cap a l'establiment d'una cultura de dades a l'empresa, moltes encara lluiten per encertar les seves dades. L'extracció de dades de fonts dispars i l'obtenció de diferents formats i representacions del que se suposa que és la mateixa informació provoca greus bloquejos en el vostre viatge de dades.

Els equips experimenten retards i errors mentre duen a terme les seves operacions rutinàries o extreuen coneixements dels conjunts de dades. Aquests problemes obliguen les empreses a introduir un mecanisme d'estandardització de dades, que garanteix que les dades estiguin presents en una visió coherent i uniforme a tota l'organització. 

Fem una ullada més a fons al procés d'estandardització de dades: què significa, els passos que comporta i com podeu aconseguir una visualització de dades estàndard a la vostra empresa.

Què és l'estandardització de dades?

En poques paraules, l'estandardització de dades és el procés de transformació dels valors de les dades d'un format incorrecte a un de correcte. Per permetre una visualització de dades estandarditzada, uniforme i coherent a tota l'organització, els valors de les dades han d'ajustar-se a l'estàndard requerit, en el context dels camps de dades als quals pertanyen.

Exemple d'errors d'estandardització de dades

Per exemple, el mateix registre del client que resideix en dues ubicacions diferents no hauria de contenir discrepàncies en noms i cognoms, adreça electrònica, número de telèfon i adreça residencial:

NomCorreu electrònicNúmero de telèfonData de NaixementGènere sentitDirecció residencial
Joan Oneeljohn.neal@gmail.com516465949414/2/1987M11400 W Olimpic BL # 200
1 Font
NomCognomCorreu electrònicNúmero de telèfonData de NaixementGènere sentitDirecció residencial
JohnO'nealjohn.neal_gmail.com+ 1 516-465-94942/14/1987Home11400 W Olimpic 200
2 Font

A l'exemple anterior, podeu veure els següents tipus d'incoherències:

  1. Estructural: La primera font inclou el nom del client com un sol camp, mentre que la segona l'emmagatzema com a dos camps: nom i cognom.
  2. Patró: La primera font té a patró de correu electrònic vàlid s'aplica al camp de l'adreça de correu electrònic, mentre que al segon li falta visiblement @ símbol. 
  3. Tipus de dades: La primera font només permet els dígits al camp Número de telèfon, mentre que la segona té un camp de tipus cadena que també conté símbols i espais.
  4. Format: La primera font té la data de naixement en el format MM/DD/AAAA, mentre que la segona la té en el format DD/MM/AAAA. 
  5. Valor del domini: La primera font permet emmagatzemar el valor de gènere com a M o F, mentre que la segona font emmagatzema el formulari complet: home o dona.

Aquestes incoherències de dades us porten a cometre errors greus que poden fer que la vostra empresa perdi molt de temps, costos i esforços. Per aquest motiu, implementar un mecanisme d'extrem a extrem per al estandardització de dades és crucial per mantenir la higiene de les vostres dades.

Com estandarditzar les dades?

L'estandardització de dades és un procés senzill de quatre passos. Però depenent de la naturalesa de les inconsistències presents a les vostres dades i del que intenteu aconseguir, els mètodes i les tècniques utilitzats per a l'estandardització poden variar. Aquí, presentem una regla general genèrica que qualsevol organització pot utilitzar per superar els seus errors d'estandardització. 

  1. Definiu quin és l'estàndard

Per assolir qualsevol estat, primer cal definir què és realment l'estat. El primer pas de qualsevol procés d'estandardització de dades és identificar què cal aconseguir. La millor manera de saber què necessiteu és entendre els requisits empresarials. Heu d'escanejar els vostres processos empresarials per veure quines dades es necessiten i en quin format. Això us ajudarà a establir una línia de base per als vostres requisits de dades.

Una definició estàndard de dades ajuda a identificar:

  • Els actius de dades crucials per al vostre procés de negoci, 
  • Els camps de dades necessaris d'aquests actius,
  • El tipus de dades, el format i el patró amb què han d'ajustar-se els seus valors,
  • L'interval de valors acceptables per a aquests camps, etc.
  1. Prova conjunts de dades amb l'estàndard definit

Un cop tingueu una definició estàndard, el següent pas és provar el rendiment dels vostres conjunts de dades amb ells. Una manera d'avaluar-ho és utilitzar perfil de dades eines que generen informes complets i troben informació com el percentatge de valors que s'ajusten als requisits del camp de dades, com ara:

  • Els valors segueixen el tipus i el format de dades requerits?
  • Els valors es troben fora de l'interval acceptable?
  • Els valors utilitzen formes escurçades, com ara abreviatures i sobrenoms?
  • Són adreces estandarditzades segons sigui necessari, com ara estandardització USPS per a adreces dels EUA?
  1. Transformar valors no conformes

Ara per fi ha arribat el moment de transformar valors que no s'ajusten a l'estàndard definit. Fem una ullada a les tècniques habituals de transformació de dades utilitzades.

  • Anàlisi de dades – Alguns camps de dades s'han d'analitzar primer per obtenir els components de dades necessaris. Per exemple, analitzar el camp del nom per separar el nom, el segon i el cognom, així com els prefixos o sufixos presents al valor.
  • Conversió de tipus i format de dades – És possible que hàgiu d'eliminar els caràcters no conformes durant la conversió, per exemple, eliminant símbols i alfabets d'un número de telèfon només de dígits.
  • Concordança i validació de patrons – La conversió de patró es fa configurant una expressió regular per al patró. Per als valors d'adreces de correu electrònic que s'ajusten a una expressió regular, s'han d'analitzar i transformar en el patró definit. una adreça de correu electrònic es pot validar mitjançant l'expressió regular:
^[a-zA-Z0-9+_.-]+@[a-zA-Z0-9.-]+$
  • Expansió de l'abreviatura – Els noms de les empreses, les adreces i els noms de les persones sovint contenen formularis abreujats que poden fer que el vostre conjunt de dades contingui diferents representacions de la mateixa informació. Per exemple, és possible que hàgiu d'ampliar els estats del país, com ara convertir Nova York a Nova York.
  • Eliminació de sorolls i correcció ortogràfica – Algunes paraules realment no afegeixen cap significat a un valor i, en canvi, introdueixen molt soroll en un conjunt de dades. Aquests valors es poden identificar en un conjunt de dades executant-lo amb un diccionari que conté aquestes paraules, marcant-los i decidint quines eliminar permanentment. El mateix procés es pot executar per trobar faltes d'ortografia i errors d'escriptura.
  1. Torneu a provar el conjunt de dades amb l'estàndard definit

En el pas final, el conjunt de dades transformat es torna a provar amb l'estàndard definit per esbrinar el percentatge d'errors d'estandardització de dades que s'han corregit. Per als errors que encara queden al vostre conjunt de dades, podeu ajustar o reconfigurar els vostres mètodes i tornar a executar les dades durant el procés. 

Embolicar

La quantitat de dades que es generen avui en dia, i la varietat d'eines i tecnologies utilitzades per capturar aquestes dades, està fent que les empreses s'enfrontin al terrible embolic de dades. Tenen tot el que necessiten, però no estan del tot segurs per què les dades no estan presents en una forma i forma acceptables i utilitzables. L'adopció d'eines d'estandardització de dades pot ajudar a rectificar aquestes incoherències i permetre una cultura de dades molt necessària a tota la vostra organització.

Zara Ziad

Zara Ziad és analista de màrqueting de productes a Escala de dades amb formació en informàtica. Li apassiona el disseny d'una estratègia de contingut creativa que destaqui els problemes d'higiene de dades del món real als quals s'enfronten moltes organitzacions actuals. Produeix contingut per comunicar solucions, consells i pràctiques que poden ajudar les empreses a implementar i aconseguir una qualitat de dades inherent als seus processos d'intel·ligència empresarial. S'esforça per crear contingut dirigit a un ampli ventall de públics, des del personal tècnic fins a l'usuari final, així com comercialitzar-lo a través de diverses plataformes digitals.

Articles Relacionats

Torna al botó superior
a prop

Adblock detectat

Martech Zone és capaç de proporcionar-vos aquest contingut sense cap cost perquè monetitzem el nostre lloc mitjançant ingressos publicitaris, enllaços d'afiliats i patrocinis. Agrairem que elimineu el bloquejador d'anuncis mentre visualitzeu el nostre lloc.