Skip to main content

Shit in. Shit out.

Clean gjør akkurat det som det høres ut som. Vasker data.

Advarsel: når har du beveger deg et stykke ned i materien. Dette er en beskrivelse av et av flere lokale skript vi kjører når vi vasker data ifm. en migrering.
contacts

140

tusen kontakter vasket (minst)

improved data quality

20

kunder som har fått bedre datakvalitet

Clean

Et Python-verktøy for rensing og validering av kunde- og selskapsdata fra CSV-filer.

Databehandling

  • Behandler både kontakt- og selskapsdata

  • Validerer og standardiserer:

    • E-postadresser (format og domene)

    • Telefonnummer (norske og internasjonale formater)

    • Navn (fornavn og etternavn)

  • Håndterer flere e-poster per post (ekstra flyttes til other_emails)

  • Lagrer resultater fra domenesjekk (24 timers varighet)

  • Identifiserer duplikater

  • Støtter tilpassede eksportbaner og CSV-avgrensere

Telefonnummerbehandling

  • Norsk nummerformatering

  • Støtte for internasjonale numre

  • Håndtering av kortnumre

  • Deteksjon av mobil/fasttelefon

  • Statussporing:

    • valid norwegian – Gyldig norsk format

    • valid intl – Gyldig internasjonalt format

    • shortcode – 5-sifret kortnummer

    • invalid length – Feil antall sifre

    • invalid format – Matcher ikke noe gyldig format

    • moved to mobile – Fastnummer flyttet til mobil

    • moved to phone – Mobilnummer flyttet til fasttelefon

    • empty – Ingen nummer oppgitt

E-postvalidering

  • Formatvalidering

  • Domenesjekk (MX-record)

  • Håndtering av flere e-postadresser

  • Duplikatdeteksjon

  • Statussporing:

    • valid – Gyldig format og domene

    • invalid domain – Gyldig format men ugyldig domene

    • invalid format – Ugyldig e-postformat

    • duplicate – Duplikat e-postadresse

    • (tom) – Tomt e-postfelt

Navnebehandling

  • Håndterer både full_name og first_name/last_name-felter

  • Deler fulle navn ved siste mellomrom

  • Standardiserer skrivemåte (Title Case)

  • Bevarer sammensatte etternavn

  • Håndterer tomme verdier og unødvendige mellomrom