Många företag är i startblocken eller funderar på att starta Advanced Analytics projekt för att bygga maskininlärningsmodeller för sin verksamhet. Man har sedan tidigare samlat in data för BI-utveckling så som till finansiell rapportering. Nu tänker man sig använda denna data för att sjösätta ett första Advanced Analytics projekt. Men det är inte säkert att denna data är anpassad för just Advanced Analytics och maskininlärning. Många gånger har denna typ av analyser andra krav och specifikationer än den historiska datainsamlingen har haft. Så trots att man sitter på miljontals rader av data finns det en överhängande risk att det inte finns tillräckligt med data av den kvalité och typ som behövs. En situation som ingen vill hamna i.

Datainsamling och Advanced Analytics

Data kan komma i många olika former och kvalité, och skilda verksamhetsprojekt har sina specifika krav och önskemål. Om inga tidigare Advanced Analytics projekt har genomförts finns det därför en stor risk att redan insamlade data inte kommer att hålla måttet för att kunna bygga exempelvis prediktiva modeller.

Varje situation är unik men ett typexempel är få-valsvariabler som samlas in som fritext. T.ex. kön på husdjur som borde ha cirka 6 olika varianter (hane, hona, kastrerad hane, kastrerad hona, etc.) men då inmatningen av variabeln historiskt har skett med fritext så innehåller den istället över 250 unika värden (hane, ha, kast. Ha, ha, kastre han, etc.). Något som i detta fall går att justera senare men det kostar många timmar av arbete och det finns en risk att information försvinner i reningsprocessen.

Fritextinmatning kan dock lätt spåra ur och variabler med över 30 000 unika värden är inte ovanligt och då blir arbetet att rensa data mycket mer komplext och tidskrävande. Så det är värt att tänka till innan data samlas in och diskutera hur just denna variabel kommer att användas och anpassa insamlingen därefter.

Börja idag – se till att rätt data samlas in på rätt sätt

Att data som har samlats in och sparats under flera år inte går att använda kan vara förödande och kosta mycket pengar. Framför allt kan inkomplett data leda till svaga modeller utan önskad effekt i verksamheten vilket i sin tur leder till att verksamheten tappar suget för AI generellt. Men det går lätt att undvika genom god förberedelse för kommande Advanced Analytics projekt redan innan de kommer upp på agendan, alltså när data ska börja samlas in.

Genom att göra en genomlysning av den nuvarande och/eller planerade datainsamlingen och en förstudie kan man både få en inblick i hur maskininlärning kan hjälpa verksamheten men framför allt se till att man samlar in data på rätt sätt för potentiella Advanced Analytics projekt i framtiden.

> Attollo erbjuder just denna typ av förarbete kallade Advanced Analytics-readyness studie.

I nästa bloggpost om Advanced Analytics berättar vi om vad ett Advanced Analytics-readyness test är och varför det är ett bra första steg idag även om man inte har tänkt sig att starta ett maskininlärningsprojekt inom snar framtid.

Här hittar du alla bloggar i vår Advanced Analytics serie

Del 1 – Attollo tar ett grepp om Advanced Analytics

Del 2 – Advanced Analytics bearbetar klassiska frågor i ny tappning

Del 3 – Advanced Analytics – Förbered idag var redo i morgon

Del 4 – Advanced Analytics – readiness studie