Prediktivmodellering och maskininlärningsprojekt är ofta stora projekt som kräver långa tidsramar (och då har vi räknat bort åren det tar att samla in all data). Därför är förstudier ett viktigt verktyg för att få ut det mesta ur projekten när de väl startar.

I en Advanced Analytics – readiness studie tittar vi på hur ert företag bäst kan förberedas inför framtida modellerings- och maskininlärningsprojekt. Vi går igenom hur datainsamlingen har sett ut historiskt, hur väl den speglar dagens verksamhet och framför allt om den är beskrivande nog för de frågeställningar som man har. Vi jobbar framförallt med två viktiga aspekter;

1. Varje variabel ska vara värdefull för analysen.
2. Den ska samlas in med en sådan kvalité att den blir användbar.

Det kanske låter uppenbart, men det är inte alltid lika självklart som det låter.

Transport- och resesektorn: från årsstatistik till prediktionsmodellering

Ett konkret exempel är verksamheter där man jobbar med tidsanpassad service, t.ex. bussar, tåg, taxi etc. Under många år har man samlat in och sparat data om avgångar, förseningar och resesträckor. Man har årligen sammanställt hur väl verksamheten presterar genom att räkna ut värden kring antalet försenade bussar per år, totala antalet tågförseningar eller hur antalet taxisträckor som hade mindre förseningar jämfört med året innan.

Om man tittar på de två viktiga aspekterna, värde och användbarhet, är det uppenbart att variablerna har ett värde då de beskriver verksamheten och har kunnat användas i flera år. Däremot är det inte lika uppenbart att kvalitén (användbarheten) är god nog, för när man tittar närmare så har all data sparats i minuter. Ett naturligt val historiskt sätt, då man inte behövde mer precision för årsstatistiken. Men, när man nu vill bygga prediktionsmodeller hur enheterna (bussarna/tågen/taxibilarna) påverkar varandra, måste man ha allt på sekund-nivå, annars kan man inte urskilja hur de passerar varandra geografiskt. Det går inte att gå från sparade minuter till sekunder i efterhand.

Värdeaspekten – samla inte data i blindo

Det är lätt att falla i gropen som skanderar ’mer data’ i tron att det löser allt. Men tyvärr är inte lösningen så enkel. Det ligger stort värde i att skapa en strategisk plan innan datalagringen börjar, genom t.ex. en readiness studie. På så sätt ökar vi chansen att lyckas genom att dataselektionen och insamlingen blir noggrant planerade från start. Även mål/en med prediktionsmodelleringen sätts i förväg och blir från start förankrade i verksamheten. Det finns tillräckligt med komplicerande faktorer inneboende i modellering- och maskininlärningsprocessen i sig, så genom att reducera några redan i de tidigare faserna, ökar man möjligheten att skapa bra modeller som har effekt i verksamheten.

Det bästa sättet att förbereda sig på är dock alltid att man förstår sig på sin data och vad de berättar om verksamheten och trenderna.

Mer det blir det mer om i nästa bloggpost!

Här hittar du alla bloggar i vår Advanced Analytics serie

Del 1 – Attollo tar ett grepp om Advanced Analytics

Del 2 – Advanced Analytics bearbetar klassiska frågor i ny tappning

Del 3 – Advanced Analytics – Förbered idag var redo i morgon

Del 4 – Advanced Analytics – readiness studie