Förstå samband och förutspå framtiden med regressionsanalys

Oavsett om du arbetar direkt med eller agerar beställare av dataanalyser är det väsentligt att du är bekväm med grundläggande funktioner och statistika begrepp för att förstå orsaker, samband och kanske det mest spännande av allt, att förutspå framtiden med hjälp av prediktiv analys.

När fler (digitala) kanaler, system och verktyg byggs ihop till ett mer sammanhållet ekosystem skapas nya möjligheter för att se mönster i all mängd genererad data. Det är allmänt känt att organisationer som lyckas drar nytta av sin mest relevanta data har bäst förutsättningar till snabbast förändring. Det är inte av slump som startups organisatoriskt placerar marknad och teknikavdelningen nära varandra för att snabbt etablera en datadriven kultur. Genom att jämföra hur olika datakällor samverkar mot framtagna mål, kan insatser och pengar fördelas där de får störst effekt.

Utmaningar

Verktyg för online marknadsföring, webbplatsstatistik, lojalitetssystem, CRM-system, sociala media, transaktionsdata etc. rapporterar som regel en förenklad ögonblicksbild av verkligheten, ibland mer slumpmässig än vetenskaplig. Antingen går den gröna pilen upp eller så går den röda pilen ner. Med flera källor, segment och parallella kampanjer är det komplicerat att få en övergripande tillförlitlig bild av större rörliga trender. Fördelen med dessa verktyg är att de alla har en sak gemensamt, nämligen analytikernas drömfunktionen, ”exportera”. I ex. Excel kan arbetet inledas med att filtrera, sortera och modellera data fram till ett mer kvalificerat underlag. Detta arbete är givetvis utan nytta om du inte känner till hur vald data ska analyseras korrekt och effektivt.

Grundläggande statistiska begrepp

alt

Positiv korrelation: När de markerade värdena i spridningsdiagrammet ligger nära en tänkt trendlinje med positiv lutning får vi en positiv korrelation (samband) mellan responsvariabeln y (resultat) och den förklarande variabeln x (läxtid). Regeln säger att när ett värde ökar på x-axeln, ökar det även på y-axeln.

Negativ korrelation: Om de markerade observationsvärdena istället finns samlade runt en linje med en negativ lutning, får vi en negativ korrelation mellan den förklarande variabeln och responsvariabeln. En negativ korrelation säger att när värdet på x-axeln ökar, minskar Y-axeln. Dvs. människor med lägre inkomst har kortare livslängd.

Okorrelerat samband: Här råder en slumpmässig variation, dvs. det saknas en uppenbar positiv eller negativ korrelation mellan variablerna. Slutsatsen blir att samband tycks saknas mellan antal p-böter på Kungsholmen och månad på året.

Kausalitet: Kausalitet (orsakssamband) kräver mer än att en korrelation existerar. Regeln sammanfattas i tre steg; 1) En korrelation finns, 2) förändring av x (timmar) påverkar y (lön), 3) endast variabeln timmar (x) kan avgöra vad vi får i lön (y). I övriga diagram kan en ännu okänd variabel påverka utfallet.

Korrelation

Korrelationen är ett mått på hur starkt sambandet är mellan två eller fler värden, ex. annonsering & slutförda mål, månad & genomsnittligt ordervärde, sociala media & jobbansökningar, mobila enheter & avvisningsfrekvens etc. Korrelationen ger inga sanningar annat än hur signifikant ekvationen av en trendlinje är mellan två värden och bör därför användas som en hypotes. En korrelation mellan två variabler kan förefalla starka, men kan ha en tredje variabel som det verkliga sambandet. Var alltid försiktig med att dra slutsatser om orsak och verkan och se till att du verkligen kan påverka responsvariabeln (y), innan du börjar analysera.

En korrelation kan variera från +1 (perfekt positiv korrelation, dvs. trendlinjen pekar uppåt, till -1 (perfekt negativ korrelation), dvs. trendlinjen rör sig nedåt. Eller 0, att korrelation helt saknas och att inget samband finns mellan värdena.

Exempel 1.1

Marika är driftansvarig för Globen Arenas samtliga kiosker. Hon är mycket noga med att beställa lagom med mazariner för slippa slänga ett ev. överskott. Hon bokför därför antalet sålda mazariner och sålda biljetter efter varje evenemang för att i framtiden kunna göra mer kvalificerade antaganden.

alt

alt

Vi börjar med att mata in angivna värden på två olika rader i en tabell. Därefter visualiserar vi vår data med hjälp av ett spridningsdiagram (scatterplot) för att undersöka ett ev. samband mellan våra två variabler på en x och y skala. Den beroende variabelns värden sätts på y-axeln (sålda mazariner) och den förklarande variabelns värden markeras på x-axel (sålda biljetter). I vårt exempel ser vi ett tydligt samband (positiv korrelation) mellan sålda biljetter och mazarinförsäljning. Högre biljettförsäljning resulterar alltså i en ökad försäljning. Logiskt.

Kausalitet

Kausalitet eller orsakssamband kräver mer än att en synlig korrelation existerar. En förutsättning är att en förändring i den ena variabeln behöver ske innan förändringen i den andra variabeln får effekt. Dessutom behöver man kunna utesluta att en tredje variabel orsakar korrelationen. Vi kan som exempel inte anta att Justin Biebers fanbase är lika glada i mazariner som publiken på Tre Kronors matcher trots lika många sålda biljetter.

Det kan tex. finnas en stark korrelation mellan att vara lycklig och rik, men det kan också vara så att man är rik på grund av att man är lycklig. Eller en tredje variabel som kan vara social bakgrund, vilket kan påverka både rikedom och lycka. Vad som är orsak och vad som är verkan måste alltid noga diskuteras innan förhastade slutsatser dras.

Prediktiv analys

Ingen besitter förmågan att samla in och analysera data från framtiden, men möjligheten att förutsäga framtiden med hjälp av historisk data är fullt möjlig. Har ni modeller för en kunds livstidsvärde (CLV) arbetar ni redan med prediktiv analys. Andra exempel kan vara produktrekommendationer utifrån konsumentdata, prognos över kommande försäljning eller riktad annonsering.

Prediktiv analys ökar i popularitet, men för att sprida insikter om resultat och agera tydlig som beställare behöver du känna till grunderna. Det vanligaste hindret för att lyckas genomföra välgrundade analyser om framtiden är bristen på relevant data. Börja därför med att se över vad och hur er data lagras.

Regressionsanalys i olika former är ett avgörande verktyg för prediktiv analys. Arbetat inleds med att skapa en hypotes baserat på oberoende variabler som ex. geografisk plats, inkomst, tid på webbplats etc. Därefter korreleras datan med ex. köpdata. När två värden väl identifierats och en linjär funktion tagits fram, inleds arbetet med att förutsäga sannolika händelser. Glöm inte bort att modellen bygger på kvalificerade antaganden och blir snabbt daterade, vilket påverkar sannolikheten om framtiden.

Linjär regressionsanalys

De flesta företag använder regressionsanalys för att förklara ett fenomen de vill fördjupa sig inom, ex. “svarsfrekvens hos kundtjänst och NKI (nöjd kund index”, “vad blir den förväntade försäljningen kommande 3 månader?”, eller “bör vi annonsera på LinkedIn eller Twitter?”.

Linjär regression används för att beskriva ett samband mellan två variabler. Den berättar även hur nära ett linjärt samband vi har i vårt stickprov. Detta görs med hjälp av räta linjens ekvation (y=kx+m) som hjälper oss förutspå framtida händelser.

En regressionslinje berättar hur en beroende variabel (y) förändras då en förklaringsvariabel (x) får ett nytt värde.

Det kan som ex. vara intressant att veta hur mycket webbplatstrafik som behövs för att ett specifikt mål ska uppnås, eller hur många nya fans/månad som krävs för att bibehålla en positiv “churn”. Excel löser ekvationen åt oss automatiskt, men innan vi börjar hitta genvägar behöver vi känna till grunderna.

Exempel 1.2

Marika läser att till nästa evenemang har det sålts 10.000 biljetter. Hon behöver därför veta hur mycket mazariner som behövs beställas för att slippa ett över eller underskott.

Vi vet redan från exempel 1.1 att det finns ett positivt samband mellan sålda mazariner och sålda biljetter. Nästa steg blir att ta fram ekvationen för sambandet och därefter förutspå framtida inköp. Till vår hjälp använder vi oss av en linjär regressionsanalys.

alt

I spridningsdigrammet har vi lagt till en trendlinje och markerat två koordinater som ligger så nära trendlinjen som möjligt, (y:576, x:14883) samt (y:317; x:7963).

Räta linjens ekvation y=kx+m

  • k = indikerar linjens lutning
  • m = visar vart linjen skär y-axeln

När vi har hämtat ut 2 koordinater längs linjen kan vi gå vidare för att beräkna trendlinjens lutning (k) och därefter vart linjen skär y-axeln (m).

alt

När k-värdet är löst kan vi slutföra ekvationen (y = kx + m) genom att beräkna m-värdet. Med hjälp av k-formen använder vi våra koordinater för en av punkterna.

alt

Vi fortsätter använda vår ekvation för att lösa ”m”, dvs. där linjen skär y-axeln. Vilket ser ut att stämma med vår graf ovan.

alt Ekvationen är nu löst och redo för simulering av x-värden

Vi kan nu ange det värde vi känner till, nämligen 10.000 sålda biljetter och räkna fram svaret på frågan i exempel 1.2. Svaret blir ≈ 400st mazariner.

alt

En korrelationsanalys görs enklast i ex. Excel, Google Spreadsheet, Keynote eller GeoGebra. I GeoGebra (se bild ovan) finns möjlighet att manuellt knappa in ett x-värde och direkt lösa ekvationen. I Excel (en) marker du en av punkterna, högerklickar > välj “Add trendline” > kryssa i “Display equation on chart”. I Keynote (sv) markerar du en av punkterna och väljer “Visa ekvation” under fliken “Serier” och “Trendlinjer”. Här kan du även välja att visa korrelationskoefficienten.

Hög och låg korrelation

Korrelationens styrka bör anges med viss försiktighet då höga och låga värden kan variera beroende på vad du analyserar. Korrelationskoefficienten (R) kan förefalla “ganska starkt” i ett fall, men i ett annat vara “mycket starkt”. Styrkan i ett samband måste bedömmas enskilt för varje fall och utifrån förväntningarna. Trots detta kan ändå följande riktlinjer ges.

alt

Signifikans med p-värde

För den som inte nöjer sig med generella sambandsförklaringar finns det möjlighet att genomföra signifikanstesting av korrelationskoefficienten med hjälp av ett p-värde. P-värdet baseras på korrelationskoefficienten och antalet gjorda observationer. I exemplet 1.2 har vi en positiv korrelation med 10st observationer och ett p-värde på 0.92. Vilket betyder att signifikansen i vårt samband mellan variablerna x och y är 92%. De resterande 8% är oförklarade, dvs. något vår modell inte kan förklara.

Case - Söktrafik

Hur mycket söktrafik behövs för 700 bokade kurser/dag?

Det kan vara intressant att utvärdera olika källor och kanalers förmåga till engagemang och aktivitet fram till slutlig konvertering. Med en regressionsanalys i grunden byggs starkare motivering till vad som är värt att satsa på och inte. ROI i sociala kanaler är en utmärkt frågeställning och genom att ex. studera skapade Facebook poster/vecka och målkonvertering kan vi bättre förstå styrkan i sambandet. Använd därefter sambandet som motiv för postningars frekvens. Denna modell kan vara ett alternativ när kampanjspårning mellan Facebook och en webbplats saknas.

alt

Exempel 2

I exemplet ovan kan vi utläsa en positiv korrelation mellan antalet besökare från sökmotorer med bokade kurser/dag. Sambandet är dessutom mycket starkt. Företag X har som målsättning att nå 700 avslut/dag från sökmotorer under en specifik period, hur stor daglig söktrafik krävs för detta?

Räta linjens ekvation är redan angiven: y = 0.2x - 405.
Dvs. k = 0.2 och m = -405.

Vi testar med 5500st besökare från sök och får då ekvationen.
y(5500)=0.2*5500–405.

Svar: Det krävs ≈ 5500st dagliga besökare från sök för ≈ 700st bokade kurser/dag. Denna insikt bör sedan användas som grund för planerad SEO-investering.

Innan du genomför en korrelationsanalys

  1. Vad ska datan användas till?
    Att säkerställa sambandet mellan köp och trafik från Twitter

  2. Vilka åtgärder behöver vi genomföra för att nå en slutsats?
    Exportera relevant data och genomför en regressionsanalys för att förstå ett ev. samband

  3. Vad visar resultatet, stämmer vår hypotes?
    Hypotesen stämmer då sambandet var mycket starkt

  4. Vilka beslut behöver fattas utifrån resultatet?
    Granska hur vi skriver erbjudanden på Twitter och utforska annonsering för att nå öka räckvidd

Kommentarer