Wat we nu gaan doen…

Vandaag was de deadline om een idee te hebben van waarmee ik me de komende maanden juist ga bezig houden. Na verschillende ideeën overwogen te hebben en een meeting met mijn begeleider ben ik bij het volgende uitgekomen:

In een paper van Stephen Few [1] worden de moeilijkheden van tijdsgebonden visualisaties besproken. Hij haalt 4 belangrijke karakteristieken aan van veranderingen doorheen de tijd: de grootte, vorm, snelheid en richting van de verandering. Deze karakteristieken kunnen allemaal getoond worden met behulp van een simpele lijngrafiek, maar als je multivariate data hebt en de relaties tussen andere variabelen ook wilt tonen schiet dit tekort. Hij stelt als oplossing voor om dynamische visualisaties te gebruiken en de tijd simpelweg voor te stellen door een bewegende visualisatie. Dit heeft uiteraard als voordeel dat je meer andere parameters kunt visualiseren, zoals Few aantoont met behulp van een geanimeerde scatterplot. Het nadeel is uiteraard dat het menselijk brein maar een beperkt geheugen heeft, en nu niet meer alles in 1 beeld kan zien. Een dashboard waarmee men zelf de tijd kan manipuleren of een spoor dat aanduidt (figuur 1) wat er in het verleden te zien was kunnen oplossingen zijn. En dit is net wat ik zou willen onderzoeken.

visualizingchangefiguur 1: 1 beeld van een geanimeerde scatterplot met een ‘trail’ van de vorige tijdspunten

Ik zou de voor- en nadelen van verschillende oplossingen voor dit probleem willen nagaan en eventueel nieuwe oplossingen proberen te creëren en testen. In een andere paper [2] bespreekt Few het probleem om voor grote datasets in 1 visualisatie de veranderingen door de tijd weer te geven. Hij stelt het gebruik van “small multiples” voor als mogelijke oplossing, zoals dat ook wordt gebruikt in een horizon graph (zie figuur 2). Hier wordt de koers van 50 aandelen onder elkaar getoond. Om de hoogte van de grafieken te beperken, werden verschillende maatregelen getroffen, zoals de rode kleur voor een dalend aandeel en de blauwe kleur voor een stijgend aandeel, zodat enkel een positieve y-as gebruikt moet worden. Ook dit zou ik willen onderzoeken. Is dit een goede techniek hiervoor, bestaan er andere technieken, etc. Tot slot haalt (weer) Few in een ander artikel [3] nog aan dat het creëren van visualisaties voor kleine schermen (ik denk dan bv aan smartphones) een leuke uitdaging kan zijn. Ik heb het idee dat hoe kleiner het scherm, hoe nuttiger het kan worden om geanimeerde visualisaties te gebruiken om veranderingen in de tijd toch nog goed weer te geven. Ook dit lijkt me interessant om eens nader te bekijken.

timeonthehorizonfiguur 2: Een horizon graph voor 50 aandelenkoersen gebruik makende van small multiples

Om deze dingen te onderzoeken heb ik uiteraard een tijdsgebonden dataset nodig. Hiervoor heb ik een dataset gezocht die aansluit bij mijn eigen interesses, aangezien dit toch een voordeel kan zijn wanneer men zich afvraagt wat nu juist te visualiseren. Ik heb nogal wat interesse in sport, maar veel datasets hierover leken me toch tamelijk beperkt. Na een tijdje zoeken ben ik dan toch gestoten op een dataset over de Engelse voetbalcompetitie [4]. Deze dataset bevat alle matchen van de voorbije 20 jaar in de eerste 4 klassen van het Engelse voetbal. Voorlopig ga ik me concentreren op de 1ste klasse (de Premier League), aangezien hier de meeste data over beschikbaar is. Naast uitslagen zijn er ook data als ruststanden, aantal schoten op doel, aantal gele en rode kaarten en ook de “odds” van verschillende gokkantoren voor de wedstrijden. Op basis van deze gegevens kon ik me toch al snel enkele visualisatievragen stellen:

  • Hoe evolueert de correctheid van de “odds” doorheen de tijd?
  • Hoe belangrijk was het thuisvoordeel de voorbije 20 jaar (en is dit van extra belang bij toppers/derby’s)?
  • Hoe verandert het percentage afgewerkte kansen doorheen de tijd?
  • Zijn er periodes waarin bepaalde ploegen beter presteren, er meer/minder goals gemaakt worden, …? (bv minder goals in de winterperiode?)
  • Hoe evolueert een team na een bepaalde gebeurtenis (bv trainerswissel)?

Er bestaan over de Premier League al veel visualisaties waar inspiratie uitgehaald kan worden of die eventueel gebruikt kunnen worden om zaken te testen. Een die duidelijk beweging gebruikt om de tijd voor te stellen vind je hier: http://www.leagueslider.com/premier-league-2012-13. Andere leuke PL-visualisaties: http://vizwiz.blogspot.be/2011/12/what-does-it-take-to-survive-in-english.html, http://www.theguardian.com/news/datablog/interactive/2013/jun/03/premier-league-season-visualised en http://the-beautiful-table.com/premier-league.

Nu kan ik dus beginnen met “mijn handen vuil te maken” en ga ik proberen enkele visualisaties te creëren. Volgende week zal ik mij dus hiermee bezighouden en ik ga ook beginnen schrijven aan mijn literatuurstudie, waarvan een draft binnen twee weken klaar moet zijn.

Tot slot nog een leuke visualisatie voor alle voetballiefhebbers die volgend jaar het wereldkampioenschap in Brazilië willen volgen: http://www.ongoalsscored.com/2012/10/13/brazil-2014-kick-off-times-around-the-world/

[1]      Few Stephen, “Visualizing Change – An Innovation in Time-Series Analysis,” 2007.

[2]      Few Stephen, “Visualizing Multidimensional Data Through Time,” p. 5, 2005.

[3]      Few Stephen, “Data Visualization past, present, and future,” p. 12, 2007.

[4]      http://www.football-data.co.uk/englandm.php

Advertisements

7 thoughts on “Wat we nu gaan doen…

  1. Ward, als liefhebber van voetbal en datavisualisatie ben ik enorm blij dat je je wedervaren bij het maken van je thesis deelt op deze blog. Ik ben enorm benieuwd waar je gaat uitkomen.
    Ik loop ook al een tijdje rond met het idee om een Belgische versie van The beautiful table te maken (ik vind dat elke zichzelf respecterende sportwebsite iets dergelijks in de aanbieding zou moeten hebben), maar ik vond nergens de link meer terug. Bij deze dus bedankt.
    Misschien moet je eens kijken of je nergens goede Belgische statistieken kan vinden. Zonder twijfel zou je afgewerkte thesis veel persaandacht krijgen.

  2. Ik vind dat small multiples veel te weinig gebruikt worden om verschillen tussen tijdspunten (of andere variabelen) aan te duiden, aangezien dit toch iets is waaruit mensen snel informatie kunnen uithalen en wat ook nog eens esthetisch is (indien correct gebruikt).

    Ook door je visualisatie interactief te maken, kan je de gebruiker toelaten informatie te filteren of correlaties tussen variabelen dieper te gaan onderzoeken. Je kan dus beginnen met een visualisatie van een aantal variabelen en de gebruiker deze nadien zelf laten veranderen, indien hij/zij dat wil..

  3. Ik ben heel benieuwd naar de ontwikkeling hiervan. Ik volg zelf ook de Premier League nauw op de voet en ben van mening dat er nog met enorm veel data die beschikbaar is niets gedaan wordt. Uiteraard is dit niet alleen in de PL zo, maar ook in andere voetbalcompetities en sporten.

    Sinds dit seizoen wordt er bij het nemen van een strafschop echter wel al getoond waar de strafschopnemer zijn schot plaatste tezamen met de uitkomst (https://pbs.twimg.com/media/BR39aQaCUAEms9H.jpg). In mijn ogen een leuke toevoeging waarvan er ongetwijfeld nog meer mogelijk zijn.

  4. Ben benieuwd naar het resultaat. Ik ben zelf ook erg geïnteresseerd in sport en voetbal en de combinatie met data visualisatie maakt het helemaal interessant. Hopelijk ontdek je nieuwe dingen in de Premier League. Ik denk eveneens dat het interessant zou zijn om dit ook eens voor de Belgische eerste klasse te bekijken, want dat er hier nog ontzettend weinig gedaan wordt met beschikbare data. Succes!!

  5. I read a lot of interesting content here. Probably you spend a lot of time writing, i know
    how to save you a lot of time, there is an online tool that
    creates high quality, google friendly articles in seconds, just
    search in google – laranitas free content source

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s