3. laine andmete visualiseerimine

Tööriistade, vaatajaskonna ja režiimide lähenemise mõistmine

See on minu 2018. aasta seinavaibakonverentsi ülesvõtte kirjutis (ülal). Siin saate näha slaidid (millest olen paljude allolevate piltide põhjal tuletatud) koos kõlarite märkmetega.

Kujutage ette, kuidas oli 30 aastat tagasi andmete visualiseerimine. See on 1988. aasta ja te kasutate programmi Excel 2.0 lihtsate diagrammide jaoks, nagu näiteks diagrammid ja joondiagrammid, või võib-olla midagi sellist, nagu SPSS keerukamaks uurimiseks ja Arc / Info georuumiliste andmete visualiseerimiseks. Mõnda üsna laialt levinud diagrammitüüpi, nagu näiteks puukaart, pole isegi veel leiutatud. Kuid 1988. aastal oli Edward Tufte raamat „Kvantitatiivse teabe visuaalne kuva” juba viis aastat vana.

Kaadrid analüütikutest, kes töötavad Excel 2.0 abil diagrammide koostamiseks c. 1988

Kujutage nüüd ette, mis tunne oli andmete visualiseerimist teha 15 aastat tagasi. Puudusid D3, ei Tableau, ei ggplot ega isegi Prefuse / Flare. Kui soovite võrgu visualiseerimist, võiksite kasutada värskelt avaldatud Cytoscape'i, kuigi see oli keskendunud bioinformaatikale. Georuumilised valikud olid arenenumad - ArcGIS pakkus oma paljudes punastes tööriistakastides üha enam kartograafilisi funktsioone.

Erinevus georuumiliste andmete visualiseerimise ja võrguandmete visualiseerimise aluseks olevates traditsioonides: 2003. aastal oli see juba ArcGISi versioon 8.0, samal aastal aga vabastati esimene moodne võrguandmete visualiseerimise tööriist: Cytoscape.

Ma tean, kui palju on andmete visualiseerimine muutunud, kuna veetsin umbes kümme viimast aastat andmete visualiseerimise tooteid ühel või teisel kujul. Suur avalikkusele suunatud töö, nagu ORBIS ja Kindred Britain, ning vähem avalike andmete visualiseerimist lõbu pärast või uuringute, analüüside ja uurimiste toetamiseks. Andmete visualiseerimise praktilise tööga koos kirjutasin raamatu tänapäeva maailma võimsaimast andmete visualiseerimise raamatukogust: D3. Ja siis ma kirjutasin selle raamatu uuesti. Viimase aasta jooksul olen ehitanud välja oma kaardistamise raamatukogu Semiootiline. Samuti olen viimased kaks aastat korraldanud andmete visualiseerimise spetsialistide iga-aastast uuringut. Ja mööda seda, kui olen kirjutanud andmete visualiseerimisest siin Meediumil.

See pole põhjus, miks mind kutsuti üles andma peaesinemist Tapestry'is. Mind kutsuti kohale, sest teen sotsiaalmeedias, intervjuudes ja aeg-ajalt ka kõnelusi süütavaid kommentaare. Olen juba ammu öelnud, et andmete visualiseerimisel peaksime olema kriitilisemad, kuid ilma kontekstita võivad minu tehtud märkused tunduda meelevaldsed ja meeleolukad.

Nii et mul oli hea meel selle võimaluse üle konteksti anda ja väljendada oma muret, et tööriistad ja režiimid on lähenenud, kuid mõtte ja praktika vastavat ümberkorraldamist pole toimunud. Näib, et me räägime endiselt andmete visualiseerimisest ja hindame seda justkui aastast 1988 või 2003, kui andmete visualiseerimist teostavate inimeste arv, nende tööriistade võimalused ja vaatajaskonna ootused on dramaatiliselt kasvanud.

Jätkame andmete visualiseerimise kogukonna jagamist vanadeks kategooriateks, näiteks analüütikud, kes kasutavad BI-tööriistu aruannete loomiseks, arendajad, kes kasutavad koodi kohandatud andmete visualiseerimiseks, ajakirjanikud, kes loovad andmepõhiseid lugusid, või andmeteadlased, kes võidavad uurimuslikku andmete analüüsi. Nendes rühmades või nende vahel on meil andmekunstnikke, elukutselisi teadlasi, ärianalüütikke ja tööriistavalmistajaid, keda võime Susie Lu koomiksites immortaliseerida. Need praktikakategooriad on otseselt seotud konkreetsete tööriistade ja režiimidega, mis on juba hiljaaegu hakanud muutuma.

1. laine: selgus

Ja seepärast tahaksin pakkuda, et andmete visualiseerimise tänapäevases tähenduses oli 1. laine, mille keskmes oli Edward Tufte ja mis rõhutas andmepunktide selgust, lihtsust ja otsest 1: 1 kaardistamist, vältides võimalikult palju teisendamist . Sellest ajastust näeme spartalike värviskeemide esiletõusu - sageli keskendutakse neutraalsetele või desatureerunud värvidele ühe silmapaistva värviga - etikettide ja looduslike keelte pealkirjade tähtsus ning omamoodi ideaalse diagrammi idealiseerimine, mis on kohe loetav, juurdepääsetav ja kasutatav . Omamoodi selgete struktuuride ja reeglitega diagramm-lause, nagu võite näha stiili elementides.

1. laine: selgus

2. laine: süsteemid

2. laine keskendus andmete visualiseerimiseks vajalike tööriistade väljatöötamiseks vajaliku teabe kodeerimise süstematiseerimisele. Selle keskmes on selle teema kõige mõjukam teos: Leland Wilkinsoni graafika grammatika. Diagrammi kui keelelise analoogia asemel on see diagramm kui ekstrudeerimine kehtivast spetsifikatsioonist. Graafika grammatika püüdis võimaldada inimestel luua graafikakomplekti ja kui vaatame mõnda andmete visualiseerimise teeki, ka minu enda oma, ja näeme seda filosoofiat toimimas.

Need tööriistad ja raamatukogud reklaamivad tohutul hulgal näiteid ning kadunud on värvi ja teksti ettevaatlik kasutamine, mis asendatakse geomeetriaga armastuskirjaga. Kogu “näiteks” lähenemisviis on neisse tööriistadesse nii sisse juurdunud, et Mike Bostock kirjutas sellele terve tüki.

2. laine: süsteemid

Nagu ka kõik selle perioodi tööriistad, on D3 otseselt inspireeritud või tugevalt mõjutatud graafika grammatikast. Semiootiline, võidukäik, edetabelid, sümboolika: kõik need on pärit D3-st või on neist ise suuresti mõjutatud. Graafika grammatikas on kaks g-d, kus ggplot saab oma nime. Autor Leland Wilkinson oli Tableau juhtiv teadlane. Graafika grammatika keskendub habemeajamisel andmete kodeerimisele kanalite kaudu geomeetriale. See on andmete graafika kodeerimise süsteem, kus andmeatribuudid vastavad andmetele ja andmete muutustele tuginedes pikkusele, nurgale, värvile või asukohale (või mõnele muule graafilisele tähemärgile) ja mõjutavad seda dünaamiliselt.

2. laine oli nende teoreetiliste süsteemide võtmine ja tööriistade loomine, mis on vajalikud andmete visualiseerimise praktiseerijatele andmete põhjal graafilise avalduse loomiseks. See sobib suurepäraselt inseneridele ja tarkvaraarhitektidele, kes üritavad andmebaase andmete visualiseerimiseks raamatukogusid luua, kuid mitte ilmtingimata andmete visualiseerimise tooteid loovate spetsialistide jaoks. Sellepärast oleme näinud andmete visualiseerimiseks mõeldud tööriistade ja raamatukogude sellist laienemist, kuid diagrammidena positsioonilises kohutavas graafikas on see samaaegne tõus.

Graafiliste kanalite kaudu andmete atribuutide kodeerimise täiusliku spetsifikatsiooni otsimine on vahend eesmärgi saavutamiseks. Kuid sel perioodil ehitatud süsteemide jõud ja edu said iseenesest otsa, mis järgneb graafika grammatika põhinõuetele:

See süsteem on võimeline tootma mõnda koledat graafikat. … See süsteem ei saa aga luua mõttetut graafikat.

Sellega tähendab Wilkinson, et graafika ja andmete vahel on loogiline seos, kuid see, et graafikal on mingisugune retsept, ei tähenda, et see oleks kuidagi mõttetu. Andmete visualiseerimine on suhtlemisvorm ja kui koostate kohutavaid diagramme, tähendab see, et need on loetamatud ja see tähendab, et need on mõttetud.

Andmete visualiseerimine on suhtlemisvorm ja kui koostate kohutavaid diagramme, tähendab see, et need on loetamatud ja see tähendab, et need on mõttetud.

Teise laine andmete visualiseerimine, kuna süsteemide kasuks ei pööratud rõhku disainile, tekitas kohutavate armatuurlaudade ja aruannete metsa. Igas ettevõtte igas insenertehnilises osakonnas on vähemalt üks inetu reaalajas diagramm, millele on kirjutatud mõni D3-le ehitatud raamistik. Igal juhil on kümmekond tahvli armatuurlauda, ​​mis on täidetud samade 10-värviliste desatureerimata joonte vahekaartide ja vaadetega. Näeme ekraanipilte näiliselt uurivast andmeanalüüsist, mis on langenud dokumentidesse või integreeritud armatuurlaudadesse ilma optimeerimiseta. Kõik see juhtub hoolimata tehnoloogiate suurenevast pariteetist.

3. laine: lähenemine

Me vajame hädasti oma režiimide ümberhindamist ja ümbernimetamist. 5 või 10 aastat tagasi oli see, millist andmete visualiseerimist te tegite - olgu see siis armatuurlaud, märkmik, aruanne või spetsiaalne kommunikatsioonitükk - sõltuvalt kasutatavast keelest, raamatukogust või tööriistast väga erinev. See pole enam nii.

Peame ette kujutama uusi lähenemisviise, mis tunnistavad, et lähenemine ei toimu ainult tööriistade võimaluste kaudu, vaid ka ootuses, et kasutajad, kes ei soovi enam nõustuda, peavad teise jaoks optimeerimiseks väljuma ühest režiimist. See tähendab, et meie rõhuasetus tuleb üksikutelt graafikutelt eemale suunata toodete ehitamisele, hindamisele ja tarnimisele seal, kus need kaardid ilmuvad.

Nteract sülearvutite platvorm reklaamib ennast mitte ainult traditsioonilistele sülearvutite kasutajatele (teadlased ja andmeteadlased), vaid ka laiale publikule, keda huvitab rohkem kui lihtsalt

Sülearvutid muutuvad armatuurlauakujuliseks, armatuurlauad muutuvad jutuvestmislaadsemaks ja üldiselt on meediumite / režiimide seas üha suurem risttolmlemine ja lähenemine. R abil saate teha ilusat graafikat, teil võivad olla tabelis hierarhilised diagrammid, saate hõlpsalt oma kohandatud juhtpaneelilt e-posti aruandeid juurutada.

Netflixis katsetame analüütiliste märkmikega, mis pole mõeldud uurimuslike andmete analüüsimiseks, vaid selgitavat andmete visualiseerimist ning selles režiimis vajalikke koostöö- ja suhtlusvajadusi. Andmeajakirjanduse jaoks tavalised jutuvestmise tehnikad on huvirühmadele, kes on oma maitse järgi keerukamaks muutunud ja ootavad nutikat animatsiooni ning isikupärastatud tugiraamid, meeldejääv.

Neid suundumusi on üha rohkem, mida peame paremini mõistma:

  • Kui kunagi olid esoteerilised diagrammitüübid, nagu näiteks puukaardid ja sõlme-lingi diagrammid, nüüd nii ligipääsetavad, et neid ilmuvad kõikjale, on nüüd vaja ksenografiks kuulutada tõeliselt veidrat diagrammi.
  • Sülearvuteid kasutatakse armatuurlaudadena ja ka esemetena andmetöötluse ja teisendamise protsessis.
  • Andmete visualiseerimine R-s on kasvanud peaaegu sama jõuliseks ja interaktiivseks kui andmete visualiseerimine BI-tööriistades või kohandatud rakendustes.
  • Inimestele on stiliseeritud andmete visualiseerimine üha mugavam (visandlik, aga ka ISOTÜÜP).

Kuhu me suundume?

Kõik need tegurid aitavad kaasa sellele, et minu arvates määratletakse andmete visualiseerimise kolmas laine, kus sellised režiimid nagu sülearvutid, armatuurlauad ja pikakujulised jutuvestmised lähenevad, nagu ka nende loomise tööriistad ja nende jaoks mõeldud vaatajaskonna kirjaoskus. See on toimunud juba mõnda aega ja oleme sellele reageerinud, kuid arvan, et on aeg aktiivselt kaaluda, mida see tähendab.

Clickbaiti graafikud

See nõuab meilt eemaldumist ootusest, et teeme eraldatud graafikuid, mis on optimeeritud kohese loetavuse tagamiseks. Praegu hindame ja tähistame andmete külastust, mis on kavandatud ja optimeeritud ühe külastuse jaoks. See sobib, kuid peame edendama ja hindama ning paremini mõistma andmete külastust, mis on kavandatud ja optimeeritud mitme külastuse jaoks. UI ja UX peavad olema esmaklassilised probleemid ja interaktiivsus ei saa olla lihtsalt geomeetria atribuut. Selleks peame eemalduma isoleeritud geeniuse mudelist, mis loob kohandatud andmete visualiseerimise, ja tooma sisse suuremate tarkvaraarendusringkondade ühiste koostööprojektide parimad tavad.

Edenda kriitikat

Mõningat 3D-diagrammi või viimast „hämmastavat kaarti” on lihtne halvustada. Võib-olla näib, kuidas viimane punkt positsioneeriti, kuid see pole nii, see on katse, mis sunnib meid mitte ainult tähistama seda, mis on andmete visualiseerimisel suurepärane, vaid ka rääkida ausalt, mis on halb. Peame seda rohkem tegema, kui tahame kogukonnana edasi liikuda. Kuid kriitika on raske - raske kuulda ja raske hästi anda.

Üks põhjus, miks meil kriitika andmise, võtmise ja edendamise osas nii halb on, on see, et andmete visualiseerimine on pikka aega olnud individualistlik ettevõtmine. Teine põhjus, miks me kritiseerimisel nii suured ei ole, on see, et meie oma on pidude kogukond. Kuid tähistamine ei ole täiesti positiivne tegevus, kui see lõikab lahti ja eksootiliseks muudab võimsad mehhanismid suhtluse edendamiseks just seetõttu, et need on saadaval ainult ajakirjanikele või vabakutselistele.

Osaliselt arvan, et see on seotud meie rõhuasetusega üksikutele kanalitele akadeemilises kirjanduses. Oleme kriitiliselt kritseldanud pirnadiagramme, kuna teame, et nurgad kodeerivad väärtusi halvasti. Kuid meil puuduvad juhised terviklikumaks hindamiseks, nii et me ei suuda selgitada, miks mõned kodeerimisvalikud, ehkki mitte eraldi optimaalsed, võivad praktikas väärtuslikuks osutuda. Me ei tea ka seda, kuidas atraktiivsust hinnata, seetõttu puudub meil keel või ülesehitus, miks inimestele nii meeldivad mõõdus ringid mesilastes proovitükkides ja gradueeritud sümbolite graafikud nii hõlpsalt selgitada, miks ringid on väärtuse kodeerimiseks halb valik.

Giorgia Lupi diagrammi ümberkujundus, autor Alberto Cairo filmist The Functional Art.

Teine põhjus, miks me kriitika osas väga ei osata, on see, et meil on see väga silmapaistev kriitikamudel (meisterlikeks Alberto Cairo, aga ka Fernanda Viegas ja Martin Wattenberg), mis tähendab, et parim viis kriitikaks on selle uusversioon. Ehkki see on väärtuslik lähenemisviis, on see tööjõu ja intellektuaalsete investeeringute jaoks nii kallis, et muudab selle loomulikult harvemaks kui lihtsalt selliste asjade märkimine, mis andmete visualiseerimise tootes ei tööta. Selle lähenemisviisi kõrval peame edendama ja kasvatama oma mugavuse taset vähem kaasatud kriitikavormidega.

Me ei saa seda lihtsalt teha, kirjutades hunniku kriitikat käsitlevaid mõtteartikleid, kuigi oleks tore, kui meil oleks mõni kriitika taksonoomia, nagu meil on graafikute taksonoomiad. Peame aktiivselt töötama, et arendada oma kogukonda, et see oleks koht, kus anda, vastu võtta ja modelleerida kriitilist diskursust. Ben Jonesi hiljutine kiri terve andmete visualiseerimise kogukonna loomise kohta pakub häid juhiseid, mis põhinevad reaalse maailma kogemustel ja mida me kõik peaksime järgima.

Mõista disaini

Mõned 2018. aasta andmete visualiseerimise uuringu disainiga seotud tulemused.

Küsitluste vastused ja vestlused osutavad, et kujundamine on oluline teema andmete visualiseerimise praktika parandamisel. Kuid praktikud on segadust avaldanud, mida disain tähendab. Kas peame silmas graafilist disaini? KÜ disain? Üldised kujundusmõtted? Infodisain? Andmete visualiseerimises puuduvad lihavad kujundamismeetodid, mida varased karjäärispetsialistid saaksid õpetada ja õppida.

Meeldivad värvid ja gifid, nagu need, mida leidub Nadieh Bremeri Dragonball Z andmete visualiseerimises, või lihtsad häkked, näiteks reavahetus igal pool, on trikke, mis võivad meile tunduda räpased, kuid võivad osutuda kriitiliseks kasutajatele lugemiseks ja teie andmete visualiseerimise tootega suhtlemiseks.

Omaks tähelepanu säästlikkust

Arvan, et silmade teadvuse päev läheneb kiiresti.
- Otto Neurath

Kui ma esimest korda Stanfordist Netflixi juurde tulin, arvasin ma naiivselt, et kuna tegemist on äriga, on töötajad sunnitud minu tehtud andmete visualiseerimist kasutama ja õppima. Sain kiiresti teada, et see pole nii. Netflixi enda kultuur oli selliste diktaatorlike meetmete vastu, kuid veelgi enam üritasid mu sidusrühmad teha kriitilisi otsuseid ja minu andmete visualiseerimise tooted konkureerisid tosina või enama muu armatuurlaua ja raportiga.

Selle tulemusel kasutab Netflixis sisemiselt tehtavat tööd piltide, gifide, mänguliste värvide ja uudsete visuaalsete meetodite abil kasutajate rõõmustamiseks. Kuigi üldine keelamine chartjunk'i vastu on hea reegel, võib seda, nagu kõiki asju, kohaldada liiga rangelt. Dekoratiivsem lähenemisviis, mis tunnistab tähelepanu majanduse olemasolu isegi andmepõhises organisatsioonis, annab tulemuseks tõhusama andmete visualiseerimise.

Uus veri

Oleme juba läbi elanud ühe räpase perioodi, kus meie kogukond tundis vajadust end radikaalselt distantseerida vanemast juhtimisest, kuni punktini, et Edward Tufte blokeerimine Twitteris on muutunud omamoodi läbipääsu riituseks. Me ei peaks seda tegema, et uusi hääli kuulda ja võimendada. Andmete visualiseerimise juhtimises peame leidma uued hääled ja neid aktiivselt reklaamima.

Kes on 3. laine andmete visualiseerimise juhid? Kes kasutab ära uusi võimalusi, mida pakub režiimide, vaatajaskondade ja tööriistade lähendamine? Kuidas see uus teos välja näeb? Kas see on märkmikega, millel on armatuurlaudade funktsioonid ja andmepõhine jutuvestmine, nagu Krist Wongsuphasawat'i Boba Science? Kas see on kaardistamisvahendite nagu Charticulator uus lähenemisviis? Või R kasutamine andmete visualiseerimiseks mõeldud graafika tegemiseks uudiste jaoks, nagu näiteks John Burn-Murdochi loomingus nähtud? Või Giorgia Lupi stiilis datavisioon Tableau's, nagu Neil Richards on teinud? Või on see RJ Andrewsi teoses INFO, mida me usaldame, nähtav hägus piir andmete visualiseerimise, marginaalide, koomiksi ja teksti vahel? Või on see Mona Chalabi hämmastav käsitsi joonistatud lähenemisviis? Või on see midagi muud?

Üks on kindel, et meil on näiteid nende hulgast, kes on optimeerinud varasemate parimate tavade järgi, nüüd vajame neid, kes mäletavad uut andmete visualiseerimise lainet.