De geboorte van Big Data: een ‘macroscoop’ voor de VS in de jaren zestig

In haar boek If Then laat vermaard historicus Jill Lepore haar licht schijnen over de ruim zestig jaar oude pionier van socialenetwerktheorie: het Amerikaanse Simulmatics Corporation. Sara Polak bespreekt deze grotendeels onbekende voorgeschiedenis van de toenemende verwevenheid van data en politieke macht.

Besproken boeken

Jill Lepore If Then: How One Data Company Invented the Future (John Murray 2020), 415 blz.

Gedragswetenschap en informatica zijn allebei relatief jonge wetenschappen die in de loop van de jaren vijftig van de vorige eeuw verweven zijn geraakt, gedreven door de wens om gedrag van mensen (of preciezer: van kiezers en consumenten) te voorspellen. Hoewel die combinatie heel groot en machtig is geworden, kleefden er al vanaf het begin nogal wat ethische bezwaren aan. Is menselijk gedrag werkelijk zo voorspelbaar dat je het aan een computer kunt overlaten? Is dat niet dehumaniserend? Wie heeft zeggenschap over zo’n machtig instrument? Hoe kun je regels maken voor iets dat zo veelomvattend en tegelijk zo onzichtbaar is als het bezit en gebruik van data en netwerken? Wat doe je als bepaalde groepen mensen zich niet volgens het model gedragen? Wordt het model dan verbeterd, of worden de mensen als misfits gezien of anderszins vermalen? In If Then: How One Data Company Invented the Future (2020) beschrijft Jill Lepore de ontwikkeling van het veld dat nu data science heet, en de behendigheid waarmee dat om deze vragen heen is geglibberd. En passant schildert ze een vaak geestig en onthullend beeld van de jaren vijftig en zestig in de VS.

Computers, het internet en big data lijken amper geschiedenis te hebben, en voor zover we die geschiedenis wel kennen, vinden we die vaak aandoenlijk of lachwekkend.

Computers, het internet en big data lijken amper geschiedenis te hebben, en voor zover we die geschiedenis wel kennen, vinden we die vaak aandoenlijk of lachwekkend. Het geluid van matrixprinters en de eerste modems. Floppydisks. Hyves. Toch hebben big tech (computers) en big data (modellen om voorspellingen mee te doen) wel degelijk een serieuze en inmiddels lange geschiedenis, en zijn vroege keuzes en ontwikkelingen daarin cruciaal voor de wereld van nu. Smartphones, internet, en data zijn niet meer weg te denken en hebben een bijna onpeilbare invloed op politiek, media, consumptie, veiligheid en tal van andere gebieden. Lepore, hoogleraar geschiedenis aan Harvard en vaste schrijver voor The New Yorker, onder meer bekend van haar vuistdikke geschiedenis van de Verenigde Staten – de bestseller These Truths (2018) –, dook in de geschiedenis van big data als product dat verkocht kan worden aan politici, reclamebureaus en krijgsmachten. Ze wijdde haar boek aan een uiteindelijk mislukte pionier: Simulmatics Corporation.

De toekomst simuleren

Simulmatics is een porte-manteau van ‘simulation’ en ‘automatic’ – de bedenkers hadden gehoopt dat het zou uitgroeien tot generieke term, zoals cybernetics. Simulmatics werd formeel opgericht in 1959, maar al jaren daarvoor was de groep oprichters en ontwikkelaars bezig met het onderzoeken en ontwerpen van strategieën om menselijk gedrag – in het bijzonder stemgedrag – te voorspellen op basis van data. Hoofdpersonen zijn Ed Greenfield, Ithiel de Sola Pool, Bill McPhee en Eugene Burdick, mannen die zich op de rand van wetenschap, consultancy en ondernemerschap bevonden, en in de toen snel convergerende velden politicologie, psychologie, statistiek en informatica. Lepore beschrijft hun levens en hun mix van genialiteit en ontstellende ethische blindheid met verve en humor.

In de jaren vijftig bedachten Greenfield en Pool een van de meest fundamentele onderliggende ideeën van Facebook en andere sociale mediaplatforms: de socialenetwerktheorie. Ze deden onderzoek naar de vraag: ‘Stel: persoon A kent persoon B; wat is dan de kans dat B n personen kent in de kennissenkring van A?’ Ze verzamelden enorme hoeveelheden data over de Amerikaanse bevolking, en categoriseerden deze in duizenden zeer specifieke subgroepen. Vervolgens konden ze op basis van nieuwe data over een kleine groep voorspellingen doen over de hele bevolking.

Simulmatics kon met zeer primitieve computers gedetailleerde voorspellingen opstellen over het stemgedrag van de gehele Amerikaanse bevolking, en presidentskandidaten helpen hun boodschap af te stemmen op wat volgens die voorspellingen het beste zou vallen.

Ed Greenfield wilde (politieke) munt slaan uit zijn idee, en benaderde Adlai Stevenson, de Democratische presidentskandidaat in 1952 en 1956 om politiek advies te geven op basis van dataonderzoek. Stevenson, een principieel tegenstander van politieke tv-spotjes en ‘political consulting’, vond dat soort onderzoek een oneigenlijke vorm van beïnvloeding en weigerde. In 1960 kreeg het inmiddels opgerichte Simulmatics wel voet aan de grond bij de Kennedy-campagne, die gebruikmaakte van Simulmatics’ ‘People Machine’, een computermodel dat met gebruik van data over de gewoonten, meningen, voorkeuren en demografische gegevens van duizend zeer gedetailleerd in kaart gebrachte maatschappelijke subgroepen – en een kleine sample nieuwe data – voorspellingen kon doen over het effect van campagnespeeches en politieke posities van Kennedy op het hele electoraat. Op basis van een kunstmatig gestandaardiseerde doorsnede van de Amerikaanse bevolking en nieuwe gegevens die waren ingewonnen bij een kleine groep kiezers, voorspelde de People Machine dat het voor Kennedy positief zou uitpakken om zich expliciet uit te spreken over zijn katholicisme. Die voorspelling kwam uit.

Zo leerden ondernemende wetenschappers en consultants in de VS in de late jaren vijftig en de jaren zestig van de vorige eeuw om op basis van een rekenmodel vol demografische gegevens de uitkomsten van een beperkt opinieonderzoek zodanig te corrigeren dat het klopte voor de gehele bevolking. Simulmatics kon met toen nog zeer primitieve computers gedetailleerde voorspellingen opstellen over het stemgedrag van de gehele Amerikaanse bevolking, en presidentskandidaten helpen hun boodschap af te stemmen op wat volgens die voorspellingen het beste zou vallen. De ethische kwesties drongen zich direct op. Kennedy nam bijvoorbeeld na een advies van Simulmatics publiekelijk contact op met Coretta Scott-King, de vrouw van Martin Luther King, toen die laatste in de gevangenis zat – met Kings vrijlating en een positief electoraal effect tot gevolg. Burgerrechten voor zwarte Amerikanen vormde in die jaren een cruciaal verkiezingsthema – steeds meer zwarte Amerikanen konden stemmen, en ook voor witte kiezers werd dit thema belangrijker. Maar het idee dat Kennedy, die eerder weinig blijk gegeven had van belangstelling voor burgerrechten, zijn posities bepaalde op basis van wat volgens het model goed zou vallen, zat veel mensen dwars. Direct na zijn nipte overwinning op Richard Nixon eind 1960, begin 1961 ontstond hierover een schandaal, dat de Kennedy-campagne haastig probeerde te sussen, en door Simulmatics juist werd uitgebuit als goede reclame voor de People Machine.

Stuitend en lachwekkend

In de jaren daarna was Simulmatics betrokken bij allerlei media- en marktonderzoek. Dit onderzoek lijkt in grote lijnen op wat we nog altijd kennen van Amazon, dat altijd probeert te voorspellen met welk tweede product klanten die net product X gekocht hebben wellicht ook te verleiden zijn: ‘klanten die product X kochten, kopen ook product Y’. Deels is die kennis historisch, en deels maakt de uitspraak zichzelf waar: als een paar klanten op aandringen van Amazon inderdaad naast X ook product Y aanschaffen, dan versterkt dat het ‘bewijs’ dat X en Y een logische combinatie zijn. Hoewel het principe functioneerde, raakte Simulmatics vrij snel achterop bij de concurrentie, omdat het zelf geen reclamebureau was, wat de verwerving van voldoende data over producten bemoeilijkte. Er volgden projecten in de media, waarbij Simulmatics door The New York Times werd ingehuurd om realtime verkiezingsuitslagen te vertalen naar landelijke uitslagen van de presidentsverkiezingen van 1964. Ook dat lukte niet goed – de computers liepen vast. Vervolgens ontwikkelde Simulmatics een enorme door het Pentagon gefinancierde operatie in Vietnam, waar het probeerde te voorspellen waar en wanneer de guerillaoorlog zou oplaaien. Dat werd pas echt een fiasco. Hoewel Simulmatics het wel probeerde – deels via gestructureerde interviews met grote aantallen Vietnamezen en deels door freudiaanse psychoanalyse toe te passen op een handjevol Vietnamezen – lukte het niet zicht te krijgen op wat de rebellen bewoog. Terugblikkend verwondert dat niet: niemand in dit groepje arrogante Amerikaanse whizzkids sprak Vietnamees, of had zelfs maar werkelijke belangstelling voor de mensen die in het model gepast moesten worden. De blindheid en het totale gebrek aan culturele sensitiviteit van de Simulmatics-mannen is zowel stuitend als lachwekkend, en stiekem ook heel Amerikaans.

Niemand in dit groepje arrogante Amerikaanse whizzkids sprak Vietnamees, of had zelfs maar werkelijke belangstelling voor de mensen die in het model gepast moesten worden.

Dat is meteen ook het mooie van If Then: dit ene bedrijf is fundamenteel vervlochten met een ongelooflijk belangrijke periode in de Amerikaanse geschiedenis. De grote lijnen van die geschiedenis – Kennedy, de burgerrechtenbeweging en de Vietnamoorlog – zijn overbekend, maar de essentiële rol die de ontwikkeling van kunstmatige intelligentie en grootschalig gedragsonderzoek op basis van ‘big data’ erin speelden is dat niet. Internet, algoritmes en de ontregelende dynamieken van sociale media (en hun verstrekkende invloed op ons politieke gedrag en daarmee op de politieke realiteit) mogen nieuw lijken, maar de wortels ervan liggen in de jaren vijftig, bij een bedrijf dat praktisch vergeten is. Simulmatics introduceerde, op ponskaartjes en met allerlei knullige houtje-touwtje-constructies die vaker niet dan wel werkten, innovaties waar we eigenlijk nog steeds door worden overvallen.

Bedrijven zoals Simulmatics toen – en tegenwoordig Facebook, Google en Amazon – hebben er belang bij de onduidelijkheid in stand te houden over hoe en of ze werken, en hoe overheden ze zouden kunnen reguleren. Databedrijven willen maar al te graag de geheimzinnigheid en schijnbaar ondoordringbare complexiteit van ‘data science’ en ‘algoritmes’ verder mystificeren, omdat ze juist mede door die geheimzinnigheid zo machtig zijn geworden. Een van de effecten daarvan is dat de Amerikaanse politiek nooit in staat of bereid is geweest om het winnen van data en de handel erin te reguleren. Zelfs nu we weten dat dit een directe bedreiging kan vormen voor de democratie, blijft het, zeker in de VS, bijna onmogelijk voor de overheid om in te grijpen. Ook is er altijd een problematisch gebrek aan afstand geweest tussen datawetenschappers, politici en hun private geldschieters, zoals in 2019 weer bleek toen uitkwam dat het Media Lab van MIT jarenlang gefinancierd werd door de voor seksueel misbruik van kinderen veroordeelde zakenman – en vriend van Donald Trump – Jeffrey Epstein.

Politieke consultancy, zoals Simulmatics het ontwikkelde, leidde er verder toe dat politieke issues steeds meer langs partijlijnen ‘verdeeld’ werden. Abortus was bijvoorbeeld vroeger geen partijspecifiek links-rechts-issue, maar modellen zoals de People Machine leerden Nixon dat het in zijn electorale voordeel zou zijn om een pro-life standpunt te claimen voor de Republikeinse Partij. Zo werd het opdelen van de bevolking in steeds verfijndere groepen voter types één van de factoren die de polarisatie dreef – lang voor Donald Trump begon te twitteren.

Verklarende kracht

If Then gaat over nog een andere verschuiving: een verandering in wat begrepen wordt als kennis over mensen. Vanaf de jaren zestig werd het razendsnel makkelijker om grote bedragen aan financiering te vinden voor kwantitatief sociaalwetenschappelijk onderzoek, en steeds moeilijker om klassiek geesteswetenschappelijk onderzoek te doen, terwijl dat veel meer verklarende kracht heeft als het gaat om begrijpen wat mensen drijft, zowel individueel als collectief. Lepore laat dit mooi zien, al is het nauwelijks een verrassing dat Lepore als historicus geschiedschrijving intrinsiek beter vindt. Maar toch: het ‘wegraken’ van geschiedenis als verhaal is inherent aan het basale uitgangspunt van data science dat historische gegevens alleen interessant zijn als cijfermatige input die toekomstig gedrag kan helpen voorspellen. In die zin is If Then een indringend pleidooi voor het serieus nemen – en financieren – van geesteswetenschappelijk onderzoek en kennis.

Het opdelen van de bevolking in steeds verfijndere groepen voter types werd één van de factoren die polarisatie dreef – lang voor Donald Trump begon te twitteren.

Door het verhaal van Simulmatics te vertellen maakt If Then eigenlijk de omgekeerde beweging ten opzichte van wat Simulmatics zelf deed: Lepore laat zien hoe de Amerikaanse maatschappij gekomen is waar ze nu is, op de ouderwetse manier, op basis van archiefbronnen. Langs die weg zien we de belangrijke gebeurtenissen van de jaren zestig in de VS in een nieuw licht, en wordt duidelijk wat data allemaal niet laten zien. Zoals Lepore zegt: het werk van vrouwen telde niet als werk en hun kennis telde niet als kennis, terwijl ze waarschijnlijk veel meer begrepen van menselijk gedrag dan hun door computers geobsedeerde mannen. De projecten die guerilla-aanvallen in Vietnam en rassenrellen in Detroit hadden moeten voorspellen mislukten omdat de Simulmatics-mannen overduidelijk geen flauw idee hadden van wat er gaande was en wat ze hadden moeten meten. Een opmerkzame journalist, vertaler of secretaresse in Vietnam met enige belangstelling voor de mensen om wie het ging, had de toekomst veel beter kunnen voorspellen en verklaren. En in dat soort kwalitatieve onderzoeken moeten we dus ook blijven investeren.