Connected cars genereren zeeën van data

Privacy First volgt het dataspoor van connected cars, te beginnen bij het begin: de honderden sensoren die eindeloze stromen enen en nullen voortbrengen. Een deel van de vele Gigabytes aan data die per uur door een moderne auto worden gegenereerd, wordt doorgestuurd naar de fabrikant. De komst van 5G opent voor hen en anderen mogelijkheden die er tot voor kort nog niet waren.  

Dit stuk in vijf punten:

  • Moderne auto’s zijn uitgerust met honderden sensoren die voortdurend allerlei zaken meten en monitoren. Tegenwoordig gaat dat ook om camera’s, radar, lidar en (ultrasoon) microfoons die de omgeving van het voertuig scannen ten behoeve van rijhulpsystemen.

  • Gezamenlijk genereren die sensoren zeeën van Probe Vehicle Data – vele Gigabytes per uur. Dat varieert van technische gegevens die inzicht geven in de staat van het voertuig tot biometrische data van de inzittenden.

  • Floating Vehicle Data bestaan ook: dat is het type gegevens dat weliswaar ‘uit de auto komt’, maar niet door de auto zelf wordt gegenereerd. Bron daarvan zijn externe (navigatie)kastjes of mobiele telefoons (auto-apps).

  • De data die voortkomen uit de auto zelf, worden aan boord in realtime verwerkt en geanalyseerd aan de hand van ‘edge computing’, en voor een groot deel worden die data ook direct weer gewist. Een betrekkelijk klein deel van de gegevens wordt (gecomprimeerd) verzonden naar de fabrikant.

  • Om de data van de auto naar de cloud te krijgen, werken autofabrikanten nauw samen met onder meer telecombedrijven. Waar de mogelijkheden van het 4G-netwerk nog vrij beperkt waren, zijn die met de komst van 5G aanzienlijk opgerekt. 5G moet in Europa zorgen voor een grote stap op het gebied van Connected and Automated Mobility.

De status van de rechter achterdeur, die van het raam links voor, de positie van het schuifdak, de stand van de versnellingspook, de hoek waarin de stoelen staan, de spanning van de banden, het oliepeil – de lijst is eindeloos. Het zijn slechts enkele van de 246 vehicle data points in de datacatalogus van Caruso (‘From Connected Cars to Connected Business’). Dit Duitse bedrijf verwerkt voertuigdata van 16 grote autofabrikanten, waaronder Audi, Fiat, Ford, Peugeot en Renault.

Het eveneens Duitse High Mobility (‘Powering your business with car data’) bevindt zich op dezelfde markt en bedient 15 autofabrikanten. Dit bedrijf onderscheidt 58 categorieën (!) voertuiggegevens en verwerkt maar liefst 668 verschillende soorten data. Otonomo, een Amerikaanse concurrent van Caruso en High Mobility, zegt gemiddeld meer dan 3,4 miljard sensorwaarden van 50 miljoen auto’s per dag te ontvangen. (Een volgende keer meer over dergelijke bedrijven.)

400 Sensoren

De genoemde aantallen zijn goede indicaties van de hoeveelheid sensoren in moderne auto’s. Alle data die dataverwerkers als Caruso binnen krijgen, zijn immers gegenereerd door sensoren. Hoeveel dat er zijn verschilt van model tot model. Een nieuwe, wat duurdere auto kan zomaar 400 sensoren bevatten en het worden er steeds meer.

Fabrikanten kunnen net zoveel sensoren inbouwen als ze willen: de EU stelt hier geen beperkingen aan (in de Europese voorschriften voor de typegoedkeuring van voertuigen komt het woord ‘sensor’ slechts vier keer voor). Als gevolg van rijhulpsystemen die door de EU verplicht zijn gesteld (Advanced Driver Assistance Systems, ADAS) is het aantal sensoren in auto’s de afgelopen jaren omhoog geschoten. Om de omgeving van het voertuig te kunnen scannen zijn er ook nieuwe soorten bij gekomen, zoals camera’s, radar, lidar en (ultrasoon) microfoons.

Ultrasonische sensoren worden gebruikt om de afstand tot objecten te kunnen bepalen, vandaar dat je van die nerveuze piepjes hoort tijdens het inparkeren. Camera’s (3D) zijn goed in het detecteren van kleine, stilstaande objecten, radar (radiogolven) en lidar (laserpulsen, 2D) zijn beter in het waarnemen van bewegende objecten, met name ‘s nachts of in slechte weersomstandigheden. Radar en lidar zullen vooral bij volledig autonome voertuigen een prominentere rol gaan spelen.

Bij de huidige rijhulpsystemen zijn voornamelijk camera’s belangrijk. Camera’s aan de voorkant van de auto komen het meest voor, maar ze worden ook steeds meer ingebouwd aan de achterkant en aan de zijkanten (en in het interieur). Met acht camera’s ziet een Tesla Model 3 alles om zich heen, tot wel 250 meter ver.

Electronic Control Units (ECU’s)
Eind jaren ‘70 introduceerde General Motors de Electronic Control Unit (ECU), een kleine computer die op basis van wat sensoren doorgeven – één of meerdere onderdelen aansturen: de aandrijving, de remmen, de airbags, enzovoorts. Tegenwoordig heeft een auto uit het hogere segment al gauw rond de 150 ECU’s, stuk voor stuk verbonden met de CAN-bus, het interne communicatienetwerk van het voertuig. Daarop is ook een van de belangrijkste ECU’s aangesloten, namelijk de Telematics Control Unit (TCU) die de auto ‘connected’ maakt. De TCU is voorzien van een of meerdere simkaarten en zorgt voor de (externe) communicatie met de autofabrikant, met andere auto’s (V2V) of met de infrastructuur (V2X).

V2V en V2X staan nog in de kinderschoenen. De auto praat vooralsnog vooral met de fabrikant. Maar over wat voor data hebben we het precies?

Probe Vehicle Data tegenover Floating Vehicle Data

In algemene zin gaat het bij auto’s om drie soorten data:

  • data over voertuigen (fabricage en onderhoudshistorie)
  • data van voertuigen (technische gegevens voor reparatie-onderdelen)
  • data uit voertuigen (hieronder uitgesplitst)

Dit artikel gaat hoofdzakelijk over gegevens uit voertuigen, die ook wel Probe Vehicle Data worden genoemd, in tegenstelling tot Floating Vehicle Data. Dat laatste is het type gegevens dat weliswaar ‘uit de auto komt’, maar niet door de auto zelf wordt gegenereerd. Bron daarvan zijn externe (navigatie)kastjes of mobiele telefoons (auto-apps) die onder andere locaties, routes en rijdgedrag bijhouden. Alleen al in Nederland zijn er ongeveer honderd dienstverleners die werken met kastjes die ‘achteraf’ in de auto worden geïnstalleerd. Floating Vehicle Data zijn voor verschillende partijen minstens zo bruikbaar en waardevol als Probe Vehicle Data.

Probe Vehicle Data, dus data uit voertuigen, kunnen onderverdeeld worden in vier typen:

  • technische data
  • gebruikersdata
  • infotainmentdata
  • biometrische data

Welbeschouwd is er sprake van een spectrum. Met aan de ene kant data die puur technisch van aard zijn, en aan de andere kant: zuivere persoonsgegevens. Juridisch gezien is het lastig dat er tussen deze twee soorten data veel overlap bestaat.

Technische data geven inzicht in de algehele staat en het functioneren van de auto.

Gebruikersdata gaan over alle instellingen, zoals de stoelen, de spiegels, de lichten, de ruitenwissers, en de boordsystemen (zoals het cruise control). Maar ook je rijgedrag wordt geregistreerd: hoe wordt er gestuurd, geschakeld, opgetrokken en afgeremd? Evenals de locatiedata: waar ben je wanneer geweest?

Infotainmentdata (ter lering ende vermaak) hebben betrekking op het gebruik van onder meer radio en navigatie, en allerlei diensten die gratis of als abonnementen via het dashboardscherm worden aangeboden.

Biometrische data worden tegenwoordig ook steeds meer vastgelegd: met een cameraatje in de achteruitkijkspiegel worden bijvoorbeeld de bestuurder en eventuele inzittenden gefilmd. Steeds meer auto’s zijn voorzien van spraakbesturing en herkennen je stem. Daarnaast wordt bijvoorbeeld gemeten hoeveel je weegt zodra je gaat zitten, of je alcohol hebt gebruikt, of je achter het stuur in slaap dommelt, en wat je hartslag is. Wat er met deze gegevens gebeurt, en wie ze in handen krijgt, is vaak niet duidelijk.

Diagnostische foutcodes

Gezien het aantal sensoren lijkt er al met al maar weinig waarvan autofabrikanten niet op de hoogte willen zijn. De gegevens die zij ontvangen zijn vooral nuttig om gebreken en aandachtspunten voor onderhoud vroegtijdig te signaleren. Er wordt veel gewerkt met diagnostische foutcodes (Diagnostic Trouble Codes, DTC) op basis waarvan duidelijk is welk onderdelen toe zijn aan revisie.

Daarnaast kunnen de data commercieel van waarde zijn. Die waarde neemt toe naarmate die data gecombineerd kunnen worden met gegevens die al eerder zijn verzameld, of met gegevens van andere auto’s in de buurt, of van hetzelfde merk.

Toch vertellen verschillende insiders aan Privacy First dat autofabrikanten lang niet altijd goed weten wat ze precies met al de data kunnen, of aan zouden moeten, en dat ze er ook voorzichtiger mee omspringen dan vaak wordt beweerd.

Berichtgeving begin april van Reuters over Tesla is dan weer niet bepaald geruststellend. Medewerkers van de elektrische autobouwer blijken tussen 2019 en 2022 allerlei gevoelige (video)beelden uit de auto’s met elkaar te hebben gedeeld, onder meer van een geheel naakte man. In 2020 kreeg het merk in Duitsland een Big Brother Award omdat het structureel inzittenden en de omgeving van de voertuigen zou surveilleren en privacywetgeving aan z’n laars zou lappen.

De vraag is echter in hoeverre het Amerikaanse Tesla, dat wel vaker in opspraak komt, representatief is voor de hele automarkt. Feit is evenwel dat als dergelijke gegevens al dan niet rechtmatig worden verzameld – en Tesla is daar zeker niet de enige in – schendingen of lekken altijd op de loer liggen.

25 Gb of een veelvoud?

Terug naar de voertuigdata. Als je daarover leest, kom je één cijfer overal tegen: 25 Gigabyte. Zoveel gegevens zou een moderne auto per uur genereren. Ook wij noemden deze waarde in een eerder artikel, maar het is goed om er nog even op terug te komen. De oorspronkelijke bron van dit verder niet onderbouwde getal blijkt een ‘white paper’ uit 2015 van het Japanse concern Hitachi te zijn. Inmiddels zijn we acht jaar verder en kan het niet anders dan dat de nieuwste auto’s een nog veel grotere hoeveelheid nullen en enen uitspuwen.

In het bewuste white paper spreekt Hitachi in verband met connected cars immers zelf over “exponentiële datagroei” en meldt het bedrijf daarnaast dat testauto’s voorzien van camera’s en extra sensoren (destijds) een tienvoud van die 25 Gb per uur opleverden. Wat een klein decennium geleden alleen nog gold voor testauto’s, is voor veel voertuigen inmiddels de praktijk.

Volgens het FD gaat het inmiddels om 1400 Gb – dus bijna anderhalve terabyte – per uur. De volumes zijn vooral zo groot door alle HD camerabeelden. Een flinke toename dus, maar nog altijd peanuts vergeleken met wat er komen gaat.

Zo becijferde de toenmalige CEO van chip- en computeronderdelenfabrikant Intel in 2016 al dat zelfrijdende auto’s per uur maar liefst 160 keer meer data zullen gaan voortbrengen dan de toentertijd gangbare 25 Gb. Dat komt neer op 4.000 Gb – oftewel 4 terabyte – per uur, en staat gelijk aan de gezamenlijke dataproductie van ongeveer 3.000 mensen die zich gelijktijdig op het internet begeven. Een medewerker van Lucid Motors, een Amerikaanse fabrikant van elektrische auto’s, schatte die hoeveelheid in 2017 echter nog vele malen hoger in: tot wel 19 terabyte per uur.

Slide uit presentatie over zelfrijdende auto’s van Stephan Heinrich.
Een slide uit een presentatie over zelfrijdende auto’s van Stephan Heinrich, voormalig systeemarchitect bij Lucid Motors, 2017.

Dit gaat ons voorstellingsvermogen zo langzamerhand wel te boven. Voor de meeste mensen zullen dit sowieso niet meer zijn dan fun facts. Bovendien zijn zelfrijdende auto’s nog slechts toekomstmuziek. Dat neemt echter niet weg dat er almaar meer zelfstandig opererende (veiligheids)systemen in voertuigen bij komen en er steeds meer data nodig zijn om die systemen goed te laten functioneren. (Die rijhulpsystemen werken nu overigens nog vaak verre van vlekkeloos.)

Welke gegevens zijn relevant?

Resteert de vraag hoe fabrikanten deze data-explosie voor henzelf in goede banen leiden. Een samenspel van hardware (geavanceerde flash-geheugentechnologie) en zeer snelle software voor gegevensopslag maakt de gelijktijdige verwerking van meerdere grote gegevensstromen mogelijk.

Voordat een klein deel van de voertuiggegevens – via een versleutelde verbinding – in de cloud van de fabrikant belandt, worden die gegevens eerst geanalyseerd en verwerkt in het voertuig zelf, in realtime. Dat gebeurt aan de hand van edge computing. Dat heet zo omdat dit proces zich voltrekt direct naast de sensoren en controllers in de auto: ‘aan de rand’ van de databron. Een door autofabrikanten geliefd platform hiervoor is het door LinkedIn ontwikkelde Apache Kafka.

De auto maakt onderscheid tussen relevante gegevens en irrelevante gegevens:

  • Relevante gegevens worden gebruikt om een taak te volbrengen, en/of gecompimeerd verzonden naar de cloud. Comprimeren is logisch omdat veel sensorwaarden voor enige tijd constant blijven en het te kostbaar is (en niks toevoegt) om bijvoorbeeld 500 keer achter elkaar dezelfde code te versturen.
  • Irrelevante gegevens worden gewist, direct of binnen 24 uur. Dat betreft de bulk van de data. Wat er (op welk moment) relevant wordt geacht en wat niet, bepaalt de fabrikant, die hier aanpasbare algoritmes voor bedenkt. In die algoritmes ligt ook besloten met welk interval gegevens worden verzonden. Dat gebeurt tussen de één en zes keer per minuut, afhankelijk van het merk en het model.

Lang niet alle data worden verzonden

Bij lange na niet alle data verlaten dus de connected car. Alle gegevens van alle honderden miljoenen voertuigen die verbonden zijn met het internet zouden ook met geen mogelijkheid allemaal (op tijd) in de cloud geraken: dat zou zinloos zijn, de bandbreedte van het mobiele netwerk niet aan kunnen en ook gigantisch veel geld kosten.

Data-overdracht voor apparaten (inclusief voertuigen) voorzien van speciale Machine-2-Machine (M2M) SIMkaarten met 12-cijferige, 097-nummers is evenwel goedkoper dan voor ‘normale’ SIMkaarten met 10-cijferige, 06-nummers. Fabrikanten nemen bovendien dusdanig grote volumes af dat dit de inkoopprijzen bij telecomproviders zal drukken.

Een vertegenwoordiger van een grote, in Europa opererende verwerker van voertuiggegevens die rechtstreeks uit de auto komen laat – op voorwaarde van anonimiteit – weten dat de servers van zijn bedrijf gemiddeld één à anderhalve Gigabyte aan data per auto per dag binnenkrijgen. Hoeveel precies is sterk afhankelijk van het merk, model en type voertuig, het bouwjaar en ook de aanwezige rijhulpsystemen. (De autofabrikanten zelf ontvangen nog meer gegevens, maar stellen niet alles ter beschikking voor verwerking door derden).

Bij kastjes van derde partijen die achteraf worden geïnstalleerd – om daar volledigheidshalve nog even op terug te komen – gaat het om een aanzienlijk kleinere hoeveelheid data. Bij dergelijke kastjes speelt de (dataverbinding van de) autofabrikant geen enkele rol. Daar betaal je als afnemer van het kastje in principe ook zelf voor, terwijl autofabrikanten betalen voor hun eigen data-overdracht.

Erik Kamps – de CEO van Crossyn, een Nederlands bedrijf dat voornamelijk diensten verleent op basis van data uit kastjes – vertelt dat het aantal berichten dat een voertuig verstuurt, varieert tussen de 24 en 48 miljoen per maand. Het gaat dan – per bericht – om getallen of eenvoudige input/outputwaarden (I/O) van enkele bytes. Per maand stuurt een auto maximaal ongeveer 300 Mb naar de cloud. Het betreft kortom heel veel ‘records’, maar slechts weinig volume.

Achteraf ingebouwde kastjes hebben geen toegang tot alle autodata: ze hebben een relatief beperkte dataset. De dataset van ingebouwde, ‘af fabriek’ kastjes is veel uitgebreider en levert dus meer bytes op.

Een hoeveelheid van bijvoorbeeld één GB gaat gedurende een dag normaal gesproken zonder al te veel moeite naar de cloud over 4G, en met gemak over 5G. Waar de mogelijkheden van het 4G-netwerk nog vrij beperkt waren, zijn die met de komst van 5G aanzienlijk opgerekt: het is daarmee makkelijker om ook echt grotere hoeveelheden data over the air te krijgen, bijvoorbeeld als er naar aanleiding van een ongeluk ook allerlei camerabeelden moeten worden doorgeseind. Er komen steeds meer auto’s op de markt die 5G-technologie ondersteunen.

5G effent de weg voor Connected and Automated Mobility (CAM)

De EU heeft de afgelopen jaren veel onderzoek laten doen naar 5G en Connected and Automated Mobility (CAM), met name binnen de projecten 5G Mobix en 5G Blueprint. Daarbij is ook uitgebreid gekeken naar de cyber security en de privacy-aspecten van connected cars (zie bijvoorbeeld p. 59-69 van dit rapport).

Ten aanzien van de 3,5 Gigahertz (GHz) 5G frequentieband die in Nederland wordt gebruikt voor landelijke mobiele communicatie, verklaarde KPN na tests met slimme voertuigen enkele jaren geleden dat zelfrijdende auto’s en intelligente transportsystemen gebaat zijn bij de enorme capaciteit, snelle communicatiemogelijkheden, hoge betrouwbaarheid en minimale netwerkvertraging die dit spectrum biedt. ‘‘Het netwerk vertoont geen enkele hapering, ook al staat er een hele bus schoolkinderen voor het stoplicht die allemaal Netflix op hun smartphone zitten te kijken.’’

Door de komst van 5G en – in de toekomst – 6G en zelfrijdende auto’s zal de data-overdracht naar de cloud wel aanzienlijk toenemen. Om die overdracht bij echt grote hoeveelheden gegevens zo min mogelijk te vertragen (de door fabrikanten gevreesde ‘latentie’), zal edge computing steeds belangrijker worden en kan er indien nodig nog een verwerkingslaag worden tussengeschoven: in dat geval is sprake van ‘fog computing’. Edge (en fog) computing doen dus het nodige voor(soorteer)werk, de serverparken van autofabrikanten en geaffilieerde dataverwerkers die samen de cloud vormen, zorgen voor verdere opslag, verwerking, analyse en visualisatie.

Mede ten behoeve van dienstverlening op het gebied van mobiliteit en data-uitwisseling binnen de auto-industrie investeert de EU ruim twee miljard euro in programma’s ter verdere ontwikkeling van edge computing en nieuwe generatie internet- en clouddiensten. Hiervoor is in 2021 de European Alliance for Industrial Data, Edge and Cloud in het leven geroepen. Het is slechts een van vele initiatieven uit Brussel op het gebied van het Internet of Things, waarvan connected cars het meest markante uithangbord zijn.