Blog costituzionale

Utilizzo del DSA per studiare le piattaforme

Il Digital Services Act (DSA) dell'UE ha stabilito una serie di nuovi obblighi di trasparenza per le piattaforme online. Uno dei più semplici ma anche il più critico consente ai ricercatori di raccogliere o "scrapare" dati pubblicamente disponibili sui siti web o sulle app delle piattaforme. Questo è il primo di una serie di post sullo scraping dei dati e sui diritti dei ricercatori ai sensi del DSA. Esamina chi può usufruire delle tutele del DSA, confrontando tre categorie di ricercatori: accademici verificati che hanno accesso ai dati della piattaforma detenuti internamente, la più ampia categoria di ricercatori che possono utilizzare dati pubblicamente disponibili e ricercatori la cui raccolta dati non è coperta dal DSA.

I prossimi post di questa serie esamineranno più da vicino quali dati questi ricercatori potrebbero raccogliere, data l'incertezza su quali informazioni online siano considerate "pubblicamente disponibili". Esamineranno anche come i ricercatori possano acquisire l'idoneità a raccogliere dati e se le piattaforme stesse possano fungere da gatekeeper, la cui approvazione è richiesta prima che i ricercatori possano raccogliere anche solo informazioni pubblicamente disponibili. Affinché le regole di accesso ai dati della DSA raggiungano lo scopo previsto, ovvero quello di controllare il potere delle piattaforme e di creare un meccanismo di responsabilità pubblica, sarà importante che ricercatori e autorità di regolamentazione arrivino a risposte condivise a queste domande.

Legge sulla raschiatura

Lo scraping è la raccolta automatizzata di dati dalle interfacce utente di siti web o app. I meccanismi di raccolta dei dati variano e la definizione precisa del termine è stata a lungo dibattuta. Ma è una pratica onnipresente su Internet. Lo scraping è il primo passo di Google nell'assemblare il suo indice di ricerca web. È alla base del monitoraggio del marchio e di servizi simili offerti da aziende come la lituana OxyLabs o l'israeliana Bright Data, ed è utilizzato da clienti commerciali che vanno da McDonald's a Moody's e Deloitte. Lo scraping è anche ampiamente utilizzato per la ricerca , che spazia da oscuri lavori accademici a progetti di interesse pubblico come Bellingcat e il Center for Countering Digital Hate (CCDH). L'esperienza del CCDH illustra i rischi legali a cui possono andare incontro gli scraper. Dopo che il CCDH ha utilizzato i dati recuperati per documentare l'incitamento all'odio su X, la piattaforma ha intentato una causa per milioni di dollari ai sensi delle leggi statunitensi sui contratti e sulla pirateria informatica. 

Nonostante l'ampio ricorso delle grandi aziende allo scraping e la sua tolleranza da parte dei siti web, i suoi esatti fondamenti giuridici sono sempre stati controversi. Negli Stati Uniti, i ricercatori che si affidano allo scraping operano sapendo che una singola lettera di diffida potrebbe costringerli ad abbandonare il loro progetto a metà strada. La stessa incertezza spesso impedisce alle università di approvare la ricerca in primo luogo. Nell'UE, tali rivendicazioni erano storicamente meno comuni. Ma X ha contestato i diritti dei ricercatori sui dati ai sensi del DSA in Germania e ha citato in giudizio alcuni ricercatori per i loro report in Irlanda . E permane una notevole incertezza sulle potenziali rivendicazioni ai sensi dei Termini di servizio delle piattaforme, del copyright, del GDPR e di altre fonti normative.

La corsa all'oro aziendale innescata dall'intelligenza artificiale sta cambiando questo panorama di ambiguità giuridica e di scraping semi-tollerato. Le aziende di intelligenza artificiale generativa hanno fatto ampio affidamento sui dati acquisiti per l'addestramento. Le aziende che possiedono – o hanno di fatto il controllo – dei dati hanno risposto con azioni legali e richieste di licenza. Molte hanno anche semplicemente bloccato l'accesso tecnico ai dati sui loro siti, persino per risorse di archiviazione senza scopo di lucro come Internet Archive .

Nonostante gli scraper incontrino crescenti barriere tecniche e legali, i decisori politici ne riconoscono sempre di più l'importanza. Come approfondirò in un prossimo articolo, questo non è un problema che riguarda solo l'intelligenza artificiale e altre tecnologie basate sui dati. Le leggi che ostacolano lo scraping possono anche interferire con importanti obiettivi politici come l'interoperabilità delle piattaforme . Norme giuridiche poco chiare sullo scraping, sia dannoso che benefico, potrebbero precludere importanti percorsi futuri per Internet e consolidare ulteriormente le posizioni degli operatori storici.

I ricercatori qui discussi sono solo un esempio. Ma sono di un'importanza unica e recentemente dotati di strumenti legali innovativi per promuovere l'interesse pubblico. Questo articolo esamina in che modo specifici ricercatori e progetti saranno interessati dal DSA. I prossimi articoli della serie esamineranno quali dati i ricercatori potrebbero raccogliere e se le piattaforme hanno l'autorità per impedirlo. 

DSA, ricerca e scraping

La DSA si basa fondamentalmente sulla trasparenza, non solo nei confronti degli enti regolatori o degli esperti, ma anche del pubblico. Come a volte affermano gli sviluppatori di software open source, con un numero sufficiente di occhi, tutti i bug sono superficiali. Lo stesso vale per le questioni relative al potere della piattaforma e al dibattito pubblico al centro della DSA. Offrendo dati a un'ampia gamma di individui e organizzazioni, la DSA potenzia un ecosistema di nuove fonti di informazione, ciascuna delle quali rafforza le altre.

Le misure di trasparenza della DSA spaziano da report formali sulle piattaforme a un database pubblico che tiene traccia di ogni decisione di moderazione dei contenuti segnalata agli utenti ai sensi di legge. Forse il più noto è l'articolo 40(4) che consente ai ricercatori accademici verificati di ottenere l'accesso ai dati detenuti internamente da piattaforme online e motori di ricerca di grandi dimensioni (Very Large Online Platforms and Search Engines, VLOPSE). Una disposizione correlata, l'articolo 40(12), garantisce che una gamma più ampia di ricercatori possa raccogliere dati accessibili al pubblico, anche tramite scraping, al fine di valutare i rischi creati dalla piattaforma.

L'articolo 40(12) è composto da appena novantasei parole. Ha ricevuto relativamente poca attenzione durante i negoziati per il DSA. Tuttavia, la flessibile raccolta dati che consente è essenziale per il DSA. Lo scraping, in particolare, è estremamente utile per indagare cosa le piattaforme mostrano effettivamente ai propri utenti, non solo cosa dichiarano di mostrare. I ricercatori hanno utilizzato nuovi e laboriosi metodi di scraping per generare i primi campioni casuali noti di video di YouTube, ad esempio. Lo scraping ha anche contribuito a stabilire che la selezione presumibilmente rappresentativa di post nell'API di ricerca di TikTok non lo è in realtà. (È, stranamente, dominata da video caricati il ​​sabato). Altri ricercatori hanno utilizzato lo scraping per scoprire che l'API di TikTok omette i video dell'azienda, così come quelli di Taylor Swift.

Oltre a consentire ai ricercatori di verificare l'accuratezza delle divulgazioni delle piattaforme, lo scraping consente loro di guardare oltre gli inevitabili limiti dei dati strutturati provenienti da fonti come le API. A titolo di esempio, le specifiche API degli stessi enti regolatori della DSA per la classificazione dei contenuti online hanno talvolta omesso la pornografia e confuso l'incitamento all'odio con i discorsi a favore del terrorismo. Gli scraper non sono vincolati alle classificazioni delle API e possono invece definire le proprie categorie di contenuti o dati. Possono anche esaminare aspetti dell'esperienza utente invisibili tramite le API, come la progettazione dell'interfaccia utente e il ranking algoritmico dei contenuti. Questa flessibilità trasforma le autorizzazioni apparentemente modeste dell'articolo 40(12) per l'accesso a dati già pubblici in un efficace strumento di protezione per ogni altro mandato di trasparenza previsto dalla DSA. L'articolo 40(12) è inoltre opportunamente aperto riguardo a chi può raccogliere dati. Apre le porte a un gruppo ampiamente definito di ricercatori non commerciali per svolgere un lavoro che serva agli obiettivi dichiarati della DSA.

Nel complesso, l'articolo 40 modificherà significativamente il panorama giuridico, direttamente o indirettamente, per tre categorie di ricercatori. Comprendere tali cambiamenti sarà essenziale per coloro che progettano e verificano giuridicamente i progetti di ricerca. Il diagramma seguente illustra tre categorie fondamentali di ricerca, che il resto di questo articolo discuterà più in dettaglio.

Accesso verificato ai dati della piattaforma non pubblica ai sensi dell'articolo 40(4) del DSA

L'articolo 40(4) del DSA impone alle VLOPSE di condividere i dati detenuti internamente per progetti specifici sottoposti a verifica da parte delle autorità di regolamentazione. Per qualificarsi, i ricercatori devono essere affiliati a istituzioni accademiche e soddisfare un elenco di requisiti ai sensi dell'articolo 40(8), tra cui l'indipendenza da interessi commerciali e il mantenimento della sicurezza dei dati. I progetti qualificati devono affrontare "l'individuazione, l'identificazione e la comprensione dei rischi sistemici" creati dalle piattaforme nell'UE o "l'adeguatezza, l'efficienza e l'impatto delle misure di mitigazione del rischio [delle piattaforme]". L'articolo 34 elenca i rischi sistemici rilevanti, comprese le minacce al dibattito civico e ai diritti fondamentali; l'articolo 35 elenca le misure di mitigazione pertinenti.

Per ottenere l'accesso ai dati, i ricercatori devono presentare domanda ai Coordinatori dei Servizi Digitali (DSC) nazionali per la verifica e l'approvazione. La procedura è descritta nell'Articolo 40 e nell'Atto Delegato della Commissione del 2025 .

Accesso ai dati pubblici ai sensi dell'articolo 40(12) del DSA

L'articolo 40(12) del DSA autorizza un gruppo molto più ampio di ricercatori a utilizzare dati "pubblicamente accessibili nell'interfaccia online [di un VLOPSE]", inclusi i "dati in tempo reale" quando tecnicamente possibile. Copre dati che i ricercatori avrebbero potuto già visualizzare semplicemente consultando pagine web o app pubbliche, quindi in un certo senso non modifica le informazioni a disposizione dei ricercatori. Tuttavia, l'articolo 40(12) amplia significativamente la certezza giuridica dei ricercatori e la pressione per la cooperazione tra piattaforme.

I ricercatori ai sensi dell'articolo 40(12) non devono necessariamente essere accademici. Sono definiti in termini aperti come "compresi coloro che sono affiliati a enti, organizzazioni e associazioni senza scopo di lucro". Questi ricercatori devono soddisfare quattro criteri di base, un sottoinsieme del più ampio elenco di condizioni del DSA per l'accesso accademico verificato ai dati della piattaforma interna. Ai sensi dell'articolo 40(8)(b)-(e) , i ricercatori che raccolgono dati pubblici devono (b) essere indipendenti da interessi commerciali, (c) rendere pubblici i propri finanziamenti, (d) soddisfare i requisiti di protezione e sicurezza dei dati e (e) utilizzare i dati solo se necessario e proporzionato al loro scopo di ricerca. Per essere ammissibili, i ricercatori devono indagare sulle questioni di "rischio sistemico" di cui all'articolo 34 del DSA. (A differenza degli accademici verificati, questi ricercatori non sono incaricati di indagare sulla mitigazione del rischio di cui all'articolo 35). Il DSA non stabilisce alcuna procedura di verifica per la ricerca ai sensi dell'articolo 40(12), né autorizza la Commissione a elaborare le sue disposizioni tramite un atto delegato.

L'articolo 40(12) è stato generalmente interpretato in modo da comprendere tre ampi metodi di raccolta dati: API, dashboard e scraping.

API

Molti progetti di ricerca passati si basavano su API gestite dalla piattaforma. È noto che Twitter abbia revocato l'accesso gratuito dei ricercatori alla sua API nel 2023, interrompendo importanti progetti in corso. Questo sviluppo ha scatenato un ampio dibattito tra i ricercatori sulla " posizione precaria" e sulla dipendenza dai permessi aziendali nell'" era post-API ".

Le API possono semplificare notevolmente sia il processo tecnico di raccolta dati sia la comprensione giuridica da parte dei ricercatori dell'uso consentito dei dati. Tuttavia, presentano gli svantaggi sopra descritti, tra cui la vulnerabilità a errori o omissioni da parte delle piattaforme. I ricercatori che utilizzano le API ai sensi dell'articolo 40(12) affronteranno effettivamente rischi simili a quelli dei ricercatori che ottengono dati interni ai sensi dell'articolo 40(4). Come dimostra l'esperienza pre-DSA, gli errori delle piattaforme a volte portano a set di dati incompleti e non rappresentativi, con conseguenze devastanti per i ricercatori.

L'articolo 40(12) non specifica obblighi specifici per le piattaforme di creare nuove API o di concedere l'accesso a quelle esistenti. Detto questo, il Considerando 98 del DSA prevede chiaramente strumenti gestiti dalla piattaforma per i ricercatori. Le VLOPSE possono in ogni caso avere forti incentivi a creare API come mezzo per mantenere il controllo sulla raccolta dati. Imponendo termini di servizio ai ricercatori, le piattaforme possono anche cercare – comprensibilmente – di evitare responsabilità in caso di uso improprio dei dati da parte dei ricercatori.

Dashboard

La seconda e più ambiziosa forma di accesso ai dati ai sensi dell'articolo 40(12) avviene tramite sofisticate dashboard di dati simili allo strumento CrowdTangle di Facebook, ormai obsoleto . Il Considerando 98 del DSA sembra descrivere la conformità all'articolo 40(12) attraverso strumenti di questo tipo. È interessante notare che il Considerando descrive anche la fornitura di dati che molte piattaforme attualmente non rendono pubblici, come i dati "sulle interazioni aggregate con contenuti provenienti da pagine pubbliche, gruppi pubblici o personaggi pubblici, inclusi dati su impression e coinvolgimento come il numero di reazioni, condivisioni e commenti dei destinatari del servizio".

Un rapporto della Mozilla Foundation del 2024 sulla conformità 40(12) delle piattaforme approfondisce questa idea, raccomandando che le piattaforme forniscano non solo informazioni "in tempo reale" sul presente, ma anche "accesso storico completo" ai dati precedentemente disponibili, inclusi "dati di serie temporali sul coinvolgimento dei contenuti, sulla crescita degli account e su qualsiasi altro attributo rilevante che cambia nel tempo". Raccomanda inoltre lo sviluppo di risorse di terze parti che siano al di fuori del controllo della piattaforma, tra cui "dashboard, repository di donazioni di dati e archivi storici". Terze parti di questo tipo potrebbero anche aiutare i ricercatori a conformarsi al GDPR e ad altre leggi.

Raschiatura

Il mezzo più quotidiano, ma forse anche il più essenziale, per accedere ai dati ai sensi dell'articolo 40(12) è lo scraping. L'articolo 40 non menziona espressamente lo scraping. L'unica menzione del DSA è in un considerando in cui si afferma che le piattaforme non sono tenute a conteggiare "bot e scraper automatizzati" tra gli utenti attivi mensili. (Un riferimento che, curiosamente, sembra riconoscere l'esistenza dello scraping, che le piattaforme conoscono e tollerano). Tuttavia, la Commissione ha identificato due volte lo "scraping" come mezzo obbligatorio per l'accesso ai dati ai sensi dell'articolo 40(12), negli impegni vincolanti sottoscritti da AliExpress e nelle conclusioni preliminari di violazione del DSA da parte di X.

 A differenza delle commissioni di ricerca verificate previste dall'articolo 40(4), l'articolo 40(12) non stabilisce alcun ruolo per i DSC nazionali. L'autorità di regolamentazione formale rimane alla Commissione. Tuttavia, il DSA non autorizza la Commissione ad ampliare l'articolo 40(12) attraverso un atto delegato, come ha fatto per la ricerca accademica verificata. La Commissione afferma che non esaminerà le singole controversie relative all'accesso ai dati ai sensi dell'articolo 40(12), ma monitorerà invece la conformità complessiva delle piattaforme per "valutare se vi sia un sospetto di violazione sistemica". Oltre alle indagini su X e AliExpress, la Commissione ha indagato su Meta e TikTok e ha pubblicato conclusioni preliminari sulle violazioni dell'articolo 40.12 da parte di entrambe le società.

In pratica, sembra probabile che i ricercatori possano sottoporre domande relative allo scraping delle piattaforme ai DSC, nonostante la loro mancanza di autorità formale. Ciò potrebbe accadere perché i ricercatori utilizzano lo scraping come primo passo per determinare quali dati non pubblici richiedere ai sensi dell'articolo 40(4), o descrivono lo scraping futuro come parte di un progetto complessivo sottoposto ad approvazione ai sensi dell'articolo 40(4). I ricercatori potrebbero anche rivolgersi informalmente ai DSC, o persino presentare reclami ai sensi dell'articolo 53 del DSA, se il loro scraping viene bloccato dalle piattaforme. Le FAQ della Commissione per i ricercatori adottano un approccio pragmatico, incoraggiandoli a "contattare i DSC o la Commissione" in merito alle difficoltà nell'ottenere dati ai sensi dell'articolo 40(12).

Ricerca non-DSA

Negli ultimi anni, il DSA e l'Articolo 40 sono stati comprensibilmente al centro dell'attenzione dei ricercatori di piattaforma. Tuttavia, una vasta gamma di importanti ricerche online esula dal DSA. Tra queste rientrano la raccolta di dati da piattaforme non VLOPSE o da siti e app gestiti da editori di notizie, aziende, governi, partiti politici, organizzazioni religiose e altri. Inoltre, i dati raccolti dalle VLOPSE non saranno considerati ai sensi dell'Articolo 40(12) se il progetto di ricerca non riguarda i rischi elencati nel DSA.

Un progetto che raccolga dichiarazioni pubbliche di compagnie petrolifere sull'inquinamento o sui cambiamenti climatici, ad esempio, rientrerebbe probabilmente in gran parte o interamente al di fuori dell'Articolo 40. Lo stesso vale per un progetto linguistico che monitori l'emergere e la normalizzazione dello slang. A tal fine, un ricercatore potrebbe voler analizzare siti come Urban Dictionary, Telegram o 4chan per identificare i primi utilizzi di un termine specifico; analizzare Reddit o Instagram per monitorarne la crescente popolarità; e analizzare siti di notizie per evidenziarne la normalizzazione. Per questo ipotetico progetto, solo i dati di Instagram sarebbero potenzialmente coperti dall'Articolo 40(12) – e solo se potessero essere collegati a un danno elencato nel DSA. Il progetto avrebbe maggiori possibilità di essere coperto dal DSA se si concentrasse, ad esempio, sullo slang dispregiativo che descrive le persone con disabilità (che incide sui rischi dell'Articolo 34 per la dignità umana e la non discriminazione) e sui problemi creati dalla moderazione e dalla classificazione dei contenuti delle piattaforme (piuttosto che sulle scelte indipendenti degli utenti o sul comportamento offline).

I ricercatori non DSA non saranno direttamente tutelati dall'articolo 40, ma potrebbero comunque trarne beneficio se il DSA promuovesse interpretazioni più flessibili o chiare di altre leggi. I tribunali che valutano i diritti dei ricercatori DSA potrebbero, ad esempio, giungere a interpretazioni a tutela della ricerca delle eccezioni al text e data mining della Direttiva sul copyright del DSM, del diritto contrattuale nazionale e dei termini di servizio, o della base giuridica dei "legittimi interessi" del GDPR per il trattamento dei dati personali. Se le interpretazioni di queste altre leggi aprissero le porte alla ricerca legittima in generale , e non solo ai sensi del DSA, ne trarrebbero beneficio la comunità di ricerca più ampia.

Nel frattempo, il percorso legale più chiaro creato dall'Articolo 40 potrebbe avere un costo per i progetti non DSA. La nostra ipotetica ricercatrice in linguistica potrebbe ottenere più facilmente finanziamenti o l'approvazione dell'IRB se rivedesse il suo progetto per concentrarsi esclusivamente su Instagram, anche se in tal caso non sarebbe in grado di esaminare la diffusione multipiattaforma. Incentivi simili a dare priorità alle priorità di ricerca delle autorità di regolamentazione sono stati notati da potenziali ricercatori dell'Articolo 40(4). Nella più ampia comunità di ricerca, le stesse considerazioni potrebbero rimodellare le priorità per il giornalismo basato sullo scraping come quello di The Markup , o per progetti della società civile come il reportage del CCDH su X. In definitiva, la tutela della legittima ricerca online nel suo complesso richiederà di superare barriere legali che vanno oltre il DSA.

Conclusione

Il DSA offre ai ricercatori importanti opportunità di raccolta di dati accessibili al pubblico, ma lascia anche irrisolte questioni chiave. I successivi capitoli di questa serie affronteranno altre questioni legali per la ricerca basata sullo scraping ai sensi dell'articolo 40(12) del DSA, tra cui la definizione di dati "accessibili al pubblico" e il ruolo delle piattaforme nella verifica o approvazione della ricerca. Rispondere a queste domande fornirà maggiore chiarezza nell'ambito del DSA e forse inizierà a rispondere a domande correlate per il più ampio universo dei ricercatori.

Questo è un cross-posting con Tech Policy Press.

Il post Utilizzo del DSA per studiare le piattaforme è apparso per la prima volta su Constitution Blog .


Questa è la traduzione automatica di un articolo pubblicato su Verfassungsblog all’URL https://verfassungsblog.de/dsa-platforms-digital-services-act/ in data Mon, 27 Oct 2025 06:00:36 +0000.