Les données dans les politiques publiques

Thomas Grandjean, DREAL Hauts-de-France
https://www.thomasgrandjean.fr/

La donnée c'est de la connaissance ?

Non, une donnée nécessite d'être contextualisée (date de mise à jour, auteur, échelle, etc.) et interprétée par un référent métier pour devenir de la connaissance.

Comment classer les données ?

Selon leur nature/format : structurée (numérique, géographique, catégorielle, ...), semi-structurée (html, xml, json...) ou non structurée (texte, son, vidéo...)...
Selon leur origine ou le mode de récupération : interne, opendata, webscraping, article de presse, donnée partenariale, donnée crowdsourcée...

Qu'est-ce qu'une API ?

Une API (interface de programmation) est un point d'entrée pour que des programmes échangent de la donnée ; les API sont au coeur des stratégies de partage de la donnée. Elles permettent de récupérer ou même de créer de la donnée. Pour un inventaire des API publiques, consulter la plateforme api.gouv.fr.

Qu'est-ce qu'un algorithme ?

La CNIL définit un algorithme comme "une suite finie et non ambigüe d’instructions permettant d’aboutir à un résultat à partir de données fournies en entrée."
Les algorithmes peuvent être numériques ou papier.
Principes de redevabilité : signalement, description du fonctionnement, justification du recours aux algorithmes, explicabilité des résultats, accessibilité au code source et à la documentation, voies de recours.
Pour en savoir plus : consulter le guide d'Etalab.

Contexte réglementaire de la donnée

La donnée personnelle est encadrée par un cadre général (principalement fait d'allers-retours entre droits national et européen). Parmi les textes faisant référence, on peut citer la Convention européenne des droits de l'homme, le code des relations entre le public et l'administration, le règlement dit RGPD ou les directives européennes dites PSI (sa dernière révision n'étant pas encore transposée).
Il existe également un droit sectoriel de la donnée ; si l'on considère l'environnement, on peut citer la convention d'Aarhus, la charte de l'environnement ou le code de l'environnement (par exemple ses articles L.124-1 et suivants).
Nota : pour la plupart des administrations, la mise à disposition d'un opendata de qualité est une obligation.
Toute organisation de plus de 50 agents chargée d’une mission de service public (les administrations, les collectivités de plus de 3500 habitants et les délégations de service public) est tenue de publier ses jeux de données dans un format ouvert, utilisable et exploitable par un système de traitement automatisé (article L312-1-1 du CRPA).
Pour en savoir plus, consulter les recommandations d'Etalab.

Les métiers de la donnée

Peu de personnes s'accordent sur les métiers de la donnée. Le rapport public Évaluation des besoins de l'État en compétences et expertises en matière de donnée du 15/06/2021 se focalise sur quatre métiers nouveaux : data scientist, data analyst, data engineer, data architect.
D'autres métiers existent, par exemple ceux liés à la géomatique (très présents au ministère de la transition écologique et non mentionnés dans ce rapport).

Digitalisation de l'administration (exemples)

La digitalisation passe d'abord par l'ouverture des codes sources et la transparence algorithmique. Pour un tour d'horizon des codes ouverts, consulter code.gouv.fr.
Dites-le-nous une fois : visant à simplifier les démarches administratives, cette politique s'appuie sur un catalogue d'API pour permettre l'échange d'informations entre administrations.
Stratégie cloud au centre : le Gouvernement fait du Cloud un prérequis pour tout nouveau projet numérique au sein de l’État.

Feuilles de route de la donnée

Dans la suite du rapport Bothorel et de la circulaire du Premier ministre du 27/04/2021, chaque ministère a élaboré sa propre feuille de route sur deux à trois ans. Pour consulter la liste des actions prises par les ministères dans le cadre des feuilles de route ministérielles, consulter le jeu de données compilé par Etalab .

Et l'intelligence artificielle ?

Les techniques dites d'IA sont un ensemble composite dont la donnée constitue le socle fondateur. Si les données d'entrée sont fausses, les algorithmes donnent des résultats également faux (si ce n'est pires) : c'est le fameux garbage in, garbage out. Il y a donc un enjeu majeur de qualité de la donnée.
Un second enjeu lié à l'IA est lié à l'explicabilité des résultats (cf. principes de redevabilité des algorithmes) ; l'Explainable AI (XAI) est aujourd'hui un champ de recherche en plein développement.