# Les données dans les politiques publiques
## DREAL Hauts-de-France
### *Service Information, Développement Durable et Évaluation Environnementale*
### Thomas Grandjean
# Échauffement 🔥
##Vous avez 5 minutes pour trouver 20 données (ou plateformes de données) publiques
### *(Au moins une dans chaque catégorie...)*
# Qu'est-ce qu'une donnée ?
## La pyramide Data-Information-Knowledge-Wisdom
Source : Matthew.viel, [CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0), via [Wikimedia Commons](https://commons.wikimedia.org/wiki/File:KM_Pyramid_Adaptation.png)
#Une autre classification : selon la source des données
* données internes
* SIG / statisticiens
* mesures/inventaires
* externalisées (inventaires faune/flore, etc.)
* ou non (mesures hydrométriques)
* applications métiers
* données internes récupérées en bout de chaîne : scrapping, opendata, API
* données externes
* presse
* dispositifs partenariaux et échanges inter-administrations
* données monétisées
* opendata
* données crowdsourcées
Crédits : reproduit avec l'autorisation de FIX, [http://www.fix-dessinateur.com](http://www.fix-dessinateur.com)
Qu'est-ce qu'un algorithme ?
La CNIL définit un algorithme comme "une suite finie et non ambigüe d’instructions permettant d’aboutir à un résultat à partir de données fournies en entrée."
* Concerne les algorithme papiers **et** numériques !
* Principe de redevabilité vis à vis des algorithmes :
* signalement,
* description du fonctionnement,
* justification du recours aux algorithmes,
* explicabilité des résultats,
* accessibilité au code source et à la documentation,
* voies de recours.
"With great power comes great responsibility: keeping public sector algorithms accountable"
API = Application programming interface (interface de programmation d'application)
Les API permettent de se connecter à des SI tiers. Elles sont fondamentales dans l'accès à la donnée pour le partage applicatif. Elles sont largement citées dans les feuilles de routes sur la donnée.
Pour un inventaire, rendez-vous sur la platforme [api.gouv.fr](https://api.gouv.fr/)
* Découpage administratif,
* Impôt particulier
* Recherche des personnes physiques
* Annuaire de l'éducation nationale
* Sirene
* Trackdéchets
Contexte réglementaire 1/2
Contexte réglementaire 2/2
Une illustration de la tendance actuelle (graphiques produits grâce à l'API de legifrance actuellement au stade beta).
*A noter : initialement, je souhaitais faire le graphe sur le terme "données". Cette tentative a conduit à identifier un bugue sur l'API en cours de résolution (au delà de 9100 résultats, l'API boucle ad infinitum sur les mêmes résultats...).*
Crédits : reproduit avec l'autorisation de FIX, [http://www.fix-dessinateur.com](http://www.fix-dessinateur.com)
# Digitalisation de l'administration - quelques exemples
* ouverture des codes sources : cf. supra ;
* principe du [dites-le nous une fois](https://www.numerique.gouv.fr/actualites/simplification-des-demarches-administratives-dites-le-nous-une-fois-passe-a-la-vitesse-superieure/) ;
> Pour organiser l’ensemble de ces échanges d’informations, les administrations pourront s’appuyer sur le catalogue d’API, opéré par la DINSIC, qui permettent l’échange d’informations entre administrations en toute sécurité.
* stratégie [cloud au centre](https://www.numerique.gouv.fr/services/cloud/doctrine/) : le Gouvernement fait du Cloud un prérequis pour tout nouveau projet numérique au sein de l’État.
> L’inscription durable du virage vers le Cloud poursuit un objectif principal : répondre aux attentes légitimes des Français d’exemplarité de l’État en matière de protection de leurs données ainsi qu’en terme de garantie de la continuité du service public, deux prérequis à leur confiance dans le service public numérique.
# Feuilles de route de la donnée
27 avril 2021 : [circulaire du Premier ministre 🔗](https://www.numerique.gouv.fr/actualites/politique-donnee-algorithmes-et-codes-sources-une-circulaire-du-premier-ministre-renouvelle-ambition-francaise/)
relative à la politique publique de la donnée, des algorithmes et des codes sources.
Chaque ministère a élaboré sa propre feuille de route sur deux à trois ans.
[🔗 Liste des actions prises par les ministères dans le cadre des feuilles de routes ministérielles ](https://www.data.gouv.fr/fr/datasets/liste-des-actions-prises-par-les-ministeres-dans-le-cadre-des-feuilles-de-routes-ministerielles/)
Crédits : reproduit avec l'autorisation de FIX, [http://www.fix-dessinateur.com](http://www.fix-dessinateur.com)
# Les métiers de la donnée 1/2
15/06/2021 : Rapport public - [Évaluation des besoins de l'État en compétences et expertises en matière de donnée 🔗](https://www.vie-publique.fr/rapport/281669-besoins-de-etat-en-competences-expertises-en-matiere-de-donnees)
> Du fait de leur nouveauté et peut-être de leur relative technicité, les métiers de la donnée ne sont pas toujours bien connus
> et [...] le contour des métiers est en évolution constante.
> Le Répertoire Interministériel des Métiers de l’État (Rime) [...] comprend ainsi seulement deux catégories de métiers de la donnée :
> le [data scientist](https://www.fonction-publique.gouv.fr/data-scientist)
> et le [chargé de gouvernance de la donnée](https://www.fonction-publique.gouv.fr/chargeecharge-de-gouvernance-de-donnees),
> là où la mission en définit quatre ; à l’inverse le guide « Data scientist ! » édité par Télécom Paris en considère une vingtaine.
> Le [Rime] définit [...] une vingtaine [d'emplois-références] dans le domaine du numérique et du
> système d’information et de communication (SIC). À compter de 2017, la DINUM a élaboré un référentiel des
> métiers et compétences SIC. À ce jour, ce référentiel comporte près d’une soixantaine de métiers, dont une
> dizaine concerne directement la donnée [...].
[Datascientist : The Sexiest Job of the 21st Century 🔗](https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century)
# Les métiers de la donnée 2/2
Les 4 métiers considérés par la mission :
* data scientist, data analyst *(dominante informatique)* ;
* data engineer, data architect *(dominante mathématique / statistique)*.
Le métier de statisticien a été assimilé aux métiers de data scientist ou de data analyst en fonction des profils.
D'autres métiers ont été explicitement exclus du rapport :
- experts juridiques de la donnée (dont les délégués à la protection des données) ;
- chargés de la gouvernance des données ;
- chief data officer ;
- data steward.
**Critique personnelle :** le rapport passe totalement sous silence les métiers liés à la géomatique (SIGiste) sans la moindre explication 😡 (interroge le scope ministériel...).
Crédits : reproduit avec l'autorisation de FIX, [http://www.fix-dessinateur.com](http://www.fix-dessinateur.com)
# Intelligence Artificielle et données
## L'IA, un ensemble composite
Des innovations qui s'étalent du 18ème siècle *(théorème de Bayes, 1763)* à aujourd'hui.
Toutes les technologies ont en commun de se nourrir de **données** (les jeux d'entraînement).
Contrairement à l'algorithmique traditionnelle, en IA **c'est la machine qui déduit les règles et modèles des données d'entrée**.
Certains algorithmes sont dits *supervisés* ; les données sont alors étiquetées (par des humains ?),
ce qui permet de calculer un score de réussite à l'aide d'une métrique choisie) ;
d'autres techniques sont dites *non supervisées* : clustering, détection d'anomalies, etc..
Il y a donc un **enjeu énorme de qualité** de la donnée : [*garbage in, garbage out*](https://fr.wikipedia.org/wiki/GIGO).
# Les types d'IA (faibles)
## Plusieurs classifications pas toujours exactement concordantes
Mais globalement, il y a 2 domaines et de multiples usages :
* l'apprentissage machine (machine learning) : régression, classification, réduction de dimension, partitionnement (clustering)
* l'apprentissage profond (réseaux de neurones, deep learning) : computer vision, NLP, speech to text, bioinformatics ...
Deux champs de recherche supplémentaires qui n'étaient pas (encore) très présents à l'époque de la création de ces illustrations :
* AutoML : Automated machine learning
* XAI : Explainable AI
*Crédits : reproductions autorisées par
The HR (Human Resources) Trend Institute (présenté dans [Artificial Intelligence: threat or opportunity for HR? ](https://fr.slideshare.net/TomHaak/artificial-intelligence-threat-or-opportunity-for-hr))
et Lux Research (publié [dans aitrends](https://www.aitrends.com/deep-learning/1436/))*
Crédits : reproduit avec l'autorisation de FIX, [http://www.fix-dessinateur.com](http://www.fix-dessinateur.com)
# Les projets data & IA en pratique 1/3
Une posture de plus en plus orientée vers le mode [agile](https://fr.wikipedia.org/wiki/M%C3%A9thode_agile).
Nous découvrons comment mieux développer des logiciels par la pratique et en aidant les autres à le faire. Ces expériences nous ont amenés à valoriser :
* **Les individus et leurs interactions** plus que les processus et les outils
* **Des logiciels opérationnels** plus qu’une documentation exhaustive
* **La collaboration avec les clients** plus que la négociation contractuelle.
* **L’adaptation au changement** plus que le suivi d’un plan
Nous reconnaissons la valeur des seconds éléments, mais privilégions les premiers.
Crédits : reproduit avec l'autorisation de FIX, [http://www.fix-dessinateur.com](http://www.fix-dessinateur.com)
# Les projets data & IA en pratique 2/3
Corollaire #1 : un vocabulaire issu du génie logiciel (use case, sprints, design thinking, UX Design, etc.)
de plus en plus présent (au risque de ne plus y comprendre grand chose pour les non initiés...).
# Les projets data & IA en pratique 3/3
Corollaire #2 : un appel à l'innovation qui en avant les individus autant (sinon plus) que les collectifs
*Nota : quelques faux pas à noter en matière de pérennité des projets (départs d'agents, etc.)*
* Programme [Entrepreneurs d'Intérêt Général 🔗](https://eig.etalab.gouv.fr/) depuis 2016
* Incubateurs avec le programme [beta.gouv.fr 🔗](https://beta.gouv.fr/) (portage par des agents publics “intrapreneurs”),
financé par le Fonds d’Accélération des Startups d’État et de Territoire (FAST)
* [Comment faire 🔗](https://comment-faire.modernisation.gouv.fr/) : la boîte à outils de l'innovation publique (= Design Thinking)
# Data / IA dans les administrations, c'est maintenant
Exemple des 18 lauréats "France Relance",
volet *"Développer l'utilisation de la donnée dans votre administration"*
---
### Plateformes d’échange, de collecte ou de visualisation intelligente des données :
---
* ANAIS - Hub d'échange de données maritimes (ministère des armées)
* Potentiel - Faciliter le parcours des producteurs d’énergies renouvelables électriques (DGEC, MTE)
* DataMin 360 - Collecter, analyser, visualiser les données financières (Direction du numérique, MI)
* Accélérer et passer à l’échelle les projets de valorisation de données (MTE)
# Data / IA dans les administrations, c'est maintenant
Exemple des 18 lauréats "France Relance",
volet *"Développer l'utilisation de la donnée dans votre administration"*
---
### Projets de pilotage par la donnée
---
* Observatoire du covoiturage au quotidien - Suivre l’évolution des pratiques et d’évaluer l’impact des mesures prises afin d’adapter les politiques publiques de covoiturage (DGITM, MTE)
* Cycle de vie de la donnée « intervention d’urgence » - Améliorer l’efficacité des interventions d’urgence de la gendarmerie (Direction du numérique, MI)
* Projet SMARTRAFIC - Mise en place d’un hyperviseur - Partage des données de trafics routiers, ferroviaires et fluviaux (Grand port maritime du Havre)
* Industrialisation et enrichissement du tableau de bord Crise COVID pour le suivi des recouvrements (Agence Centrale des ORganismes de Sécurité Sociale)
* Base de connaissance entreprises (BCE)- Piloter par la donnée les relations avec les entreprises (SG des Ministères chargés de affaires sociales)
# Data / IA dans les administrations, c'est maintenant
Exemple des 18 lauréats "France Relance",
volet *"Développer l'utilisation de la donnée dans votre administration"*
---
### Développement d’API
---
* Dossier numérique de l’agent - Déploiement de la Fiche Interministérielle de Synthèse Individuelle et portage dans l’ENSAP - Faciliter le parcours des agents publics (MEFR)
* Chorus – API demandes d’achats - Améliorer le délai d’approvisionnement des services ministériels en réduisant le temps de traitement de leurs demandes d’achats (Agence pour l'informatique financière de l'État)
* Projet SUPDATA - Mise en place du service StatutÉtudiant. Construire un référentiel national et actualisé des inscriptions en cours dans une formation du supérieur (Ministère de l'Éducation nationale, de la jeunesse et des sports)
* API Sécu - Exposer des données issues des organismes de la Sphère Sociale afin de faciliter les échanges et améliorer les services rendus aux citoyens (Caisse nationale d'assurance vieillesse des travailleurs salariés)
# Data / IA dans les administrations, c'est maintenant
Exemple des 18 lauréats "France Relance",
volet *"Développer l'utilisation de la donnée dans votre administration"*
---
### Exploitation des données / Data Sciences
---
* Les data sciences au service de la lutte contre les noyades et les accidents en loisirs nautiques (École nationale de voile et des sports nautiques)
# Data / IA dans les administrations, c'est maintenant
Exemple des 18 lauréats "France Relance",
volet *"Développer l'utilisation de la donnée dans votre administration"*
---
### Montée en qualité et automatisation de la collecte des données
---
* SIMARA - Plateforme de transcription d’inventaires manuscrits du XVIIIe au XXe siècles grâce à l’intelligence artificielle (Archives nationales, Ministère de la culture)
* Numériser les collections textiles historiques du Mobilier national - Informatiser une collection (Mobilier national et manufactures nationales des Gobelins de Beauvais et de la Savonnerie)
* Transformation numérique du système de production des publications nautiques (Service hydrographique et océanographique de la marine)
# Data / IA dans les administrations, c'est maintenant
Exemple des 18 lauréats "France Relance",
volet *"Développer l'utilisation de la donnée dans votre administration"*
---
### Catalogue de données
---
* Data.Culture.Catalogue - Une cartographie dynamique et partagée des données du ministère de la Culture (SG du Ministère de la culture)
# Retours d'expérience DREAL Hauts-de-France
## quelques enjeux en matière de données
Crédits : reproduit avec l'autorisation de FIX, [http://www.fix-dessinateur.com](http://www.fix-dessinateur.com)
# Dataviz digest #1 - La fracture numérique
L'illectronisme touche 17% de la population [selon l'INSEE 🔗](https://www.vie-publique.fr/en-bref/271657-fracture-numerique-lillectronisme-touche-17-de-la-population).
Comment parler de donnée au grand public ?
Ne pas négliger le support papier...
Dataviz digest #2 - de gustibus et coloribus non est disputandum
En France :
* environ 0,3 % de la population est aveugle (source [Fédération des Aveugles de France 🔗](https://aveuglesdefrance.org/quelques-chiffres-sur-la-deficience-visuelle/)) ;
* environ 1 % de la population est malvoyante moyenne (même source) ;
* [on estime 🔗](http://www.thelancet.com/journals/langlo/article/PIIS2214-109X(17)30293-0/fulltext) que le nombre de personne touchées va croître compte tenu du vieillissement des populations ;
* environ 4% de la population est atteinte de daltonisme (8% des hommes, 0,4% des femmes source [Universalis 🔗](http://www.universalis-edu.com/encyclopedie/daltonisme/))
Seuls **10% des sites internet sont accessibles** aux personnes aveugles et malvoyantes (source [Fédération des aveugles de France 🔗](https://aveuglesdefrance.org/quelques-chiffres-sur-la-deficience-visuelle/)).
💡 Des outils existent en ligne pour [simuler les palettes de couleur](https://google.github.io/palette.js/) ou créer [des documents accessibles](https://aveuglesdefrance.org/nos-combats/nouvelles-technologies/).
Crédits : reproduit avec l'autorisation de FIX, [http://www.fix-dessinateur.com](http://www.fix-dessinateur.com)
# Une histoire de données, c'est aussi une histoire d'infrastructures
Le mercredi 10 mars 2021, le
[datacenter d'OVH à Strasbourg brule](https://www.lemonde.fr/societe/article/2021/03/11/l-incendie-survenu-sur-le-site-de-l-entreprise-ovh-serait-d-origine-accidentelle_6072753_3224.html)
; 100 sapeurs pompiers et 44 engins sont mobilisés.
La donnée dans tout ça ?
* "12 000 à 16 000 clients" sont touchés selon OVH ;
* la société Netcraft identifie 464 000 noms de domaines (dont 59 600 français) et 3,6 millions de serveurs web liés à OVH Cloud inaccessibles.
Parmi les sites touchés : data.gouv.fr, la plateforme de dématérialisation des marchés publics, le site du défenseur des droits...
[Principale surprise de l'affaire](https://www.journaldunet.com/web-tech/cloud/1498567-incendie-d-ovh-l-heure-du-bilan/) :
une partie du service Private Cloud et son backup étaient tous deux hébergés dans deux salles du même datatencer.
Toutes les données ne seront pas récupérées...
# Traitement automatisé du langage naturel : et le français dans tout ça ?
## Opérations de [lemmatisation 🔗](https://fr.wikipedia.org/wiki/Lemmatisation)
* Codage "à la main" avec le [Morphalou](https://repository.ortolang.fr/api/content/morphalou/2/LISEZ_MOI.html) (codage "à la main") : "mentions légales" ➡️ "mentir légal"
* Avec le module [spaCy](https://spacy.io/) (l'état de l'art en matière de NLP) :
* Exemple 1 :
* "Nous mentions comme des arracheurs de dents" ➡️ 'nous **mention** comme un arracheur de dent' 💣
* "Il mentait comme un arracheur de dents" ➡️ 'il **mentir** comme un arracheur de dent' ✔️
* Exemple 2 :
* "Tu passes un concours" ➡️ 'tu **passe** un concours' 💣
* "Je passe un concours" ➡️ 'je **passer** un concours' ✔️
Le Français semble une langue assez complexe à modéliser (par rapport à l'Anglais) : encore des progrès à faire.
Clairement, la communauté francophone prend un grand retard sur celle anglophone...
# La récupération des données à l'heure des API
## L'exemple des données d'autosurveillance des installations classées (application GIDAF)
[Article L.124-5 du Code de l'environnement (en vigueur depuis le 27/10/2005)](https://www.legifrance.gouv.fr/codes/article_lc/LEGIARTI000006832927?init=true&nomCode=EEFtyw%3D%3D&page=1&query=L124-5&searchField=ALL&tab_selection=code)
> II.-L'autorité publique ne peut rejeter la demande d'une information relative à des émissions de substances dans l'environnement que dans le cas où sa consultation ou sa communication porte atteinte :
> 1° A la conduite de la politique extérieure de la France, à la sécurité publique ou à la défense nationale ;
> 2° Au déroulement des procédures juridictionnelles ou à la recherche d'infractions pouvant donner lieu à des sanctions pénales ;
> 3° A des droits de propriété intellectuelle.
A l'heure actuelle, 42659 déclarations téléchargées sur la région HdF (à date du 05/06/2021) correspondant à 9 991 494 informations polluantes.
Crédits : reproduit avec l'autorisation de FIX, [http://www.fix-dessinateur.com](http://www.fix-dessinateur.com)
Garbage in garbage out (encore)
Exemple : cas du jeu de données [GASPAR](http://files.georisques.fr/GASPAR/PPRT/pprt_hauts_de_france.csv) sur les Plans de Prévention des Risques Technologiques (PPRT) : on trouve 23 PPRT annulés sur au moins une commune en région !
33 PPRT approuvés, 3 non encore prescrits
21 jours pour trouver l'explication + 55 jours pour faire rectifier le jeu de données
Après rectification du jeu de données : 50 PPRT approuvés, 3 prescrits.
Conséquences : 😨 ???
# Le foisonnement de la donnée
Exercices :
* recherche des atlas des zones inondables [sur data.gouv.fr](https://www.data.gouv.fr/fr/datasets/?q=atlas%20des%20zones%20inondables)
96 jeux de données trouvés... Mais il faut consulter la totalité des résultats pour estimer l'étendue de la couverture géographique !
*ou*
* recherche des zones d'aléas "inondation" toujours [sur data.gouv.fr](https://www.data.gouv.fr/fr/datasets/?q=al%C3%A9a%20inondation)
1501 jeux de données !
Un système de filtre par ailleurs totalement inefficace...
Des modes de production insuffisamment maîtrisés
Quand la chaîne est aussi complexe (et **masquée par une application** métier), il est difficile :
* de retrouver la personne responsable de la mise à jour ;
* et même d'identifier des interlocuteurs impliqués à tous les étages du traitement...
Crédits : reproduit avec l'autorisation de FIX, [http://www.fix-dessinateur.com](http://www.fix-dessinateur.com)
# Les métiers de la donnée en DREAL
En théorie : datascientist, dataarchitect, dataengineer, datanalyst, statisticien, géomaticiens, ...
En pratique :
* les agents acculturés au numérique (avec des spécialités plus ou moins marquées : administration des données, infrastructures, programmation, géomatique, statistique, etc.)
* les agents acculturés au numérique (sans compétences spécifiques) ;
* et l'immense majorité : les autres...
En dehors des services spécialisés (INSEE & SSM), les chargés de données doivent savoir (presque) tout faire.
# Finissons sur une note d'optimisme :
## Des choses qui marchent pour changer 🙃
Application SIGNE
Une application interne d’**informations géographiques** (html5) permettant de visualiser tout type de données environnementales sans compétence particulière en SIG.
* des cartographies "clé en main" ;
* des rapports cartographiques ;
* des tableaux de bord générant des statistiques (présentations, concertation ou gestion de crise).
Industries au Regard de l'Environnement
Une parution 100% automatisée (logiciel en langage python et interface Qt, production du rapport au format LaTeX) et pilotée par la donnée.
Retrouvez toutes les parutions [en ligne](https://www.hauts-de-france.developpement-durable.gouv.fr/?Publication-de-l-industrie-au-regard-de-l-environnement)
Application Triton
Une application web (python/django) pour analyser et **expliquer** la dégradation de l'état des eaux.
(Bientôt en ligne 🤞)