Votre navigateur ne supporte pas impress.js, cette présentation a donc été simplifiée.

Pour une meilleure expérience, utilisez un navigateur Chrome, Safari ou Firefox à jour.

Thomas Grandjean
Service Information Développement Durable et Évaluation Environnementale
Comité des études - 09/03/2022

# Intelligence artificielle # 🤖 ## Définitions, usages et prérequis ### DREAL Hauts-de-France
Intelligence Artificielle, source Fix

Crédits : reproduit avec l'autorisation de FIX, www.fix-dessinateur.com

# Généralités sur l'IA

Définition(s)

Tout algorithme **qui recherche seul les règles et corrélations** en étudiant les données. Deux grandes familles algorithmiques : * des algorithmes dits *supervisés* : données étiquetées (par des humains ?), performance **évaluable** ; * des techniques dites *non supervisées* : résultat attendu inconnu, performance **non évaluable**. Il y a donc un **enjeu énorme de qualité** de la donnée : [*garbage in, garbage out*](https://fr.wikipedia.org/wiki/GIGO).
Garbage in, garbage out

Crédits : reproduit avec l'autorisation de FIX, [http://www.fix-dessinateur.com](http://www.fix-dessinateur.com)

Classification des IA 1/3

Classifier overfitting

Crédits : The HR (Human Resources) Trend Institute (présenté dans [Artificial Intelligence: threat or opportunity for HR? ](https://fr.slideshare.net/TomHaak/artificial-intelligence-threat-or-opportunity-for-hr))

Généralement, on s'accorde pour classer les IA en 2 domaines : * l'apprentissage machine (machine learning), généralement dédié aux données structurées (données ordinales ou catégorielles, éventuellement géolocalisées) ; * l'apprentissage profond (réseaux de neurones, deep learning), capable de traiter des données structurées ou non (images, son ou texte).

Classification des IA 2/3

Mais en réalité, un foisonnement de techniques intimement liées aux usages: * classification, * régression, * réduction de dimension, * partitionnement (clustering), * prédiction (séries temporelles), * computer vision, * traitement automatisé du langage naturel (NLP), * pattern recognition...
Domaines de l'IA

Crédits : The HR (Human Resources) Trend Institute (présenté dans [Artificial Intelligence: threat or opportunity for HR? ](https://fr.slideshare.net/TomHaak/artificial-intelligence-threat-or-opportunity-for-hr)) et Lux Research (publié [dans aitrends](https://www.aitrends.com/deep-learning/1436/))

# Classification des IA 3/3 En plus de cela, il faut mentionner 2 champs de recherche supplémentaires qui n'étaient pas encore très présents à l'époque de la création de ces illustrations : * AutoML : Automated machine learning ➡️ démocratisation de l'IA * XAI : Explainable AI ➡️ lien avec le CRPA (cf. [travaux d'Etalab 🔗](https://guides.etalab.gouv.fr/algorithmes/guide/#_3-le-cadre-juridique-applicable))

Un focus sur le surapprentissage (overfitting)

Le risque de sur-apprentissage est la raison pour laquelle on divise les jeux de données en jeu d'apprentissage et jeu de validation. On se réserve généralement 20% des données disponibles pour contrôler la bonne généralisation du modèle. *Pour caler les hyper-paramètres des modèles, on divise même les données en 3 jeux (entraînement, validation et test).*

Un focus sur l'évaluation des modèles

Crédits : Datamok / User:Walber, licence CC Attribution-Share Alike 4.0 via [wikimedia](https://commons.wikimedia.org/wiki/File:Precisionrappel.svg?uselang=fr)

Precision and recall
Une "métrique" est une fonction mathématique qui permet d'évaluer un modèle quelconque : précision, r², rappel... Question : quelle métrique choisir pour évaluer le modèle ? Par exemple, sur un exercice de classification : est-on intéressé par les faux positifs ou par les faux négatifs ?

Un focus sur l'apprentissage automatique équilibré

Les résultats d'un algorithme supervisé peuvent être biaisés par la sur-représentation d'une catégorie de données. Question : est-on intéressé par les événements rares ou courants ? Pour équilibrer les jeux de données, on a recours à l'*augmentation des données* (création de données synthétiques à l'aide de méthodes généralement dérivées des plus proches voisins).
Jeux de données déséquilibrés et algorithme ADASYN

Crédits : Bilal Alatas, Firat (Euphrates) University, licence CC Attribution-Share Alike 4.0 via peerj.com in [A novel multi-class imbalanced EEG signals classification based on the adaptive synthetic sampling (ADASYN) approach](https://peerj.com/articles/cs-523/#fig-7)

# Les cas d'usage en DREAL Hauts-de-France ### (tests compris, tous les essais ne sont pas concluants !)

Prévision des crues

Prévision des crues - jeu de données d'entrée Prévision des crues - abaques produites

Génération d'abaques pour la prévision des crues (régression après augmentation des données "rares")

* Génération d'abaques pluie/hauteur ✔️ * Prévision de débits (enchaînement amonts/aval) 🛠️

Connaissance des rejets polluants

* Détection d'anomalies dans les données déclaratives ou issues des algorithmes 🛠️ * Repérage de rejets accidentels ✔️ * Clusterisation et réduction de dimensions (regrouper les industries ou stations par "paquets homogènes") ❌ * Comblement de données par régression ou réduction de dimension (augmentation de données pour détecter des pics de rejet invisibles dans des données transmises à basse fréquence) 🛠️

Interpolation des données d'autosurveillance (régression après augmentation des données "rares")

ICPE - Stratification des données et équilibrage ICPE - Interpollation d'un polluant

Veille

Clusterisation des articles au sein du logiciel ADOC (veille)

Clusterisation d'articles de presse
* Clusterisation d'articles de presse (regrouper les articles évoquant des sujets similaires pour faciliter le travail de veille) ✔️ * Topic modelling (détection de sujets) (reprise de travaux de stagiaires à Ecolab sur la détection de sujets dans les dossiers soumis à l'autorité environnementale) ❌
# Retours d'expériences DREAL 1/2
Des opportunités : * un écosystème IA bâti autour des langages déjà utilisés dans les services de la donnée (python, R, SQL) ; * une pléthore d'offres d'auto-formation, même si le sujet est complexe ; * un sujet qui fonctionne bien en inter-ministériel (🙏 rejoignez le réseau [spyrales 🔗](https://www.spyrales.fr/) !).
Python, R et SQL les langages préconisés pour commencer la datascience

Source des données : [2021 Kaggle Machine Learning & Data Science Survey](https://www.kaggle.com/c/kaggle-survey-2021/overview)

# Retours d'expériences DREAL 2/2
Plusieurs verrous : * montée en compétence IA ; * implication des services métier ; * qualité de la donnée (analyse, **rectification**) ; * aquisition de la donnée (fréquence de mise à jour, notamment dans le processus de rectification des données); * complétude des données (la plupart des algorithmes d'IA ne suportent pas les lacunes) ; * interfaçage avec les jeux de données de référence (SIRENE, etc.) ; * infrastructures.
# Feuille de route ministérielle sur l'IA
Une [feuille de route 🔗](https://www.ecologie.gouv.fr/feuille-route-intelligence-artificielle-et-transition-ecologique) en 9 axes qui s'interface avec la [feuille de route ministérielle de la donnée, des algorithmes et des codes sources 🔗](https://www.numerique.gouv.fr/uploads/feuillederoute_mte_mer.pdf). Logique gagnant-gagnant autour de l'échange de données de qualité (public(s) / privé). Mais aussi : éthique, infrastructures, innovation... Nota : le sujet de la montée en compétences est actuellement en cours (GT sur la définition des métiers de la donnée, formation continue, etc.).
Feuille de route intelligence artificielle et transition écologique du pôle ministériel

MTE, consultable [en ligne](https://www.ecologie.gouv.fr/feuille-route-intelligence-artificielle-et-transition-ecologique)

#Merci pour votre attention
Contact : [thomas.grandjean@developpement-durable.gouv.fr](mailto:thomas.grandjean@developpement-durable.gouv.fr)