Cet article fait partie du dossier : Ingénierie de la donnée territoriale
Voir les 4 actualités liées à ce dossierContexte
Une quinzaine de personnes, représentant différents organismes du RST (Cerema, IGN, BRGM, AFB, CSTB...), ont participé à ce challenge. Objectif de l’exercice: réaliser en 48h des prototypes rapides ou des preuves de concept (POC) sur des sujets proposés par des directions d’administration centrale ou de services déconcentrés, comme:
-
la détection des navires fantômes
-
le “bouchage de trous” dans les données de comptages routiers
-
la détection automatique des friches industrielles (sujet de cet article)
Eléments de départ
Définition: Selon l’INSEE, une friche urbaine est un espace, bâti ou non, anciennement utilisé pour des activités industrielles, commerciales ou autres, abandonné depuis plus de 2 ans et de plus de 2000 m². |
Pour aider à l'accomplissement de ce défi, le commanditaire a fourni des données d'entrée*:
-
BASIAS (csv): Inventaire des anciens sites industriels et activités de service
-
BASOL (csv): Base de données sur les sites et sols pollués
-
SIIIC (csv): Liste des installations classées pour la protection de l’environnement
-
Fichiers fonciers (postgreSQL): 16 tables, dont les parcelles
* La nature des fichiers transmis fait que nous nous nous sommes plutôt intéressés aux friches industrielles, et non aux friches commerciales, d’habitat et agricoles par exemple.
Analyse et traitement des fichiers d'entrée
Il est nécessaire, afin de pouvoir réaliser le croisement des données et proposer une cartographie du résultat, de disposer des éléments suivants:
- une désignation de l'établissement
- un état d'activité (en activité / en cessation d'activité)
- des coordonnées géographiques
- une adresse (optionnel, en cas d'absence de coordonnées)
Diagnostic des fichiers fournis :
Différentes solutions ont été abordées pour récupérer les éléments obligatoires manquants.
- BASIAS: le fichier, comportant toutes les informations nécessaires, a été découpé en 2 d'après les projections (L2et / L93), géocodé sous QGIS, puis fusionné en une couche géographique.
- BASOL: le fichier csv ne comportait pas l’état d’activité des sites pollués. La technique de "web scrapping" a été utilisée (fonction rvest avec le logiciel R) afin d’extraire cette information depuis la page web descriptive de chaque site pour ensuite les injecter dans le fichier d'origine, avant le géocodage sous QGIS. Voici un exemple de page issue du site basol: https://basol.developpement-durable.gouv.fr/fiche.php?page=1&index_sp=60.0069
- SIIIC: la récupération de certaines adresses manquantes a été tentée en récupérant des informations du fichier SIRENE géocodé (disponible sur le site data.gouv.fr) par appariement à partir des champs "désignation" et "adresse".
-
Adresse: Le fichier SIRENE contenant des codes INSEE, la correspondance code postal/code INSEE a été effectuée grâce à la "base officielle des CP" (source data.gouv.fr)
-
Désignation: les fichiers SIIIC et SIRENE ne proposant pas toujours des désignations exactement identiques, une analyse de données textuelles a été réalisée sous R (librairie stringdist) afin de repérer dans SIRENE les noms d’établissement dont l’écriture était la plus proche de celle dans SIIIC (égalité stricte / inclusion / distance de Levenstein) pour enfin en récupérer les coordonnées géographiques SIRENE.
Voici un descriptif des opérations réalisées :
Traitements cartographiques
Il nous a semblé intéressant de pouvoir coupler les données localisées des sites avec les données foncières. Pour cela, nous avons utilisé les fichiers fonciers anonymisés transmis par le CEREMA Nord Picardie.
Les jointures spatiales entre chacun des 3 fichiers d'entrée (BASIAS, BASOL et SIIIC) et les fichiers fonciers (MAJIC) ont été réalisées sous QGIS, couplé avec PostGis/PostGreSQL, lieu de stockage des fichiers fonciers.
La véracité de l'information fournie par les fichiers d'entrée n'a pas été établie, mais des contrôles seront vraisemblablement à prévoir…
Beauvais
Laigneville
--> parcelle déjà réhabilitée
--> cessation d'activité
Présentation du résultat
Les différentes tâches accomplies pendant ce défi ont été synthétisées sur le schéma suivant : (cf document pdf § Ressources)
Une carte interactive (réalisée avec LeafLet, sous R) a également été produite pour présenter graphiquement le résultat avec une visualisation clusterisée, regroupée des différents points, ces derniers devenant visibles au fur et à mesure que l’on zoome ou que l’on clique sur un cluster.
Là également, la technique de web scrapping a été utilisée afin d'afficher, pour chaque site BASOL, un descriptif détaillé des activités du site.
Pistes d'améliorations
Le timing serré de l'exercice (2 jours) n'a pas permis d'explorer plus profondément toutes les sources possibles, mais voici quelques pistes qui mériteraient d'être exploitées.
- Infogreffe
Il pourrait être utile d’utiliser les données d’infogreffe, en particulier le fichier les radiations d’entreprises. Voici, par exemple, le fichier pour l’année 2017 https://opendata-infogreffe.com/explore/dataset/entreprises-radiees-2017/?sort=date_radiation
- Fichiers fonciers
La table pb0010_local (faisant partie des 16 tables des fichiers fonciers) contient des indicateurs de vacance d'activité (de + de 2 ans / de + de 5 ans) dont la fiabilité est incertaine. Cette donnée peut être indicative.
- Abonnements divers (EDF/télécom/internet)
Il est aujourd'hui peu concevable qu'une entreprise se développe sans abonnements téléphonie et/ou internet, et encore moins sans chauffage. L'exploitation de tels fichiers, voire de différentiels année N / N-1, pourrait compléter les informations données par les fichiers "officiels" (BASIAS, BASOL, SIIIC), dont le degré de complétude est difficile à estimer.
- positions enregistrées par les smartphones
Les enregistrements de position de smartphones, s'ils venaient à être récupérés/libérés, pourraient permettre de vérifier l'absence d'accès à certains établissements, que l'on pourrait vraisemblablement assimiler à un arrêt d'activité.
- Télédétection
On pourrait imaginer utiliser des images hyperspectrales (enregistrant sur de nombreuses longueurs d’ondes), sous couvert de leur disponibilité. Pour chacun des sites, nous pourrions essayer de détecter la signature spectrale typique d’une activité anthropique : chaleur, fumée…
Précautions :
Le travail réalisé pré-suppose que les données utilisées (BASOL, BASIAS et SIIIC) soient de qualité, en particulier qu’elles soient fréquemment actualisées par les gestionnaires.
L’appariement de SIIIC avec SIRENE ayant été réalisé de façon automatique sur la base de similitudes entre noms d’établissements, il existe dans le fichier de sortie plus de la moitié des coordonnées fausses, bien que localisées sur la bonne commune. L’utilisation d’autres techniques d’appariement (phonétiques, etc…), ou d’autres bases que SIRENE, voire plus simplement l’extraction d’un fichier plus complet depuis l’outil SIIIC permettrait sans doute d’obtenir un meilleur géoréférencement. Quoi qu’il en soit, la technique d’appariement utilisée est une preuve de concept qui pourra être transposée à d’autres techniques et bases.
Ressources
Les différents code sources produits dans le cadre de cet exercice ont été déposés sur le compte Github du Cerema à l’adresse suivante:
Dans le dossier Ingénierie de la donnée territoriale