10 juillet 2018
Carte des friches de l'Oise (60)
Silvio Rousic
Le Cerema Méditerranée a participé, les 19 et 20 juin 2018, au hackathon lancé par le Ministère de la Transition Ecologique et Solidaire (MTES) à son Réseau Scientifique et Technique (RST), et s’est penché sur un sujet proposé par la DREAL des Hauts-de-France: la “détection automatique des friches”.

Contexte

Une quinzaine de personnes, représentant différents organismes du RST (Cerema, IGN, BRGM, AFB, CSTB...), ont participé à ce challenge. Objectif de l’exercice: réaliser en 48h des prototypes rapides ou des preuves de concept (POC) sur des sujets proposés par des directions d’administration centrale ou de services déconcentrés, comme:

  • la détection des navires fantômes

  • le “bouchage de trous” dans les données de comptages routiers

  • la détection automatique des friches industrielles (sujet de cet article)

Eléments de départ

Définition:

Selon l’INSEE, une friche urbaine est un espace, bâti ou non, anciennement utilisé pour des activités industrielles, commerciales ou autres, abandonné depuis plus de 2 ans et de plus de 2000 m².

Pour aider à l'accomplissement de ce défi, le commanditaire a fourni des données d'entrée*:

  • BASIAS (csv): Inventaire des anciens sites industriels et activités de service

  • BASOL (csv): Base de données sur les sites et sols pollués

  • SIIIC (csv): Liste des installations classées pour la protection de l’environnement

  • Fichiers fonciers (postgreSQL): 16 tables, dont les parcelles

* La nature des fichiers transmis fait que nous nous nous sommes plutôt intéressés aux friches industrielles, et non aux friches commerciales, d’habitat et agricoles par exemple.

Analyse et traitement des fichiers d'entrée

Il est nécessaire, afin de pouvoir réaliser le croisement des données et proposer une cartographie du résultat, de disposer des éléments suivants:

  • une désignation de l'établissement
  • un état d'activité (en activité / en cessation d'activité)
  • des coordonnées géographiques
  • une adresse (optionnel, en cas d'absence de coordonnées)

Diagnostic des fichiers fournis :

tableau

Différentes solutions ont été abordées pour récupérer les éléments obligatoires manquants.

  • BASIAS: le fichier, comportant toutes les informations nécessaires, a été découpé en 2 d'après les projections (L2et / L93), géocodé sous QGIS, puis fusionné en une couche géographique.
  • BASOL: le fichier csv ne comportait pas l’état d’activité des sites pollués. La technique de "web scrapping" a été utilisée (fonction rvest avec le logiciel R) afin d’extraire cette information depuis la page web descriptive de chaque site pour ensuite les injecter dans le fichier d'origine, avant le géocodage sous QGIS. Voici un exemple de page issue du site basol: https://basol.developpement-durable.gouv.fr/fiche.php?page=1&index_sp=60.0069
  •  SIIIC: la récupération de certaines adresses manquantes a été tentée en récupérant des informations du fichier SIRENE géocodé (disponible sur le site data.gouv.fr) par appariement à partir des champs "désignation" et "adresse".
  • Adresse: Le fichier SIRENE contenant des codes INSEE, la correspondance code postal/code INSEE a été effectuée grâce à la "base officielle des CP" (source data.gouv.fr)

  • Désignation: les fichiers SIIIC et SIRENE ne proposant pas toujours des désignations exactement identiques, une analyse de données textuelles a été réalisée sous R (librairie stringdist) afin de repérer dans SIRENE les noms d’établissement dont l’écriture était la plus proche de celle dans SIIIC (égalité stricte / inclusion / distance de Levenstein) pour enfin en récupérer les coordonnées géographiques SIRENE.

Voici un descriptif des opérations réalisées :

 

SCHEMA

Traitements cartographiques

Il nous a semblé intéressant de pouvoir coupler les données localisées des sites avec les données foncières. Pour cela, nous avons utilisé les fichiers fonciers anonymisés transmis par le CEREMA Nord Picardie.

Les jointures spatiales entre chacun des 3 fichiers d'entrée (BASIAS, BASOL et SIIIC) et les fichiers fonciers (MAJIC) ont été réalisées sous QGIS, couplé avec PostGis/PostGreSQL, lieu de stockage des fichiers fonciers.

La véracité de l'information fournie par les fichiers d'entrée n'a pas été établie, mais des contrôles seront vraisemblablement à prévoir…

Présentation du résultat

Les différentes tâches accomplies pendant ce défi ont été synthétisées sur le schéma suivant : (cf document pdf § Ressources)

Schéma

Une carte interactive (réalisée avec LeafLet, sous R) a également été produite pour présenter graphiquement le résultat avec une visualisation clusterisée, regroupée des différents points, ces derniers devenant visibles au fur et à mesure que l’on zoome ou que l’on clique sur un cluster.

Là également, la technique de web scrapping a été utilisée afin d'afficher, pour chaque site BASOL, un descriptif détaillé des activités du site.

Carte des friches de l'Oise (60)

Pistes d'améliorations

Le timing serré de l'exercice (2 jours) n'a pas permis d'explorer plus profondément toutes les sources possibles, mais voici quelques pistes qui mériteraient d'être exploitées.

- Infogreffe

Il pourrait être utile d’utiliser les données d’infogreffe, en particulier le fichier les radiations d’entreprises. Voici, par exemple, le fichier pour l’année 2017 https://opendata-infogreffe.com/explore/dataset/entreprises-radiees-2017/?sort=date_radiation

- Fichiers fonciers

La table pb0010_local (faisant partie des 16 tables des fichiers fonciers) contient des indicateurs de vacance d'activité (de + de 2 ans / de + de 5 ans) dont la fiabilité est incertaine. Cette donnée peut être indicative.

- Abonnements divers (EDF/télécom/internet)

Il est aujourd'hui peu concevable qu'une entreprise se développe sans abonnements téléphonie et/ou internet, et encore moins sans chauffage. L'exploitation de tels fichiers, voire de différentiels année N / N-1, pourrait compléter les informations données par les fichiers "officiels" (BASIAS, BASOL, SIIIC), dont le degré de complétude est difficile à estimer.

- positions enregistrées par les smartphones

Les enregistrements de position de smartphones, s'ils venaient à être récupérés/libérés, pourraient permettre de vérifier l'absence d'accès à certains établissements, que l'on pourrait vraisemblablement assimiler à un arrêt d'activité.

- Télédétection

On pourrait imaginer utiliser des images hyperspectrales (enregistrant sur de nombreuses longueurs d’ondes), sous couvert de leur disponibilité. Pour chacun des sites, nous pourrions essayer de détecter la signature spectrale typique d’une activité anthropique : chaleur, fumée…

Précautions :

Le travail réalisé pré-suppose que les données utilisées (BASOL, BASIAS et SIIIC) soient de qualité, en particulier qu’elles soient fréquemment actualisées par les gestionnaires.

L’appariement de SIIIC avec SIRENE ayant été réalisé de façon automatique sur la base de similitudes entre noms d’établissements, il existe dans le fichier de sortie plus de la moitié des coordonnées fausses, bien que localisées sur la bonne commune. L’utilisation d’autres techniques d’appariement (phonétiques, etc…), ou d’autres bases que SIRENE, voire plus simplement l’extraction d’un fichier plus complet depuis l’outil SIIIC permettrait sans doute d’obtenir un meilleur géoréférencement. Quoi qu’il en soit, la technique d’appariement utilisée est une preuve de concept qui pourra être transposée à d’autres techniques et bases.

Ressources

Les différents code sources produits dans le cadre de cet exercice ont été déposés sur le compte Github du Cerema à l’adresse suivante: