12 / BTS-SIO / Stage_2026

Stage : Scrapping

Collecte et catégorisation de données par scraping et intelligence artificielle.

Statut : ARCHIVED Stack : Python, curl-cffi, SQLite Année : 2026

Le Défi

L'entreprise dans lequel je faisait mon stage ayant besoin d'un grand nombre d'images de salles de bains, nous avons décider d'opter pour le scrapping d'annonces immobilières sur Leboncoin.
Les difficultés principales ont portées sur le contournement des protections anti-robots du site. De plus, le téléchargement en masse d'images et la classification automatique ont aussi constituées un challenge.

Contournement de Datadome

Sans rentrer dans les détails, l'utilisation de techniques de rotation d'User Agent et plus généralement la création d'User Agents réalistes a permis d'accéder à l'API non officielle de Leboncoin sans difficultée.

l

Séparation des images

Pour séparer les images de salles de bains des autres types d'images, l'IA générative Gemini 3.5 Flash a pu être utilisée, ce qui a permis de trier l'intégralité des 30 000 images en moins de 45 minutes.

Stockage des données

Etant donné que la quantité d'image est importante sans être énorme, j'ai opté pour le stockage des images dans le système de fichier local tout en utilisant une base de donnée SQLIte pour les métadonnées.

12

Pour permettre de bonne performance, le prototype a ensuite été optimisé pour fonctionner en temps réel, avec un gain de performance significatif de 5 images par seconde vers 15 grâce à plusieurs optimisations. Par exemple le remplacement de certains calculs par des multiplications matricielles, ou le pré calcul des couleurs de chaque image à la place d'un calcul à l'exécution). Le prototype a ensuite été présenté au directeur général de l'entreprise.