Dans les environnements industriels, on entend souvent que l'IA résout tous les problèmes d'inspection, mais les vrais environnements d'usine révèlent une complexité bien plus grande. La plupart des systèmes déployés s'appuient sur des réseaux de neurones convolutifs (CNN) — y compris les variantes YOLO — qui examinent de petites régions d'image localisées pour identifier les défauts.
Bien qu'efficaces pour les défauts évidents et isolés, ces réseaux peinent face aux motifs complexes ou étendus. Comprendre comment fonctionnent réellement les CNN permet aux praticiens d'éviter la surconfiance et de développer des méthodologies de test plus robustes.
L'IA industrielle repose sur l'apprentissage automatique avec le deep learning qui identifie automatiquement les caractéristiques. Les CNN dominent les tâches d'inspection d'images et alimentent des modèles largement utilisés comme YOLO.
Les CNN appliquent plusieurs filtres sur les images d'entrée. Une image de 640×640 pixels traitée avec un noyau 3×3 à pas de 2 rétrécit progressivement : après trois de ces couches, la carte de caractéristiques interne effective passe à 80×80 pixels, tandis que la profondeur augmente avec plusieurs canaux représentant des motifs distincts détectés.
Chaque noyau capture l'information des pixels voisins locaux, fonctionnant de façon similaire à un plateau d'inspection compartimenté — il voit clairement sa propre section, mais n'a pas conscience de ce qui se passe ailleurs dans l'image.
Des complications apparaissent lorsque les défauts affichent des motifs complexes couvrant des régions plus larges — comme des petits défauts adjacents ou des formes dépendantes du contexte. Capturer des défauts dispersés nécessite une réduction significative de la résolution, ce qui peut sacrifier les détails ou confondre des problèmes voisins.
Cela signifie qu'un CNN qui fonctionne bien en conditions de laboratoire avec des défauts propres et isolés peut échouer systématiquement sur la vraie ligne de production où la variabilité réelle — poussière, ombres, décalages positionnels, changements de lot — est la norme, pas l'exception.
Les ingénieurs ne peuvent pas dépendre exclusivement des affirmations architecturales. Examiner les données d'entraînement — volume, diversité, équilibre, et particulièrement la matrice de confusion — s'avère essentiel avant de faire confiance à un système d'inspection IA en production.
Avant le déploiement, interrogez le fournisseur : quels types de défauts sont dans le jeu d'entraînement ? Comment l'équilibre des classes a-t-il été géré ? Que se passe-t-il avec les défauts qui apparaissent à la limite de deux régions d'inspection ?
Les prochaines éditions examineront les Vision Transformers (spécifiquement DETR) comme architecture alternative qui adresse ces limitations de vision locale.