Le déploiement des modèles d’inférence au plus près des données (4/4)

Découvrez notre coeur de métier et les grands enjeux de l’intelligence artificielle appliquée à l’acoustique !

 

Découvrez notre coeur de métier et les grands enjeux de l’intelligence artificielle appliquée à l’acoustique ! Dans une logique de vulgarisation, nous partageons dans une série d’articles les thématiques qui font le quotidien de nos data scientists. Ce quatrième et dernier volet est consacré à la phase d’optimisation des modèles.

  • Quantification : il s’agit de réduire le nombre de bits pour représenter un nombre. Certains réseaux de neurones n’acceptent par exemple que du 8 bits ;
  • Elagage des poids : lorsqu’un poids est proche de la valeur nulle, alors on lui attribue la valeur de 0 ;
  • Fusion des couches (cela n’est pas nécessaire pour l’inférence)
  • Package Python d’Intel : permet de réaliser ces compressions.
Latence et débit

Sur cet exemple, nous allons réaliser une inférence sur les données temporelles toutes les 0,2s et mesurer le débit (nombre d’inférences réalisées par seconde).

Dans le second cas, la latence est supérieure à 0,2s, le système prend alors de plus en plus de retard sur le traitement, et ne fonctionne pas en temps réel.

Inférence par lots

Une solution pour réduire la latence est de réaliser les inférences par lot, c’est à dire de les exécuter en parallèle.