Introduction à l'apprentissage automatique quantique
Aperçu et motivation
Avant de commencer, merci de remplir ce court sondage pré-cours, qui est important pour nous aider à améliorer notre contenu et l'expérience utilisateur.
Bienvenue dans l'apprentissage automatique quantique !
La vidéo ci-dessous donnera une brève introduction qui est complétée par le texte ci-dessous.
Pour récapituler et compléter brièvement la vidéo :
- Nous avons vu un problème résolu pour la première fois sur un ordinateur quantique, puis des personnes ont trouvé une façon de le faire sur un superordinateur classique. Ce cycle d'informatique classique et quantique se repoussant mutuellement à leurs limites va probablement continuer pendant quelques années.
- Il existe des problèmes spécifiques où l'informatique quantique peut avoir un avantage démontrable sur l'informatique classique, étant donné des progrès dans des domaines tels que la réduction des erreurs et le nombre de qubits disponibles. Mais c'est toujours une période d'exploration, à la recherche d'ensembles de données adaptés au quantum et de cartes de caractéristiques quantiques utiles.
- L'apprentissage automatique quantique (QML) est l'un des nombreux domaines passionnants où l'informatique quantique peut augmenter ou compléter les flux de travail classiques existants.
L'apprentissage automatique (ML) applique des algorithmes à des ensembles de données, et le QML pourrait donc plausiblement inclure la mécanique quantique dans les données, les algorithmes, ou les deux. Toutes ces possibilités sont potentiellement intéressantes. Mais nous nous limiterons principalement aux discussions d'algorithmes quantiques appliqués à des données classiques. Une raison à cela est que les problèmes ML avec des données classiques sont déjà si bien étudiés et largement disponibles. Il y a un large intérêt pour résoudre des problèmes qui commencent avec des données classiques. Une autre raison est l'absence de QRAM. Sans la capacité de stocker de grandes quantités de données quantiques sur une échelle de temps relativement longue, les méthodes qui commencent avec des données quantiques sont encore assez loin d'être applicables à l'industrie. Il n'est également pas clair comment « accéder quantiquement » à des données classiques de manière efficace. Deux types de ML d'un intérêt particulier sont l'apprentissage supervisé, dans lequel on entraîne un algorithme en utilisant un ensemble de données étiqueté, et l'apprentissage non supervisé, dans lequel l'algorithme tente d'apprendre sur une distribution à partir d'échantillons non étiquetés. Un algorithme non supervisé pourrait, par exemple, apprendre à générer de nouveaux échantillons à partir de la même distribution, ou à regrouper les échantillons en groupes aux caractéristiques similaires.

L'image de gauche montre deux catégories de données étiquetées comme dans l'apprentissage supervisé. Dans ce cas, les catégories sont linéairement séparables. L'image de droite montre des clusters de données. Dans une tâche d'apprentissage non supervisé, ces données ne seraient pas initialement étiquetées et l'algorithme étudierait la distribution, cherchant peut-être des clusters. À des fins de visualisation des exemples de clusters que l'algorithme pourrait identifier, les points de données ont maintenant été étiquetés. Une différence clé entre les deux est que le processus d'apprentissage supervisé commence avec les données déjà étiquetées et le processus non supervisé commence avec des données non étiquetées, même si les données sont étiquetées à la fin.
Ceux ayant une formation en apprentissage automatique savent déjà que de nombreuses méthodes de résolution impliquent de mapper les données dans des espaces de dimension supérieure. C'est particulièrement bien exploré dans le contexte des noyaux. Pour rappel bref, parfois les données peuvent être séparables en catégories par une droite, un plan ou un hyperplan (nous dirons souvent simplement « hyperplan » par souci de concision), dans le même nombre de dimensions que les données. C'est montré dans la première image ci-dessus. D'autres fois, les données peuvent ne pas être séparables par un hyperplan dans ces dimensions, comme le montre la deuxième image. Mais il peut toujours y avoir une structure dans les données qui peut être exploitée dans un mappage vers des dimensions supérieures, ce qui rend alors les données séparables dans cet espace de dimension supérieure. Ceci est illustré par le mappage des données 2D avec une symétrie circulaire dans l'espace 3D dans lequel les points de données sont disposés le long d'une surface paraboloïde.

Un objectif commun dans le QML est de trouver un mappage de l'ensemble de caractéristiques de dimension inférieure vers un espace de dimension supérieure, qui sépare efficacement nos points de données de sorte que nous puissions utiliser le mappage pour classer de nouveaux points de données. Mais ce n'est pas une tâche facile, et toute discussion sur l'utilité potentielle de l'informatique quantique en apprentissage automatique doit être accompagnée des mises en garde appropriées. En particulier, nous devons aborder la nuance dans la sélection des ensembles de données et les défis pour atteindre l'échelle utilitaire. Nous devons aussi nous éloigner des tentatives de surpasser les algorithmes ML classiques sur des données déjà traitées efficacement et correctement par les algorithmes classiques, et recentrer la discussion sur l'exploration de nouvelles cartes de caractéristiques qui pourraient être utiles.
Gestion des attentes
De nombreux ensembles de données utilisés dans les applications QML décrites dans la littérature sont « ingéniés en caractéristiques » (feature-engineered), ce qui signifie qu'un ensemble de données est sélectionné ou généré spécifiquement pour montrer un cas d'utilisation étroit dans lequel l'informatique quantique est utile. Si cela semble être de la tromperie, c'est que l'on comprend mal la tâche en question. Il n'est pas le cas que certaines cartes de caractéristiques quantiques nous permettent de résoudre toutes ou beaucoup de tâches de classification plus efficacement ou de manière plus évolutive que les algorithmes d'apprentissage automatique classiques. Plutôt, certaines cartes de caractéristiques quantiques (pas toutes) se comportent différemment des cartes de caractéristiques classiques. La tâche consiste alors à explorer les circuits quantiques dans le contexte de structures de données complexes. Quelques questions spécifiques à aborder sont :
- Quels circuits quantiques sont les plus susceptibles de se comporter de manière nouvelle, par rapport aux alternatives classiques ?
- Existe-t-il des problèmes réels impliquant des données dont les propriétés sont mieux explorées à l'aide de tels circuits quantiques nouveaux ?
- Ces circuits quantiques s'adaptent-ils sur des ordinateurs quantiques à court terme ?
Explication insuffisante
On rencontre souvent une explication simplifiée de la puissance potentielle de l'informatique quantique. Elle ressemble à ceci :
Tout comme les ordinateurs classiques utilisent des bits d'information, les ordinateurs quantiques utilisent des qubits. Étant donné un nombre de bits, disons 4, un ordinateur classique peut prendre l'un quelconque des états possibles, alors qu'un ordinateur quantique peut exister dans une superposition des 16 états simultanément, et des opérations peuvent être effectuées sur toute cette superposition. Dans certains cas, cela nous permet naturellement de concevoir des algorithmes d'apprentissage potentiellement intéressants basés sur des mappages vers des espaces de dimension supérieure.
C'est une affirmation vraie, mais elle est inadéquate et un peu trompeuse, comme nous allons l'expliquer. On voit aussi soulignées les différences entre les coefficients complexes et réels, comme dans :
Un système classique probabiliste dans lequel un système peut être décrit comme ayant certaines probabilités d'être dans différents états, peut être décrit comme suit.
Dans un tel système, les coefficients , , , etc. ne peuvent être significatifs que s'ils sont des nombres réels positifs. Les états dans les ordinateurs quantiques sont décrits par des amplitudes de probabilité qui peuvent être des nombres complexes.