The Alignment Problem
Machine Learning and Human Values
Publié en octobre 2020, The Alignment Problem: Machine Learning and Human Values est un ouvrage de Brian Christian qui explore le défi central de l'IA moderne : aligner les systèmes d'apprentissage automatique sur des valeurs humaines.
L'auteur s'appuie sur plus de cent entretiens avec des chercheurs et ingénieurs de premier plan pour offrir une vision complète des aides potentielles et des risques inhérents à cette quête d'alignement.
Le livre se divise en trois parties – Prophecy, Agency et Normativity – chacune dédiée à un pan clé du problème d'alignement.
Dans Prophecy, Christian retrace l'histoire des réseaux de neurones et analyse des cas tels que l'enquête COMPAS de ProPublica pour illustrer les comportements imprévus et biaisés des algorithmes.
Agency relie la psychologie du renforcement aux approches de reinforcement learning, en s'appuyant sur les exemples d'AlphaGo et AlphaZero.
Normativity explore l'imitation inverse et les débats philosophiques autour du possibilisme et de l'actualisme pour déterminer quelle "vérité" les machines devraient optimiser.
L'ouvrage met en avant la nécessité de cadres techniques et philosophiques robustes pour corriger les biais culturels et assurer la sécurité des IA.
Points clés
- ProphecyHistoire des réseaux de neurones et risques de "boîtes noires".
- AgencyIllustration de l'apprentissage par renforcement (AlphaGo, AlphaZero).
- NormativityImitation inverse et fondements philosophiques de l'alignement.
- ÉthiqueImpact des valeurs implicites sur les algorithmes.
- SolutionsPropositions de cadres pour un alignement fiable.