OpenAI, la société de technologie de pointe, a récemment fait des vagues lors de son témoignage devant un comité parlementaire britannique.
La société a affirmé qu’il serait « impossible » de développer les systèmes d’intelligence artificielle (IA) actuels sans utiliser de vastes quantités de données protégées par le droit d’auteur.
Selon OpenAI, les outils d’IA avancés tels que ChatGPT nécessitent une formation si étendue que l’adhésion à la loi sur le droit d’auteur serait tout simplement irréalisable. Dans un témoignage écrit, OpenAI a expliqué qu’entre les lois sur le copyright étendues et l’omniprésence de contenu protégé en ligne, « pratiquement toute sorte d’expression humaine » serait hors de portée pour les données d’entraînement. Cela inclut tout, des articles de presse aux commentaires de forums en passant par les images numériques.
OpenAI a souligné que les tentatives de créer une IA capable tout en évitant la violation du droit d’auteur seraient vouées à l’échec. L’entreprise a expliqué : « Se limiter à des données d’entraînement provenant de livres du domaine public et de dessins créés il y a plus d’un siècle … ne fournirait pas de systèmes d’IA répondant aux besoins des citoyens d’aujourd’hui. »
Une position rigide
Tout en défendant ses pratiques comme conformes, OpenAI a reconnu que des partenariats et des schémas de compensation avec les éditeurs pourraient être justifiés pour « soutenir et autonomiser les créateurs ». Cependant, l’entreprise n’a donné aucune indication qu’elle a l’intention de restreindre de manière significative sa collecte de données en ligne, y compris le journalisme sous paywall et la littérature.
Cette position a exposé OpenAI à plusieurs poursuites judiciaires, notamment de la part de médias tels que The New York Times, alléguant des violations du droit d’auteur.
Néanmoins, OpenAI semble peu disposée à modifier fondamentalement ses processus de collecte et de formation de données, étant donné les contraintes « impossibles » que les limites auto-imposées du droit d’auteur apporteraient. La société espère plutôt s’appuyer sur des interprétations larges des autorisations d’utilisation équitable pour exploiter légalement de vastes étendues de données protégées par le droit d’auteur.
Alors que l’IA avancée continue de démontrer des capacités étonnantes à émuler l’expression humaine, les experts juridiques s’attendent à des batailles judiciaires vigoureuses autour de la violation par des systèmes conçus intrinsèquement pour absorber d’énormes volumes de texte protégé, de médias et d’autres productions créatives.