Reddit contre Perplexity : la bataille juridique qui secoue l’IA

L’univers des intelligences artificielles est en pleine effervescence, et Reddit vient d’envoyer un signal fort à tous les acteurs du secteur. La célèbre plateforme communautaire américaine a récemment porté plainte contre Perplexity AI ainsi que trois prestataires de services de collecte de données pour avoir exploité massivement son contenu sans autorisation. Cette affaire soulève des questions cruciales sur la protection des données en ligne et les limites légales de l’entraînement des modèles linguistiques.

Reddit, un trésor de contenus protégés

Avec plus de 100 millions d’utilisateurs actifs chaque jour et des centaines de milliers de communautés thématiques, Reddit constitue une source d’informations unique et extrêmement riche pour les entreprises qui développent des IA. Les conversations, échanges et contenus partagés sur la plateforme représentent une mine de données pour améliorer les modèles linguistiques et les systèmes de traitement du langage.

Pour protéger ce trésor, Reddit a mis en place un ensemble de mesures techniques strictes. La plateforme utilise des systèmes anti-scraping sophistiqués, limitant les connexions suspectes par adresse IP et déployant des protections CAPTCHA pour contrer les robots. Le fichier robots.txt interdit explicitement l’accès automatisé, et les conditions d’utilisation interdisent toute exploitation commerciale sans accord écrit. Ces protections sont essentielles pour garantir que les contributions des utilisateurs ne soient pas utilisées à des fins lucratives sans leur consentement.

Certaines entreprises, comme OpenAI ou Google, ont choisi de respecter ces règles en signant des accords de licence avec Reddit. Ces partenariats encadrent l’accès aux données tout en assurant la protection des droits des utilisateurs et de la plateforme. Reddit propose également une Data API, permettant un accès contrôlé aux informations, mais elle impose une authentification stricte, des limites de débit, et interdit l’utilisation pour entraîner des modèles d’IA sans un accord spécifique.

Perplexity et les méthodes contestées

Perplexity AI, au cœur de cette plainte, ne s’est pas contentée de respecter ces protections. Selon Reddit, trois prestataires — SerpApi, Oxylabs et AWMProxy — ont mis en place des méthodes pour extraire le contenu de Reddit via Google, contournant ainsi les protections mises en place par le moteur de recherche.

Ces entreprises ont utilisé des serveurs proxy et d’autres techniques pour masquer leur localisation réelle et faire passer leurs robots pour de véritables utilisateurs humains. SerpApi et Oxylabs présentent ouvertement sur leurs sites la capacité de « contourner » les restrictions. Le PDG de SerpApi a même décrit cette méthode comme la création de faux navigateurs utilisant de multiples adresses IP, perçues par Google comme des utilisateurs normaux.

Entre le 1er et le 13 juillet 2025, ces pratiques ont permis d’accéder automatiquement à près de trois milliards de pages contenant textes, images et vidéos issus de Reddit. SerpApi aurait récupéré plus de 1,8 milliard de pages à lui seul sur cette période de deux semaines. Ces chiffres illustrent l’ampleur des violations alléguées et le potentiel lucratif de l’exploitation non autorisée des données.

Une mise en demeure ignorée

Reddit explique dans sa plainte avoir envoyé une mise en demeure en mai 2024 pour demander l’arrêt de ces pratiques. Malgré cela, Perplexity aurait multiplié par quarante les citations de contenus Reddit dans son moteur de recherche. L’entreprise réclame désormais l’arrêt immédiat de ces pratiques, la restitution des gains illicites obtenus, ainsi que des dommages-intérêts pour violation des droits d’auteur et contournement des protections techniques.

Cette situation met en lumière un débat plus large sur la légalité et l’éthique de l’utilisation des contenus en ligne pour entraîner des modèles d’IA. Les plateformes détentrices de données doivent pouvoir protéger leurs contenus et les utilisateurs, tandis que les entreprises de l’IA cherchent à améliorer leurs systèmes en accédant à des sources fiables et diversifiées.

Les enjeux pour le secteur de l’IA

L’affaire Reddit vs Perplexity illustre une tension croissante dans le domaine des technologies avancées. D’un côté, les plateformes sociales détiennent des informations précieuses qui peuvent nourrir les modèles linguistiques. De l’autre, les développeurs d’IA sont sous pression pour obtenir des données de qualité, ce qui les pousse parfois à adopter des méthodes contestables.

Le recours à des prestataires pour contourner les restrictions techniques pose non seulement des problèmes légaux, mais aussi éthiques. Les utilisateurs de Reddit, dont le contenu est exploité, ne sont pas rémunérés ni informés, ce qui soulève des questions sur le consentement et la protection de la vie privée. À l’heure où l’IA devient omniprésente dans la recherche d’informations, la transparence et le respect des règles de collecte des données apparaissent comme des priorités pour préserver la confiance des internautes.

Vers un cadre légal plus strict ?

Cette plainte pourrait servir de précédent pour renforcer la régulation autour de l’accès aux contenus en ligne par les intelligences artificielles. Les experts juridiques s’accordent à dire que la protection des droits d’auteur et le respect des barrières techniques comme les systèmes anti-scraping deviendront des éléments clés dans les futurs contrats et accords de licence.

Si Reddit obtient gain de cause, d’autres plateformes pourraient être encouragées à adopter des mesures similaires pour protéger leurs contenus. Les entreprises de l’IA devront alors se tourner vers des solutions légales et encadrées, comme les partenariats et les API officielles, pour entraîner leurs modèles. Cela pourrait contribuer à instaurer un équilibre entre innovation technologique et respect des droits numériques.