OpenAI Web Crawler : tout ce que vous devez savoir

Récemment, OpenAI, la société qui a fait de l'intelligence artificielle un nom familier (Salut, ChatGPT) a révélé des informations sur son OpenAI Web Crawler. Cette nouvelle a suscité plusieurs discussions et a fait parler Internet sur l’IA.

Ce blog couvrira tout ce que vous devez savoir sur le robot d'exploration Web d'OpenAI.

Qu’est-ce qu’un robot d’exploration Web ?

Avant de parler du robot d'exploration Web OpenAI, il est important de comprendre ce qu'est un robot d'exploration Web. Un robot d'exploration Web, un robot de moteur de recherche ou un araignée télécharge et indexe le contenu de partout sur Internet. Un tel bot a pour objectif d’apprendre le contenu de (presque) toutes les pages Web afin de pouvoir obtenir les informations dont il a besoin.

Ces robots sont appelés « robots d’exploration du Web », car l’exploration signifie techniquement accéder automatiquement à un site Web et récupérer des données à l’aide d’un logiciel.

Les robots visitent les sites Web de manière systématique pour découvrir le contenu de chaque page afin qu'il puisse être indexé, mis à jour et récupéré en réponse à la requête de recherche d'un utilisateur. Les moteurs de recherche ont tendance à contrôler ces robots.

Les moteurs de recherche peuvent produire la liste des pages Web qui apparaissent après qu'un utilisateur a effectué une recherche dans Google ou Bing (ou un autre moteur de recherche) en appliquant un algorithme de recherche aux données collectées par les robots d'exploration du Web. Cela permet aux moteurs de recherche de proposer des liens pertinents en réponse aux requêtes de recherche des utilisateurs.

Un site Web doit être indexé avant de pouvoir être classé dans un moteur de recherche par une entreprise ou un propriétaire de site Web. Les sites Web ne peuvent pas être trouvés naturellement par un moteur de recherche s’ils ne sont pas explorés et indexés.

Voici quelques exemples de robots d’exploration Web utilisés pour l’indexation des moteurs de recherche :

  • Googlebot : le robot du moteur de recherche de Google

  • Bingbot : le robot d'exploration du moteur de recherche de Microsoft pour Bing

  • Amazonbot : le robot d'exploration Web d'Amazon.

Robot d'exploration Web OpenAI

Semblable aux moteurs de recherche mentionnés ci-dessus, OpenAI a également lancé son propre robot d'exploration Web, GPTBot, pour collecter des données de formation sur l'IA. GPT4, le système qui alimente ChatGPT, est déjà incroyablement précis. On soupçonne que GPT5, la prochaine grande version, va être formé sur les données collectées par le robot d'exploration Web OpenAI.

Le géant de l'IA a en outre affirmé que GPTBot est « filtré » pour éliminer les sources comportant des paywalls, des informations d'identification personnelle et du matériel qui enfreint ses règles.

OpenAI a également proposé une option pour empêcher le bot de supprimer votre site Web lorsqu'il a ajouté la page d'aide GPTBot.

On pourrait empêcher le partage de contenu avec OpenAI en apportant une petite modification au fichier robots.txt d’un site Web.

Les données collectées par le robot d’exploration Web aideront uniquement les modèles d’IA à recueillir davantage de connaissances et à devenir plus précis.

Super. 

Cependant, lorsque la nouvelle est tombée, il y a eu une réaction considérable, principalement parce qu’il n’y a eu aucune annonce officielle d’OpenAI à ce sujet.

De nombreux propriétaires de sites Web et créateurs de contenu choisissent de bloquer GPTBot. Mais pourquoi?

GPTBot : la discussion

Bien entendu, les robots d’exploration Web ne sont pas nouveaux et sont essentiels au fonctionnement de l’Internet moderne. Les sites Web sont souvent encouragés à autoriser l’accès des robots d’exploration de Google et d’autres moteurs de recherche pour augmenter leur trafic Web.

Cependant, dans le cas de GPTBot, les gens se désengagent. Des sites Web comme The Verge ont déjà placé l'indicateur robots.txt pour empêcher le modèle OpenAI de collecter du contenu à ajouter à ses LLM. Neil Clarke, le rédacteur en chef de la publication de science-fiction Clarkesworld, a déclaré sur X (anciennement Twitter) qu'il bloquerait GPTBot.

Il y a une raison pour laquelle les sites Web et les créateurs de contenu choisiraient spécifiquement de garder le robot d’OpenAI hors de leur contenu numérique. L'IA est l'avenir, et les données collectées par GPTBot ne feront que l'aider à être plus précise.

Mais en plus de le rendre précis, cela fait également de GPT un concurrent féroce pour ces producteurs de contenu Web.

ChatGPT résume simplement les données du Web sans fournir de citations, contrairement à Google, qui augmente le trafic vers un site Web après l'avoir exploré. Il est difficile d’identifier la source originale de l’information.

En laissant OpenAI gratter son matériel pour former les futurs LLM, les producteurs de contenus en ligne gratuits ont de bonnes raisons de croire qu'ils ne font que former un futur concurrent qui éloignera les utilisateurs de leur site Internet.

Comme pour la plupart des sujets abordés dans le débat sur l’IA, l’adhésion ou le retrait est une discussion à deux faces. Les sites Web et les créateurs de contenu en ligne indépendants, en particulier ceux qui le font gratuitement, peuvent être confrontés à la concurrence plus tard.

L'IA générative et une question d'éthique

Bien que les modèles d’IA génératifs soient extrêmement utiles et amusants à utiliser, une discussion importante et récurrente porte sur l’éthique derrière la formation de ces modèles d’IA. Les données qui entraînent les LLM IA sont créées par des humains, de sorte que la frontière entre inspiration et plagiat devient floue.

Par exemple, une affaire récente contre OpenAI affirme que puisque son chatbot est formé sans autorisation sur l’écriture de chacun – des livres aux articles disponibles en ligne – cela constitue un vol. De plus, ce n’est pas le seul procès contre OpenAI.

Ainsi, à mesure que l’IA progresse et se développe, les discussions autour du consentement, de la collecte et du droit d’auteur évoluent également.

iatisation.com

Bienvenue sur iatisation.com.

Préparez-vous à entrer dans une nouvelle ère grâce à iatisation.com, votre portail vers l'avenir. Nous vous offrons les connaissances et les outils nécessaires pour optimiser votre quotidien avec l'intelligence artificielle. Adoptez un nouveau mode avec des solutions d'I.A. semi-assistées et équipez-vous des robots et objets intelligents les plus avancés.

Chez iatisation.com, nous croyons en un avenir où l'I.A. et l'humain collaborent harmonieusement. Découvrez notre section Music et Food-Space pour vous détendre et inspirez-vous, et explorez Fi-Space pour développer votre potentiel financier avec les innovations les plus récentes.

Rejoignez-nous sur iatisation.com et faites partie de cette révolution technologique. Ensemble, transformons notre quotidien et bâtissons un futur extraordinaire.

https://www.iatisation.com
Précédent
Précédent

50 idées de soirée PowerPoint super amusantes que vos amis adoreront

Suivant
Suivant

Meilleurs outils de gestion des médias sociaux IA de 2023