La fragmentación de la web

Reddit impide a todos los buscadores menos a Google indexar su contenido. Las razones por las que lo hace, e implicaciones para el futuro de la web.

jul 28, 2024

El miércoles, 404 Media lanzó la noticia de que Reddit había bloqueado el acceso a todos los buscadores menos a Google. Desde hace unas semanas, sólo este último tiene permitido indexar nuevo contenido de Reddit.

Esto se debe a un cambio anunciado en su archivo robots.txt. Este archivo es un documento que los sitios web publican definiendo qué contenido pueden y no pueden indexar las arañas (crawlers) de los buscadores y otros bots.

Su robots.txt incluye ahora estas dos líneas, con las que indican que los bots no son bienvenidos a indexar ningún contenido de Reddit.

User-agent: *

Disallow: /

En Ars Technica, un portavoz de Microsoft confirmaba que esta era la causa por la que Bing había dejado de incorporar resultados recientes de Reddit:

Microsoft respects the robots.txt standard and we honor the directions provided by websites that do not want content on their pages to be used with our generative AI models. Bing stopped crawling Reddit after they implemented their updated robots.txt file on July 1, which prohibits all crawling of their site.

La respuesta a por qué Google sí indexa Reddit y Bing no, se intuye en el acuerdo que firmaron a principios de 2024, por el cual el segundo pagaría 200 millones de dólares durante tres años para acceder al contenido del primero.

En otras palabras, Reddit ha puesto precio a que los buscadores de Internet puedan indexar su contenido.

¿Por qué Reddit ha puesto precio a su contenido?

En el artículo before:2022 argumentaba cómo algunos usuarios estaban añadiendo esa cadena a sus búsquedas de Google, para evitar obtener resultados contaminados por la aparición de la inteligencia artificial generativa a partir del lanzamiento de ChatGPT.

*Ejemplo de uso de before:2022 en Google*

Otro comando popular para filtrar los resultados de búsqueda es site:reddit.com, el cual limita los resultados de búsqueda a únicamente ese dominio. Esto se hace para encontrar opiniones humanas, bajo la premisa de que Reddit alberga decenas de miles de comunidades moderadas precisamente por humanos.

De hecho, muy recientemente, Google ha comenzado a dar mucha más importancia a Reddit en los resultados de sus búsquedas, demostrando que su algoritmo opina que sus usuarios prefieren estos resultados sobre otros.

*Visibilidad de los resultados de Reddit en Google — Vía SEO Roundtable*

Así, volviendo a la pregunta original, la respuesta es sencilla: Reddit pone precio a su contenido porque puede.

Puede porque los buscadores, pero también las empresas que construyen los modelos de inteligencia artificial generativa como OpenAI, necesitan los datos que Reddit posee: contenido curado humano.

En before:2022, comentaba:

O bien los OpenAI, Anthropic, Google y Meta encuentran la forma de distinguir claramente qué contenido es creado por un humano o no lo es, o bien tendrán que firmar acuerdos con proveedores de datos de prestigio que garanticen que hay humanos detrás de la generación del mismo.

Es natural que Reddit o cualquier otro quiera cobrar por el contenido con el que terceros hacen negocio. Más cuando la aparición de la inteligencia artificial generativa ha roto el sistema de incentivos que mantenía la web, según el cual los sitios web permitían a los buscadores indexar su contenido a cambio de que estos les llevaran tráfico.

A este respecto, en el artículo Código rojo en la web abierta, pronosticaba:

De esta forma, desaparece el incentivo para crear contenido en abierto. Si ChatGPT o cualquier otro va a aprovecharse de lo que escribas para alimentar a sus modelos sin darte nada a cambio, mi pronóstico es que todo el contenido de calidad se terminará yendo detrás de un muro de pago.

El primer indicio de que la web se va a ir a un modelo cerrado de pago ya está aquí.

Camino a la fragmentación de Internet

La primera consecuencia del movimiento de Reddit restringiendo el acceso a su contenido es que han fragmentado Internet. ¿Te imaginas tener que utilizar un buscador u otro según el sitio del que quieras obtener resultados? Está pasando.

Peor aún, si los sitios web comienzan a cobrar por indexar sus contenidos esto supone una tremenda barrera de entrada para nuevos competidores en el terreno de la búsqueda. Así, Google, pese a tener que sacar la cartera, tiene una herramienta más para poder afianzar todavía más su monopolio.

De hecho, cuánto más puedas pagar, mejor y menos fragmentado será tu buscador, más fácil te será captar y retener usuarios. Tener que pagar hará menos rentable tu negocio a corto plazo, pero al mismo tiempo lo hará mucho más defendible.

Puede que el acuerdo sea incluso más beneficioso para Google que para Reddit, quién sufre ciertas externalidades negativas con el mismo.

Así, por ejemplo, con este cambio, Reddit limita su adquisición a través de buscadores a Google y, en cierto modo se pone en sus manos. Cualquier cambio en el algoritmo podría hacer desaparecer gran parte de su tráfico.

También es cierto que Reddit ya sufría ese riesgo antes del cambio, pues Google sigue suponiendo el 90% del tráfico proveniente de buscadores para la mayor parte de sitios web. Ahora al menos, lo monetiza, a cambio de sacrificar un 10% que venía de Bing y otros.

Está por ver también qué Reddit termine perdiendo el tráfico restante, y es que igual que ha firmado un acuerdo con Google, podemos suponer que estará ofreciendo un acuerdo similar a Microsoft con Bing y otros. El mejor escenario posible para Reddit es vender el acceso a sus contenidos a cuantos más postores mejor.

Sin embargo, aún con más postores, la realidad es que Google tiene todo el poder de negociación. Puedes arriesgarte a perder el 10% de tu tráfico de búsqueda, pero no el 90%. Sea cual sea el acuerdo, Google, gracias a su posición de monopolio, obtendrá mejores condiciones que cualquier otro.

Otra posible consecuencia negativa puede ser que este acuerdo atraiga la mirada de los reguladores, y es precisamente la razón por la que este acuerdo no puede ser en exclusiva. Estoy seguro, en cualquier caso, que más de un regulador habrá levantado la ceja con la noticia, especialmente en Europa.

Los grandes perjudicados

La gran víctima de la fragmentación de Internet seremos los usuarios, quienes sin duda vamos a sufrir una peor experiencia de uso respecto de la que estábamos acostumbrados.

Pero no sólo nosotros. También los pequeños medios y creadores que no tengan la fuerza que tiene Reddit para poder hacer pasar por caja a los buscadores van a ser perjudicados, pues se puede crear así una Internet de dos velocidades. La primera, de los grandes medios, pagados por los buscadores por poner su contenido en abierto, y la segunda, la de los pequeños, a los que básicamente se les quita todo incentivo para hacerlo y construir un negocio alrededor del mismo.

En definitiva, el movimiento de Reddit para restringir el acceso a su contenido a ciertos buscadores marca un cambio significativo en la dinámica de la web. Ya no es sólo es que estemos pasando de un modelo abierto a uno cerrado, es que además, veremos como se fragmenta en función de los acuerdos comerciales que los buscadores y plataformas cierren con los medios.

Ferran

Jul 28

Interesante reflexión Simón. Creo que ya toca empezar a hablar de modelos donde los creadores de contenidos puedan ser recompensados por contenido original.

Expand full comment

Responder

Jokin

Jul 29

Y eso que Reddit no es la repanocha...

Que tiene contenido ? Si, mucho. Que lo generan humanos ? si, probablemente.

Pero no tiene filtro, cualquiera puede publicar cualquier cosa.

Mucha suerte con entrenar a un modelo con el contenido que hay ahí.

Son tiempos interesantes, y ya veremos por donde sale el futuro.

Muy buen post, Simón.

1 more comment...

Estrategia de Producto

Discusión sobre este post