Medir alineamiento semántico ayuda, pero no lo confundan con la verdad

Esto trata de una advertencia práctica: las puntuaciones de alineamiento semántico (embeddings y cosine similarity) son ahora más precisas que las heurísticas por keywords, pero esa precisión puede generar la ilusión de certeza, según Search Engine Journal (4/6/2026).

La ilusión de la precision

Vemos la mejora tecnológica como un aumento de resolución, no como el tránsito de una aproximacion a una verdad. Gerard Salton y el sistema SMART introdujeron el modelo de espacio vectorial en los 1960s, que fue la primera vez que representamos consultas y documentos como vectores (fuente: historial de recuperación de información, citado en Search Engine Journal, 4/6/2026). Hoy los transformadores construyen embeddings con cientos o miles de dimensiones y eso explica por qué la medida tiene decimales y grafos elegantes; pero la investigacion de Netflix (Steck, Ekanadham y Kallus, 2024) mostró que la aplicacion de cosine similarity puede producir resultados arbitrarios dependiendo del entrenamiento y la regularizacion (fuente: estudio Netflix, 2024). La leccion: la mayor resolucion remueve la humildad que obligaba a cubrir temas desde varios angulos.

¿Cómo impacta esto en el mercado argentino?

En la practica local, las empresas que confunden precisión con veracidad corren riesgo de optimizar para el espacio del embedding en lugar de optimizar para los sistemas que importan: motores de busqueda, pipelines RAG o buscadores verticales. Search Engine Journal (4/6/2026) pone el ejemplo numerico de un score 0.89 como ilustracion de ese peligro; nosotros lo leemos como un recordatorio operativo. Para el anunciante argentino eso significa dos cosas: primero, todas las inversiones en contenido deben probarse frente a la experiencia de usuario real y sistemas productivos; segundo, no se puede delegar la gobernanza de datos a un vendor sin asegurar identidad y atribucion limpias. Mantenemos coherencia con nuestra postura reciente: priorizamos validar identidad digital, atribucion limpia y propiedad de datos antes de escalar automatismos basados en IA.

¿Que tipo de error nos importa?

La diferencia entre el error conocido y el error desconocido es la clave. La optimizacion por keywords produce un error conocido: sabemos que la herramienta es tosca y por eso cubrimos, triangulamos y construimos contenido de soporte. Los scores de embeddings introducen un error desconocido: un 0.92 en su espacio puede comportarse como 0.75 en otro, como ilustra la variacion en la leaderboard del benchmark MTEB citada por la nota (fuente: MTEB, consultado en 2026; Search Engine Journal, 4/6/2026). Cuando la medida se transforma en objetivo, aplica la ley de Goodhart y el contenido deriva hacia la geometria del modelo en lugar de hacia la utilidad para el usuario o la visibilidad en el sistema objetivo. Por eso la disciplina hoy no es abandonar la medicion, sino entender exactamente que nos esta diciendo ese numero y que no nos esta diciendo.

Que hacemos en la practica

La recomendacion es operativa y directa: no elegimos entre keyword y vector; los combinamos y los validamos en produccion. Primero, definimos criterios de representatividad: identificar los sistemas productivos relevantes (por ejemplo, Google Search, el pipeline RAG que use la marca y buscadores verticales) y comparar como se comporta el contenido en cada uno. Segundo, medimos incrementality real en pruebas controladas antes de escalar pauta; la medicion debe responder la pregunta de negocio, no solo subir un score. Tercero, mantenemos higiene de indice y gobernanza de datos: identidad persistente del usuario y logs que permitan atribucion limpia. Estas son prioridades que ya defendimos respecto de programatica y retail media: validar identidad digital, atribucion limpia y propiedad de datos antes de escalar automatismos o contenido generado por IA (posicion tomada en 2026-06-02 y 2026-06-03). Si se hace asi, la nueva resolucion deja de ser una trampa y se convierte en ventaja competitiva.

La ilusión de la precision

¿Cómo impacta esto en el mercado argentino?

¿Que tipo de error nos importa?

Que hacemos en la practica

Seguí leyendo

SEO para ecommerce más allá de adquisición: convertir la búsqueda en retención y LTV

Por qué un gran aviso de TV es también una ola de búsquedas y cómo capturarla

Ahrefs lanza 9 apps 'vibe-coded' con Agent A: oportunidad y riesgo para equipos de SEO