Pruebas reales de Claude Opus 4.8: Hace el trabajo incluso mejor, pero sus palabras son aún más duras.
Categoría

Pruebas reales de Claude Opus 4.8: Hace el trabajo incluso mejor, pero sus palabras son aún más duras.

Esta mañana, Anthropic superó oficialmente a OpenAI, anunciando su nueva valoración y lanzando Claude Opus 4.8, la última versión de su línea de productos estrella, que se rumoreaba desde hace dos días.
Jun 1st,2026 4 Puntos de vista
    Esta mañana, Anthropic superó oficialmente a OpenAI, anunciando su nueva valoración y lanzando Claude Opus 4.8, la última versión de su línea de productos estrella, que se rumoreaba desde hace dos días. La probamos de inmediato y recopilamos las primeras opiniones de la comunidad de usuarios. La conclusión es: es más capaz, pero su "personalidad" se ha vuelto más difícil de manejar. Pruebas de APPSO: El cerebro se ha actualizado, pero la boca ha desaparecido. No utilizamos los escenarios de referencia preparados por Anthropic, sino que lo probamos con nuestras propias necesidades reales: extraer y archivar los registros históricos completos de conversaciones de una plataforma de colaboración en línea. El volumen de datos era de más de 30 MB, disperso por toda la interfaz de usuario, sin un botón de exportación fácilmente disponible. Este tipo de tarea no prueba si el modelo puede escribir código, sino si puede trabajar con un desarrollador no profesional para descubrir y completar la tarea desde cero. El comienzo fue un descubrimiento accidental. Nuestros compañeros de pruebas notaron que la interfaz de usuario de la plataforma mostraba brevemente registros históricos antiguos en ciertos momentos, como si los datos se cargaran brevemente en el cliente y luego se eliminaran. Transmitió esta observación a la versión 4.8 sin ninguna descripción técnica, simplemente diciendo en lenguaje sencillo: "Vi algunos mensajes antiguos aparecer brevemente y luego desaparecer".
    4.8 Entendí su significado y emití el juicio correcto: los datos se cargan a través de una solicitud de interfaz y pueden ser interceptados en la capa de red del navegador. Luego proporcioné un plan operativo, guiando los pasos: herramientas de desarrollador, panel de red, filtrado de palabras clave y localización de la solicitud objetivo. El juicio fue preciso y el razonamiento claro. Pero aquí está la contradicción en 4.8: la capacidad de razonamiento es fuerte, pero la expresión es... engorrosa. Cada solución técnica es correcta, pero la explicación de cada paso requiere dos o tres oraciones. Preguntas sobre un método, y primero te da un "¡Por supuesto! Vamos a hacerlo paso a paso", luego saca una lista de puntos y luego agrega una "explicación suplementaria" al final de la lista explicando por qué debe hacerse de esta manera. Lo que se puede explicar en tres oraciones toma tres pantallas de texto. Simplemente no sé cómo programar, no es que mi cerebro haya perdido el control.
    Este no es un problema nuevo en la versión 4.8; es un problema de larga data que ha existido en la serie Opus desde la versión 4.7. A pesar de las repetidas críticas, esta versión no ha mejorado e incluso podría ser peor. La parte que más tiempo consume es la fase de corrección de errores: después de la primera solución, un usuario encontró un error. La versión 4.8 identificó correctamente el problema, proporcionó una nueva solución y no repitió los pasos fallidos. Esto es definitivamente mejor que la versión 4.6, donde los errores a veces olvidaban lo que se había intentado durante varias rondas de corrección de errores. Admitir errores es bueno, pero no hay necesidad de ser demasiado rígido. Agregar un análisis de las causas y una lista de puntos hace que parezca un correo electrónico de servicio al cliente, aunque se supone que es una revisión de un problema técnico.
    Finalmente, los datos se exportaron completamente en formato HAR, y la limpieza y la organización mediante scripts personalizados se completaron con éxito. Algunos usuarios aún no han recibido la actualización de Claude Code, pero Claude para Chrome ya está en la versión 4.8 y también se ha implementado en herramientas de oficina importantes como Notion. Realizamos pruebas con Claude para llevar a cabo tareas básicas como búsquedas y rellenar formularios en Chrome.

Noticias relacionadas

¿ESTÁS LISTO PARA TRABAJAR CON NOSOTROS?

Contáctanos