{"id":27402,"date":"2026-03-11T16:04:44","date_gmt":"2026-03-11T16:04:44","guid":{"rendered":"https:\/\/www.clubdelemprendimiento.com\/blog\/noticia-corporativa\/clockwork-io-presenta-una-nueva-clase-de-tolerancia-a-fallos-para-acabar-con-el-desperdicio-de-gpu\/"},"modified":"2026-03-11T16:04:44","modified_gmt":"2026-03-11T16:04:44","slug":"clockwork-io-presenta-una-nueva-clase-de-tolerancia-a-fallos-para-acabar-con-el-desperdicio-de-gpu","status":"publish","type":"noticia-corporativa","link":"https:\/\/www.clubdelemprendimiento.com\/blog\/noticia-corporativa\/clockwork-io-presenta-una-nueva-clase-de-tolerancia-a-fallos-para-acabar-con-el-desperdicio-de-gpu\/","title":{"rendered":"Clockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU"},"content":{"rendered":"<div>\n<p><a href=\"https:\/\/www.clubdelemprendimiento.com\/blog\/wp-content\/uploads\/2026\/03\/Imagen2.jpg\" target=\"_blank\" class=\"fotonota\" rel=\"noopener\"> <img decoding=\"async\" src=\"https:\/\/www.clubdelemprendimiento.com\/blog\/wp-content\/uploads\/2026\/03\/Imagen2.jpg\" style=\"max-width:600px;\" border=\"0\" class=\"postImage\" alt=\"Clockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU\"><\/a><\/p>\n<p>La nueva soluci\u00f3n TorchPass aborda un desaf\u00edo multimillonario en la infraestructura de IA; utiliza migraci\u00f3n en vivo de GPU para mantener el entrenamiento de IA a gran escala en funcionamiento ante fallos de hardware en lugar de obligar a costosos reinicios<\/p>\n<p><\/p>\n<p><a href=\"https:\/\/clockwork.io\/\" rel=\"nofollow\">Clockwork.io<\/a>, l\u00edder en Software-Driven AI Fabrics\u2122, una capa de <em>software<\/em> programable y neutral respecto a proveedores que optimiza cl\u00fasteres de GPU a gran escala para observabilidad en tiempo real, tolerancia a fallos y rendimiento determinista, anunci\u00f3 hoy la disponibilidad general de TorchPass Workload Fault Tolerance. Esta nueva clase de tolerancia a fallos impulsada por <em>software <\/em>elimina uno de los modos de fallo m\u00e1s costosos en el entrenamiento de IA a gran escala: los reinicios catastr\u00f3ficos de trabajos provocados por fallos de infraestructura.<\/p>\n<p>Ofrecido como una capacidad central de la <a href=\"https:\/\/clockwork.io\/platform\/\" rel=\"nofollow\">plataforma FleetIQ de Clockwork.io<\/a>, TorchPass aplica los principios de Software-Driven AI Fabrics al entrenamiento distribuido, utilizando migraci\u00f3n en vivo de GPU para permitir que las cargas de trabajo contin\u00faen ejecut\u00e1ndose a trav\u00e9s de fallos de GPU, interrupciones de red, errores de controladores e incluso ca\u00eddas completas de nodos, sin reinicios desde<em> checkpoints<\/em> ni p\u00e9rdida de progreso.<\/p>\n<p>\u00abLas empresas est\u00e1n invirtiendo miles de millones en chips de nueva generaci\u00f3n, y sin embargo los costes de ejecutar trabajos de IA distribuidos siguen estando enormemente inflados porque el ecosistema ha aceptado el fallo como una constante\u00bb, afirm\u00f3 Suresh Vasudevan, CEO de Clockwork.io. \u00abConstruimos TorchPass para rechazar fundamentalmente esa premisa. En lugar de tratar el fallo como inevitable y reiniciar despu\u00e9s, TorchPass hace que los fallos de infraestructura sean invisibles para la carga de trabajo: el entrenamiento contin\u00faa a trav\u00e9s de los fallos de forma transparente, en <em>software<\/em>. Para un despliegue t\u00edpico de 2.048 GPU, eso se traduce en m\u00e1s de 6 millones de d\u00f3lares al a\u00f1o en capacidad de c\u00f3mputo recuperada. Esto es exactamente lo que nuestro enfoque de Software-Driven AI Fabric fue dise\u00f1ado para ofrecer: infraestructura de IA tolerante a fallos\u00bb.<\/p>\n<p>Dylan Patel, fundador y CEO de SemiAnalysis, coincidi\u00f3 en que los trabajos de entrenamiento a gran escala est\u00e1n limitados por interrupciones. \u00abA medida que se despliegan cl\u00fasteres Blackwell con un dominio NVL72, y mirando al futuro con el dominio NVL576 de Rubin Ultra, la idea de que un solo error de GPU o una fluctuaci\u00f3n en un enlace de red pueda detener toda una ejecuci\u00f3n es totalmente inaceptable\u00bb, afirm\u00f3 Patel. \u00abTorchPass resuelve un enorme desaf\u00edo de fiabilidad de cl\u00fasteres: proporciona conmutaci\u00f3n por error transparente y migraci\u00f3n en vivo de cargas de trabajo que mantiene alto el MFU, lo que a su vez impulsa una mejor econom\u00eda de GPU\u00bb.<\/p>\n<p><strong>Por qu\u00e9 el entrenamiento de IA falla a escala<\/strong><br \/>\nEl entrenamiento distribuido de IA sigue siendo una de las cargas de trabajo m\u00e1s propensas a fallos en la infraestructura moderna. A medida que crece el tama\u00f1o de los cl\u00fasteres, la fragilidad aumenta de forma pronunciada. Investigaciones de Meta FAIR muestran que el tiempo medio hasta el fallo desciende a 7,9 horas en un cl\u00faster de 1.024 GPU y a solo 1,8 horas en uno de 16.384 GPU. Esto significa que, para la mayor\u00eda de las grandes empresas centradas en IA o nubes de IA, los reinicios provocados por fallos son completamente inevitables, lo que convierte este problema en una gran barrera para escalar el impacto de la IA.<\/p>\n<p>Cada fallo obliga a los trabajos de entrenamiento a retroceder hasta el <em>checkpoint<\/em> m\u00e1s reciente, descartando minutos u horas de trabajo completado y perdiendo tiempo adicional en intervenci\u00f3n manual, reprovisi\u00f3n de recursos y reinicio del entrenamiento. Estos reinicios limitan silenciosamente la utilizaci\u00f3n de GPU, lo que convierte la fiabilidad en uno de los mayores costes ocultos de la infraestructura de IA.<\/p>\n<p>TorchPass aborda este problema al gestionar de forma proactiva los fallos costosos de cargas de trabajo de IA, resolvi\u00e9ndolos antes de que el trabajo se detenga o necesite reiniciarse. Fundamental para empresas que ejecutan grandes cargas de trabajo de IA y para nubes de IA por igual, TorchPass mejora dr\u00e1sticamente la fiabilidad de las cargas de trabajo y la utilizaci\u00f3n de los cl\u00fasteres. Para las nubes de IA, que ahora pueden solucionar problemas en GPU afectadas mientras mantienen la ejecuci\u00f3n del entrenamiento seg\u00fan lo previsto, esto se traduce en mejores SLA para los clientes y una econom\u00eda global de nube de IA m\u00e1s favorable, mejorando su capacidad para proteger m\u00e1rgenes y ofrecer nuevos modelos antes.<\/p>\n<p>\u00abGestionar la producci\u00f3n de c\u00f3mputo en cl\u00fasteres de GPU a gran escala es vital para garantizar que estamos ofreciendo capacidad fiable a nuestros clientes. Al usar TorchPass contamos con el respaldo de una empresa que se centra en la resiliencia como si fuera una funci\u00f3n central del negocio: sustituye cualquier GPU espec\u00edfica que falle y mantiene el resto del trabajo en marcha, en lugar de permitir que un peque\u00f1o problema afecte a nuestras operaciones a gran escala\u00bb, afirm\u00f3 David Power, CTO de Nscale.<\/p>\n<p><strong>Habilitando la pr\u00f3xima generaci\u00f3n de infraestructura de IA<\/strong><br \/>\nAl convertir la fiabilidad en una capacidad definida por <em>software<\/em> en lugar de una limitaci\u00f3n de <em>hardware<\/em>, TorchPass proporciona la confianza operativa necesaria para desplegar sistemas de nueva generaci\u00f3n altamente acoplados, como los NVIDIA GB200 y NVIDIA GB300 NVL72, as\u00ed como futuros sistemas a escala de <em>rack<\/em>, donde las arquitecturas densas amplifican el coste incluso de peque\u00f1os fallos.<\/p>\n<p>TorchPass se basa en el lanzamiento previo de <a href=\"https:\/\/clockwork.io\/workload-failover\/\" rel=\"nofollow\">Network Fault Tolerance<\/a> de Clockwork.io, que aplica los mismos principios de Software-Driven AI Fabric a la resiliencia de red mediante el redireccionamiento transparente del tr\u00e1fico alrededor de fallos de enlace.<\/p>\n<p>Para obtener m\u00e1s informaci\u00f3n sobre el lanzamiento de TorchPass, visitar al equipo de Clockwork.io en persona en NVIDIA GTC 2026 del 16 al 19 de marzo, en el stand n.\u00ba 205, o visitar https:\/\/clockwork.io.<\/p>\n<p><strong>Acerca de Clockwork.io<\/strong><br \/>\nClockwork.io es pionera en Software-Driven AI Fabrics\u2122, ofreciendo una capa de <em>software <\/em>programable que hace que los cl\u00fasteres de IA a gran escala sean observables, deterministas y resilientes por dise\u00f1o para impulsar el progreso continuo de las cargas de trabajo y la m\u00e1xima utilizaci\u00f3n del cl\u00faster. Su plataforma FleetIQ permite a las empresas entrenar, desplegar y servir las cargas de trabajo de IA m\u00e1s exigentes del mundo de forma m\u00e1s r\u00e1pida, fiable y a menor coste. Empresas como Uber, Wells Fargo, Nebius, Nscale y White Fiber conf\u00edan en Clockwork.io para impulsar su infraestructura de IA. M\u00e1s informaci\u00f3n en www.clockwork.io.<\/p>\n<\/div>\n","protected":false},"featured_media":27403,"template":"","meta":{"_acf_changed":false},"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v22.7 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Clockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU - Blog Club del Emprendimiento<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/www.clubdelemprendimiento.com\/blog\/noticia-corporativa\/clockwork-io-presenta-una-nueva-clase-de-tolerancia-a-fallos-para-acabar-con-el-desperdicio-de-gpu\/\" \/>\n<meta property=\"og:locale\" content=\"es_ES\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Clockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU - Blog Club del Emprendimiento\" \/>\n<meta property=\"og:description\" content=\"La nueva soluci\u00f3n TorchPass aborda un desaf\u00edo multimillonario en la infraestructura de IA; utiliza&hellip;\" \/>\n<meta property=\"og:url\" content=\"https:\/\/www.clubdelemprendimiento.com\/blog\/noticia-corporativa\/clockwork-io-presenta-una-nueva-clase-de-tolerancia-a-fallos-para-acabar-con-el-desperdicio-de-gpu\/\" \/>\n<meta property=\"og:site_name\" content=\"Blog Club del Emprendimiento\" \/>\n<meta property=\"og:image\" content=\"https:\/\/www.clubdelemprendimiento.com\/blog\/wp-content\/uploads\/2026\/03\/Imagen2.jpg\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Tiempo de lectura\" \/>\n\t<meta name=\"twitter:data1\" content=\"6 minutos\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/www.clubdelemprendimiento.com\/blog\/noticia-corporativa\/clockwork-io-presenta-una-nueva-clase-de-tolerancia-a-fallos-para-acabar-con-el-desperdicio-de-gpu\/\",\"url\":\"https:\/\/www.clubdelemprendimiento.com\/blog\/noticia-corporativa\/clockwork-io-presenta-una-nueva-clase-de-tolerancia-a-fallos-para-acabar-con-el-desperdicio-de-gpu\/\",\"name\":\"Clockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU - Blog Club del Emprendimiento\",\"isPartOf\":{\"@id\":\"https:\/\/www.clubdelemprendimiento.com\/blog\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/www.clubdelemprendimiento.com\/blog\/noticia-corporativa\/clockwork-io-presenta-una-nueva-clase-de-tolerancia-a-fallos-para-acabar-con-el-desperdicio-de-gpu\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/www.clubdelemprendimiento.com\/blog\/noticia-corporativa\/clockwork-io-presenta-una-nueva-clase-de-tolerancia-a-fallos-para-acabar-con-el-desperdicio-de-gpu\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/www.clubdelemprendimiento.com\/blog\/wp-content\/uploads\/2026\/03\/Imagen2.jpg\",\"datePublished\":\"2026-03-11T16:04:44+00:00\",\"dateModified\":\"2026-03-11T16:04:44+00:00\",\"breadcrumb\":{\"@id\":\"https:\/\/www.clubdelemprendimiento.com\/blog\/noticia-corporativa\/clockwork-io-presenta-una-nueva-clase-de-tolerancia-a-fallos-para-acabar-con-el-desperdicio-de-gpu\/#breadcrumb\"},\"inLanguage\":\"es\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/www.clubdelemprendimiento.com\/blog\/noticia-corporativa\/clockwork-io-presenta-una-nueva-clase-de-tolerancia-a-fallos-para-acabar-con-el-desperdicio-de-gpu\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\/\/www.clubdelemprendimiento.com\/blog\/noticia-corporativa\/clockwork-io-presenta-una-nueva-clase-de-tolerancia-a-fallos-para-acabar-con-el-desperdicio-de-gpu\/#primaryimage\",\"url\":\"https:\/\/www.clubdelemprendimiento.com\/blog\/wp-content\/uploads\/2026\/03\/Imagen2.jpg\",\"contentUrl\":\"https:\/\/www.clubdelemprendimiento.com\/blog\/wp-content\/uploads\/2026\/03\/Imagen2.jpg\",\"width\":760,\"height\":427,\"caption\":\"Clockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU\"},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/www.clubdelemprendimiento.com\/blog\/noticia-corporativa\/clockwork-io-presenta-una-nueva-clase-de-tolerancia-a-fallos-para-acabar-con-el-desperdicio-de-gpu\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/www.clubdelemprendimiento.com\/blog\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Noticias Corporativas\",\"item\":\"https:\/\/www.clubdelemprendimiento.com\/blog\/noticias-corporativas\/\"},{\"@type\":\"ListItem\",\"position\":3,\"name\":\"Clockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/www.clubdelemprendimiento.com\/blog\/#website\",\"url\":\"https:\/\/www.clubdelemprendimiento.com\/blog\/\",\"name\":\"Blog Club del Emprendimiento\",\"description\":\"\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/www.clubdelemprendimiento.com\/blog\/?s={search_term_string}\"},\"query-input\":\"required name=search_term_string\"}],\"inLanguage\":\"es\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Clockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU - Blog Club del Emprendimiento","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/www.clubdelemprendimiento.com\/blog\/noticia-corporativa\/clockwork-io-presenta-una-nueva-clase-de-tolerancia-a-fallos-para-acabar-con-el-desperdicio-de-gpu\/","og_locale":"es_ES","og_type":"article","og_title":"Clockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU - Blog Club del Emprendimiento","og_description":"La nueva soluci\u00f3n TorchPass aborda un desaf\u00edo multimillonario en la infraestructura de IA; utiliza&hellip;","og_url":"https:\/\/www.clubdelemprendimiento.com\/blog\/noticia-corporativa\/clockwork-io-presenta-una-nueva-clase-de-tolerancia-a-fallos-para-acabar-con-el-desperdicio-de-gpu\/","og_site_name":"Blog Club del Emprendimiento","og_image":[{"url":"https:\/\/www.clubdelemprendimiento.com\/blog\/wp-content\/uploads\/2026\/03\/Imagen2.jpg"}],"twitter_card":"summary_large_image","twitter_misc":{"Tiempo de lectura":"6 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/www.clubdelemprendimiento.com\/blog\/noticia-corporativa\/clockwork-io-presenta-una-nueva-clase-de-tolerancia-a-fallos-para-acabar-con-el-desperdicio-de-gpu\/","url":"https:\/\/www.clubdelemprendimiento.com\/blog\/noticia-corporativa\/clockwork-io-presenta-una-nueva-clase-de-tolerancia-a-fallos-para-acabar-con-el-desperdicio-de-gpu\/","name":"Clockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU - Blog Club del Emprendimiento","isPartOf":{"@id":"https:\/\/www.clubdelemprendimiento.com\/blog\/#website"},"primaryImageOfPage":{"@id":"https:\/\/www.clubdelemprendimiento.com\/blog\/noticia-corporativa\/clockwork-io-presenta-una-nueva-clase-de-tolerancia-a-fallos-para-acabar-con-el-desperdicio-de-gpu\/#primaryimage"},"image":{"@id":"https:\/\/www.clubdelemprendimiento.com\/blog\/noticia-corporativa\/clockwork-io-presenta-una-nueva-clase-de-tolerancia-a-fallos-para-acabar-con-el-desperdicio-de-gpu\/#primaryimage"},"thumbnailUrl":"https:\/\/www.clubdelemprendimiento.com\/blog\/wp-content\/uploads\/2026\/03\/Imagen2.jpg","datePublished":"2026-03-11T16:04:44+00:00","dateModified":"2026-03-11T16:04:44+00:00","breadcrumb":{"@id":"https:\/\/www.clubdelemprendimiento.com\/blog\/noticia-corporativa\/clockwork-io-presenta-una-nueva-clase-de-tolerancia-a-fallos-para-acabar-con-el-desperdicio-de-gpu\/#breadcrumb"},"inLanguage":"es","potentialAction":[{"@type":"ReadAction","target":["https:\/\/www.clubdelemprendimiento.com\/blog\/noticia-corporativa\/clockwork-io-presenta-una-nueva-clase-de-tolerancia-a-fallos-para-acabar-con-el-desperdicio-de-gpu\/"]}]},{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/www.clubdelemprendimiento.com\/blog\/noticia-corporativa\/clockwork-io-presenta-una-nueva-clase-de-tolerancia-a-fallos-para-acabar-con-el-desperdicio-de-gpu\/#primaryimage","url":"https:\/\/www.clubdelemprendimiento.com\/blog\/wp-content\/uploads\/2026\/03\/Imagen2.jpg","contentUrl":"https:\/\/www.clubdelemprendimiento.com\/blog\/wp-content\/uploads\/2026\/03\/Imagen2.jpg","width":760,"height":427,"caption":"Clockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU"},{"@type":"BreadcrumbList","@id":"https:\/\/www.clubdelemprendimiento.com\/blog\/noticia-corporativa\/clockwork-io-presenta-una-nueva-clase-de-tolerancia-a-fallos-para-acabar-con-el-desperdicio-de-gpu\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/www.clubdelemprendimiento.com\/blog\/"},{"@type":"ListItem","position":2,"name":"Noticias Corporativas","item":"https:\/\/www.clubdelemprendimiento.com\/blog\/noticias-corporativas\/"},{"@type":"ListItem","position":3,"name":"Clockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU"}]},{"@type":"WebSite","@id":"https:\/\/www.clubdelemprendimiento.com\/blog\/#website","url":"https:\/\/www.clubdelemprendimiento.com\/blog\/","name":"Blog Club del Emprendimiento","description":"","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/www.clubdelemprendimiento.com\/blog\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"es"}]}},"_links":{"self":[{"href":"https:\/\/www.clubdelemprendimiento.com\/blog\/wp-json\/wp\/v2\/noticia-corporativa\/27402"}],"collection":[{"href":"https:\/\/www.clubdelemprendimiento.com\/blog\/wp-json\/wp\/v2\/noticia-corporativa"}],"about":[{"href":"https:\/\/www.clubdelemprendimiento.com\/blog\/wp-json\/wp\/v2\/types\/noticia-corporativa"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.clubdelemprendimiento.com\/blog\/wp-json\/wp\/v2\/media\/27403"}],"wp:attachment":[{"href":"https:\/\/www.clubdelemprendimiento.com\/blog\/wp-json\/wp\/v2\/media?parent=27402"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}