{"id":1014502,"date":"2026-06-29T17:16:52","date_gmt":"2026-06-29T20:16:52","guid":{"rendered":"https:\/\/www.psr-inc.com\/?post_type=analytics_post&#038;p=1014502"},"modified":"2026-06-29T17:20:19","modified_gmt":"2026-06-29T20:20:19","slug":"sddeep-combinando-optimizacion-y-aprendizaje-por-refuerzo-para-el-despacho-hidrotermico","status":"publish","type":"analytics_post","link":"https:\/\/www.psr-inc.com\/es\/analytics-report\/post\/sddeep-combinando-optimizacion-y-aprendizaje-por-refuerzo-para-el-despacho-hidrotermico\/","title":{"rendered":"SDDeeP: combinando optimizaci\u00f3n y aprendizaje por refuerzo para el despacho hidrot\u00e9rmico"},"content":{"rendered":"\n<h2 class=\"wp-block-heading\">Introducci\u00f3n<\/h2>\n\n<p class=\"wp-block-paragraph\">La energ\u00eda hidroel\u00e9ctrica es la mayor fuente de electricidad de bajo carbono del mundo, suministrando cerca de un s\u00e9ptimo de la generaci\u00f3n global. Adem\u00e1s de su escala, es tambi\u00e9n uno de los recursos m\u00e1s flexibles en los sistemas el\u00e9ctricos modernos: los grandes embalses pueden almacenar agua durante meses y liberarla bajo demanda, suavizando la variabilidad estacional y absorbiendo perturbaciones en otras partes del sistema. Esa misma capacidad de almacenamiento, sin embargo, es lo que hace del despacho hidrot\u00e9rmico un problema de planificaci\u00f3n tan dif\u00edcil. Una decisi\u00f3n de turbinar o retener agua hoy puede no revelar su verdadero costo o valor hasta muchos meses despu\u00e9s, y esa larga memoria debe reconciliarse con las realidades operativas del d\u00eda a d\u00eda, como los l\u00edmites de transmisi\u00f3n, la disponibilidad de las plantas termoel\u00e9ctricas y la creciente variabilidad de las fuentes renovables.<\/p>\n\n<p class=\"wp-block-paragraph\">Durante m\u00e1s de tres d\u00e9cadas, una herramienta central para este problema ha sido la Programaci\u00f3n Din\u00e1mica Dual Estoc\u00e1stica (PDDE, o SDDP en ingl\u00e9s), un algoritmo utilizado en estudios de planificaci\u00f3n de la operaci\u00f3n en pa\u00edses como Brasil, Bolivia, Noruega, Vietnam y Estados Unidos. En su forma cl\u00e1sica, el SDDP depende de dos hip\u00f3tesis estructurales: la incertidumbre debe representarse de manera que preserve la independencia por etapa tras una transformaci\u00f3n adecuada, y el problema de optimizaci\u00f3n subyacente debe ser convexo. Estas hip\u00f3tesis son parte de lo que hace que el m\u00e9todo sea tratable a escala, pero tambi\u00e9n moldean las opciones de modelizaci\u00f3n disponibles en la pr\u00e1ctica, por ejemplo, en la forma en que se representan los procesos de caudales.<br\/><\/p>\n\n<p class=\"wp-block-paragraph\">Este art\u00edculo resume un estudio reciente que explora un camino alternativo: combinar la optimizaci\u00f3n con el Aprendizaje por Refuerzo (AR) de manera que mantenga el rigor de la satisfacci\u00f3n de restricciones, al tiempo que relaja la hip\u00f3tesis de independencia por etapa que el SDDP impone al modelo de caudales. El objetivo no es reemplazar al SDDP, que sigue siendo una referencia s\u00f3lida, sino entender qu\u00e9 se vuelve posible cuando esa restricci\u00f3n estructural se relaja, y a qu\u00e9 costo.<\/p>\n\n<h2 class=\"wp-block-heading\">Aprendizaje por Refuerzo Profundo en el contexto de los sistemas de potencia<\/h2>\n\n<p class=\"wp-block-paragraph\">El Aprendizaje por Refuerzo Profundo (ARP) ha experimentado una maduraci\u00f3n excepcionalmente r\u00e1pida en la \u00faltima d\u00e9cada. El campo se destac\u00f3 con agentes que aprendieron a jugar videojuegos de Atari a partir de p\u00edxeles brutos, luego avanz\u00f3 con AlphaGo y AlphaZero, que dominaron el Go, el ajedrez y el shogi \u00edntegramente mediante autoaprendizaje. M\u00e1s recientemente, la misma familia de t\u00e9cnicas se ha convertido en un ingrediente habitual en el entrenamiento de modelos de lenguaje de gran escala mediante aprendizaje por refuerzo con retroalimentaci\u00f3n humana. Cada uno de estos hitos impuls\u00f3 los algoritmos hacia adelante: m\u00e9todos actor-critic eficientes en muestras como el Deep Deterministic Policy Gradient (DDPG), el Twin Delayed DDPG (TD3) y el Soft Actor-Critic (SAC), y variantes basadas en modelos que planifican sobre un modelo interno del entorno. El resultado es un conjunto de herramientas mucho m\u00e1s pr\u00e1ctico, mucho m\u00e1s estable y mucho menos dependiente de datos de lo que estaba disponible incluso hace cinco a\u00f1os.<\/p>\n\n<p class=\"wp-block-paragraph\">Por debajo de las variaciones algor\u00edtmicas, todos los m\u00e9todos de AR comparten una estructura com\u00fan: un ciclo entre un agente y un entorno. En cada paso de tiempo, el agente observa el estado del entorno y elige una acci\u00f3n; el entorno transita a un nuevo estado y devuelve una recompensa que eval\u00faa la elecci\u00f3n. Repetir este ciclo a lo largo de todo el horizonte define un episodio. El objetivo del agente es aprender una pol\u00edtica (una regla que mapea estados observados a acciones) que maximice la recompensa acumulada a lo largo de un episodio.<\/p>\n\n<figure class=\"wp-block-image aligncenter size-full\"><img fetchpriority=\"high\" decoding=\"async\" width=\"450\" height=\"192\" src=\"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/image-9.png\" alt=\"\" class=\"wp-image-1014145\" srcset=\"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/image-9.png 450w, https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/image-9-300x128.png 300w\" sizes=\"(max-width: 450px) 100vw, 450px\" \/><\/figure>\n\n<p class=\"legenda-padrao\">Figure 1 \u2013 O framework de aprendizado por refor\u00e7o<\/p><br\/>\n\n<p class=\"wp-block-paragraph\">Desde el punto de vista de los sistemas de potencia, lo que hace interesante al ARP es su parentesco subyacente con los algoritmos que los operadores ya utilizan. El ARP basado en valor y el SDDP son primos sorprendentemente cercanos: ambos alternan entre un paso de simulaci\u00f3n progresiva y una actualizaci\u00f3n retroactiva que mejora una estimativa de la funci\u00f3n de costo futuro de largo plazo. El SDDP representa esa funci\u00f3n con cortes convexos lineales por tramos, lo que le confiere su notable eficiencia en problemas convexos. El ARP reemplaza esos cortes con redes neuronales, que son aproximadores universales de funciones. Curiosamente, cuando la red utiliza activaciones ReLU, como la mayor\u00eda de las arquitecturas modernas, la aproximaci\u00f3n resultante de la funci\u00f3n de costo futuro tambi\u00e9n es lineal por tramos, pero ya no se requiere que sea convexa. En otras palabras, el ARP puede leerse como una generalizaci\u00f3n de la misma idea detr\u00e1s del SDDP.<\/p>\n\n<p class=\"wp-block-paragraph\">Esa generalizaci\u00f3n est\u00e1 comenzando a traducirse en aplicaciones concretas en sistemas de potencia. El ARP se ha utilizado para el despacho de energ\u00eda en tiempo real en microrredes aisladas basadas en IoT (Lei et al., 2021), y encuestas recientes documentan una gama de casos de uso adicionales en r\u00e1pido crecimiento, incluyendo la gesti\u00f3n de tensi\u00f3n y potencia reactiva en alimentadores de distribuci\u00f3n, estrategias de oferta en mercados de electricidad, y la operaci\u00f3n de almacenamiento en bater\u00edas en sistemas con alta penetraci\u00f3n renovable (Sivamayil et al., 2023).<\/p>\n\n<p class=\"wp-block-paragraph\">El problema de despacho hidrot\u00e9rmico es otro caso de uso, marcado por un horizonte multipluranual impulsado por el acoplamiento temporal de los reservorios y por restricciones f\u00edsicas r\u00edgidas en la red y en los balances h\u00eddricos. La aproximaci\u00f3n de la funci\u00f3n de costo futuro del ARP puede representar el valor no lineal y temporalmente acoplado del agua almacenada a lo largo de ese horizonte, pero las restricciones son un punto d\u00e9bil de los enfoques de AR puros. Combinar el ARP con una capa de optimizaci\u00f3n que haga cumplir esas restricciones en cada etapa es lo que hace viable este enfoque h\u00edbrido en la pr\u00e1ctica.<\/p>\n\n<h2 class=\"wp-block-heading\">El enfoque propuesto: seguimiento de objetivo con una pol\u00edtica aprendida<\/h2>\n\n<p class=\"wp-block-paragraph\">El m\u00e9todo tiene dos componentes que funcionan en conjunto. En cada etapa mensual, un problema de optimizaci\u00f3n decide qu\u00e9 plantas termoel\u00e9ctricas e hidroel\u00e9ctricas despachar, satisfaciendo el balance de carga, el balance h\u00eddrico, los l\u00edmites de generaci\u00f3n y el conjunto completo de restricciones de red. Lo que cambia es c\u00f3mo se comunica el valor a largo plazo del agua almacenada al problema de etapa \u00fanica. En lugar de la funci\u00f3n de costo futuro lineal por tramos utilizada por el SDDP, un agente de AR (implementado aqu\u00ed como un actor-critic DDPG) genera un volumen objetivo de embalse para cada planta hidroel\u00e9ctrica, junto con un peso de penalidad que controla con qu\u00e9 fuerza la operaci\u00f3n debe dirigirse hacia ese objetivo.<\/p>\n\n<p class=\"wp-block-paragraph\">El problema de etapa \u00fanica minimiza entonces el costo operacional inmediato m\u00e1s una penalidad sobre la desviaci\u00f3n entre los vol\u00famenes finales del embalse y los objetivos proporcionados por el agente. Si el agente recomienda mantener los embalses llenos, el agua se almacena de forma agresiva; si el agente prefiere reducir el nivel, el optimizador libera agua en la medida en que las restricciones lo permiten. El costo operacional simulado se devuelve como se\u00f1al de recompensa, y las redes actor y critic se entrenan gradualmente para recomendar objetivos que minimicen el costo total a lo largo de todo el horizonte de planificaci\u00f3n.<\/p>\n\n<p class=\"wp-block-paragraph\">Dos opciones de dise\u00f1o merecen destacarse. En primer lugar, la capa de optimizaci\u00f3n es la que garantiza la viabilidad: el agente de AR nunca necesita aprender qu\u00e9 es una restricci\u00f3n de red, porque el optimizador la hace cumplir para cada decisi\u00f3n de despacho. En segundo lugar, dividir el problema de esta manera (optimizaci\u00f3n de etapa \u00fanica para la decisi\u00f3n inmediata, AR para el acoplamiento a largo plazo) elimina las restricciones estructurales que los solvers multi\u00e9tapa normalmente imponen a la modelizaci\u00f3n. En particular, el proceso de caudales puede ser cualquier modelo que conduzca la simulaci\u00f3n: datos hist\u00f3ricos, un modelo de series temporales flexible, o cualquier otro proceso que consideremos que representa mejor la realidad.<\/p>\n\n<p class=\"wp-block-paragraph\"><span style=\"font-weight: 400;\">La Figura 2 mapea estas piezas en una sola etapa. La entrada del agente es el estado actual $s_t$ (niveles de los embalses y rezagos de caudales recientes) junto con las incertidumbres realizadas en la etapa $\\omega_t$ (caudales y demanda). Su acci\u00f3n tiene dos partes: un vector de vol\u00famenes objetivo de embalse $\\hat{s}<\/span><i><span style=\"font-weight: 400;\">{t+1}$ y un peso de penalidad $\\beta_t$ que controla con qu\u00e9 fuerza el optimizador debe rastrear esos objetivos. La resoluci\u00f3n del problema de rastreo de estado con estas entradas arroja el siguiente estado realizado $s<\/span><\/i><span style=\"font-weight: 400;\">{t+1}$ y el costo operacional inmediato $c_t$, que se devuelve como la se\u00f1al de recompensa utilizada para entrenar al agente.<\/span><\/p>\n\n<figure class=\"wp-block-image aligncenter size-full\"><img decoding=\"async\" width=\"450\" height=\"308\" src=\"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/image-10.png\" alt=\"\" class=\"wp-image-1014148\" srcset=\"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/image-10.png 450w, https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/image-10-300x205.png 300w\" sizes=\"(max-width: 450px) 100vw, 450px\" \/><\/figure>\n\n<p class=\"legenda-padrao\">Figura 2 \u2014 Fluxo de informa\u00e7\u00f5es entre o agente de AR e o problema de otimiza\u00e7\u00e3o de rastreamento de estado de est\u00e1gio \u00fanico<\/p><br\/>\n\n<h2 class=\"wp-block-heading\">Estudio de caso: modelo de caudales<\/h2>\n\n<p class=\"wp-block-paragraph\">El enfoque propuesto se compara con el SDDP en un contexto en que las hip\u00f3tesis estructurales del SDDP obligan a una simplificaci\u00f3n de modelizaci\u00f3n que el m\u00e9todo h\u00edbrido puede evitar: el modelo de caudales con independencia por etapa requerido por el SDDP. El sistema de prueba es el sistema el\u00e9ctrico boliviano (28 barras, 11 plantas hidroel\u00e9ctricas, 23 plantas termoel\u00e9ctricas y 31 ramales de transmisi\u00f3n), simulado a lo largo de un horizonte de 5 a\u00f1os dividido en 60 etapas mensuales. Las pol\u00edticas se comparan en los mismos 10.000 escenarios de caudales fuera de la muestra extra\u00eddos de un modelo SARIMA ajustado al historial de caudales, y cada configuraci\u00f3n de AR se entrena cinco veces con diferentes semillas aleatorias para considerar la variabilidad derivada de la inicializaci\u00f3n de la red neuronal.<\/p>\n\n<p class=\"wp-block-paragraph\">El SDDP fue entrenado con escenarios de un modelo PAR(p), seg\u00fan lo exige su hip\u00f3tesis de independencia por etapa. Tres variantes de AR fueron entrenadas con diferentes entradas de caudales: el propio registro hist\u00f3rico artificial, un generador basado en SARIMA que corresponde al proceso generador de datos fuera de la muestra y el mismo modelo PAR(p) utilizado por el SDDP.<\/p>\n\n<p class=\"wp-block-paragraph\">Los resultados muestran un ordenamiento claro entre las variantes de AR. El entrenamiento con escenarios extra\u00eddos del proceso generador de datos real, incluso en n\u00famero limitado, produjo costos operacionales menores que el entrenamiento con escenarios PAR(p), con una reducci\u00f3n de aproximadamente el 5%. La generaci\u00f3n de un n\u00famero ilimitado de escenarios SARIMA redujo a\u00fan m\u00e1s los costos, confirmando que los modelos de caudales flexibles combinados con datos de entrenamiento abundantes conducen a mejores pol\u00edticas. El SDDP, sin embargo, termin\u00f3 por delante de todas las variantes de AR, con la mejor configuraci\u00f3n de AR quedando a aproximadamente el 5% del costo del SDDP.<\/p>\n\n<p class=\"wp-block-paragraph\">Surgieron dos observaciones pr\u00e1cticas. En primer lugar, la hip\u00f3tesis de modelizaci\u00f3n de caudales utilizada habitualmente en la planificaci\u00f3n operacional no es inocua: reemplazar el PAR(p) por un proceso estoc\u00e1stico m\u00e1s rico cambi\u00f3 los costos operacionales totales en varios puntos porcentuales, manteniendo todas las dem\u00e1s hip\u00f3tesis fijas. En segundo lugar, la variabilidad entre semillas tuvo un impacto significativo: diferentes inicializaciones condujeron a diferentes niveles de embalse al final del horizonte, lo que refuerza la importancia de evaluar m\u00faltiples semillas en cualquier implementaci\u00f3n pr\u00e1ctica.<\/p>\n\n<figure class=\"wp-block-image aligncenter size-full\"><img decoding=\"async\" width=\"710\" height=\"367\" src=\"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/image-11.png\" alt=\"\" class=\"wp-image-1014151\" srcset=\"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/image-11.png 710w, https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/image-11-300x155.png 300w\" sizes=\"(max-width: 710px) 100vw, 710px\" \/><\/figure>\n\n<p class=\"legenda-padrao\">[Figura 3 \u2014 Costo operacional total para diferentes semillas aleatorias: gr\u00e1fico de barras mostrando Costo Total (M$) para AR (hist\u00f3rico artificial), AR (modelo perfecto), AR (PAR(p)) y SDDP]<\/p><br\/>\n\n<h2 class=\"wp-block-heading\">Discusi\u00f3n y perspectivas<\/h2>\n\n<p class=\"wp-block-paragraph\">Los experimentos sustentan una conclusi\u00f3n ponderada. Combinar optimizaci\u00f3n y Aprendizaje por Refuerzo es una forma pr\u00e1ctica de construir pol\u00edticas de despacho hidrot\u00e9rmico sin imponer la hip\u00f3tesis de independencia por etapa que el SDDP requiere en su modelo de caudales. El optimizador de etapa \u00fanica mantiene cada restricci\u00f3n f\u00edsica viable, mientras que la pol\u00edtica aprendida proporciona el acoplamiento temporal que el SDDP de otra forma impondr\u00eda a trav\u00e9s de su funci\u00f3n de costo futuro lineal por tramos. Dentro de ese marco, entrenar la pol\u00edtica con escenarios m\u00e1s cercanos al proceso generador de datos real redujo los costos de forma consistente entre las semillas, lo que sugiere que la restricci\u00f3n PAR(p) habitualmente incorporada en la planificaci\u00f3n operacional tiene un peso econ\u00f3mico real. La contrapartida honesta es que el SDDP sigui\u00f3 siendo el enfoque m\u00e1s costo-efectivo en las condiciones probadas. El m\u00e9todo h\u00edbrido redujo la brecha cuando el modelo de caudales fue relajado, pero no la cerr\u00f3.<\/p>\n\n<p class=\"wp-block-paragraph\">Varias direcciones de investigaci\u00f3n parecen prometedoras para explorar las ventajas potenciales del ARP. Paralelizar la optimizaci\u00f3n interna entre los escenarios mejorar\u00eda la eficiencia del entrenamiento, especialmente cuando la resoluci\u00f3n por etapa es costosa, por ejemplo, cuando se introducen restricciones de red u operacionales m\u00e1s ricas. Algoritmos de AR m\u00e1s recientes, como el Twin Delayed DDPG y el Soft Actor-Critic, abordan algunos de los problemas de estabilidad del DDPG y podr\u00edan mejorar la eficiencia de muestras. Y dado que ya tenemos un modelo expl\u00edcito dentro de la capa de optimizaci\u00f3n, el AR basado en modelos (la familia de algoritmos detr\u00e1s de sistemas como el AlphaZero) es una elecci\u00f3n natural: el agente podr\u00eda evaluar varios vol\u00famenes objetivo candidatos resolviendo el problema de etapa \u00fanica para cada uno, y usar esa informaci\u00f3n para planificar con m\u00e1s eficacia.<\/p>\n\n<p class=\"wp-block-paragraph\">El ARP en s\u00ed mismo es un conjunto de herramientas en desarrollo, y no un producto terminado. El campo ha avanzado sustancialmente en los \u00faltimos a\u00f1os, con algoritmos de entrenamiento m\u00e1s estables, mejor eficiencia de muestras e investigaciones activas sobre c\u00f3mo escalar a los tipos de grandes espacios de estado y acci\u00f3n caracter\u00edsticos de los sistemas de potencia. Para problemas de planificaci\u00f3n de largo horizonte como el despacho hidrot\u00e9rmico, creemos que el camino m\u00e1s probable es h\u00edbrido: la optimizaci\u00f3n maneja lo que hace mejor, es decir, hacer cumplir las restricciones f\u00edsicas y producir decisiones tratables por etapa, mientras que el ARP maneja el acoplamiento temporal y las partes del problema que resisten la modelizaci\u00f3n convexa.<\/p>\n\n<h2 class=\"wp-block-heading\">Referencias<\/h2>\n\n<p class=\"wp-block-paragraph\">Pereira, M.V.F. y Pinto, L.M.V.G. (1991). Multi-stage stochastic optimization applied to energy planning. Mathematical Programming, 52(1), 359\u2013375<\/p>\n\n<p class=\"wp-block-paragraph\">Rosemberg, A.W., Street, A., Garcia, J.D., Vallad\u00e3o, D.M., Silva, T. y Dowson, O. (2022). Assessing the cost of network simplifications in long-term hydrothermal dispatch planning models. IEEE Transactions on Sustainable Energy, 13(1), 196\u2013206.<\/p>\n\n<p class=\"wp-block-paragraph\">Lillicrap, T.P. et al. (2015). Continuous control with deep reinforcement learning. arXiv:1509.02971.<\/p>\n\n<p class=\"wp-block-paragraph\">Lei, L., Tan, Y., Dahlenburg, G., Xiang, W. y Zheng, K. (2021). Dynamic energy dispatch based on deep reinforcement learning in IoT-driven smart isolated microgrids. IEEE Internet of Things Journal, 8(10), 7938\u20137953.<\/p>\n\n<p class=\"wp-block-paragraph\">Sivamayil, K., Rajasekar, E., Aljafari, B., Nikolovski, S., Vairavasundaram, S. y Vairavasundaram, I. (2023). A systematic study on reinforcement learning based applications. Energies, 16(3).<\/p>\n","protected":false},"featured_media":1014664,"template":"","meta":{"_acf_changed":false},"report_section":[480],"class_list":["post-1014502","analytics_post","type-analytics_post","status-publish","has-post-thumbnail","hentry","report_section-indepth"],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.9 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>SDDeeP: combinando optimizaci\u00f3n y aprendizaje por refuerzo para el despacho hidrot\u00e9rmico - PSR Energy<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/www.psr-inc.com\/es\/analytics-report\/post\/sddeep-combinando-optimizacion-y-aprendizaje-por-refuerzo-para-el-despacho-hidrotermico\/\" \/>\n<meta property=\"og:locale\" content=\"es_ES\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"SDDeeP: combinando optimizaci\u00f3n y aprendizaje por refuerzo para el despacho hidrot\u00e9rmico - PSR Energy\" \/>\n<meta property=\"og:description\" content=\"Introducci\u00f3n La energ\u00eda hidroel\u00e9ctrica es la mayor fuente de electricidad de bajo carbono del mundo, suministrando cerca de un s\u00e9ptimo de la generaci\u00f3n global. Adem\u00e1s de su escala, es tambi\u00e9n uno de los recursos m\u00e1s flexibles en los sistemas el\u00e9ctricos modernos: los grandes embalses pueden almacenar agua durante meses y liberarla bajo demanda, suavizando la [&hellip;]\" \/>\n<meta property=\"og:url\" content=\"https:\/\/www.psr-inc.com\/es\/analytics-report\/post\/sddeep-combinando-optimizacion-y-aprendizaje-por-refuerzo-para-el-despacho-hidrotermico\/\" \/>\n<meta property=\"og:site_name\" content=\"PSR Energy\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/psrenergy\" \/>\n<meta property=\"article:modified_time\" content=\"2026-06-29T20:20:19+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/sddeep-scaled.webp\" \/>\n\t<meta property=\"og:image:width\" content=\"2560\" \/>\n\t<meta property=\"og:image:height\" content=\"1440\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/webp\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:site\" content=\"@psrenergy\" \/>\n<meta name=\"twitter:label1\" content=\"Tiempo de lectura\" \/>\n\t<meta name=\"twitter:data1\" content=\"13 minutos\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/www.psr-inc.com\\\/es\\\/analytics-report\\\/post\\\/sddeep-combinando-optimizacion-y-aprendizaje-por-refuerzo-para-el-despacho-hidrotermico\\\/\",\"url\":\"https:\\\/\\\/www.psr-inc.com\\\/es\\\/analytics-report\\\/post\\\/sddeep-combinando-optimizacion-y-aprendizaje-por-refuerzo-para-el-despacho-hidrotermico\\\/\",\"name\":\"SDDeeP: combinando optimizaci\u00f3n y aprendizaje por refuerzo para el despacho hidrot\u00e9rmico - PSR Energy\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/www.psr-inc.com\\\/es\\\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\\\/\\\/www.psr-inc.com\\\/es\\\/analytics-report\\\/post\\\/sddeep-combinando-optimizacion-y-aprendizaje-por-refuerzo-para-el-despacho-hidrotermico\\\/#primaryimage\"},\"image\":{\"@id\":\"https:\\\/\\\/www.psr-inc.com\\\/es\\\/analytics-report\\\/post\\\/sddeep-combinando-optimizacion-y-aprendizaje-por-refuerzo-para-el-despacho-hidrotermico\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/www.psr-inc.com\\\/wp-content\\\/uploads\\\/2026\\\/06\\\/sddeep-scaled.webp\",\"datePublished\":\"2026-06-29T20:16:52+00:00\",\"dateModified\":\"2026-06-29T20:20:19+00:00\",\"breadcrumb\":{\"@id\":\"https:\\\/\\\/www.psr-inc.com\\\/es\\\/analytics-report\\\/post\\\/sddeep-combinando-optimizacion-y-aprendizaje-por-refuerzo-para-el-despacho-hidrotermico\\\/#breadcrumb\"},\"inLanguage\":\"es\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/www.psr-inc.com\\\/es\\\/analytics-report\\\/post\\\/sddeep-combinando-optimizacion-y-aprendizaje-por-refuerzo-para-el-despacho-hidrotermico\\\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\\\/\\\/www.psr-inc.com\\\/es\\\/analytics-report\\\/post\\\/sddeep-combinando-optimizacion-y-aprendizaje-por-refuerzo-para-el-despacho-hidrotermico\\\/#primaryimage\",\"url\":\"https:\\\/\\\/www.psr-inc.com\\\/wp-content\\\/uploads\\\/2026\\\/06\\\/sddeep-scaled.webp\",\"contentUrl\":\"https:\\\/\\\/www.psr-inc.com\\\/wp-content\\\/uploads\\\/2026\\\/06\\\/sddeep-scaled.webp\",\"width\":2560,\"height\":1440},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/www.psr-inc.com\\\/es\\\/analytics-report\\\/post\\\/sddeep-combinando-optimizacion-y-aprendizaje-por-refuerzo-para-el-despacho-hidrotermico\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\\\/\\\/www.psr-inc.com\\\/es\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Posts do Analytics Report\",\"item\":\"https:\\\/\\\/www.psr-inc.com\\\/es\\\/analytics-report\\\/posts\\\/\"},{\"@type\":\"ListItem\",\"position\":3,\"name\":\"SDDeeP: combinando optimizaci\u00f3n y aprendizaje por refuerzo para el despacho hidrot\u00e9rmico\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/www.psr-inc.com\\\/es\\\/#website\",\"url\":\"https:\\\/\\\/www.psr-inc.com\\\/es\\\/\",\"name\":\"PSR\",\"description\":\"\",\"publisher\":{\"@id\":\"https:\\\/\\\/www.psr-inc.com\\\/es\\\/#organization\"},\"alternateName\":\"PSR Energy Consulting\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/www.psr-inc.com\\\/es\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"es\"},{\"@type\":\"Organization\",\"@id\":\"https:\\\/\\\/www.psr-inc.com\\\/es\\\/#organization\",\"name\":\"PSR\",\"alternateName\":\"PSR Energy Consulting\",\"url\":\"https:\\\/\\\/www.psr-inc.com\\\/es\\\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\\\/\\\/www.psr-inc.com\\\/es\\\/#\\\/schema\\\/logo\\\/image\\\/\",\"url\":\"https:\\\/\\\/www.psr-inc.com\\\/wp-content\\\/uploads\\\/2023\\\/03\\\/logo-psr.svg\",\"contentUrl\":\"https:\\\/\\\/www.psr-inc.com\\\/wp-content\\\/uploads\\\/2023\\\/03\\\/logo-psr.svg\",\"width\":1056,\"height\":816,\"caption\":\"PSR\"},\"image\":{\"@id\":\"https:\\\/\\\/www.psr-inc.com\\\/es\\\/#\\\/schema\\\/logo\\\/image\\\/\"},\"sameAs\":[\"https:\\\/\\\/www.facebook.com\\\/psrenergy\",\"https:\\\/\\\/x.com\\\/psrenergy\",\"https:\\\/\\\/www.instagram.com\\\/psrenergy\\\/\",\"https:\\\/\\\/www.linkedin.com\\\/company\\\/psrenergy\\\/\"]}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"SDDeeP: combinando optimizaci\u00f3n y aprendizaje por refuerzo para el despacho hidrot\u00e9rmico - PSR Energy","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/www.psr-inc.com\/es\/analytics-report\/post\/sddeep-combinando-optimizacion-y-aprendizaje-por-refuerzo-para-el-despacho-hidrotermico\/","og_locale":"es_ES","og_type":"article","og_title":"SDDeeP: combinando optimizaci\u00f3n y aprendizaje por refuerzo para el despacho hidrot\u00e9rmico - PSR Energy","og_description":"Introducci\u00f3n La energ\u00eda hidroel\u00e9ctrica es la mayor fuente de electricidad de bajo carbono del mundo, suministrando cerca de un s\u00e9ptimo de la generaci\u00f3n global. Adem\u00e1s de su escala, es tambi\u00e9n uno de los recursos m\u00e1s flexibles en los sistemas el\u00e9ctricos modernos: los grandes embalses pueden almacenar agua durante meses y liberarla bajo demanda, suavizando la [&hellip;]","og_url":"https:\/\/www.psr-inc.com\/es\/analytics-report\/post\/sddeep-combinando-optimizacion-y-aprendizaje-por-refuerzo-para-el-despacho-hidrotermico\/","og_site_name":"PSR Energy","article_publisher":"https:\/\/www.facebook.com\/psrenergy","article_modified_time":"2026-06-29T20:20:19+00:00","og_image":[{"width":2560,"height":1440,"url":"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/sddeep-scaled.webp","type":"image\/webp"}],"twitter_card":"summary_large_image","twitter_site":"@psrenergy","twitter_misc":{"Tiempo de lectura":"13 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/www.psr-inc.com\/es\/analytics-report\/post\/sddeep-combinando-optimizacion-y-aprendizaje-por-refuerzo-para-el-despacho-hidrotermico\/","url":"https:\/\/www.psr-inc.com\/es\/analytics-report\/post\/sddeep-combinando-optimizacion-y-aprendizaje-por-refuerzo-para-el-despacho-hidrotermico\/","name":"SDDeeP: combinando optimizaci\u00f3n y aprendizaje por refuerzo para el despacho hidrot\u00e9rmico - PSR Energy","isPartOf":{"@id":"https:\/\/www.psr-inc.com\/es\/#website"},"primaryImageOfPage":{"@id":"https:\/\/www.psr-inc.com\/es\/analytics-report\/post\/sddeep-combinando-optimizacion-y-aprendizaje-por-refuerzo-para-el-despacho-hidrotermico\/#primaryimage"},"image":{"@id":"https:\/\/www.psr-inc.com\/es\/analytics-report\/post\/sddeep-combinando-optimizacion-y-aprendizaje-por-refuerzo-para-el-despacho-hidrotermico\/#primaryimage"},"thumbnailUrl":"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/sddeep-scaled.webp","datePublished":"2026-06-29T20:16:52+00:00","dateModified":"2026-06-29T20:20:19+00:00","breadcrumb":{"@id":"https:\/\/www.psr-inc.com\/es\/analytics-report\/post\/sddeep-combinando-optimizacion-y-aprendizaje-por-refuerzo-para-el-despacho-hidrotermico\/#breadcrumb"},"inLanguage":"es","potentialAction":[{"@type":"ReadAction","target":["https:\/\/www.psr-inc.com\/es\/analytics-report\/post\/sddeep-combinando-optimizacion-y-aprendizaje-por-refuerzo-para-el-despacho-hidrotermico\/"]}]},{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/www.psr-inc.com\/es\/analytics-report\/post\/sddeep-combinando-optimizacion-y-aprendizaje-por-refuerzo-para-el-despacho-hidrotermico\/#primaryimage","url":"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/sddeep-scaled.webp","contentUrl":"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/sddeep-scaled.webp","width":2560,"height":1440},{"@type":"BreadcrumbList","@id":"https:\/\/www.psr-inc.com\/es\/analytics-report\/post\/sddeep-combinando-optimizacion-y-aprendizaje-por-refuerzo-para-el-despacho-hidrotermico\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/www.psr-inc.com\/es\/"},{"@type":"ListItem","position":2,"name":"Posts do Analytics Report","item":"https:\/\/www.psr-inc.com\/es\/analytics-report\/posts\/"},{"@type":"ListItem","position":3,"name":"SDDeeP: combinando optimizaci\u00f3n y aprendizaje por refuerzo para el despacho hidrot\u00e9rmico"}]},{"@type":"WebSite","@id":"https:\/\/www.psr-inc.com\/es\/#website","url":"https:\/\/www.psr-inc.com\/es\/","name":"PSR","description":"","publisher":{"@id":"https:\/\/www.psr-inc.com\/es\/#organization"},"alternateName":"PSR Energy Consulting","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/www.psr-inc.com\/es\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"es"},{"@type":"Organization","@id":"https:\/\/www.psr-inc.com\/es\/#organization","name":"PSR","alternateName":"PSR Energy Consulting","url":"https:\/\/www.psr-inc.com\/es\/","logo":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/www.psr-inc.com\/es\/#\/schema\/logo\/image\/","url":"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2023\/03\/logo-psr.svg","contentUrl":"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2023\/03\/logo-psr.svg","width":1056,"height":816,"caption":"PSR"},"image":{"@id":"https:\/\/www.psr-inc.com\/es\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/psrenergy","https:\/\/x.com\/psrenergy","https:\/\/www.instagram.com\/psrenergy\/","https:\/\/www.linkedin.com\/company\/psrenergy\/"]}]}},"_links":{"self":[{"href":"https:\/\/www.psr-inc.com\/es\/wp-json\/wp\/v2\/analytics_post\/1014502","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.psr-inc.com\/es\/wp-json\/wp\/v2\/analytics_post"}],"about":[{"href":"https:\/\/www.psr-inc.com\/es\/wp-json\/wp\/v2\/types\/analytics_post"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.psr-inc.com\/es\/wp-json\/wp\/v2\/media\/1014664"}],"wp:attachment":[{"href":"https:\/\/www.psr-inc.com\/es\/wp-json\/wp\/v2\/media?parent=1014502"}],"wp:term":[{"taxonomy":"report_section","embeddable":true,"href":"https:\/\/www.psr-inc.com\/es\/wp-json\/wp\/v2\/report_section?post=1014502"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}