{"id":1014144,"date":"2026-06-29T17:20:15","date_gmt":"2026-06-29T20:20:15","guid":{"rendered":"https:\/\/www.psr-inc.com\/?post_type=analytics_post&#038;p=1014144"},"modified":"2026-06-29T17:20:17","modified_gmt":"2026-06-29T20:20:17","slug":"sddeep-combinando-otimizacao-e-aprendizado-por-reforco-para-o-despacho-hidrotermico","status":"publish","type":"analytics_post","link":"https:\/\/www.psr-inc.com\/pt-br\/analytics-report\/post\/sddeep-combinando-otimizacao-e-aprendizado-por-reforco-para-o-despacho-hidrotermico\/","title":{"rendered":"SDDeeP: Combinando otimiza\u00e7\u00e3o e aprendizado por refor\u00e7o para o despacho hidrot\u00e9rmico"},"content":{"rendered":"\n<h2 class=\"wp-block-heading\">Introdu\u00e7\u00e3o<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">A energia hidrel\u00e9trica \u00e9 a maior fonte de eletricidade de baixo carbono do mundo, fornecendo cerca de um s\u00e9timo da gera\u00e7\u00e3o global. Al\u00e9m de sua escala, \u00e9 tamb\u00e9m um dos recursos mais flex\u00edveis nos sistemas el\u00e9tricos modernos: grandes reservat\u00f3rios podem armazenar \u00e1gua por meses e liber\u00e1-la sob demanda, suavizando a variabilidade sazonal e absorvendo choques em outras partes do sistema. Essa mesma capacidade de armazenamento, por\u00e9m, \u00e9 o que torna o despacho hidrot\u00e9rmico um problema de planejamento t\u00e3o dif\u00edcil. Uma decis\u00e3o de turbinar ou reter \u00e1gua hoje pode n\u00e3o revelar seu verdadeiro custo ou valor por muitos meses, e essa longa mem\u00f3ria precisa ser conciliada com as realidades operacionais do dia a dia, como limites de transmiss\u00e3o, disponibilidade das usinas termel\u00e9tricas e a crescente variabilidade das renov\u00e1veis.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Por mais de tr\u00eas d\u00e9cadas, uma ferramenta central para esse problema tem sido a Programa\u00e7\u00e3o Din\u00e2mica Dual Estoc\u00e1stica (PDDE \u2014 ou SDDP, em ingl\u00eas), um algoritmo utilizado em estudos de planejamento da opera\u00e7\u00e3o em pa\u00edses como Brasil, Bol\u00edvia, Noruega, Vietn\u00e3 e Estados Unidos. Em sua forma cl\u00e1ssica, o SDDP depende de duas hip\u00f3teses estruturais: a incerteza deve ser representada de forma que preserve a independ\u00eancia por est\u00e1gio ap\u00f3s uma transforma\u00e7\u00e3o adequada, e o problema de otimiza\u00e7\u00e3o subjacente deve ser convexo. Essas hip\u00f3teses s\u00e3o parte do que torna o m\u00e9todo trat\u00e1vel em escala, mas tamb\u00e9m moldam as escolhas de modelagem dispon\u00edveis na pr\u00e1tica \u2014 por exemplo, na forma como os processos de aflu\u00eancias s\u00e3o representados.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Este artigo resume um estudo recente que explora um caminho alternativo: combinar a otimiza\u00e7\u00e3o com o Aprendizado por Refor\u00e7o (AR) de forma que mantenha o rigor da satisfa\u00e7\u00e3o de restri\u00e7\u00f5es, ao mesmo tempo em que relaxa a hip\u00f3tese de independ\u00eancia por est\u00e1gio que o SDDP imp\u00f5e ao modelo de aflu\u00eancias. O objetivo n\u00e3o \u00e9 substituir o SDDP, que continua sendo uma refer\u00eancia s\u00f3lida, mas entender o que se torna poss\u00edvel quando essa restri\u00e7\u00e3o estrutural \u00e9 relaxada, e a que custo.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Aprendizado por Refor\u00e7o Profundo no contexto de sistemas de pot\u00eancia<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">O Aprendizado por Refor\u00e7o Profundo (ARP) passou por uma matura\u00e7\u00e3o excepcionalmente r\u00e1pida na \u00faltima d\u00e9cada. A \u00e1rea se destacou com agentes que aprenderam a jogar jogos de Atari a partir de pixels brutos, avan\u00e7ou ainda mais com AlphaGo e AlphaZero, que dominaram o Go, o xadrez e o shogi inteiramente por autoaprendizado. Mais recentemente, a mesma fam\u00edlia de t\u00e9cnicas se tornou um ingrediente rotineiro no treinamento de modelos de linguagem de grande escala por meio de aprendizado por refor\u00e7o com feedback humano. Cada um desses marcos impulsionou os algoritmos para a frente: m\u00e9todos actor-critic eficientes em amostras, como o Deep Deterministic Policy Gradient (DDPG), o Twin Delayed DDPG (TD3) e o Soft Actor-Critic (SAC), al\u00e9m de variantes baseadas em modelos que planejam sobre um modelo interno do ambiente. O resultado \u00e9 um conjunto de ferramentas muito mais pr\u00e1tico, muito mais est\u00e1vel e muito menos dependente de dados do que o que estava dispon\u00edvel mesmo cinco anos atr\u00e1s.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Por baixo das varia\u00e7\u00f5es algor\u00edtmicas, todos os m\u00e9todos de AR compartilham uma estrutura comum: um ciclo entre um agente e um ambiente. A cada passo de tempo, o agente observa o estado do ambiente e escolhe uma a\u00e7\u00e3o; o ambiente transita para um novo estado e retorna uma recompensa que avalia a escolha. Repetir esse ciclo ao longo de todo o horizonte define um epis\u00f3dio. O objetivo do agente \u00e9 aprender uma pol\u00edtica (uma regra que mapeia estados observados para a\u00e7\u00f5es) que maximize a recompensa acumulada ao longo de um epis\u00f3dio.<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-full\"><img fetchpriority=\"high\" decoding=\"async\" width=\"450\" height=\"192\" src=\"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/image-9.png\" alt=\"\" class=\"wp-image-1014145\" srcset=\"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/image-9.png 450w, https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/image-9-300x128.png 300w\" sizes=\"(max-width: 450px) 100vw, 450px\" \/><\/figure>\n\n\n\n<p class=\"legenda-padrao\">Figure 1 \u2013 O framework de aprendizado por refor\u00e7o<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Do ponto de vista dos sistemas de pot\u00eancia, o que torna o ARP interessante \u00e9 seu parentesco subjacente com os algoritmos que os operadores j\u00e1 utilizam. O ARP baseado em valor e o SDDP s\u00e3o surpreendentemente primos pr\u00f3ximos: ambos alternam entre um passo de simula\u00e7\u00e3o progressiva e uma atualiza\u00e7\u00e3o retroativa que aprimora uma estimativa da fun\u00e7\u00e3o de custo futuro de longo prazo. O SDDP representa essa fun\u00e7\u00e3o com cortes convexos lineares por partes, o que lhe confere sua not\u00e1vel efici\u00eancia em problemas convexos. O ARP substitui esses cortes por redes neurais, que s\u00e3o aproximadores universais de fun\u00e7\u00f5es. Curiosamente, quando a rede utiliza ativa\u00e7\u00f5es ReLU, como a maioria das arquiteturas modernas, a aproxima\u00e7\u00e3o resultante da fun\u00e7\u00e3o de custo futuro tamb\u00e9m \u00e9 linear por partes, mas n\u00e3o \u00e9 mais obrigada a ser convexa. Em outras palavras, o ARP pode ser lido como uma generaliza\u00e7\u00e3o da mesma ideia por tr\u00e1s do SDDP.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Essa generaliza\u00e7\u00e3o est\u00e1 come\u00e7ando a se traduzir em aplica\u00e7\u00f5es concretas em sistemas de pot\u00eancia. O ARP foi utilizado para o despacho de energia em tempo real em microrredes isoladas baseadas em IoT (Lei et al., 2021), e pesquisas recentes documentam uma gama crescente de casos de uso adicionais, incluindo gerenciamento de tens\u00e3o e pot\u00eancia reativa em alimentadores de distribui\u00e7\u00e3o, estrat\u00e9gias de lances em mercados de eletricidade e a opera\u00e7\u00e3o de armazenamento em baterias em sistemas com alta penetra\u00e7\u00e3o de renov\u00e1veis (Sivamayil et al., 2023).<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">O problema de despacho hidrot\u00e9rmico \u00e9 outro caso de uso, marcado por um horizonte multipluranual impulsionado pelo acoplamento temporal dos reservat\u00f3rios e por restri\u00e7\u00f5es f\u00edsicas r\u00edgidas na rede e nos balan\u00e7os h\u00eddricos. A aproxima\u00e7\u00e3o da fun\u00e7\u00e3o de custo futuro do ARP pode representar o valor n\u00e3o linear e temporalmente acoplado da \u00e1gua armazenada ao longo desse horizonte, mas as restri\u00e7\u00f5es s\u00e3o um ponto fraco das abordagens de AR puras. Combinar o ARP com uma camada de otimiza\u00e7\u00e3o que satisfa\u00e7a essas restri\u00e7\u00f5es a cada est\u00e1gio \u00e9 o que torna essa abordagem h\u00edbrida vi\u00e1vel na pr\u00e1tica.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">A abordagem proposta: rastreamento de alvo com uma pol\u00edtica aprendida<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">O m\u00e9todo tem dois componentes que funcionam em conjunto. A cada est\u00e1gio mensal, um problema de otimiza\u00e7\u00e3o decide quais usinas termel\u00e9tricas e hidrel\u00e9tricas despachar, satisfazendo o balan\u00e7o de carga, o balan\u00e7o h\u00eddrico, os limites de gera\u00e7\u00e3o e o conjunto completo de restri\u00e7\u00f5es de rede. O que muda \u00e9 como o valor de longo prazo da \u00e1gua armazenada \u00e9 comunicado ao problema de est\u00e1gio \u00fanico. Em vez da fun\u00e7\u00e3o de custo futuro linear por partes utilizada pelo SDDP, um agente de AR (implementado aqui como um actor-critic DDPG) gera um volume alvo de reservat\u00f3rio para cada usina hidrel\u00e9trica, juntamente com um peso de penalidade que controla com que for\u00e7a a opera\u00e7\u00e3o deve ser direcionada para esse alvo.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">O problema de est\u00e1gio \u00fanico minimiza ent\u00e3o o custo operacional imediato mais uma penalidade sobre o desvio entre os volumes finais do reservat\u00f3rio e os alvos fornecidos pelo agente. Se o agente recomenda manter os reservat\u00f3rios cheios, a \u00e1gua \u00e9 armazenada de forma agressiva; se o agente prefere reduzir o n\u00edvel, o otimizador libera \u00e1gua na medida em que as restri\u00e7\u00f5es permitem. O custo operacional simulado \u00e9 retornado como sinal de recompensa, e as redes actor e critic s\u00e3o treinadas gradualmente para recomendar alvos que minimizem o custo total ao longo de todo o horizonte de planejamento.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Duas escolhas de projeto merecem destaque. Primeiro, a camada de otimiza\u00e7\u00e3o \u00e9 o que garante a viabilidade: o agente de AR nunca precisa aprender o que \u00e9 uma restri\u00e7\u00e3o de rede, porque o otimizador a satisfaz para cada decis\u00e3o de despacho. Segundo, dividir o problema dessa forma (otimiza\u00e7\u00e3o de est\u00e1gio \u00fanico para a decis\u00e3o imediata, AR para o acoplamento de longo prazo) remove as restri\u00e7\u00f5es estruturais que os solvers multiest\u00e1gio normalmente imp\u00f5em \u00e0 modelagem. Em particular, o processo de aflu\u00eancias pode ser qualquer modelo que conduza a simula\u00e7\u00e3o: dados hist\u00f3ricos, um modelo de s\u00e9ries temporais flex\u00edvel ou qualquer outro processo que acreditemos representar melhor a realidade.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">A Figura 2 mapeia essas pe\u00e7as em um \u00fanico est\u00e1gio. A entrada do agente \u00e9 o estado atual <em>s<sub>t<\/sub><\/em> (n\u00edveis dos reservat\u00f3rios e defasagens de aflu\u00eancias recentes), juntamente com as incertezas realizadas no est\u00e1gio <em>\u03c9<sub>t<\/sub><\/em> (aflu\u00eancias e demanda). Sua a\u00e7\u00e3o tem duas partes: um vetor de volumes alvo de reservat\u00f3rio <em>\u015d<sub>t+1<\/sub><\/em> e um peso de penalidade <em>\u03b2<sub>t<\/sub><\/em> que controla com que for\u00e7a o otimizador deve rastrear esses alvos. A resolu\u00e7\u00e3o do problema de rastreamento de estado com essas entradas fornece o pr\u00f3ximo estado realizado <em>s<sub>t+1<\/sub><\/em> e o custo operacional imediato <em>c<sub>t<\/sub><\/em>, que \u00e9 retornado como sinal de recompensa utilizado para treinar o agente.<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-full\"><img decoding=\"async\" width=\"450\" height=\"308\" src=\"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/image-10.png\" alt=\"\" class=\"wp-image-1014148\" srcset=\"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/image-10.png 450w, https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/image-10-300x205.png 300w\" sizes=\"(max-width: 450px) 100vw, 450px\" \/><\/figure>\n\n\n\n<p class=\"legenda-padrao\">Figura 2 \u2014 Fluxo de informa\u00e7\u00f5es entre o agente de AR e o problema de otimiza\u00e7\u00e3o de rastreamento de estado de est\u00e1gio \u00fanico<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Estudo de caso: modelo de aflu\u00eancias<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">A abordagem proposta \u00e9 comparada ao SDDP em um contexto em que as hip\u00f3teses estruturais do SDDP for\u00e7am uma simplifica\u00e7\u00e3o de modelagem que o m\u00e9todo h\u00edbrido pode evitar: o modelo de aflu\u00eancias com independ\u00eancia por est\u00e1gio exigido pelo SDDP. O sistema de teste \u00e9 o sistema el\u00e9trico boliviano (28 barras, 11 usinas hidrel\u00e9tricas, 23 usinas termel\u00e9tricas e 31 ramais de transmiss\u00e3o), simulado ao longo de um horizonte de 5 anos dividido em 60 est\u00e1gios mensais. As pol\u00edticas s\u00e3o comparadas nos mesmos 10.000 cen\u00e1rios de aflu\u00eancias fora da amostra extra\u00eddos de um modelo SARIMA ajustado ao hist\u00f3rico de aflu\u00eancias, e cada configura\u00e7\u00e3o de AR \u00e9 treinada cinco vezes com diferentes sementes aleat\u00f3rias para considerar a variabilidade decorrente da inicializa\u00e7\u00e3o da rede neural.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">O SDDP foi treinado com cen\u00e1rios de um modelo PAR(p), conforme exigido por sua hip\u00f3tese de independ\u00eancia por est\u00e1gio. Tr\u00eas variantes de AR foram treinadas com diferentes entradas de aflu\u00eancias: o pr\u00f3prio registro hist\u00f3rico artificial, um gerador baseado em SARIMA correspondente ao processo gerador de dados fora da amostra e o mesmo modelo PAR(p) utilizado pelo SDDP.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Os resultados mostram uma ordena\u00e7\u00e3o clara entre as variantes de AR. O treinamento com cen\u00e1rios extra\u00eddos do processo gerador de dados real, mesmo em n\u00famero limitado, produziu custos operacionais menores do que o treinamento com cen\u00e1rios PAR(p), com uma redu\u00e7\u00e3o de cerca de 5%. A gera\u00e7\u00e3o de um n\u00famero ilimitado de cen\u00e1rios SARIMA reduziu ainda mais os custos, confirmando que modelos de aflu\u00eancias flex\u00edveis combinados com dados de treinamento abundantes levam a melhores pol\u00edticas. O SDDP, no entanto, ficou \u00e0 frente de todas as variantes de AR, com a melhor configura\u00e7\u00e3o de AR ficando a cerca de 5% do custo do SDDP.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Duas observa\u00e7\u00f5es pr\u00e1ticas emergiram. Primeira, a hip\u00f3tese de modelagem de aflu\u00eancias comumente utilizada no planejamento operacional n\u00e3o \u00e9 in\u00f3cua: substituir o PAR(p) por um processo estoc\u00e1stico mais rico alterou os custos totais de opera\u00e7\u00e3o em v\u00e1rios pontos percentuais, mantendo todas as demais hip\u00f3teses fixas. Segunda, a variabilidade entre sementes teve um impacto significativo: diferentes inicializa\u00e7\u00f5es levaram a diferentes n\u00edveis de reservat\u00f3rio no final do horizonte, refor\u00e7ando a import\u00e2ncia de avaliar m\u00faltiplas sementes em qualquer implanta\u00e7\u00e3o pr\u00e1tica.<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-full\"><img decoding=\"async\" width=\"710\" height=\"367\" src=\"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/image-11.png\" alt=\"\" class=\"wp-image-1014151\" srcset=\"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/image-11.png 710w, https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/image-11-300x155.png 300w\" sizes=\"(max-width: 710px) 100vw, 710px\" \/><\/figure>\n\n\n\n<p class=\"legenda-padrao\">Figura 3 \u2014 Custo operacional total para diferentes sementes aleat\u00f3rias<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Discuss\u00e3o e perspectivas<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Os experimentos sustentam uma conclus\u00e3o ponderada. Combinar otimiza\u00e7\u00e3o e Aprendizado por Refor\u00e7o \u00e9 uma forma pr\u00e1tica de construir pol\u00edticas de despacho hidrot\u00e9rmico sem impor a hip\u00f3tese de independ\u00eancia por est\u00e1gio que o SDDP exige em seu modelo de aflu\u00eancias. O otimizador de est\u00e1gio \u00fanico mant\u00e9m cada restri\u00e7\u00e3o f\u00edsica vi\u00e1vel, enquanto a pol\u00edtica aprendida fornece o acoplamento temporal que o SDDP de outra forma imporia por meio de sua fun\u00e7\u00e3o de custo futuro linear por partes. Dentro desse framework, treinar a pol\u00edtica com cen\u00e1rios mais pr\u00f3ximos do processo gerador de dados real reduziu os custos de forma consistente entre as sementes, sugerindo que a restri\u00e7\u00e3o PAR(p) rotineiramente embutida no planejamento operacional carrega peso econ\u00f4mico real. A contrapartida honesta \u00e9 que o SDDP permaneceu a abordagem mais custo-efetiva nas condi\u00e7\u00f5es testadas. O m\u00e9todo h\u00edbrido reduziu a lacuna quando o modelo de aflu\u00eancias foi relaxado, mas n\u00e3o a eliminou.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">V\u00e1rias dire\u00e7\u00f5es de pesquisa parecem promissoras para explorar as vantagens potenciais do ARP. Paralelizar a otimiza\u00e7\u00e3o interna entre os cen\u00e1rios melhoraria a efici\u00eancia do treinamento, especialmente quando a solu\u00e7\u00e3o por est\u00e1gio \u00e9 cara \u2014 por exemplo, quando restri\u00e7\u00f5es de rede ou operacionais mais ricas s\u00e3o introduzidas. Algoritmos de AR mais recentes, como o Twin Delayed DDPG e o Soft Actor-Critic, abordam alguns dos problemas de estabilidade do DDPG e poderiam melhorar a efici\u00eancia amostral. E como j\u00e1 temos um modelo expl\u00edcito dentro da camada de otimiza\u00e7\u00e3o, o AR baseado em modelos (a fam\u00edlia de algoritmos por tr\u00e1s de sistemas como o AlphaZero) \u00e9 uma escolha natural: o agente poderia avaliar v\u00e1rios volumes alvo candidatos resolvendo o problema de est\u00e1gio \u00fanico para cada um e usar essa informa\u00e7\u00e3o para planejar com mais efic\u00e1cia.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">O ARP em si \u00e9 um conjunto de ferramentas em desenvolvimento, e n\u00e3o um produto acabado. A \u00e1rea avan\u00e7ou substancialmente nos \u00faltimos anos, com algoritmos de treinamento mais est\u00e1veis, melhor efici\u00eancia amostral e pesquisas ativas sobre como escalar para os tipos de grandes espa\u00e7os de estado e a\u00e7\u00e3o caracter\u00edsticos dos sistemas de pot\u00eancia. Para problemas de planejamento de longo horizonte, como o despacho hidrot\u00e9rmico, acreditamos que o caminho mais prov\u00e1vel \u00e9 h\u00edbrido: a otimiza\u00e7\u00e3o lida com o que faz melhor, ou seja, satisfazer restri\u00e7\u00f5es f\u00edsicas e produzir decis\u00f5es trat\u00e1veis por est\u00e1gio, enquanto o ARP lida com o acoplamento temporal e as partes do problema que resistem \u00e0 modelagem convexa.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">References<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Pereira, M.V.F. and Pinto, L.M.V.G. (1991). Multi-stage stochastic optimization applied to energy planning. Mathematical Programming, 52(1), 359\u2013375.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Rosemberg, A.W., Street, A., Garcia, J.D., Vallad\u00e3o, D.M., Silva, T. and Dowson, O. (2022). Assessing the cost of network simplifications in long-term hydrothermal dispatch planning models. IEEE Transactions on Sustainable Energy, 13(1), 196\u2013206.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Lillicrap, T.P. et al. (2015). Continuous control with deep reinforcement learning. arXiv:1509.02971.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Lei, L., Tan, Y., Dahlenburg, G., Xiang, W. and Zheng, K. (2021). Dynamic energy dispatch based on deep reinforcement learning in IoT-driven smart isolated microgrids. IEEE Internet of Things Journal, 8(10), 7938\u20137953.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Sivamayil, K., Rajasekar, E., Aljafari, B., Nikolovski, S., Vairavasundaram, S. and Vairavasundaram, I. (2023). A systematic study on reinforcement learning based applications. Energies, 16(3).<\/p>\n","protected":false},"featured_media":1014662,"template":"","meta":{"_acf_changed":true},"report_section":[480],"class_list":["post-1014144","analytics_post","type-analytics_post","status-publish","has-post-thumbnail","hentry","report_section-indepth"],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.9 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>SDDeeP: Combinando otimiza\u00e7\u00e3o e aprendizado por refor\u00e7o para o despacho hidrot\u00e9rmico - PSR Energy<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/www.psr-inc.com\/pt-br\/analytics-report\/post\/sddeep-combinando-otimizacao-e-aprendizado-por-reforco-para-o-despacho-hidrotermico\/\" \/>\n<meta property=\"og:locale\" content=\"pt_BR\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"SDDeeP: Combinando otimiza\u00e7\u00e3o e aprendizado por refor\u00e7o para o despacho hidrot\u00e9rmico - PSR Energy\" \/>\n<meta property=\"og:description\" content=\"Introdu\u00e7\u00e3o A energia hidrel\u00e9trica \u00e9 a maior fonte de eletricidade de baixo carbono do mundo, fornecendo cerca de um s\u00e9timo da gera\u00e7\u00e3o global. Al\u00e9m de sua escala, \u00e9 tamb\u00e9m um dos recursos mais flex\u00edveis nos sistemas el\u00e9tricos modernos: grandes reservat\u00f3rios podem armazenar \u00e1gua por meses e liber\u00e1-la sob demanda, suavizando a variabilidade sazonal e absorvendo [&hellip;]\" \/>\n<meta property=\"og:url\" content=\"https:\/\/www.psr-inc.com\/pt-br\/analytics-report\/post\/sddeep-combinando-otimizacao-e-aprendizado-por-reforco-para-o-despacho-hidrotermico\/\" \/>\n<meta property=\"og:site_name\" content=\"PSR Energy\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/psrenergy\" \/>\n<meta property=\"article:modified_time\" content=\"2026-06-29T20:20:17+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/sddeep-scaled.webp\" \/>\n\t<meta property=\"og:image:width\" content=\"2560\" \/>\n\t<meta property=\"og:image:height\" content=\"1440\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/webp\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:site\" content=\"@psrenergy\" \/>\n<meta name=\"twitter:label1\" content=\"Est. tempo de leitura\" \/>\n\t<meta name=\"twitter:data1\" content=\"14 minutos\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/www.psr-inc.com\\\/pt-br\\\/analytics-report\\\/post\\\/sddeep-combinando-otimizacao-e-aprendizado-por-reforco-para-o-despacho-hidrotermico\\\/\",\"url\":\"https:\\\/\\\/www.psr-inc.com\\\/pt-br\\\/analytics-report\\\/post\\\/sddeep-combinando-otimizacao-e-aprendizado-por-reforco-para-o-despacho-hidrotermico\\\/\",\"name\":\"SDDeeP: Combinando otimiza\u00e7\u00e3o e aprendizado por refor\u00e7o para o despacho hidrot\u00e9rmico - PSR Energy\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/www.psr-inc.com\\\/pt-br\\\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\\\/\\\/www.psr-inc.com\\\/pt-br\\\/analytics-report\\\/post\\\/sddeep-combinando-otimizacao-e-aprendizado-por-reforco-para-o-despacho-hidrotermico\\\/#primaryimage\"},\"image\":{\"@id\":\"https:\\\/\\\/www.psr-inc.com\\\/pt-br\\\/analytics-report\\\/post\\\/sddeep-combinando-otimizacao-e-aprendizado-por-reforco-para-o-despacho-hidrotermico\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/www.psr-inc.com\\\/wp-content\\\/uploads\\\/2026\\\/06\\\/sddeep-scaled.webp\",\"datePublished\":\"2026-06-29T20:20:15+00:00\",\"dateModified\":\"2026-06-29T20:20:17+00:00\",\"breadcrumb\":{\"@id\":\"https:\\\/\\\/www.psr-inc.com\\\/pt-br\\\/analytics-report\\\/post\\\/sddeep-combinando-otimizacao-e-aprendizado-por-reforco-para-o-despacho-hidrotermico\\\/#breadcrumb\"},\"inLanguage\":\"pt-BR\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/www.psr-inc.com\\\/pt-br\\\/analytics-report\\\/post\\\/sddeep-combinando-otimizacao-e-aprendizado-por-reforco-para-o-despacho-hidrotermico\\\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"pt-BR\",\"@id\":\"https:\\\/\\\/www.psr-inc.com\\\/pt-br\\\/analytics-report\\\/post\\\/sddeep-combinando-otimizacao-e-aprendizado-por-reforco-para-o-despacho-hidrotermico\\\/#primaryimage\",\"url\":\"https:\\\/\\\/www.psr-inc.com\\\/wp-content\\\/uploads\\\/2026\\\/06\\\/sddeep-scaled.webp\",\"contentUrl\":\"https:\\\/\\\/www.psr-inc.com\\\/wp-content\\\/uploads\\\/2026\\\/06\\\/sddeep-scaled.webp\",\"width\":2560,\"height\":1440},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/www.psr-inc.com\\\/pt-br\\\/analytics-report\\\/post\\\/sddeep-combinando-otimizacao-e-aprendizado-por-reforco-para-o-despacho-hidrotermico\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\\\/\\\/www.psr-inc.com\\\/pt-br\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Posts do Analytics Report\",\"item\":\"https:\\\/\\\/www.psr-inc.com\\\/pt-br\\\/analytics-report\\\/posts\\\/\"},{\"@type\":\"ListItem\",\"position\":3,\"name\":\"SDDeeP: Combinando otimiza\u00e7\u00e3o e aprendizado por refor\u00e7o para o despacho hidrot\u00e9rmico\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/www.psr-inc.com\\\/pt-br\\\/#website\",\"url\":\"https:\\\/\\\/www.psr-inc.com\\\/pt-br\\\/\",\"name\":\"PSR\",\"description\":\"\",\"publisher\":{\"@id\":\"https:\\\/\\\/www.psr-inc.com\\\/pt-br\\\/#organization\"},\"alternateName\":\"PSR Energy Consulting\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/www.psr-inc.com\\\/pt-br\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"pt-BR\"},{\"@type\":\"Organization\",\"@id\":\"https:\\\/\\\/www.psr-inc.com\\\/pt-br\\\/#organization\",\"name\":\"PSR\",\"alternateName\":\"PSR Energy Consulting\",\"url\":\"https:\\\/\\\/www.psr-inc.com\\\/pt-br\\\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"pt-BR\",\"@id\":\"https:\\\/\\\/www.psr-inc.com\\\/pt-br\\\/#\\\/schema\\\/logo\\\/image\\\/\",\"url\":\"https:\\\/\\\/www.psr-inc.com\\\/wp-content\\\/uploads\\\/2023\\\/03\\\/logo-psr.svg\",\"contentUrl\":\"https:\\\/\\\/www.psr-inc.com\\\/wp-content\\\/uploads\\\/2023\\\/03\\\/logo-psr.svg\",\"width\":1056,\"height\":816,\"caption\":\"PSR\"},\"image\":{\"@id\":\"https:\\\/\\\/www.psr-inc.com\\\/pt-br\\\/#\\\/schema\\\/logo\\\/image\\\/\"},\"sameAs\":[\"https:\\\/\\\/www.facebook.com\\\/psrenergy\",\"https:\\\/\\\/x.com\\\/psrenergy\",\"https:\\\/\\\/www.instagram.com\\\/psrenergy\\\/\",\"https:\\\/\\\/www.linkedin.com\\\/company\\\/psrenergy\\\/\"]}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"SDDeeP: Combinando otimiza\u00e7\u00e3o e aprendizado por refor\u00e7o para o despacho hidrot\u00e9rmico - PSR Energy","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/www.psr-inc.com\/pt-br\/analytics-report\/post\/sddeep-combinando-otimizacao-e-aprendizado-por-reforco-para-o-despacho-hidrotermico\/","og_locale":"pt_BR","og_type":"article","og_title":"SDDeeP: Combinando otimiza\u00e7\u00e3o e aprendizado por refor\u00e7o para o despacho hidrot\u00e9rmico - PSR Energy","og_description":"Introdu\u00e7\u00e3o A energia hidrel\u00e9trica \u00e9 a maior fonte de eletricidade de baixo carbono do mundo, fornecendo cerca de um s\u00e9timo da gera\u00e7\u00e3o global. Al\u00e9m de sua escala, \u00e9 tamb\u00e9m um dos recursos mais flex\u00edveis nos sistemas el\u00e9tricos modernos: grandes reservat\u00f3rios podem armazenar \u00e1gua por meses e liber\u00e1-la sob demanda, suavizando a variabilidade sazonal e absorvendo [&hellip;]","og_url":"https:\/\/www.psr-inc.com\/pt-br\/analytics-report\/post\/sddeep-combinando-otimizacao-e-aprendizado-por-reforco-para-o-despacho-hidrotermico\/","og_site_name":"PSR Energy","article_publisher":"https:\/\/www.facebook.com\/psrenergy","article_modified_time":"2026-06-29T20:20:17+00:00","og_image":[{"width":2560,"height":1440,"url":"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/sddeep-scaled.webp","type":"image\/webp"}],"twitter_card":"summary_large_image","twitter_site":"@psrenergy","twitter_misc":{"Est. tempo de leitura":"14 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/www.psr-inc.com\/pt-br\/analytics-report\/post\/sddeep-combinando-otimizacao-e-aprendizado-por-reforco-para-o-despacho-hidrotermico\/","url":"https:\/\/www.psr-inc.com\/pt-br\/analytics-report\/post\/sddeep-combinando-otimizacao-e-aprendizado-por-reforco-para-o-despacho-hidrotermico\/","name":"SDDeeP: Combinando otimiza\u00e7\u00e3o e aprendizado por refor\u00e7o para o despacho hidrot\u00e9rmico - PSR Energy","isPartOf":{"@id":"https:\/\/www.psr-inc.com\/pt-br\/#website"},"primaryImageOfPage":{"@id":"https:\/\/www.psr-inc.com\/pt-br\/analytics-report\/post\/sddeep-combinando-otimizacao-e-aprendizado-por-reforco-para-o-despacho-hidrotermico\/#primaryimage"},"image":{"@id":"https:\/\/www.psr-inc.com\/pt-br\/analytics-report\/post\/sddeep-combinando-otimizacao-e-aprendizado-por-reforco-para-o-despacho-hidrotermico\/#primaryimage"},"thumbnailUrl":"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/sddeep-scaled.webp","datePublished":"2026-06-29T20:20:15+00:00","dateModified":"2026-06-29T20:20:17+00:00","breadcrumb":{"@id":"https:\/\/www.psr-inc.com\/pt-br\/analytics-report\/post\/sddeep-combinando-otimizacao-e-aprendizado-por-reforco-para-o-despacho-hidrotermico\/#breadcrumb"},"inLanguage":"pt-BR","potentialAction":[{"@type":"ReadAction","target":["https:\/\/www.psr-inc.com\/pt-br\/analytics-report\/post\/sddeep-combinando-otimizacao-e-aprendizado-por-reforco-para-o-despacho-hidrotermico\/"]}]},{"@type":"ImageObject","inLanguage":"pt-BR","@id":"https:\/\/www.psr-inc.com\/pt-br\/analytics-report\/post\/sddeep-combinando-otimizacao-e-aprendizado-por-reforco-para-o-despacho-hidrotermico\/#primaryimage","url":"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/sddeep-scaled.webp","contentUrl":"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2026\/06\/sddeep-scaled.webp","width":2560,"height":1440},{"@type":"BreadcrumbList","@id":"https:\/\/www.psr-inc.com\/pt-br\/analytics-report\/post\/sddeep-combinando-otimizacao-e-aprendizado-por-reforco-para-o-despacho-hidrotermico\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/www.psr-inc.com\/pt-br\/"},{"@type":"ListItem","position":2,"name":"Posts do Analytics Report","item":"https:\/\/www.psr-inc.com\/pt-br\/analytics-report\/posts\/"},{"@type":"ListItem","position":3,"name":"SDDeeP: Combinando otimiza\u00e7\u00e3o e aprendizado por refor\u00e7o para o despacho hidrot\u00e9rmico"}]},{"@type":"WebSite","@id":"https:\/\/www.psr-inc.com\/pt-br\/#website","url":"https:\/\/www.psr-inc.com\/pt-br\/","name":"PSR","description":"","publisher":{"@id":"https:\/\/www.psr-inc.com\/pt-br\/#organization"},"alternateName":"PSR Energy Consulting","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/www.psr-inc.com\/pt-br\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"pt-BR"},{"@type":"Organization","@id":"https:\/\/www.psr-inc.com\/pt-br\/#organization","name":"PSR","alternateName":"PSR Energy Consulting","url":"https:\/\/www.psr-inc.com\/pt-br\/","logo":{"@type":"ImageObject","inLanguage":"pt-BR","@id":"https:\/\/www.psr-inc.com\/pt-br\/#\/schema\/logo\/image\/","url":"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2023\/03\/logo-psr.svg","contentUrl":"https:\/\/www.psr-inc.com\/wp-content\/uploads\/2023\/03\/logo-psr.svg","width":1056,"height":816,"caption":"PSR"},"image":{"@id":"https:\/\/www.psr-inc.com\/pt-br\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/psrenergy","https:\/\/x.com\/psrenergy","https:\/\/www.instagram.com\/psrenergy\/","https:\/\/www.linkedin.com\/company\/psrenergy\/"]}]}},"_links":{"self":[{"href":"https:\/\/www.psr-inc.com\/pt-br\/wp-json\/wp\/v2\/analytics_post\/1014144","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.psr-inc.com\/pt-br\/wp-json\/wp\/v2\/analytics_post"}],"about":[{"href":"https:\/\/www.psr-inc.com\/pt-br\/wp-json\/wp\/v2\/types\/analytics_post"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.psr-inc.com\/pt-br\/wp-json\/wp\/v2\/media\/1014662"}],"wp:attachment":[{"href":"https:\/\/www.psr-inc.com\/pt-br\/wp-json\/wp\/v2\/media?parent=1014144"}],"wp:term":[{"taxonomy":"report_section","embeddable":true,"href":"https:\/\/www.psr-inc.com\/pt-br\/wp-json\/wp\/v2\/report_section?post=1014144"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}