Ajude a manter o site livre, gratuito e sem propagandas. Colabore!
Em revisão
Vamos considerar o seguinte problema de minimização: dada a função objetivo , resolver
(2.29) |
No que segue e salvo dito explicitamente ao contrário, vamos assumir que o problema está bem determinado e que é suficientemente suave. Ainda, vamos assumir as seguintes notações:
gradiente de
(2.30) |
derivada direcional de com respeito a
(2.31) |
matriz hessiana de ,
(2.32) |
Se e é positiva definida, então é um mínimo local de em uma vizinhança não vazia de . Consulte mais em [8, Seção 7.2]. Um ponto tal que é chamado de ponto crítico.
Em revisão
Um método de declive consiste em uma iteração tal que: dada uma aproximação inicial , computa-se
(2.33) |
com tamanho de passo , para até que um dado critério de parada seja satisfeito. As direções descendentes são tais que
(2.34) | |||
(2.35) |
Da Série de Taylor4040endnote: 40Brook Taylor, 1685 - 1731, matemático britânico. Fonte: Wikipédia:Brook Taylor., temos que
(2.36) |
com quando . Como consequência da continuidade da , para suficientemente pequeno, o sinal do lado esquerdo é igual a do direito desta última equação. Logo, para tais e uma direção descendente, temos garantido que
(2.37) |
Notamos que um método de declive fica determinado pelas escolhas da direção de declive e o tamanho do passo . Primeiramente, vamos a este último item.
Em revisão
O método de pesquisa linear consiste em escolher com base na resolução do seguinte problema de minimização
(2.38) |
Entretanto, a resolução exata deste problema é muitas vezes não factível. Técnicas de aproximações para a resolução deste problema são, então, aplicadas. Tais técnicas são chamadas de pesquisa linear não exata.
A condição de Armijo é que a escolha de deve ser tal que
(2.39) |
para alguma constante . Ou seja, a redução em é esperada ser proporcional à derivada direcional de com relação a direção no ponto . Em aplicações computacionais, é normalmente escolhido no intervalo .
A condição (2.39) não é suficiente para evitar escolhas muito pequenas de . Para tanto, pode-se empregar a condição de curvatura, a qual requer que
(2.40) |
para . Notemos que o lado esquerdo de (2.40) é igual a . Ou seja, este condição impõe que seja maior que . Normalmente, escolhe-se . Juntas, (2.39) e (2.40) são conhecidas como condições de Wolfe4141endnote: 41Philip Wolfe, 1927 - 2016, matemático estadunidense. Fonte: Wikipédia..
Em revisão
O método do gradiente (ou método do máximo declive) é um método de declive tal que as direções descendentes são o oposto do gradiente da , i.e.
(2.41) |
É imediato verificar que as condições (2.34)-(2.35) são satisfeitas.
Consideramos o problema de encontrar o mínimo da função de Rosenbrock4242endnote: 42Howard Harry Rosenbrock, 1920 - 2010, engenheiro britânico. Fonte: Wikipedia: Howard Harry Rosenbrock.
(2.42) |
O valor mínimo desta função é zero e ocorre no ponto . Esta função é comumente usada como caso padrão para teste de métodos de otimização.
Para o método do gradiente, precisamos das derivadas parciais
(2.43) | |||
(2.44) | |||
(2.45) |
onde, é o delta de Kronecker4343endnote: 43Leopold Kronecker, 1923 - 1891, matemático alemão. Fonte: Wikipédia: Leopold Kronecker..
Em revisão
Aplique o método do gradiente para computar o ponto mínimo da função de Rosenbrock4444endnote: 44Howard Harry Rosenbrock, 1920 - 2010, engenheiro britânico. Fonte: Wikipedia: Howard Harry Rosenbrock.
(2.46) |
com
.
.
.
.
.
Aplique o método do gradiente para computar o ponto mínimo da função de Goldstein-Price [4]
(2.48) | ||||
Aplique o método do gradiente para computar o ponto mínimo da função de Booth
(2.49) |
para .
Aplique o método do gradiente para computar o ponto mínimo da função de Rastrigin
(2.50) |
para , com
.
.
.
.
.
Em revisão
O método de Newton4545endnote: 45Isaac Newton, 1642 - 1727, matemático, físico, astrônomo, teólogo e autor inglês. Fonte: Wikipédia: Isaac Newton. para problemas de otimização é um método de declive com direções descendentes
(2.51) |
assumindo que a hessiana seja definida positiva dentro de uma vizinhança suficientemente grande do ponto de mínimo . Esta escolha é baseada no polinômio de Taylor da função objetivo
(2.52) |
Com isso, escolhemos de forma a minimizar o lado direito desta aproximação, i.e.
(2.53) |
para . Ou seja, temos
(2.54) |
o que leva a (2.51).
Na implementação computacional, não é necessário computar a inversa da hessiana, a direção pode ser mais eficientemente computada resolvendo-se
(2.55) |
O método usado para computar a solução de (2.55) é chamado de solver linear. Por exemplo, Newton-Krylov4646endnote: 46Alexei Nikolajewitsch Krylov, 1863 - 1945, engenheiro e matemático russo. Fonte: Wikipédia. é o nome dado ao método de Newton que utiliza um método de subespaço de Krylov como solver linear. Mais especificamente, Newton-GMRES quando o GMRES é escolhido como solver linear. Uma escolha natural é Newton-GC, tendo em vista que o método de gradiente conjugado é ideal para matriz simétrica e definida positiva.
Seguindo o Exemplo 2.2.1, temos que a hessiana associada é a matriz simétrica com
(2.56) | ||||
(2.57) | ||||
(2.58) | ||||
(2.59) | ||||
(2.60) |
Notemos que a hessiana é uma matriz tridiagonal.
Métodos tipo Newton são aqueles que utilizam uma aproximação para a inversa da matriz hessiana. Uma estratégia comumente aplicada, é a de atualizar a hessiana apenas em algumas iterações, baseando-se em uma estimativa da taxa de convergência. Na Subseção 2.1.2, exploramos esta técnica no contexto de resolução de sistemas não lineares.
Em revisão
Aplique o método de Newton para computar o ponto mínimo da função de Rosenbrock4747endnote: 47Howard Harry Rosenbrock, 1920 - 2010, engenheiro britânico. Fonte: Wikipedia: Howard Harry Rosenbrock.
(2.61) |
com
.
.
.
.
.
Aplique o método de Newton para computar o ponto mínimo da função de Goldstein-Price [4]
(2.63) | ||||
Aplique o método de Newton para computar o ponto mínimo da função de Booth
(2.64) |
para .
Aplique o método de Newton para computar o ponto mínimo da função de Rastrigin
(2.65) |
para , com
.
.
.
.
.
Em revisão
Métodos do gradiente conjugado são obtidos escolhendo-se as direções descendentes
(2.66) |
onde é um escalar escolhido de forma que as direções sejam mutuamente ortogonais com respeito a uma dada norma. Por exemplo, o método de Fletcher-Reeves consiste em escolher
(2.67) |
o que garante que as direções sejam mutuamente ortogonais com respeito ao produto interno euclidiano.
Outras variações comumente empregadas são o Método de Polak-Ribière e suas variantes. Consulte mais em [7, Seção 5.2].
Implementação do Método de Fletcher-Reeves para a minimização da função de Rosenbrock dada no Exemplo 2.2.1.
Em revisão
Aplique o método um gradiente conjugado para computar o ponto mínimo da função de Rosenbrock4848endnote: 48Howard Harry Rosenbrock, 1920 - 2010, engenheiro britânico. Fonte: Wikipedia: Howard Harry Rosenbrock.
(2.68) |
com
.
.
.
.
.
Aplique o método um gradiente conjugado para computar o ponto mínimo da função de Beale [1]
(2.69) | ||||
para .
Aplique o método um gradiente conjugado para computar o ponto mínimo da função de Goldstein-Price [4]
(2.70) | ||||
Aplique o método um gradiente conjugado para computar o ponto mínimo da função de Booth
(2.71) |
para .
Aplique um método do gradiente conjugado para computar o ponto mínimo da função de Rastrigin
(2.72) |
para , com
.
.
.
.
.
Aproveito para agradecer a todas/os que de forma assídua ou esporádica contribuem enviando correções, sugestões e críticas!
Este texto é disponibilizado nos termos da Licença Creative Commons Atribuição-CompartilhaIgual 4.0 Internacional. Ícones e elementos gráficos podem estar sujeitos a condições adicionais.
Ajude a manter o site livre, gratuito e sem propagandas. Colabore!
Em revisão
Vamos considerar o seguinte problema de minimização: dada a função objetivo , resolver
(2.29) |
No que segue e salvo dito explicitamente ao contrário, vamos assumir que o problema está bem determinado e que é suficientemente suave. Ainda, vamos assumir as seguintes notações:
gradiente de
(2.30) |
derivada direcional de com respeito a
(2.31) |
matriz hessiana de ,
(2.32) |
Se e é positiva definida, então é um mínimo local de em uma vizinhança não vazia de . Consulte mais em [8, Seção 7.2]. Um ponto tal que é chamado de ponto crítico.
Em revisão
Um método de declive consiste em uma iteração tal que: dada uma aproximação inicial , computa-se
(2.33) |
com tamanho de passo , para até que um dado critério de parada seja satisfeito. As direções descendentes são tais que
(2.34) | |||
(2.35) |
Da Série de Taylor4040endnote: 40Brook Taylor, 1685 - 1731, matemático britânico. Fonte: Wikipédia:Brook Taylor., temos que
(2.36) |
com quando . Como consequência da continuidade da , para suficientemente pequeno, o sinal do lado esquerdo é igual a do direito desta última equação. Logo, para tais e uma direção descendente, temos garantido que
(2.37) |
Notamos que um método de declive fica determinado pelas escolhas da direção de declive e o tamanho do passo . Primeiramente, vamos a este último item.
Em revisão
O método de pesquisa linear consiste em escolher com base na resolução do seguinte problema de minimização
(2.38) |
Entretanto, a resolução exata deste problema é muitas vezes não factível. Técnicas de aproximações para a resolução deste problema são, então, aplicadas. Tais técnicas são chamadas de pesquisa linear não exata.
A condição de Armijo é que a escolha de deve ser tal que
(2.39) |
para alguma constante . Ou seja, a redução em é esperada ser proporcional à derivada direcional de com relação a direção no ponto . Em aplicações computacionais, é normalmente escolhido no intervalo .
A condição (2.39) não é suficiente para evitar escolhas muito pequenas de . Para tanto, pode-se empregar a condição de curvatura, a qual requer que
(2.40) |
para . Notemos que o lado esquerdo de (2.40) é igual a . Ou seja, este condição impõe que seja maior que . Normalmente, escolhe-se . Juntas, (2.39) e (2.40) são conhecidas como condições de Wolfe4141endnote: 41Philip Wolfe, 1927 - 2016, matemático estadunidense. Fonte: Wikipédia..
Em revisão
O método do gradiente (ou método do máximo declive) é um método de declive tal que as direções descendentes são o oposto do gradiente da , i.e.
(2.41) |
É imediato verificar que as condições (2.34)-(2.35) são satisfeitas.
Consideramos o problema de encontrar o mínimo da função de Rosenbrock4242endnote: 42Howard Harry Rosenbrock, 1920 - 2010, engenheiro britânico. Fonte: Wikipedia: Howard Harry Rosenbrock.
(2.42) |
O valor mínimo desta função é zero e ocorre no ponto . Esta função é comumente usada como caso padrão para teste de métodos de otimização.
Para o método do gradiente, precisamos das derivadas parciais
(2.43) | |||
(2.44) | |||
(2.45) |
onde, é o delta de Kronecker4343endnote: 43Leopold Kronecker, 1923 - 1891, matemático alemão. Fonte: Wikipédia: Leopold Kronecker..
Em revisão
Aplique o método do gradiente para computar o ponto mínimo da função de Rosenbrock4444endnote: 44Howard Harry Rosenbrock, 1920 - 2010, engenheiro britânico. Fonte: Wikipedia: Howard Harry Rosenbrock.
(2.46) |
com
.
.
.
.
.
Aplique o método do gradiente para computar o ponto mínimo da função de Goldstein-Price [4]
(2.48) | ||||
Aplique o método do gradiente para computar o ponto mínimo da função de Booth
(2.49) |
para .
Aplique o método do gradiente para computar o ponto mínimo da função de Rastrigin
(2.50) |
para , com
.
.
.
.
.
Em revisão
O método de Newton4545endnote: 45Isaac Newton, 1642 - 1727, matemático, físico, astrônomo, teólogo e autor inglês. Fonte: Wikipédia: Isaac Newton. para problemas de otimização é um método de declive com direções descendentes
(2.51) |
assumindo que a hessiana seja definida positiva dentro de uma vizinhança suficientemente grande do ponto de mínimo . Esta escolha é baseada no polinômio de Taylor da função objetivo
(2.52) |
Com isso, escolhemos de forma a minimizar o lado direito desta aproximação, i.e.
(2.53) |
para . Ou seja, temos
(2.54) |
o que leva a (2.51).
Na implementação computacional, não é necessário computar a inversa da hessiana, a direção pode ser mais eficientemente computada resolvendo-se
(2.55) |
O método usado para computar a solução de (2.55) é chamado de solver linear. Por exemplo, Newton-Krylov4646endnote: 46Alexei Nikolajewitsch Krylov, 1863 - 1945, engenheiro e matemático russo. Fonte: Wikipédia. é o nome dado ao método de Newton que utiliza um método de subespaço de Krylov como solver linear. Mais especificamente, Newton-GMRES quando o GMRES é escolhido como solver linear. Uma escolha natural é Newton-GC, tendo em vista que o método de gradiente conjugado é ideal para matriz simétrica e definida positiva.
Seguindo o Exemplo 2.2.1, temos que a hessiana associada é a matriz simétrica com
(2.56) | ||||
(2.57) | ||||
(2.58) | ||||
(2.59) | ||||
(2.60) |
Notemos que a hessiana é uma matriz tridiagonal.
Métodos tipo Newton são aqueles que utilizam uma aproximação para a inversa da matriz hessiana. Uma estratégia comumente aplicada, é a de atualizar a hessiana apenas em algumas iterações, baseando-se em uma estimativa da taxa de convergência. Na Subseção 2.1.2, exploramos esta técnica no contexto de resolução de sistemas não lineares.
Em revisão
Aplique o método de Newton para computar o ponto mínimo da função de Rosenbrock4747endnote: 47Howard Harry Rosenbrock, 1920 - 2010, engenheiro britânico. Fonte: Wikipedia: Howard Harry Rosenbrock.
(2.61) |
com
.
.
.
.
.
Aplique o método de Newton para computar o ponto mínimo da função de Goldstein-Price [4]
(2.63) | ||||
Aplique o método de Newton para computar o ponto mínimo da função de Booth
(2.64) |
para .
Aplique o método de Newton para computar o ponto mínimo da função de Rastrigin
(2.65) |
para , com
.
.
.
.
.
Em revisão
Métodos do gradiente conjugado são obtidos escolhendo-se as direções descendentes
(2.66) |
onde é um escalar escolhido de forma que as direções sejam mutuamente ortogonais com respeito a uma dada norma. Por exemplo, o método de Fletcher-Reeves consiste em escolher
(2.67) |
o que garante que as direções sejam mutuamente ortogonais com respeito ao produto interno euclidiano.
Outras variações comumente empregadas são o Método de Polak-Ribière e suas variantes. Consulte mais em [7, Seção 5.2].
Implementação do Método de Fletcher-Reeves para a minimização da função de Rosenbrock dada no Exemplo 2.2.1.
Em revisão
Aplique o método um gradiente conjugado para computar o ponto mínimo da função de Rosenbrock4848endnote: 48Howard Harry Rosenbrock, 1920 - 2010, engenheiro britânico. Fonte: Wikipedia: Howard Harry Rosenbrock.
(2.68) |
com
.
.
.
.
.
Aplique o método um gradiente conjugado para computar o ponto mínimo da função de Beale [1]
(2.69) | ||||
para .
Aplique o método um gradiente conjugado para computar o ponto mínimo da função de Goldstein-Price [4]
(2.70) | ||||
Aplique o método um gradiente conjugado para computar o ponto mínimo da função de Booth
(2.71) |
para .
Aplique um método do gradiente conjugado para computar o ponto mínimo da função de Rastrigin
(2.72) |
para , com
.
.
.
.
.
Aproveito para agradecer a todas/os que de forma assídua ou esporádica contribuem enviando correções, sugestões e críticas!
Este texto é disponibilizado nos termos da Licença Creative Commons Atribuição-CompartilhaIgual 4.0 Internacional. Ícones e elementos gráficos podem estar sujeitos a condições adicionais.