Ajude a manter o site livre, gratuito e sem propagandas. Colabore!
Na seção anterior, desenvolvemos dois modelos de neurônios para problemas diferentes, um de classificação e outro de regressão. Em cada caso, utilizamos algoritmos de treinamento diferentes. Agora, vamos estudar algoritmos de treinamentos mais gerais55endnote: 5Aqui, vamos explorar apenas algoritmos de treinamento supervisionado., que podem ser aplicados a ambos os problemas.
Ao longo da seção, vamos considerar o modelo de neurônio
(2.23) |
com dada função de ativação , sendo os vetores de entrada e dos pesos de tamanho . A pré-ativação do neurônio é denotada por
(2.24) |
Fornecido um conjunto de treinamento , com amostras, o objetivo é calcular os parâmetros que minimizam a função erro quadrático médio
(2.25) | ||||
(2.26) |
onde é o valor estimado pelo modelo e é o valor esperado para a -ésima amostra. A função erro para a -ésima amostra é
(2.27) |
Ou seja, o treinamento consiste em resolver o seguinte problema de otimização
(2.28) |
Para resolver este problema de otimização, vamos empregar o Método do Gradiente Descendente.
O Método do Gradiente Descendente (GD, em inglês, Gradiente Descent Method) é um método de declive. Aplicado ao nosso modelo de Perceptron consiste no seguinte algoritmo:
aproximação inicial.
Para :
onde, é o número de épocas, é uma dada taxa de aprendizagem (, do inglês, learning rate) e o gradiente é
(2.29) |
O cálculo do gradiente para os pesos pode ser feito como segue66endnote: 6Aqui, há um abuso de linguagem ao não se observar as dimensões dos operandos matriciais.
(2.30) | ||||
(2.31) | ||||
(2.32) |
Observando que
(2.33) | |||
(2.34) | |||
(2.35) |
obtemos
(2.36) |
(2.37) | ||||
(2.38) |
Na Subseção 2.1.1, treinamos um perceptron para o problema de classificação do e-lógico. A função de ativação não é adequada para a aplicação do Método GD, pois para . Aqui, vamos usar
(2.39) |
O Método do Gradiente Estocástico (SGD, do inglês, Stochastic Gradient Descent Method) é um variação do Método GD. A ideia é atualizar os parâmetros do modelo com base no gradiente do erro de cada amostra (ou um subconjunto de amostras77endnote: 7Nest caso, é conhecido como Batch SGD.). A estocasticidade é obtida da randomização com que as amostras são escolhidas a cada época. O algoritmos consiste no seguinte:
w, b aproximações inicial.
Para :
Para :
(2.40) |
Calcule a derivada da função de ativação
(2.41) |
Crie um perceptron para emular a operação lógica (e-lógico). No treinamento, use como otimizador:
Método GD.
Método SGD.
Crie um perceptron para emular a operação lógica (ou-lógico). No treinamento, use como otimizador:
Método GD.
Método SGD.
Crie um perceptron que se ajuste ao seguinte conjunto de dados:
s | ||
---|---|---|
1 | 0.5 | 1.2 |
2 | 1.0 | 2.1 |
3 | 1.5 | 2.6 |
4 | 2.0 | 3.6 |
No treinamento, use como otimizador:
Método GD.
Método SGD.
Aproveito para agradecer a todas/os que de forma assídua ou esporádica contribuem enviando correções, sugestões e críticas!
Este texto é disponibilizado nos termos da Licença Creative Commons Atribuição-CompartilhaIgual 4.0 Internacional. Ícones e elementos gráficos podem estar sujeitos a condições adicionais.
Ajude a manter o site livre, gratuito e sem propagandas. Colabore!
Na seção anterior, desenvolvemos dois modelos de neurônios para problemas diferentes, um de classificação e outro de regressão. Em cada caso, utilizamos algoritmos de treinamento diferentes. Agora, vamos estudar algoritmos de treinamentos mais gerais55endnote: 5Aqui, vamos explorar apenas algoritmos de treinamento supervisionado., que podem ser aplicados a ambos os problemas.
Ao longo da seção, vamos considerar o modelo de neurônio
(2.23) |
com dada função de ativação , sendo os vetores de entrada e dos pesos de tamanho . A pré-ativação do neurônio é denotada por
(2.24) |
Fornecido um conjunto de treinamento , com amostras, o objetivo é calcular os parâmetros que minimizam a função erro quadrático médio
(2.25) | ||||
(2.26) |
onde é o valor estimado pelo modelo e é o valor esperado para a -ésima amostra. A função erro para a -ésima amostra é
(2.27) |
Ou seja, o treinamento consiste em resolver o seguinte problema de otimização
(2.28) |
Para resolver este problema de otimização, vamos empregar o Método do Gradiente Descendente.
O Método do Gradiente Descendente (GD, em inglês, Gradiente Descent Method) é um método de declive. Aplicado ao nosso modelo de Perceptron consiste no seguinte algoritmo:
aproximação inicial.
Para :
onde, é o número de épocas, é uma dada taxa de aprendizagem (, do inglês, learning rate) e o gradiente é
(2.29) |
O cálculo do gradiente para os pesos pode ser feito como segue66endnote: 6Aqui, há um abuso de linguagem ao não se observar as dimensões dos operandos matriciais.
(2.30) | ||||
(2.31) | ||||
(2.32) |
Observando que
(2.33) | |||
(2.34) | |||
(2.35) |
obtemos
(2.36) |
(2.37) | ||||
(2.38) |
Na Subseção 2.1.1, treinamos um perceptron para o problema de classificação do e-lógico. A função de ativação não é adequada para a aplicação do Método GD, pois para . Aqui, vamos usar
(2.39) |
O Método do Gradiente Estocástico (SGD, do inglês, Stochastic Gradient Descent Method) é um variação do Método GD. A ideia é atualizar os parâmetros do modelo com base no gradiente do erro de cada amostra (ou um subconjunto de amostras77endnote: 7Nest caso, é conhecido como Batch SGD.). A estocasticidade é obtida da randomização com que as amostras são escolhidas a cada época. O algoritmos consiste no seguinte:
w, b aproximações inicial.
Para :
Para :
(2.40) |
Calcule a derivada da função de ativação
(2.41) |
Crie um perceptron para emular a operação lógica (e-lógico). No treinamento, use como otimizador:
Método GD.
Método SGD.
Crie um perceptron para emular a operação lógica (ou-lógico). No treinamento, use como otimizador:
Método GD.
Método SGD.
Crie um perceptron que se ajuste ao seguinte conjunto de dados:
s | ||
---|---|---|
1 | 0.5 | 1.2 |
2 | 1.0 | 2.1 |
3 | 1.5 | 2.6 |
4 | 2.0 | 3.6 |
No treinamento, use como otimizador:
Método GD.
Método SGD.
Aproveito para agradecer a todas/os que de forma assídua ou esporádica contribuem enviando correções, sugestões e críticas!
Este texto é disponibilizado nos termos da Licença Creative Commons Atribuição-CompartilhaIgual 4.0 Internacional. Ícones e elementos gráficos podem estar sujeitos a condições adicionais.