Ajude a manter o site livre, gratuito e sem propagandas. Colabore!
Na seção anterior, desenvolvemos dois modelos de neurônios para problemas diferentes, um de classificação e outro de regressão. Em cada caso, utilizamos algoritmos de treinamento diferentes. Agora, vamos estudar algoritmos de treinamentos mais gerais77endnote: 7Aqui, vamos explorar apenas algoritmos de treinamento supervisionado., que podem ser aplicados a ambos os problemas.
Ao longo da seção, vamos considerar o modelo de neurônio
| (2.23) | 
com dada função de ativação , sendo os vetores de entrada e dos pesos de tamanho . A pré-ativação do neurônio é denotada por
| (2.24) | 
Fornecido um conjunto de treinamento , com amostras, o objetivo é calcular os parâmetros que minimizam a função erro quadrático médio
| (2.25) | ||||
| (2.26) | 
onde é o valor estimado pelo modelo e é o valor esperado para a -ésima amostra. A função erro para a -ésima amostra é
| (2.27) | 
Ou seja, o treinamento consiste em resolver o seguinte problema de otimização
| (2.28) | 
Para resolver este problema de otimização, vamos empregar o Método do Gradiente Descendente.
O Método do Gradiente Descendente (GD, em inglês, Gradiente Descent Method) é um método de declive. Aplicado ao nosso modelo de Perceptron consiste no seguinte algoritmo:
aproximação inicial.
Para :
onde, é o número de épocas, é uma dada taxa de aprendizagem (, do inglês, learning rate) e o gradiente é
| (2.29) | 
O cálculo do gradiente para os pesos pode ser feito como segue88endnote: 8Aqui, há um abuso de linguagem ao não se observar as dimensões dos operandos matriciais.
| (2.30) | ||||
| (2.31) | ||||
| (2.32) | 
Observando que
| (2.33) | |||
| (2.34) | |||
| (2.35) | 
obtemos
| (2.36) | 
| (2.37) | ||||
| (2.38) | 
Na Subseção 2.1.1, treinamos um perceptron para o problema de classificação do e-lógico. A função de ativação não é adequada para a aplicação do Método GD, pois para . Aqui, vamos usar
| (2.39) | 
O Método do Gradiente Estocástico (SGD, do inglês, Stochastic Gradient Descent Method) é um variação do Método GD. A ideia é atualizar os parâmetros do modelo com base no gradiente do erro de cada amostra (ou um subconjunto de amostras99endnote: 9Nest caso, é conhecido como Batch SGD.). A estocasticidade é obtida da randomização com que as amostras são escolhidas a cada época. O algoritmos consiste no seguinte:
w, b aproximações inicial.
Para :
Para :
| (2.40) | 
Calcule a derivada da função de ativação
| (2.41) | 
Crie um perceptron para emular a operação lógica (e-lógico). No treinamento, use como otimizador:
Método GD.
Método SGD.
Crie um perceptron para emular a operação lógica (ou-lógico). No treinamento, use como otimizador:
Método GD.
Método SGD.
Crie um perceptron que se ajuste ao seguinte conjunto de dados:
| s | ||
|---|---|---|
| 1 | 0.5 | 1.2 | 
| 2 | 1.0 | 2.1 | 
| 3 | 1.5 | 2.6 | 
| 4 | 2.0 | 3.6 | 
No treinamento, use como otimizador:
Método GD.
Método SGD.
Aproveito para agradecer a todas/os que de forma assídua ou esporádica contribuem enviando correções, sugestões e críticas!

Este texto é disponibilizado nos termos da Licença Creative Commons Atribuição-CompartilhaIgual 4.0 Internacional. Ícones e elementos gráficos podem estar sujeitos a condições adicionais.