Taxa de Aprendizagem e Momentum
A taxa de aprendizagem influi diretamente no aprendizado da rede. Quanto menor a taxa de aprendizagem a trajetória dos pesos sinápticos no espaço de pesos será mais suave, pois menores serão as variações destes pesos de uma iteração para outra. Porém como as variações de peso são pequenas entre as iterações, a aprendizagem é lenta. Se for utilizada uma taxa de aprendizagem muito alta, a variação dos pesos sinápticos entre iterações será maior, o que pode tornar a rede instável, fazendo com que o erro médio quadrado oscile.
Uma maneira de aumentar a taxa de aprendizagem evitando que a rede fique instável é modificar a regra delta incluindo um termo de momentum (Rumelhart et al, 1986a), como é mostrado na equação abaixo:
Δwji(n) = αΔwji(n - 1) + ηδj(n)yi(n)
onde α é a constante de momento, que é normalmente positiva.