Gradient

(source: Data Science par la pratique - Grus)

le gradient = vecteur des dérivées partielles

le gradient donne la direction vers laquelle la fonction augmente le plus rapidement

une méthode pour maximiser une fonction consiste à prendre un point au hasard, calculer le gradient, appliquer un petit déplacement dans la direction du gradient (i.e. la direction qui correspond à l’augmentation la plus importante) puis répéter le processus à partir de ce nouveau point de départ

de la même manière, il est possible de minimiser une fonction en effectuant de petits déplacements dans la direction opposée

quand une fonction a plusieurs variables, elle a plusieurs dérivées partielles, chacune indiquant comment la fonction change quand nous procédons à des petites modifications dans une seule des variables d’entrée

utiliser la descente de gradient pour choisir les paramètres d’un modèle de manière à minimiser une forme d’erreur

en général les fonctions d’erreur sont additives (l’erreur d’ensemble prévue sur l’ensemble des données est la somme des erreurs prévues pour chaque donnée élémentaire); quand c’est le cas on peut appliquer une technique dite “descente du gradient stochastique” qui revient à calculer le gradient (et à se déplacer d’un pas) pour un point à la fois; le traitement boucle sur les données jusqu’à ce qu’il atteigne un point d’arrêt

approche batch: prévision et calcul du gradient sur l’ensemble des données; la version stochastique est souvent beaucoup plus rapide

hors-sujet:

le premier avantage de MapReduce est qu’il permet de distribuer les calculs en déplaçant le traitement vers les données

le système MapReduce le plus largement utilisé est Hadoop