Cursus
Formation Introduction au Machine Learning avec Python
Objectifs
Appréhender les notions de data science, apprentissage supervisé et non supervisé.
Utiliser Python et ses bibliothèques pour manipuler des données.
Créer et gérer des DataLake, DataMart et DataWarehouse.
Comprendre et utiliser les différents types de régression, notamment la régression linéaire.
Maîtriser Matplotlib pour afficher des données sous forme de graphiques 2D.
Manipuler des DataFrames et importer des données CSV et SQL.
Créer, entraîner et évaluer des modèles de régression et de classification.
Appliquer l’algorithme des k plus proches voisins (k-NN) et d’autres modèles comme SVM et Random Forest.
Appréhender les concepts de perceptron, réseaux neuronaux MLP et descente du gradient.
Utiliser des bibliothèques pour créer et optimiser des réseaux de neurones, y compris les réseaux convolutifs et le transfert learning.
Pré-requis
Participants
Programme de formation
INTRODUCTION AUX DATA SCIENCES
-
Qu'est-ce que la data science ?
-
Qu'est-ce que Python ?
-
Qu'est-ce que le Machine Learning ?
-
Apprentissage supervisé vs non supervisé
-
Les statistiques
-
La randomisation
-
La loi normale
RAPPELS DE PYTHON POUR LES DATA SCIENCES
-
Rappel
-
PIP
INTRODUCTION AUX DATALAKE, DATAMART ET DATA WHAREHOUSE
-
Qu'est-ce qu’un DataLake ?
-
Les différents types de DataLake
-
Le Big Data
-
Qu'est-ce qu’un DataWharehouse ?
-
Qu'est-ce qu’un DataMart ?
-
Mise en place d'un DataMart
MACHINE LEARNING
-
Filtrage
-
Mise en place d'une machine learning supervisée
-
Qu'est-ce qu’un modèle et un dataset
-
Qu'est-ce qu’une régression
-
Les différents types de régression
-
La régression linéaire
-
Gestion du risque et des erreurs
-
Quarter d'Ascombe
-
Trouver le bon modèle
-
La classification
-
Loi normale, variance et écart type
-
Apprentissage
-
Mesure de la performance
-
No Fee Lunch
-
Les pièges du machine learning : Overfitting, Underfitting
MATPLOTLIB
-
Utilisation de la bibliothèque scientifique de graphe MatPlotLib
-
Affichage des données dans un graphique 2D
-
Affichage des sous-graphes
-
Affichage des polynômes et de sinusoïdales
PANDAS
-
Le Data Mining
-
L'analyse des données avec Pandas
-
Les DataFrames
-
La théorie ensembliste avec Pandas
-
L'importation des données CSV
-
L'importation des données SQL
-
Pandas et SKLearn
SCIKITLEARN
-
Le machine Learning avec SKLearn
-
La régression linéaire
-
La création du modèle
-
L'échantillonnage
-
La randomisation
-
L'apprentissage avec fit
-
La prédiction du modèle
-
Les metrics
-
Choix du modèle
-
PreProcessing et Pipeline
-
Régressions non polynomiales
NEAREST NEIGHBORS
-
Algorithme des k plus proches voisins (k-NN)
-
Modèle de classification
-
K-NN avec SciKitLearn
-
Choix du meilleur k
-
Sérialisation du modèle
-
Variance vs Erreurs
-
Autres modèles : SVN, Random Forest
-
La clusterisation avec k-Means
SCALABLE VECTOR MACHINE
-
Le modèle SVM
-
SVM et les petits datasets
-
Choix du kernel
RANDOM FOREST
-
Le principe de RF
-
Principe de la boite blanche
-
Reverse engineering RF
-
Les corrélations automatiques
LES RESEAUX NEURONAUX
-
Le perceptron
-
Les réseaux neuronaux MLP
-
La descente du gradient
TENSORFLOW ET KERAS
-
Les réseaux Denses
-
Keras
-
Dimensionnement du réseau
-
Les réseaux convolutifs
-
Le transfert learning
-
Le réapprentissage
-
L'apprentissage par renforcement
-
Les modèles courants
- VGG
- RestNet
- Xception
- LSTM
- BERT
- MobileNet
-
L'optimisation des réseaux