Introduction à la Science des Données
- Introduction à la science des données et ses applications.
- Comprendre ce qu’est la science des données et comment elle est utilisée dans divers domaines.
- Comprendre les types de données et les formats de données.
- Explorer les données structurées et non structurées, telles que les données tabulaires, textuelles et multimédias.
- Installation de Python et des bibliothèques de base.
- Mettre en place un environnement de développement Python et installer des bibliothèques essentielles comme NumPy et Pandas.
Manipulation de Données
- Utilisation de la bibliothèque Pandas pour la manipulation de données.
- Apprendre à charger des données à partir de fichiers CSV, Excel, etc.
- Chargement, nettoyage et exploration des données.
- Pratiquer la manipulation de données en supprimant les valeurs manquantes, en filtrant des données, en fusionnant des ensembles de données, etc.
- Travailler avec des tableaux et des séries Pandas.
- Explorer les structures de données Pandas, telles que les DataFrames et les Series, et effectuer des opérations de base.
Visualisation de Données
- Introduction à la visualisation de données avec Matplotlib et Seaborn.
- Créer des graphiques de base tels que des histogrammes, des graphiques à barres et des graphiques à dispersion.
- Créer des graphiques à barres, des graphiques à dispersion et des diagrammes en boîte.
- Approfondir la création de graphiques et de diagrammes pour mieux comprendre les données.
- Utiliser la visualisation pour explorer les données.
- Identifier des tendances, des modèles et des anomalies dans les données grâce à la visualisation.
Statistiques et Probabilités
- Concepts de base en statistiques.
- Comprendre les concepts fondamentaux tels que la moyenne, la médiane, la variance et l’écart type.
- Calculer les mesures de tendance centrale et de dispersion.
- Apprendre à calculer les mesures statistiques clés pour résumer les données.
- Introduction aux distributions de probabilité.
- Explorer les concepts de probabilité, notamment les distributions normales et binomiales.
Apprentissage Automatique (Machine Learning)
- Introduction à l’apprentissage automatique.
- Définir l’apprentissage automatique et comprendre ses applications.
- Différencier l’apprentissage supervisé et non supervisé.
- Explorer les deux principales catégories d’apprentissage automatique et leurs cas d’utilisation.
- Découvrir des exemples d’algorithmes de machine learning.
- Présentation des algorithmes de machine learning couramment utilisés, tels que la régression linéaire, les arbres de décision et les k-means.
Apprentissage Supervisé
- Apprentissage supervisé : régression linéaire et classification.
- Approfondir la compréhension de la régression linéaire pour la prédiction de valeurs continues et de la classification pour la catégorisation.
- Prétraitement des données pour l’apprentissage supervisé.
- Explorer les étapes de prétraitement des données, y compris la normalisation et l’encodage des caractéristiques catégorielles.
- Évaluation des modèles de machine learning.
- Apprendre à évaluer les performances des modèles avec des métriques telles que l’erreur quadratique moyenne (RMSE), l’exactitude et la précision.
Apprentissage Non Supervisé
Apprentissage non supervisé : regroupement (clustering) et réduction de dimension.
Comprendre les techniques de regroupement pour identifier des groupes similaires de données et la réduction de dimension pour simplifier les données.
Explorer des algorithmes de clustering tels que K-Means et leur utilisation pour la segmentation de données.
Découvrir la réduction de dimension avec l’analyse en composantes principales (PCA).