<a href="https://colab.research.google.com/github/Abdoullah93/BootcampKeskIAS4/blob/main/1_notebook_collecte_donnees.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Collecte de Données et Prétraitement

Dans ce notebook, nous allons explorer différentes étapes de la collecte de données, de l'analyse initiale à la visualisation.


## 1. Exportation d'un Dataset

L'importation des données est la première étape dans tout projet de science des données. Nous pouvons importer des datasets à partir de plusieurs formats comme CSV, Excel, ou encore des bases de données.

### Exemple : Importer un fichier CSV avec `pandas`
Dans cet exemple, nous allons utiliser la bibliothèque `pandas` pour charger un dataset depuis un fichier CSV.
```python
import pandas as pd

# Charger le dataset
df = pd.read_csv("nom_du_fichier.csv")

# Afficher les premières lignes
df.head()
```

### Exercice :
- Importez votre propre fichier CSV et affichez les 5 premières lignes du dataset.


In [None]:

# Votre code ici pour importer un dataset
import pandas as pd
df = pd.read_csv("/content/sample_data/california_housing_test.csv")
# Afficher les premières lignes : df.head()


## 2. Première Visualisation des Données et Statistiques

Avant de procéder à une analyse approfondie, il est important de comprendre la structure de vos données grâce à une **analyse exploratoire des données (EDA)**.

Voici quelques méthodes courantes pour explorer vos données :
- **df.info()** : Affiche des informations générales sur le dataset.
- **df.describe()** : Retourne des statistiques descriptives des colonnes numériques.

### Exemple : Analyse des statistiques de base
```python
# Afficher des informations sur les données
df.info()

# Afficher des statistiques descriptives
df.describe()
```

### Exercice :
- Utilisez les méthodes ci-dessus pour afficher des informations générales et des statistiques descriptives sur votre dataset.


In [None]:

# Votre code ici pour analyser les données
# Exemple : df.info()
# Exemple : df.describe()



## 2.1. Rappel Théorique : Statistiques Descriptives

Lorsque nous explorons nos données, il est important de comprendre certaines statistiques de base afin d'interpréter correctement les résultats générés par les méthodes comme **`info()`** et **`describe()`**.

### **1. Méthode `info()`**
Cette méthode fournit des informations générales sur la structure du dataset, telles que :
- **Nombre de lignes et de colonnes** dans le dataset.
- **Types de données** dans chaque colonne (entier, flottant, objet, etc.).
- **Nombre de valeurs non nulles** pour chaque colonne.
Cela aide à comprendre rapidement la forme des données et à détecter d'éventuelles colonnes avec des valeurs manquantes.

### **2. Méthode `describe()`**
Cette méthode génère des statistiques descriptives pour les colonnes numériques du dataset. Voici les principales statistiques fournies et ce qu'elles signifient :
- **count** : Le nombre total de valeurs non manquantes pour chaque colonne.
- **mean** : La moyenne arithmétique des valeurs.
- **std** : L'écart-type, qui mesure la dispersion des données autour de la moyenne.
- **min** : La plus petite valeur de la colonne.
- **25%, 50%, 75% (quartiles)** : Ces valeurs divisent vos données en quartiles. Le 50% correspond à la **médiane**. Les 25% et 75% aident à comprendre la distribution.
- **max** : La valeur maximale.

Ces informations permettent d'avoir une vue d'ensemble sur la distribution des données, de détecter des anomalies, et de choisir des méthodes adaptées pour leur analyse.

### Exercice :
Maintenant que vous comprenez mieux ces concepts, essayez d'utiliser `info()` et `describe()` pour analyser votre dataset.



## 3. Remplacement des Valeurs Manquantes

Les valeurs manquantes peuvent biaiser votre analyse ou modèle. Voici quelques techniques pour les gérer :
- **Suppression des lignes/colonnes avec des valeurs manquantes** : `df.dropna()`
- **Remplacement des valeurs manquantes par une autre valeur (ex : moyenne)** : `df.fillna(df.mean())`

### Exemple : Remplacer les valeurs manquantes
```python
# Vérifier s'il y a des valeurs manquantes
df.isnull().sum()

# Remplacer les valeurs manquantes par la moyenne
df.fillna(df.mean(), inplace=True)
```

### Exercice :
- Identifiez les colonnes contenant des valeurs manquantes et remplacez-les par une stratégie de votre choix (moyenne, médiane, etc.).


In [None]:

# Votre code ici pour gérer les valeurs manquantes
# Exemple : df.isnull().sum()
# Exemple : df.fillna(df.mean(), inplace=True)



## 4. Première Datavisualisation

La visualisation des données est essentielle pour comprendre les relations et tendances. Des bibliothèques comme `matplotlib` et `seaborn` permettent de créer des visualisations variées.

### Exemple : Histogramme et Diagramme en boîte
```python
import matplotlib.pyplot as plt
import seaborn as sns

# Histogramme pour une colonne spécifique
plt.hist(df["nom_de_la_colonne"])

# Diagramme en boîte (boxplot) pour visualiser la distribution des données
sns.boxplot(data=df["nom_de_la_colonne"])
plt.show()
```

### Exercice :
- Créez un histogramme et un boxplot pour visualiser la distribution de vos données.


In [None]:

# Votre code ici pour visualiser les données
import matplotlib.pyplot as plt
import seaborn as sns

# Exemple : plt.hist(df["nom_de_la_colonne"])
# Exemple : sns.boxplot(data=df["nom_de_la_colonne"])
