# Terminer les modules dans seance 4

## Résumé : Initiation à l'analyse de données

L’**analyse de données** consiste à collecter, organiser, explorer et interpréter des données pour en extraire des informations utiles.

### Étapes principales :

1. **Collecte des données**  
   Rassembler les données à partir de différentes sources (fichiers, bases de données, web, etc.).

2. **Nettoyage des données**  
   Corriger les erreurs, supprimer les doublons et gérer les valeurs manquantes.

3. **Exploration des données**  
   Utiliser des statistiques descriptives (moyenne, médiane, minimum, maximum) et des visualisations (graphiques, histogrammes) pour comprendre la structure des données.

4. **Manipulation des données**  
   Filtrer, trier, regrouper et transformer les données pour faciliter l’analyse.

5. **Interprétation et présentation**  
   Tirer des conclusions, identifier des tendances et présenter les résultats sous forme de rapports ou de graphiques.

### Outils courants en Python :

- **Pandas** : pour manipuler et analyser des tableaux de données.
- **NumPy** : pour les calculs numériques.
- **Matplotlib / Seaborn** : pour la visualisation des données.

**Exemple simple avec Pandas :**

```python
import pandas as pd

# Charger un fichier CSV
df = pd.read_csv("donnees.csv")

# Afficher les premières lignes
print(df.head())

# Calculer la moyenne d'une

## Résumé : Algèbre linéaire pour l’analyse de données

L’**algèbre linéaire** est une branche des mathématiques qui étudie les vecteurs, les matrices et les opérations sur ces objets.  
Elle est essentielle en analyse de données, en machine learning et en statistiques.

### Concepts clés :

- **Vecteur** : Liste ordonnée de nombres (ex : `[2, 5, 7]`). Représente souvent une observation ou une variable.
- **Matrice** : Tableau rectangulaire de nombres (ex : 2D array). Permet de stocker plusieurs vecteurs.
- **Opérations sur matrices** : Addition, multiplication, transposition, inversion.
- **Système d’équations linéaires** : Résolution de plusieurs équations simultanées.
- **Valeurs propres et vecteurs propres** : Utilisés pour la réduction de dimension (ex : PCA).
- **Norme** : Mesure la “taille” d’un vecteur (distance à l’origine).

### Utilité en analyse de données :

- **Stockage des données** : Les données tabulaires sont souvent représentées sous forme de matrices.
- **Transformation des données** : Les opérations matricielles permettent de manipuler et transformer les données.
- **Réduction de dimension** : Techniques comme la PCA utilisent l’algèbre linéaire pour simplifier les données.
- **Modélisation** : Les modèles statistiques et de machine learning utilisent des opérations sur vecteurs et matrices.

### Exemple simple en Python avec NumPy :

```python
import numpy as np

# Création d’un vecteur
v = np.array([1, 2, 3])

# Création d’une matrice
M = np.array([[1, 2], [3, 4]])

# Multiplication de matrices
resultat = np.dot(M, v[:2])

print(resultat)
```

In [6]:
import numpy as np 
import pandas as pd
pd.read_csv("car_prices.csv").head()

Unnamed: 0,year,make,model,trim,body,transmission,vin,state,condition,odometer,color,interior,seller,mmr,sellingprice,saledate
0,2015,Kia,Sorento,LX,SUV,automatic,5xyktca69fg566472,ca,5.0,16639.0,white,black,kia motors america inc,20500.0,21500.0,Tue Dec 16 2014 12:30:00 GMT-0800 (PST)
1,2015,Kia,Sorento,LX,SUV,automatic,5xyktca69fg561319,ca,5.0,9393.0,white,beige,kia motors america inc,20800.0,21500.0,Tue Dec 16 2014 12:30:00 GMT-0800 (PST)
2,2014,BMW,3 Series,328i SULEV,Sedan,automatic,wba3c1c51ek116351,ca,45.0,1331.0,gray,black,financial services remarketing (lease),31900.0,30000.0,Thu Jan 15 2015 04:30:00 GMT-0800 (PST)
3,2015,Volvo,S60,T5,Sedan,automatic,yv1612tb4f1310987,ca,41.0,14282.0,white,black,volvo na rep/world omni,27500.0,27750.0,Thu Jan 29 2015 04:30:00 GMT-0800 (PST)
4,2014,BMW,6 Series Gran Coupe,650i,Sedan,automatic,wba6b2c57ed129731,ca,43.0,2641.0,gray,black,financial services remarketing (lease),66000.0,67000.0,Thu Dec 18 2014 12:30:00 GMT-0800 (PST)
