# 02 ‚Äî Les 5 v√©rifications √† faire juste apr√®s l‚Äôouverture d‚Äôun CSV (pandas)

Ce notebook formalise un **rituel en 5 √©tapes** √† appliquer imm√©diatement apr√®s l‚Äôimport d‚Äôun fichier CSV.

## Objectif

Comprendre rapidement la structure du dataset et d√©tecter les probl√®mes classiques (types, valeurs manquantes, doublons).

In [4]:
import pandas as pd
from pathlib import Path

## Import du fichier
On charge le fichier bitcoins.csv depuis le dossier `../data/`

In [71]:
fp = Path("../data/bitcoins.csv")
if not fp.exists():
    raise FileNotFoundError(
        f"Fichier introuvable :  {fp}. V√©rifie que bitcoins.csv est dans ../data/"
    )
df = pd.read_csv(fp)

## ‚úÖ Etape 1 ‚Äî Volum√©trie du dataset
**But :** Conna√Ætre imm√©diatement le nombre de lignes et de colonnes

In [72]:
df.shape

(24000, 7)

## ‚úÖ Etape 2 ‚Äî Types des colonnes (lecture Pandas)
**But :** V√©rifier comment pandas interpr√®te les types (et d√©tecter rapidement les colonnes suspectes)

In [73]:
df.dtypes

Date           object
Open*         float64
High          float64
Low           float64
Close**       float64
Volume        float64
Market Cap    float64
dtype: object

## ‚úÖ Etape 3 ‚Äî Aper√ßu visuel du dataset (head, tail , sample)
**But :** V√©rifier visuellement la coh√©rence des valeurs au d√©but, la fin et au coeur du dataset <br />
`Selon le contexte, on peut utiliser tail() (CSV sales) ou sample() (dataset volumineux: df.sample(5, random_state=52)).`

In [74]:
df.head()

Unnamed: 0,Date,Open*,High,Low,Close**,Volume,Market Cap
0,Jan 01 2015,22534.95,23063.83,22296.16,22720.48,15569776.0,787786300000.0
1,Jan 02 2015,57047.79,57254.07,56526.45,57015.36,41942747.0,408505300000.0
2,Jan 03 2015,43946.44,44086.61,43093.73,43502.15,26950379.0,939368600000.0
3,Jan 04 2015,35959.64,36686.08,35560.69,36378.15,43135834.0,965730200000.0
4,Jan 05 2015,9445.52,,9153.66,9925.85,40960650.0,1349320000000.0


In [75]:
df.tail()

Unnamed: 0,Date,Open*,High,Low,Close**,Volume,Market Cap
23995,Sep 11 2080,54806.95,55312.33,54481.67,,13602611.0,664069400000.0
23996,Sep 12 2080,25765.54,26086.96,24898.82,25341.29,36106450.0,1864060000000.0
23997,Sep 13 2080,22734.17,23166.9,22728.96,22752.43,44003147.0,1760627000000.0
23998,Sep 14 2080,13956.06,14386.3,13489.58,13543.53,27383880.0,586892600000.0
23999,Sep 15 2080,38181.8,38399.3,37731.96,38018.86,42021486.0,147388500000.0


In [76]:
df.sample(5, random_state=42)

Unnamed: 0,Date,Open*,High,Low,Close**,Volume,Market Cap
3111,Jul 09 2023,14597.12,15304.76,14564.78,15073.95,43883719.0,1178662000000.0
18679,Feb 21 2066,47889.08,47925.35,47775.76,47801.86,25383024.0,1687627000000.0
17472,Nov 02 2062,28553.5,28763.66,28386.5,28609.99,21186820.0,165392100000.0
21451,Sep 24 2073,43752.81,44398.41,43539.36,44044.79,47424921.0,44969470000.0
20800,Dec 13 2071,31559.84,32251.72,31387.61,32028.39,39867482.0,718731300000.0


## ‚úÖ Etape 4 ‚Äî Valeurs manquantes
**But :** Quantifier les valeurs manquantes et identifier les colonnes √† traiter en priorit√©

In [77]:
missing_count = df.isna().sum().sort_values(ascending=False)
missing_pct = (df.isna().mean() * 100).sort_values(ascending=False)
missing = pd.DataFrame({
     "missing_count": missing_count,
     "missing_pct": missing_pct.round(2)
})

missing.query("missing_count > 0")

Unnamed: 0,missing_count,missing_pct
Open*,720,3.0
Close**,720,3.0
High,480,2.0
Low,480,2.0
Volume,240,1.0
Market Cap,240,1.0
Date,120,0.5


## ‚úÖ Etape 5 ‚Äî Doublons
**But :** D√©tecter la pr√©sence des doublons sur les lignes compl√®tes ou sur une c l√© m√©tier.

In [78]:
df.duplicated().sum()

np.int64(0)

### Variante ‚Äî Doublons sur cl√© m√©tier
A adapter selon le contexte m√©tier (`id`, `timestamp`, `date`,ect.).

In [85]:
candidate_keys = ["id", "timestamp", "date", "Date"]
key_cols = [c for c in candidate_keys if c in df.columns]

if len(key_cols) > 0:
    df.duplicated(subset=key_cols).sum()
else:
    print("Aucune colonne cl√© standard trouv√©e. D√©finis explicitement ta cl√© m√©tier.")

## üìå √Ä retenir

- **shape** : comprendre la volum√©trie d√®s l‚Äôimport
- **dtypes (ou info)** : d√©tecter les types incoh√©rents
- **head / tail / sample** : confirmer visuellement la coh√©rence
- **valeurs manquantes** : quantifier avant de d√©cider (drop vs impute)
- **doublons** : contr√¥ler sur lignes et cl√©s m√©tier

## üîú Suite logique du cookbook

Les √©tapes suivantes portent g√©n√©ralement sur :
- conversion des types
- traitement des valeurs manquantes
- nettoyage des cha√Ænes de caract√®res
- contr√¥les qualit√© avanc√©s

> üí° Ces √©tapes sont aussi l‚Äôoccasion de ma√Ætriser des concepts transverses
> comme l‚Äôusage de `inplace`, la copie vs la vue, et l‚Äôimpact m√©moire.
