# CSV Import Cookbook (pandas)

Ce notebook présente des recettes pratiques pour importer des fichiers CSV avec `pandas.read_csv()`, y compris des fichiers imparfaits ou "sales" fréquemment rencontrés en entreprise.

In [1]:
import pandas as pd
from pathlib import Path

## Recette 1 — Lire un CSV standard
**Problème :** fichier CSV bien formé avec entêtes.

In [2]:
filepath = Path("../data/world-cities.csv")
df = pd.read_csv(filepath)
df.head()

Unnamed: 0,name,country,subcountry,geonameid
0,les Escaldes,Andorra,Escaldes-Engordany,3040051
1,Andorra la Vella,Andorra,Andorra la Vella,3041563
2,Umm al Qaywayn,United Arab Emirates,Umm al Qaywayn,290594
3,Ras al-Khaimah,United Arab Emirates,Raʼs al Khaymah,291074
4,Khawr Fakkān,United Arab Emirates,Ash Shāriqah,291696


In [32]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23018 entries, 0 to 23017
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   name        23018 non-null  object
 1   country     23018 non-null  object
 2   subcountry  22992 non-null  object
 3   geonameid   23018 non-null  int64 
dtypes: int64(1), object(3)
memory usage: 719.4+ KB


## Recette 2 — Lire un CSV sans entêtes
**Problème :** le fichier CSV ne contient pas de ligne d'entêtes.

In [33]:
fp = Path("../data/world-cities.nohead.csv")
columns = ["name", "country", "subcountry", "geonameid"]
df_nohead = pd.read_csv(fp, header=None, names=columns)
df_nohead.head()

Unnamed: 0,name,country,subcountry,geonameid
0,les Escaldes,Andorra,Escaldes-Engordany,3040051
1,Andorra la Vella,Andorra,Andorra la Vella,3041563
2,Umm al Qaywayn,United Arab Emirates,Umm al Qaywayn,290594
3,Ras al-Khaimah,United Arab Emirates,Raʼs al Khaymah,291074
4,Khawr Fakkān,United Arab Emirates,Ash Shāriqah,291696


In [34]:
df_nohead.shape

(23018, 4)

## Recette 3 — Ignorer des lignes invalides avant l’entête (`skiprows`)
**Problème :** présence de métadonnées avant l'entête.

In [35]:
fp = Path("../data/world-cities.metadata_header.csv")
df_dirty = pd.read_csv(fp, skiprows=2, engine='python')
df_dirty.head()

Unnamed: 0,name,country,subcountry,geonameid
0,les Escaldes,Andorra,Escaldes-Engordany,3040051
1,Andorra la Vella,Andorra,Andorra la Vella,3041563
2,Umm al Qaywayn,United Arab Emirates,Umm al Qaywayn,290594
3,Ras al-Khaimah,United Arab Emirates,Raʼs al Khaymah,291074
4,Khawr Fakkān,United Arab Emirates,Ash Shāriqah,291696


In [36]:
df_dirty.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23018 entries, 0 to 23017
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   name        23018 non-null  object
 1   country     23018 non-null  object
 2   subcountry  22992 non-null  object
 3   geonameid   23018 non-null  int64 
dtypes: int64(1), object(3)
memory usage: 719.4+ KB


## Recette 4 — Ignorer des lignes invalides à la fin du fichier (`skipfooter`)
**Problème :** présence de métadonnées à la fin du texte

## Recette 4 — Ignorer un footer invalide (`skipfooter`)
**Problème :** lignes finales non conformes.

In [37]:
fp = Path("../data/world-cities.metadata_footer.csv")
df_dirty = pd.read_csv(fp, skipfooter=1, engine="python")
df_dirty.tail()

Unnamed: 0,name,country,subcountry,geonameid
23013,Bulawayo,Zimbabwe,Bulawayo,894701
23014,Bindura,Zimbabwe,Mashonaland Central,895061
23015,Beitbridge,Zimbabwe,Matabeleland South,895269
23016,Epworth,Zimbabwe,Harare,1085510
23017,Chitungwiza,Zimbabwe,Harare,1106542


In [38]:
df_dirty.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23018 entries, 0 to 23017
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   name        23018 non-null  object
 1   country     23018 non-null  object
 2   subcountry  22992 non-null  object
 3   geonameid   23018 non-null  int64 
dtypes: int64(1), object(3)
memory usage: 719.4+ KB


## Recette 5 — Lire un fichier CSV à séparateur pipe "|"
**Problème :** Présence du symbole pipe "|" comme séparateur dans le fichier

In [39]:
fp = Path("../data/world-cities.barsep.csv")
df = pd.read_csv(fp, sep="|")
df.head()

Unnamed: 0,name,country,subcountry,geonameid
0,les Escaldes,Andorra,Escaldes-Engordany,3040051
1,Andorra la Vella,Andorra,Andorra la Vella,3041563
2,Umm al Qaywayn,United Arab Emirates,Umm al Qaywayn,290594
3,Ras al-Khaimah,United Arab Emirates,Raʼs al Khaymah,291074
4,Khawr Fakkān,United Arab Emirates,Ash Shāriqah,291696


In [40]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23018 entries, 0 to 23017
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   name        23018 non-null  object
 1   country     23018 non-null  object
 2   subcountry  22992 non-null  object
 3   geonameid   23018 non-null  int64 
dtypes: int64(1), object(3)
memory usage: 719.4+ KB


## À retenir
- Toujours faire un contrôle structurel après import (`info()` ou `shape`)
- Ne pas faire confiance aux CSV externes (entêtes, séparateurs, footers)
- `skiprows` et `sep` règlent 80% des cas “sales”
- `skipfooter` nécessite souvent `engine="python"`


## Conclusion
Ces recettes constituent une base solide pour importer des fichiers CSV propres ou imparfaits avant toute étape de nettoyage ou d’analyse.