# Lire et écrire des fichiers

Pandas est capable d’ouvrir des fichiers de données énormes: 50 gigas, 100 gigas de données… Par exemple, la ville de New York propose en Open Data un jeu de données contenant les trajets des taxis officiels depuis 2009. Ça correspond à plus de 100 Go de données et plus d’un milliard de lignes.

Dans un tel cas, plutôt que de tout garder en mémoire, on traite les données partie par partie, comme [expliqué dans cet article](https://towardsdatascience.com/how-to-analyse-100s-of-gbs-of-data-on-your-laptop-with-python-f83363dda94). Mais ce problème est très rare dans le quotidien d’un datajournaliste.

En général, les données en Open Data posent surtout des problèmes de format: Pandas se plaint qu’il n’arrive pas à ouvrir le fichier. On va voir comment régler ces problèmes et comment réexporter le fichier ensuite.

In [21]:
import pandas as pd

## Lire un fichier CSV

La fonction **read_csv()** permet de lire un fichier séparé par des virgules (CSV = comma separated values):

In [22]:
df = pd.read_csv("data/couverture-charges-hautes-ecoles.csv")
df.head()

Unnamed: 0,Année,Source de financement,BS,BE,FR,GE,LS,LU,NE,SG,UZH,USI,EPFL,ETHZ,FS-CH,IHEID
0,1995,Ecolage,7057248,8015360,5144738,3400000,5811377,198405,1921134,3484643,18823722,0,3041000,5591000,...,...
1,1995,Autres moyens propres de la haute école,3944795,29832251,3530732,7710000,3777604,94816,1135937,1443054,49688289,0,0,0,...,...
2,1995,Canton universitaire: couverture ou budget,86693000,262899000,33095904,279440000,150095000,3846854,28989988,22115000,391236460,0,0,0,...,...
3,1995,Canton: imputations internes (jusqu'en 1999),0,442000,0,1958000,0,0,0,2923000,0,0,0,0,...,...
4,1995,Autres cantons: accord intercantonal universit...,17783363,30926256,40067064,22358000,20910540,1124035,10147579,17319754,53931787,0,0,0,...,...


## Lire un fichier Excel
C’est pareil avec… **read_excel()**!

In [23]:
df = pd.read_excel("data/couverture-charges-hautes-ecoles.xlsx")
df.head()

Unnamed: 0,Année,Source de financement,BS,BE,FR,GE,LS,LU,NE,SG,UZH,USI,EPFL,ETHZ,FS-CH,IHEID
0,1995,Ecolage,7057248,8015360,5144738,3400000,5811377,198405,1921134,3484643,18823722,0,3041000,5591000,...,...
1,1995,Autres moyens propres de la haute école,3944795,29832251,3530732,7710000,3777604,94816,1135937,1443054,49688289,0,0,0,...,...
2,1995,Canton universitaire: couverture ou budget,86693000,262899000,33095904,279440000,150095000,3846854,28989988,22115000,391236460,0,0,0,...,...
3,1995,Canton: imputations internes (jusqu'en 1999),0,442000,0,1958000,0,0,0,2923000,0,0,0,0,...,...
4,1995,Autres cantons: accord intercantonal universit...,17783363,30926256,40067064,22358000,20910540,1124035,10147579,17319754,53931787,0,0,0,...,...


## Ecrire un fichier
A tout moment, vous pouvez choisir d’exporter votre tableau retravaillé, ou une portion de votre tableau, dans un fichier CSV ou Excel.

In [24]:
df.to_csv("data/export.csv")

df.to_excel("data/export.xlsx")

# Problèmes de lecture
Ça ne se passe pas toujours aussi bien. Voici les principales erreurs qui peuvent se produire.

# Fichier introuvable
Si Python vous met **FileNotFoundError** en rouge, ne cherchez pas plus loin:
* soit le nom du fichier n’est pas juste dans votre code
* soit le fichier n’est pas dans le dossier où se situe le script
* soit l’extension du fichier manque ou n’est pas correcte

In [25]:
# FileNotFoundError: décommentez la ligne suivante (supprimez le «#») pour la voir

# pd.read_csv('fantome.xls')

## Erreur d’encodage

**utf-8** est une norme universelle d’encodage des caractères. Elle est omniprésente sur le web et dans les smartphones et ordinateurs actuels. Elle permet notamment d’afficher des emojis, des caractères cyrilliques, du grec, des lettres accentuées en tout genre, etc.

Mais l’OFS et les cantons utilisent souvent **latin-1**, une norme plus ancienne. Si Pandas tombe sur cet encodage, il renvoie une erreur de ce genre:

`UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 34`

In [26]:
# Erreur d’encodage: 'utf-8' codec can't decode byte 0xe9 in position 34
# Décommentez la ligne suivante pour la voir

# pd.read_csv('px-x-1506030000_202.csv')

### Erreur de délimitation des données
Un fichier **CSV** (comma separated values) signifie «valeurs séparées par des virgules». Mais de nombreuses administrations utilisent des point-virgules.

Dans un tel cas, Pandas dit:

`ParserError: Error tokenizing data. C error: Expected 1 fields in line 10, saw 2`

In [27]:
# Erreur de parsing: Error tokenizing data
# Décommentez la ligne suivante pour la voir

# pd.read_csv('px-x-1506030000_202.csv', encoding='latin-1')

# Lignes indésirables en haut du fichier
Certains fichiers ne commencent pas par les en-têtes, mais par des métadonnées ou par le titre de la série de données ou par des lignes vides. Ça nous donne un tableau inutilisable:

In [28]:
pd.read_csv("data/px-x-1506030000_202.csv", encoding="latin-1", sep=";").head(3)

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Couverture des charges des hautes écoles universitaires selon la source de financement et la haute école
Année,Source de financement,BS,BE,FR,GE,LS,LU,NE,SG,UZH,USI,EPFL,ETHZ,FS-CH,IHEID
1995,Ecolage,7057248,8015360,5144738,3400000,5811377,198405,1921134,3484643,18823722,0,3041000,5591000,...,...
1995,Autres moyens propres de la haute école,3944795,29832251,3530732,7710000,3777604,94816,1135937,1443054,49688289,0,0,0,...,...


Dans ce cas, on peut dire à Pandas de sauter un certain nombre de lignes avec le paramètre **skiprows**:

In [29]:
pd.read_csv('data/px-x-1506030000_202.csv', encoding='latin-1', sep=';', skiprows=1).head(3)

Unnamed: 0,Année,Source de financement,BS,BE,FR,GE,LS,LU,NE,SG,UZH,USI,EPFL,ETHZ,FS-CH,IHEID
0,1995,Ecolage,7057248,8015360,5144738,3400000,5811377,198405,1921134,3484643,18823722,0,3041000,5591000,...,...
1,1995,Autres moyens propres de la haute école,3944795,29832251,3530732,7710000,3777604,94816,1135937,1443054,49688289,0,0,0,...,...
2,1995,Canton universitaire: couverture ou budget,86693000,262899000,33095904,279440000,150095000,3846854,28989988,22115000,391236460,0,0,0,...,...


### Préciser la colonne «index»

C’est déjà beaucoup mieux! Mais Python a ajouté un index de 0, 1, 2, etc. tout à gauche des données.

Alors qu’en réalité, l’index correspond aux colonnes «Année» et «Source de financement».

On peut aussi le préciser à Pandas, avec le paramètre **index_col**:

In [30]:
df = pd.read_csv(
    "data/px-x-1506030000_202.csv",
    encoding="latin-1",
    sep=";",
    skiprows=1,
    index_col=["Année", "Source de financement"],
)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,BS,BE,FR,GE,LS,LU,NE,SG,UZH,USI,EPFL,ETHZ,FS-CH,IHEID
Année,Source de financement,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
1995,Ecolage,7057248,8015360,5144738,3400000,5811377,198405,1921134,3484643,18823722,0,3041000,5591000,...,...
1995,Autres moyens propres de la haute école,3944795,29832251,3530732,7710000,3777604,94816,1135937,1443054,49688289,0,0,0,...,...
1995,Canton universitaire: couverture ou budget,86693000,262899000,33095904,279440000,150095000,3846854,28989988,22115000,391236460,0,0,0,...,...
1995,Canton: imputations internes (jusqu'en 1999),0,442000,0,1958000,0,0,0,2923000,0,0,0,0,...,...
1995,Autres cantons: accord intercantonal universitaire,17783363,30926256,40067064,22358000,20910540,1124035,10147579,17319754,53931787,0,0,0,...,...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2019,Economie privée (jusqu'en 1999),0,0,0,0,0,0,0,0,0,0,0,0,0,0
2019,Fondations privées (jusqu'en 1999),0,0,0,0,0,0,0,0,0,0,0,0,0,0
2019,Revenu de la fortune de l'université (jusqu'en 1999),0,0,0,0,0,0,0,0,0,0,0,0,0,0
2019,"Déduction des dépenses non universitaires (Crédit de tiers, jusqu'en 1999)",0,0,0,0,0,0,0,0,0,0,0,0,0,0
