<a href="https://colab.research.google.com/github/MamadouBousso/Cours-Python/blob/main/Lecture_Fichiers_CSV.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

---
---
<center><h1> FICHIERS CSV</h1></center>

---

*** Dans ce notebook, nous verrons comment lire les fichiers "CSV" et comment resoudre les différents défis auxquels nous sommes confrontés lors de leurs lectures.***

---


- ***`Pandas` est l'une des bibliothèques les plus utilisées pour lire des ensembles de données. Dans ce cours, nous allons l'utiliser.***
-  Lire encore plus sur Pandas: ***https://pandas.pydata.org/pandas-docs/stable/index.html***

--- 

***Installer pandas avec les commandes ci-dessous:*** 

En utilisant anaconda avec python3: ***`!pip install pandas`***

En utilisant jupyter avec python3: ***`!pip3 install pandas`***

---

### `Table des matiéres`

- ***Lecture de fichiers  CSV ***
- ***Challenges avec la lecture de fichier CSV.***
     - Lire les données sauf les premières lignes du fichier.
     - Lire les fichiers présents dans plusieurs répertoires.
     - Vérifier, délimiter et lire le fichier.
     - Si le jeu de données est volumineux, nous  pouvons lire  quelques lignes.
     - Si le jeu de données a un grand nombre de colonnes, lire uniquement des colonnes spécifiques
    
    
    
   
    

---

#### `LECTURE DE FICHIERS CSV`

---

In [7]:
# importer sys pour gérer les chemins des fichiers et modules
import sys
# importer la librairie pandas
import pandas as pd

In [3]:
# Verifier la version utilisée
pd.__version__

'1.3.5'

---

***Lire le fichier `CSV` ***

**`Dataset utilisé:`**  L'ensemble de données que nous allons utiliser représente des données de vente. Il a été collecté par les data scientist de BigMart pour 1559 produits dans 10 magasins de villes différentes. Il contient des informations comme `Item Identifier`, `Outlet Size`, `Item MRP`, `Outlet Location Type`, `Item Outlet Sales` etc.

---

Ils sont dans le repertoire **`datasets`** sous le nom de **`big_mart_sales.csv`** de mon drive.

---

In [5]:
# Je monte mon drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


* **Dans ce cas on peut copier le chemin et lire le fichier en utilisant le chemin**
* **On aussi au cas où on n'utilise pas le drive creer le repertoire datasets dans content et mettre les fichiers csv dedans**

In [9]:
dataset_path = '/content/drive/MyDrive/Colab Notebooks/IntroMLAMAS2022/reading_csv/datasets/'
sys.path.append(dataset_path)

In [10]:
# lire le dataset
data = pd.read_csv(dataset_path +'big_mart_sales.csv')

In [11]:
type(data)

pandas.core.frame.DataFrame

---

***Les données sont stockées dans une structure de  type `DataFrame`***

***`DATAFRAME`***


- Un DataFrame est une structure de données bidimensionnelle avec des colonnes pouvant contenir différents types de données.
- Similaire à une feuille de calcul ou à une table SQL.
- C'est généralement l'objet pandas le plus utilisé.

In [12]:
# Pour visualiser les données on peut utiliser les commandes "head" ou "tail"
# head(n = "le nombre de lignes que vous voulez visualiser à partir du top")
# tail(n = "le nombre de lignes que vous voulez visualiser à partir du bas")

data.head()
# Permet de visualiser 5 lignes

Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales
0,FDA15,9.3,Low Fat,0.016047,Dairy,249.8092,OUT049,1999,Medium,Tier 1,Supermarket Type1,3735.138
1,DRC01,5.92,Regular,0.019278,Soft Drinks,48.2692,OUT018,2009,Medium,Tier 3,Supermarket Type2,443.4228
2,FDN15,17.5,Low Fat,0.01676,Meat,141.618,OUT049,1999,Medium,Tier 1,Supermarket Type1,2097.27
3,FDX07,19.2,Regular,0.0,Fruits and Vegetables,182.095,OUT010,1998,,Tier 3,Grocery Store,732.38
4,NCD19,8.93,Low Fat,0.0,Household,53.8614,OUT013,1987,High,Tier 3,Supermarket Type1,994.7052


---

***Après avoir lu le jeu de données, la première chose que nous vérifions est la taille du jeu de données. Pour obtenir le nombre de lignes et de colonnes présentes dans l'ensemble de données, nous avons l'attribut `shape`.***

---

In [13]:
# Nous utilisons shape pour avoir les dimensions du jeu de données
data.shape

(8523, 12)

---


#### `CHALLENGES AVEC LA LECTURE DE FICHIER CSV`

    - Lire les données sauf les premières lignes du fichier.
    - Lire les fichiers présents dans plusieurs répertoires.
    - Vérifier, délimiter et lire le fichier.
    - Si le jeu de données est volumineux, nous  pouvons lire JUSTE quelques lignes.
    - Si le jeu de données a un grand nombre de colonnes, lire uniquement des colonnes spécifiques.
    


---

---

***Lire les données à l'exception de quelques lignes au top du fichier.***

- You may get an error while reading a CSV file because someone may have added few comments on the top of the file. In pandas we can still read the data set by skipping few rows from the top. 

- Vous pouvez obtenir une erreur lors de la lecture d'un fichier CSV car quelqu'un a peut-être ajouté quelques commentaires en haut du fichier. Avec pandas, nous pouvons toujours lire l'ensemble de données en sautant quelques lignes à partir du haut.


---

***Prenons l'exemple du `big_mart_sales_top_rows_error.csv` present dans le repertoire datasets.***

--- 

In [14]:
data_with_comments = pd.read_csv(dataset_path+'/big_mart_sales_top_row_error.csv')

ParserError: ignored

**texte en gras**---


- Pour gérer **l'erreur**, ouvrez le fichier csv dans l'éditeur de texte et vérifiez si vous avez des commentaires en haut.
- Si oui, alors comptez le nombre de lignes à sauter.
- En lisant le fichier, passer le nombre de lignes à sauter au parametre ***`skiprows = n (nombre de lignes à sauter)`***

---

In [16]:
# lire l'ensemble de données en sautant les 5 premiéres lignes
data_with_comments = pd.read_csv(dataset_path+'big_mart_sales_top_row_error.csv', skiprows= 5)

In [17]:
# visualiser les données
data_with_comments.head()

Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales
0,FDA15,9.3,Low Fat,0.016047,Dairy,249.8092,OUT049,1999,Medium,Tier 1,Supermarket Type1,3735.138
1,DRC01,5.92,Regular,0.019278,Soft Drinks,48.2692,OUT018,2009,Medium,Tier 3,Supermarket Type2,443.4228
2,FDN15,17.5,Low Fat,0.01676,Meat,141.618,OUT049,1999,Medium,Tier 1,Supermarket Type1,2097.27
3,FDX07,19.2,Regular,0.0,Fruits and Vegetables,182.095,OUT010,1998,,Tier 3,Grocery Store,732.38
4,NCD19,8.93,Low Fat,0.0,Household,53.8614,OUT013,1987,High,Tier 3,Supermarket Type1,994.7052


---

---

#### `LIRE DES FICHIERS REPARTIS SUR PLUSIEURS REPERTOIRES`



- Use the **`glob`** library to list the files in a directory


- Dans le repertoire **multi-directory**, nous avons divisé le même ensemble de données "par année" en plusieurs fichiers et les avons stockés dans plusieurs répertoires.

- On va utiliser la bibliothèque **`glob`** pour lister les fichiers dans un répertoire
---

In [18]:
# importer la librairie
import glob

In [21]:
# lister tous les sous-repertoires présents dans le repertoire
for directory in glob.glob(dataset_path+'/multi-directory/*'):
    print(directory)

/content/drive/MyDrive/Colab Notebooks/IntroMLAMAS2022/reading_csv/datasets//multi-directory/2007
/content/drive/MyDrive/Colab Notebooks/IntroMLAMAS2022/reading_csv/datasets//multi-directory/1985
/content/drive/MyDrive/Colab Notebooks/IntroMLAMAS2022/reading_csv/datasets//multi-directory/2009
/content/drive/MyDrive/Colab Notebooks/IntroMLAMAS2022/reading_csv/datasets//multi-directory/1987
/content/drive/MyDrive/Colab Notebooks/IntroMLAMAS2022/reading_csv/datasets//multi-directory/1997
/content/drive/MyDrive/Colab Notebooks/IntroMLAMAS2022/reading_csv/datasets//multi-directory/1998
/content/drive/MyDrive/Colab Notebooks/IntroMLAMAS2022/reading_csv/datasets//multi-directory/1999
/content/drive/MyDrive/Colab Notebooks/IntroMLAMAS2022/reading_csv/datasets//multi-directory/2002
/content/drive/MyDrive/Colab Notebooks/IntroMLAMAS2022/reading_csv/datasets//multi-directory/2004


---

Tous les repertoires **`1985`**, **`1987`**, **`1997`**, **`1998`**, **`1999`**, **`2002`**, **`2004`**, **`2007`** and **`2009`** contiennent des fichiers CSV. Nous allons les parcourir et les concatener

---

In [22]:
# Parcourir chaque repertoire et voir ses fichiers
for directory in glob.glob(dataset_path+'multi-directory/*'):
    
    for files in glob.glob(directory + '/*'):
        print(files)

/content/drive/MyDrive/Colab Notebooks/IntroMLAMAS2022/reading_csv/datasets/multi-directory/2007/2007.csv
/content/drive/MyDrive/Colab Notebooks/IntroMLAMAS2022/reading_csv/datasets/multi-directory/1985/1985.csv
/content/drive/MyDrive/Colab Notebooks/IntroMLAMAS2022/reading_csv/datasets/multi-directory/2009/2009.csv
/content/drive/MyDrive/Colab Notebooks/IntroMLAMAS2022/reading_csv/datasets/multi-directory/1987/1987.csv
/content/drive/MyDrive/Colab Notebooks/IntroMLAMAS2022/reading_csv/datasets/multi-directory/1997/1997.csv
/content/drive/MyDrive/Colab Notebooks/IntroMLAMAS2022/reading_csv/datasets/multi-directory/1998/1998.csv
/content/drive/MyDrive/Colab Notebooks/IntroMLAMAS2022/reading_csv/datasets/multi-directory/1999/1999.csv
/content/drive/MyDrive/Colab Notebooks/IntroMLAMAS2022/reading_csv/datasets/multi-directory/2002/2002.csv
/content/drive/MyDrive/Colab Notebooks/IntroMLAMAS2022/reading_csv/datasets/multi-directory/2004/2004.csv


---

***Concatener les fichiers.***

---

In [24]:
# Creer une liste de dataframe
data_frame_list = []

# parcourir chaque sous-repertoire
for directory in glob.glob(dataset_path +'multi-directory/*'):
    
    # Parcourir chaque fichier csv,
    for files in glob.glob(directory + '/*'):
        # lire et ajouter le dataframe dans la liste
        data_frame_list.append(pd.read_csv(files))

In [25]:
# concatener les dataframes
final_data = pd.concat(data_frame_list)

In [26]:
final_data.head()

Unnamed: 0.1,Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales
0,9,FDU28,19.2,Regular,0.09445,Frozen Foods,187.8214,OUT017,2007,,Tier 2,Supermarket Type1,4710.535
1,25,NCD06,13.0,Low Fat,0.099887,Household,45.906,OUT017,2007,,Tier 2,Supermarket Type1,838.908
2,53,FDA43,10.895,Low Fat,0.065042,Fruits and Vegetables,196.3794,OUT017,2007,,Tier 2,Supermarket Type1,3121.2704
3,54,NCP18,12.15,Low Fat,0.02876,Household,151.4708,OUT017,2007,,Tier 2,Supermarket Type1,4815.0656
4,73,FDG02,7.855,Low Fat,0.011325,Canned,189.6188,OUT017,2007,,Tier 2,Supermarket Type1,2285.0256


---

#### `STOOCKER LE DATAFRAME DANS UN  CSV`

---

In [28]:
final_data.to_csv(dataset_path + 'merged_big_mart_sales.csv',index=False)

---

#### `Lire un fichier CSV avec un delimiteur spécifique`

---

---

- Par defaut, pandas considere le separateur  ***`,`*** comme delimiteur des fichiers CSV. Mais si le fichier  CSV a un autre  separateur comme ***`[;, \t ]`*** ceci doit être spécifié.



---

In [30]:
# lire les données
data_delimiter = pd.read_csv(dataset_path+'big_mart_sales_delimiter.csv')

In [31]:
# we can see that the seperator used in the CSV is tab `\t`
data_delimiter

Unnamed: 0,Item_Identifier\tItem_Weight\tItem_Fat_Content\tItem_Visibility\tItem_Type\tItem_MRP\tOutlet_Identifier\tOutlet_Establishment_Year\tOutlet_Size\tOutlet_Location_Type\tOutlet_Type\tItem_Outlet_Sales
0,FDA15\t9.3\tLow Fat\t0.016047301\tDairy\t249.8...
1,DRC01\t5.92\tRegular\t0.019278216\tSoft Drinks...
2,FDN15\t17.5\tLow Fat\t0.016760075\tMeat\t141.6...
3,FDX07\t19.2\tRegular\t0.0\tFruits and Vegetabl...
4,NCD19\t8.93\tLow Fat\t0.0\tHousehold\t53.8614\...
...,...
96,FDF41\t12.15\tLow Fat\t0.131383762\tFrozen Foo...
97,FDB56\t8.75\tRegular\t0.07461309\tFruits and V...
98,NCP18\t\tLow Fat\t0.028459761\tHousehold\t149....
99,FDB56\t8.75\tRegular\t0.07462720099999999\tFru...


In [34]:
# Relire le fichier en utilisant cette fois-ci le parametre `delimiter` et `\t`
data_delimiter = pd.read_csv(dataset_path+'big_mart_sales_delimiter.csv',delimiter='\t')

In [35]:
# visualiser les données
data_delimiter.head()

Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales
0,FDA15,9.3,Low Fat,0.016047,Dairy,249.8092,OUT049,1999,Medium,Tier 1,Supermarket Type1,3735.138
1,DRC01,5.92,Regular,0.019278,Soft Drinks,48.2692,OUT018,2009,Medium,Tier 3,Supermarket Type2,443.4228
2,FDN15,17.5,Low Fat,0.01676,Meat,141.618,OUT049,1999,Medium,Tier 1,Supermarket Type1,2097.27
3,FDX07,19.2,Regular,0.0,Fruits and Vegetables,182.095,OUT010,1998,,Tier 3,Grocery Store,732.38
4,NCD19,8.93,Low Fat,0.0,Household,53.8614,OUT013,1987,High,Tier 3,Supermarket Type1,994.7052


---

#### `LIRE LES PREMIERES 'N' LIGNES (QUAND LES DONNÉES SONT VOLUMINEUSES)`

---

In [36]:
# Specifier le nombre de lignes à lire
read_sample_from_data = pd.read_csv(dataset_path +'big_mart_sales.csv',nrows=100)

In [37]:
# shape des données
read_sample_from_data.shape

(100, 12)

In [38]:
# visualiser les données
read_sample_from_data.head()

Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales
0,FDA15,9.3,Low Fat,0.016047,Dairy,249.8092,OUT049,1999,Medium,Tier 1,Supermarket Type1,3735.138
1,DRC01,5.92,Regular,0.019278,Soft Drinks,48.2692,OUT018,2009,Medium,Tier 3,Supermarket Type2,443.4228
2,FDN15,17.5,Low Fat,0.01676,Meat,141.618,OUT049,1999,Medium,Tier 1,Supermarket Type1,2097.27
3,FDX07,19.2,Regular,0.0,Fruits and Vegetables,182.095,OUT010,1998,,Tier 3,Grocery Store,732.38
4,NCD19,8.93,Low Fat,0.0,Household,53.8614,OUT013,1987,High,Tier 3,Supermarket Type1,994.7052


---

#### `LIRE DES COLONNES SPECIFIQUES`


- Si l'ensemble de données comporte un grand nombre de colonnes, il est impossible de toutes les parcourir en une seule fois, nous ne pouvons donc lire que des colonnes spécifiques à la fois.

----

In [39]:
# Lire des colonnes specifiques
read_specific_columns = pd.read_csv(dataset_path+ 'big_mart_sales.csv', usecols= ['Item_Identifier', 
                                                                             'Item_Type',
                                                                             'Item_MRP',
                                                                             'Item_Outlet_Sales'])
read_specific_columns

Unnamed: 0,Item_Identifier,Item_Type,Item_MRP,Item_Outlet_Sales
0,FDA15,Dairy,249.8092,3735.1380
1,DRC01,Soft Drinks,48.2692,443.4228
2,FDN15,Meat,141.6180,2097.2700
3,FDX07,Fruits and Vegetables,182.0950,732.3800
4,NCD19,Household,53.8614,994.7052
...,...,...,...,...
8518,FDF22,Snack Foods,214.5218,2778.3834
8519,FDS36,Baking Goods,108.1570,549.2850
8520,NCJ29,Health and Hygiene,85.1224,1193.1136
8521,FDN46,Snack Foods,103.1332,1845.5976


---