# <center>**IMPORTATION DES DONNEES AVEC PANDAS**

Par [Josué AFOUDA](https://afouda-datascience.com/)

Avant d'analyser vos données et construire des modèles de prédiction à partir de ces données, vous devez nécessairement importer vos données. 

Dans ce tutoriel, vous apprendrez à importer des données provenant de fichiers textes comme ***.txt***, ***.csv***, fichiers excels (***.xlsx***).

Le principal outil que nous utiliserons dans ce tutorial est la librairie **Pandas**.

![pandas.png](attachment:pandas.png)

[Pandas](https://pandas.pydata.org/) permet de réaliser l'intégralité d'une analyse de données en manipulant des dataframes. La dataframe Pandas est l'analogue pythonique de la dataframe du langage R. Dans une dataframe, les données se présentent sous forme de tableau (lignes et colonnes). Plus précisément, dans une dataframe on parle d'observations (pour désigner les lignes) et de variables (pour désigner les colonnes).

In [1]:
# Importation de Pandas

import pandas as pd

# <font color=blue> Importation des fichiers textes

Pour importer des fichiers textes en tant que dataframe, vous utiliserez principalement la fonction [read_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) de Pandas.

In [3]:
# Aide sur la fonction read_csv

help(pd.read_csv)

Help on function read_csv in module pandas.io.parsers:

read_csv(filepath_or_buffer: Union[str, pathlib.Path, IO[~AnyStr]], sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal: str = '.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, dialect=None, error_bad_lines=True, warn_bad_lines=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)
    Read a comma-separated values (csv) file in

Importons le célèbre jeu de données *titanic*. Le seul argument de la fonction ***read_csv*** que vous devez absolument spécifié est : ***filepath_or_buffer***. Cet argument indique le chemin de votre fichier. 

In [4]:
# Importation des données du titanic ('titanic.csv')

df = pd.read_csv(filepath_or_buffer = 'titanic.csv') # pd.read_csv('titanic.csv')

# Affichage des cinq premières lignes de la dataframe df

df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


Etant donné que le fichier *titanic.csv* est dans le même emplacement (dossier) que le notebook actuel, alors vous avez eu juste besoin de mettre **titanic.csv** (nom du fichier + extension) comme valeur de l'argument *filepath_or_buffer* de la fonction *read_csv*.

Un cas souvent rencontré est le fait de disposer d'une adresse url de voytre fichier texte.

In [5]:
# Importaion d'un fichier csv à partir d'une url

titanic_url = 'https://raw.githubusercontent.com/JosueAfouda/TUTORIALS/main/titanic.csv'

df = pd.read_csv(titanic_url)

In [6]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Par défaut, Pandas donne des numéros pour identifier de manière unique chaque ligne de la dataframe. C'est ce qu'on appelle les indices de lignes. La première ligne est d'indice 0. Il arrive parfois qu'on veuille définir les valeurs d'une colonne de la dataframe comme étant les indices de ligne.

In [7]:
# importation du fichier 'world_happiness.csv'

url = 'https://raw.githubusercontent.com/JosueAfouda/Statistics-with-Python/main/world_happiness.csv'

wh = pd.read_csv(url)

wh.head()

Unnamed: 0.1,Unnamed: 0,country,social_support,freedom,corruption,generosity,gdp_per_cap,life_exp,happiness_score
0,1,Finland,2.0,5.0,4.0,47.0,42400,81.8,155
1,2,Denmark,4.0,6.0,3.0,22.0,48300,81.0,154
2,3,Norway,3.0,3.0,8.0,11.0,66300,82.6,153
3,4,Iceland,1.0,7.0,45.0,3.0,47900,83.0,152
4,5,Netherlands,15.0,19.0,12.0,7.0,50500,81.8,151


In [8]:
# shape de la dataframe wh et nombre de valeurs distinctes de la variable 'Unnamed: 0'

print(wh.shape)

print(wh['Unnamed: 0'].nunique())

(143, 9)
143


La dataframe *wh* contient 143 lignes et la variable 'Unnamed: 0' contient 143 valeurs uniques. Donc cette variable peut servir à identifier de manière unique chaque observation de la dataframe *wh*.

In [9]:
# (Re)importation du fichier 'world_happiness.csv'

wh = pd.read_csv(url, index_col = 0)

wh.head()

Unnamed: 0,country,social_support,freedom,corruption,generosity,gdp_per_cap,life_exp,happiness_score
1,Finland,2.0,5.0,4.0,47.0,42400,81.8,155
2,Denmark,4.0,6.0,3.0,22.0,48300,81.0,154
3,Norway,3.0,3.0,8.0,11.0,66300,82.6,153
4,Iceland,1.0,7.0,45.0,3.0,47900,83.0,152
5,Netherlands,15.0,19.0,12.0,7.0,50500,81.8,151


L'argument ***index_col*** permet de spécifier la colonne dont les valeurs seront utilisées comme étiquettes de lignes. Ici en mettant, *index_col = 0*, on a spécifié la première colonne comme inices de ligne.

Cet argument est très utile surtout lors de l'importation de séries temporelles. Il peut aussi prendre comme valeur, le nom de la variable qu'on veut transformer en index de lignes.

In [10]:
# Importation des données du fichier 'annual_rainfall_dallas.csv'

url_rainfall = 'https://raw.githubusercontent.com/JosueAfouda/Statistics-with-Python/main/annual_rainfall_dallas.csv'

rainfall = pd.read_csv(url_rainfall)

rainfall.head()

Unnamed: 0,Year,Total
0,2019,34.52
1,2018,55.97
2,2017,36.62
3,2016,35.48
4,2015,62.61


In [11]:
rainfall = pd.read_csv(url_rainfall, index_col = 'Year')

rainfall.head()

Unnamed: 0_level_0,Total
Year,Unnamed: 1_level_1
2019,34.52
2018,55.97
2017,36.62
2016,35.48
2015,62.61


L'argument ***parse_dates*** est aussi très utile pour l'importation de séries temporelles.

In [12]:
# Importation des données du fichier 'dow_jones_2007_2017.csv'

url_dowjones = 'https://raw.githubusercontent.com/JosueAfouda/Stock-Market-Price-Prediction/master/dow_jones_2007_2017.csv'

dowjones = pd.read_csv(url_dowjones)

dowjones.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2007-12-03,13368.219727,13407.240234,13296.280273,13314.570313,13314.570313,212170000
1,2007-12-04,13311.240234,13316.280273,13237.589844,13248.730469,13248.730469,204940000
2,2007-12-05,13244.009766,13460.240234,13244.009766,13444.959961,13444.959961,256800000
3,2007-12-06,13445.849609,13632.900391,13426.179688,13619.889648,13619.889648,197270000
4,2007-12-07,13618.269531,13668.099609,13601.360352,13625.580078,13625.580078,179420000


In [13]:
# Les indices de ligne sont maintenant au format datetime

dowjones = pd.read_csv(url_dowjones, index_col = 0, parse_dates=True)

dowjones.head()

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2007-12-03,13368.219727,13407.240234,13296.280273,13314.570313,13314.570313,212170000
2007-12-04,13311.240234,13316.280273,13237.589844,13248.730469,13248.730469,204940000
2007-12-05,13244.009766,13460.240234,13244.009766,13444.959961,13444.959961,256800000
2007-12-06,13445.849609,13632.900391,13426.179688,13619.889648,13619.889648,197270000
2007-12-07,13618.269531,13668.099609,13601.360352,13625.580078,13625.580078,179420000


In [14]:
type(dowjones.index)

pandas.core.indexes.datetimes.DatetimeIndex

Un cas parfois rencontré est le fait que le fichier de données n'a pas d'en-têtes c'est-à-dire pas de noms de variables. 

In [15]:
# Importation du fichier 'iris.data'

url_iris = 'https://raw.githubusercontent.com/JosueAfouda/Machine-Learning-par-la-pratique-avec-Python/master/iris.data'

iris = pd.read_csv(url_iris)

iris.head()

Unnamed: 0,5.1,3.5,1.4,0.2,Iris-setosa
0,4.9,3.0,1.4,0.2,Iris-setosa
1,4.7,3.2,1.3,0.2,Iris-setosa
2,4.6,3.1,1.5,0.2,Iris-setosa
3,5.0,3.6,1.4,0.2,Iris-setosa
4,5.4,3.9,1.7,0.4,Iris-setosa


La fonction *read_csv* considère par défaut, la première ligne du fichier comme la ligne d'en-têtes. Etant donné que le fichier 'iris.data' ne contient pas d'en-têtes, remarquez que la première observation a été définie comme noms de variabes. Pour régler ce genre de problème, vous devez spécifier l'argument ***header***.

In [16]:
# (Re)Importation du fichier 'iris.data'

iris = pd.read_csv(url_iris, header = None)

iris.head()

Unnamed: 0,0,1,2,3,4
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


En mettant, ***header = None***, vous dites à Pandas que ce fichier ne contient pas d'en-têtes. Ainsi Pandas attribue des numéros à chaque colonne. La première colonne est la colonne 0.

Supposons que vous connaissez les noms de variables. Voici comment vous pouvez spécifier ces noms dans votre imporation en utilisant l'argument ***names*** :

In [17]:
# (Re)Importation du fichier 'iris.data'

iris_names = ['sepal_length', 'sepal_width', 'petal_length' ,'petal_width' ,'class']

iris = pd.read_csv(url_iris, header = None, names = iris_names)

iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


Dans certains cas, vous devez spécifier le délimiteur utilisé dans votre fichier texte (souvent avec les formats *.txt*). Pour ce faire, utilisez l'argument ***sep***.

In [18]:
# Importons le fichier fishcatch.dat.txt

fishes_url = 'http://jse.amstat.org/datasets/fishcatch.dat.txt'

fishes = pd.read_csv(fishes_url)

fishes.head()

Unnamed: 0,1 1 242.0 23.2 25.4 30.0 38.4 13.4 NA
0,2 1 290.0 24.0 26.3 31....
1,3 1 340.0 23.9 26.5 31....
2,4 1 363.0 26.3 29.0 33....
3,5 1 430.0 26.5 29.0 34....
4,6 1 450.0 26.8 29.7 34....


In [19]:
# (Re)Importons le fichier fishcatch.dat.txt

fishes = pd.read_csv(fishes_url, sep = '\s+')

fishes.head()

Unnamed: 0,1,1.1,242.0,23.2,25.4,30.0,38.4,13.4,NA
0,2,1,290.0,24.0,26.3,31.2,40.0,13.8,
1,3,1,340.0,23.9,26.5,31.1,39.8,15.1,
2,4,1,363.0,26.3,29.0,33.5,38.0,13.3,
3,5,1,430.0,26.5,29.0,34.0,36.6,15.1,
4,6,1,450.0,26.8,29.7,34.7,39.2,14.2,


In [20]:
# (Re)Importons le fichier fishcatch.dat.txt

columns = ['Species', 'Weight', 'Length1', 'Length2', 'Length3', 'Height%', 'Width%', 'Sex']


fishes = pd.read_csv(fishes_url, sep = '\s+', names = columns)

fishes.head()

Unnamed: 0,Species,Weight,Length1,Length2,Length3,Height%,Width%,Sex
1,1,242.0,23.2,25.4,30.0,38.4,13.4,
2,1,290.0,24.0,26.3,31.2,40.0,13.8,
3,1,340.0,23.9,26.5,31.1,39.8,15.1,
4,1,363.0,26.3,29.0,33.5,38.0,13.3,
5,1,430.0,26.5,29.0,34.0,36.6,15.1,


Il y a d'autres cas possibles pouvant être rencontrés lors de l'importation de l'importation de fichiers textes. N'hésitez pas à toujours regarder la documentation web de la fonction [read_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) ou à utiliser l'aide avec la fonction *help()*.

# <font color=blue> Importation des fichiers Excel

Excel est omniprésent dans notre quotidien. De ce fait, vous aurez à traiter des feuilles de calcul Excel à un moment donné.

Pour importer les fichiers excel en tant que dataframe dans Python, vous utiliserez pincipalement la fonction [read_excel](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html) de Pandas.

In [21]:
# Aide sur la fonction read_excel

help(pd.read_csv)

Help on function read_csv in module pandas.io.parsers:

read_csv(filepath_or_buffer: Union[str, pathlib.Path, IO[~AnyStr]], sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal: str = '.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, dialect=None, error_bad_lines=True, warn_bad_lines=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)
    Read a comma-separated values (csv) file in

In [22]:
# Importation du fichier 'dev-coder-survey.xlsx'

sondage = pd.read_excel('dev-coder-survey.xlsx')

sondage.head()

Unnamed: 0,"FreeCodeCamp New Developer Survey Responses, 2016",Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 88,Unnamed: 89,Unnamed: 90,Unnamed: 91,Unnamed: 92,Unnamed: 93,Unnamed: 94,Unnamed: 95,Unnamed: 96,Unnamed: 97
0,Source: https://www.kaggle.com/freecodecamp/20...,,,,,,,,,,...,,,,,,,,,,
1,Age,AttendedBootcamp,BootcampFinish,BootcampLoanYesNo,BootcampName,BootcampRecommend,ChildrenNumber,CityPopulation,CodeEventConferences,CodeEventDjangoGirls,...,ResourcePluralSight,ResourceSkillCrush,ResourceStackOverflow,ResourceTreehouse,ResourceUdacity,ResourceUdemy,ResourceW3Schools,SchoolDegree,SchoolMajor,StudentDebtOwe
2,28,0,,,,,,"between 100,000 and 1 million",,,...,,,,,,,,"some college credit, no degree",,20000
3,22,0,,,,,,"between 100,000 and 1 million",,,...,,,,,,1,,"some college credit, no degree",,
4,19,0,,,,,,more than 1 million,,,...,,,,,,,,high school diploma or equivalent (GED),,


Il est conseillé de lire préalablement le fichier avec le logiciel Excel afin de savoir comment bien l'importer dans Pandas.

L'argument ***skiprows*** indique le nombre de lignes à sauter en comptant à partir d la première ligne d'indice 0.

In [23]:
# (Re)Importation du fichier 'dev-coder-survey.xlsx'

sondage2 = pd.read_excel('dev-coder-survey.xlsx', skiprows=2)

sondage2.head()

Unnamed: 0,Age,AttendedBootcamp,BootcampFinish,BootcampLoanYesNo,BootcampName,BootcampRecommend,ChildrenNumber,CityPopulation,CodeEventConferences,CodeEventDjangoGirls,...,ResourcePluralSight,ResourceSkillCrush,ResourceStackOverflow,ResourceTreehouse,ResourceUdacity,ResourceUdemy,ResourceW3Schools,SchoolDegree,SchoolMajor,StudentDebtOwe
0,28.0,0.0,,,,,,"between 100,000 and 1 million",,,...,,,,,,,,"some college credit, no degree",,20000.0
1,22.0,0.0,,,,,,"between 100,000 and 1 million",,,...,,,,,,1.0,,"some college credit, no degree",,
2,19.0,0.0,,,,,,more than 1 million,,,...,,,,,,,,high school diploma or equivalent (GED),,
3,26.0,0.0,,,,,,more than 1 million,,,...,,,,,,,,bachelor's degree,Cinematography And Film,7000.0
4,20.0,0.0,,,,,,"between 100,000 and 1 million",,,...,,,,,,,,"some college credit, no degree",,


En mettant *skiprows = 2*, vous importez les données à partir de la ligne d'indice 2 ce qui veut dire que vous n'importez pas les deux premières lignes.

Par défaut, Pandas importe la première feuille du fichier Excel (feuille d'indice 0). Vous pouvez préciser la feuille à importer en utilisant l'argument ***sheet_name***.

In [24]:
# Importation de la deuxième feuille du fichier 'dev-coder-survey.xlsx'

sondage3 = pd.read_excel('dev-coder-survey.xlsx', skiprows=2, sheet_name=1)

sondage3.head()

Unnamed: 0,Age,AttendedBootcamp,BootcampFinish,BootcampLoanYesNo,BootcampName,BootcampRecommend,ChildrenNumber,CityPopulation,CodeEventConferences,CodeEventDjangoGirls,...,ResourcePluralSight,ResourceSkillCrush,ResourceStackOverflow,ResourceTreehouse,ResourceUdacity,ResourceUdemy,ResourceW3Schools,SchoolDegree,SchoolMajor,StudentDebtOwe
0,27.0,0.0,,,,,,more than 1 million,,,...,,,,,,1.0,1.0,"some college credit, no degree",,
1,34.0,0.0,,,,,,"less than 100,000",,,...,,,1.0,,,1.0,1.0,"some college credit, no degree",,
2,21.0,0.0,,,,,,more than 1 million,,,...,,,,,1.0,1.0,,high school diploma or equivalent (GED),,
3,26.0,0.0,,,,,,"between 100,000 and 1 million",,,...,,,1.0,,,,,"some college credit, no degree",,
4,20.0,0.0,,,,,,"between 100,000 and 1 million",,,...,,,1.0,,,,,bachelor's degree,Information Technology,


Au lieu de spécifier l'indice de la feuille que vous voulez iporter, vous pouvez sépcifier son nom.

In [25]:
# (Re)Importation de la deuxième feuille du fichier 'dev-coder-survey.xlsx'

sondage3 = pd.read_excel('dev-coder-survey.xlsx', skiprows=2, sheet_name='2017')

sondage3.head()

Unnamed: 0,Age,AttendedBootcamp,BootcampFinish,BootcampLoanYesNo,BootcampName,BootcampRecommend,ChildrenNumber,CityPopulation,CodeEventConferences,CodeEventDjangoGirls,...,ResourcePluralSight,ResourceSkillCrush,ResourceStackOverflow,ResourceTreehouse,ResourceUdacity,ResourceUdemy,ResourceW3Schools,SchoolDegree,SchoolMajor,StudentDebtOwe
0,27.0,0.0,,,,,,more than 1 million,,,...,,,,,,1.0,1.0,"some college credit, no degree",,
1,34.0,0.0,,,,,,"less than 100,000",,,...,,,1.0,,,1.0,1.0,"some college credit, no degree",,
2,21.0,0.0,,,,,,more than 1 million,,,...,,,,,1.0,1.0,,high school diploma or equivalent (GED),,
3,26.0,0.0,,,,,,"between 100,000 and 1 million",,,...,,,1.0,,,,,"some college credit, no degree",,
4,20.0,0.0,,,,,,"between 100,000 and 1 million",,,...,,,1.0,,,,,bachelor's degree,Information Technology,


Certains arguments présents au niveau de la fonction ***read_csv*** sont aussi présents au niveau de la fonction ***read_excel***. On peut citer par exemple : *header*, *names*, *parse_dates*, etc.