<a href="https://colab.research.google.com/github/annefrancine/Introduction-python/blob/master/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Pandas est une librairie python qui permet de manipuler facilement des données à analyser :
*	Manipuler des tableaux de données avec des étiquettes de variables (colonnes) et d'individus (lignes).
*	Ces tableaux sont appelés DataFrames
*	On peut facilement lire et écrire ces dataframes à partir ou vers un fichier tabulé.
*	On peut tracer des graphes à partir de ces DataFrames grâce à matplotlib

https://pandas.pydata.org/pandas-docs/stable/


In [1]:
# Pour commencer
import pandas as pd
import numpy as np

In [None]:
print(pd.__version__)

1.0.5


## 1) Création de series

Création d'une série, c'est à dire d'un vecteur de valeurs d'une variable (en général valeurs pour différents individus)

In [None]:
s = pd.Series([1, 2, 5, 7]) # série numérique entière
s

0    1
1    2
2    5
3    7
dtype: int64

In [None]:
i = pd.Series([1.3, 2, 5.3, 7]) # série numérique flottante
i

0    1.3
1    2.0
2    5.3
3    7.0
dtype: float64

In [None]:
j= pd.Series(0, index = range(5))# série avec cinq 0
j

0    0
1    0
2    0
3    0
4    0
dtype: int64

## 2) Création de Dataframes

Les Dataframes correspondent au format de données que l’on rencontre classiquement en économie, des tableaux à deux dimensions, avec des variables en colonnes et des observations en ligne. Les colonnes et lignes des dataframes sont indexées.

Un dataframe se comporte comme un dictionnaire dont les clefs sont les noms des colonnes et les valeurs sont des séries.

* on peut le créer à partir d'une array numpy (mais ce n'est pas très pratique et le type des données est le même pour toutes les colonnes, ici float64) :

In [None]:
ar = np.array([[1.1, 2, 3.3, 4], [2.7, 10, 5.4, 7], [5.3, 9, 1.5, 15]])
df = pd.DataFrame(ar, index = ['a1', 'a2', 'a3'], columns = ['A', 'B', 'C', 'D'])
df
# attention : si on modifie l'array numpy, cela modifie aussi le dataframe.

Unnamed: 0,A,B,C,D
a1,1.1,2.0,3.3,4.0
a2,2.7,10.0,5.4,7.0
a3,5.3,9.0,1.5,15.0


* on peut aussi créer le dataframe avec un dictionnaire :

In [14]:
dico = {"height" : 
               [58, 59, 60, 61, 62,
                63, 64, 65, 66, 67,
                68, 69, 70, 71, 72],
        "weight": 
               [115, 117, 120, 123, 126,
                129, 132, 135, 139, 142,
                146, 150, 154, 159, 164]
       } 
df = pd.DataFrame(dico)
print(df)

    height  weight
0       58     115
1       59     117
2       60     120
3       61     123
4       62     126
5       63     129
6       64     132
7       65     135
8       66     139
9       67     142
10      68     146
11      69     150
12      70     154
13      71     159
14      72     164


In [None]:
data = pd.DataFrame({'A': [1.1, 2.7, 5.3], 'B': [2, 10, 9], 'C': [3.3, 5.4, 1.5], 'D': [4, 7, 15]},
                      index = ['a1', 'a2', 'a3'])
data

Unnamed: 0,A,B,C,D
a1,1.1,2,3.3,4
a2,2.7,10,5.4,7
a3,5.3,9,1.5,15


In [None]:
data.dtypes

A    float64
B      int64
C    float64
D      int64
dtype: object

In [None]:
data.shape

(3, 4)

La position des éléments dans le dataframe sert d’index. Comme pour les séries, les valeur sont accessibles dans l’attribut values et l’index dans l’attribut index. Les colonnes sont également indexées :

In [None]:
print(df.columns)

Index(['height', 'weight'], dtype='object')


La méthode head() permet d’afficher les premières lignes (les 5 premières, par défaut). On peut modifier son paramètre n pour indiquer le nombre de lignes à retourner :

In [None]:
df.head(2)

Unnamed: 0,height,weight
0,58,115
1,59,117


Lors de la création d’un dataframe à partir d’un dictionnaire, si on précise le nom des colonnes à importer par une liste de chaînes de caractères fournie au paramètree columns de la fonction DataFrame, on peut non seulement définir les colonnes à remplir mais également leur ordre d’apparition.

Par exemple, pour n’importer que la colonne weight :

In [None]:
df = pd.DataFrame(dico, columns = ["weight"])
print(df.head(2))

Et pour définir l’ordre dans lequel les colonnes apparaîtront :

In [None]:
df = pd.DataFrame(dico, columns = ["weight", "height"])
print(df.head(2))

Si on indique un nom de colonne absent parmi les clés du dictionnaires, le dataframe résultant contiendra une colonne portant ce nom mais remplie de valeurs NaN :

In [None]:
df = pd.DataFrame(dico, columns = ["weight", "height", "age"])
print(df.head(2))

   weight  height  age
0     115      58  NaN
1     117      59  NaN


Un dataframe peut être créé à partir d’une série 

In [None]:
s = pd.Series([1, 4, -1, np.nan], index = ["o", "d", "i", "l"])
s.name = "nom_variable"
df = pd.DataFrame(s, columns = ["nom_variable"])
print(df)

   nom_variable
o           1.0
d           4.0
i          -1.0
l           NaN


Si on n’attribue pas de nom à la série, il suffit de ne pas renseigner le paramètre columns de la fonction DataFrame. Mais dans ce cas, la colonne n’aura pas de non, juste un index numérique.

In [None]:
s = pd.Series([1, 4, -1, np.nan], index = ["o", "d", "i", "l"])
df = pd.DataFrame(s)
print(df)

     0
o  1.0
d  4.0
i -1.0
l  NaN


On accède aux dimensions d’un dataframe avec l’attribut shape.

In [None]:
print("shape : ", df.shape)

shape :  (4, 1)


On peut aussi afficher le nombre de lignes comme suit :

In [None]:
print("shape : ", len(df))

shape :  4


## 3) Selection
3.1) Séries

Dans un premier temps, regardons les manières d’extraire des valeurs contenues dans des séries. On peut utiliser l’index pour extraire les données :

In [3]:
s = pd.Series([1, 4, -1, np.nan, .5, 1])
s

0    1.0
1    4.0
2   -1.0
3    NaN
4    0.5
5    1.0
dtype: float64

In [4]:
s[0] # 1er élément de s
s[1:3] # du 2e élément (inclus) au 4e (non inclus)
s[[0,4]] # 1er et 5e éléments

0    1.0
4    0.5
dtype: float64

Quand on veut changer une cellule d'un dataframe en utilisant à la fois un numéro de ligne et un nom de colonne 

```
df.loc[df.index[3], 'A']
```





In [6]:
s_num = pd.Series([1, 4, -1, np.nan],
             index = [5, 0, 4, 1])
s_texte = pd.Series([1, 4, -1, np.nan],
             index = ["c", "a", "b", "d"])
s_texte

c    1.0
a    4.0
b   -1.0
d    NaN
dtype: float64

In [7]:
s_num

5    1.0
0    4.0
4   -1.0
1    NaN
dtype: float64

Pour extraire un objet avec loc, on utilise le nom de l’indice :

In [8]:
print(s_num.loc[5], s_texte.loc["c"])

1.0 1.0


Pour extraire un élément unique avec iloc, il suffit d’indiquer sa position :

In [9]:
(s_num.iloc[1], s_texte.iloc[1])

(4.0, 4.0)

Pour extraire plusieurs éléments avec loc, on utilise les noms (labels) des indices, que l’on fournit dans une liste :


In [10]:
print("éléments aux labels 5 et 4 :\n", s_num.loc[[5,4]])

éléments aux labels 5 et 4 :
 5    1.0
4   -1.0
dtype: float64


Pour extraire plusieurs éléments avec iloc :

In [11]:
print("éléments aux positions 0 et 2 :\n", s_num.iloc[[0,2]])

éléments aux positions 0 et 2 :
 5    1.0
4   -1.0
dtype: float64


On peut effectuer des découpages de séries, pour récupérer des éléments consécutifs 

In [12]:
print("éléments des labels 5 jusqu'à 4 :\n", s_num.loc[5:4])

éléments des labels 5 jusqu'à 4 :
 5    1.0
0    4.0
4   -1.0
dtype: float64


Pour extraire plusieurs éléments avec iloc :


In [13]:
print("éléments aux positions de 0 à 2 :\n", s_num.iloc[0:2])

éléments aux positions de 0 à 2 :
 5    1.0
0    4.0
dtype: float64


3.2) Dataframe

À présent, regardons différentes manières d’extraire des données depuis un dataframe. Créons deux dataframes en exemple, l’une avec un index numérique ; une autre avec un index textuel :

In [21]:
dico = {"height" : 
               [58, 59, 60, 61, 62,
                63, 64, 65, 66, 67,
                68, 69, 70, 71, 72],
        "weight": 
               [115, 117, 120, 123, 126,
                129, 132, 135, 139, 142,
                146, 150, 154, 159, 164]
       } 
df = pd.DataFrame(dico)
print(df)

    height  weight
0       58     115
1       59     117
2       60     120
3       61     123
4       62     126
5       63     129
6       64     132
7       65     135
8       66     139
9       67     142
10      68     146
11      69     150
12      70     154
13      71     159
14      72     164


In [15]:
df

Unnamed: 0,height,weight
0,58,115
1,59,117
2,60,120
3,61,123
4,62,126
5,63,129
6,64,132
7,65,135
8,66,139
9,67,142


Pour faire simple, lorsqu’on veut effectuer une extraction avec les attributs iloc, la syntaxe est la suivante :

```
df.iloc[selection_lignes, selection_colonnes]
```

avec selection_lignes :

* une valeur unique : 1 (seconde ligne) ;
* une liste de valeurs : [2, 1, 3] (3e ligne, 2e ligne et 4e ligne) ;
* un découpage : [2:4] (de la 3e ligne à la 4e ligne (non incluse)).

pour selection_colonnes 
* une valeur unique : 1 (seconde colonne) ;
* une liste de valeurs : [2, 1, 3] (3e colonne, 2e colonne et 4e colonne) ;
* un découpage : [2:4] (de la 3e colonne à la 4e colonne (non incluse)).


In [18]:
print("Colonnes de la position 0 à 2 (non incluse) :\n", 
      df.iloc[:1])

Colonnes de la position 0 à 2 (non incluse) :
    height  weight
0      58     115


Pour renommer une colonne dans un dataframe, pandas propose la méthode rename()

In [22]:
df.rename(index=str, columns={"height": "taille", "weight": "masse"}, inplace=True)
print(df)

    taille  masse
0       58    115
1       59    117
2       60    120
3       61    123
4       62    126
5       63    129
6       64    132
7       65    135
8       66    139
9       67    142
10      68    146
11      69    150
12      70    154
13      71    159
14      72    164


In [23]:
dc = {"height" : [58, 59, 60, 61, 62],
        "weight": [115, 117, 120, 123, 126],
        "age": [28, 33, 31, 31, 29],
        "taille": [162, 156, 172, 160, 158],
       } 
df = pd.DataFrame(dc)
print(df)

   height  weight  age  taille
0      58     115   28     162
1      59     117   33     156
2      60     120   31     172
3      61     123   31     160
4      62     126   29     158


L’idée consiste à créer un masque retournant une série contenant des valeurs booléennes, une par ligne. Lorsque la valeur de la ligne du masque vaut True, la ligne du dataframe sur lequel sera appliqué le masque sera retenue, tandis qu’elle ne le sera pas quand la valeur de la ligne du masque vaut False.

Regardons un exemple simple, dans lequel nous souhaitons conserver les observations uniquement pour lesquelles la valeur de la variable age est inférieure à 30 :

In [24]:
# Filtrage
masque = df["age"] < 30
print(masque)

0     True
1    False
2    False
3    False
4     True
Name: age, dtype: bool


Il reste alors à appliquer ce masque, avec loc. On souhaite l’ensemble des colonnes, mais seulement quelques lignes :

In [25]:
print(df.loc[masque])

   height  weight  age  taille
0      58     115   28     162
4      62     126   29     158


Plus simplement, on peut utiliser la méthode query() de pandas. On fournit une expression booléenne à évaluer à cette méthode pour filtrer les données :

In [26]:
print(df.query("age<30"))

   height  weight  age  taille
0      58     115   28     162
4      62     126   29     158


In [27]:
print(df.query("weight > 120 and height < 62"))

   height  weight  age  taille
3      61     123   31     160


Avec la méthode isnull(), un masque de booléens est retournée, indiquant True pour les observations dont la valeur est NaN ou None (valeurs manquantes) :

In [28]:
print(df.isnull())

   height  weight    age  taille
0   False   False  False   False
1   False   False  False   False
2   False   False  False   False
3   False   False  False   False
4   False   False  False   False


Pour savoir si une valeur n’est pas nulle, on dispose de la méthode notnull() :

In [29]:
print(s.notnull())

0     True
1     True
2     True
3    False
4     True
5     True
dtype: bool


La méthode dropna() permet quant à elle de retirer les observations disposant de valeurs nulles :

In [30]:
s = pd.Series([1, None, -1, np.nan])
print(s)

0    1.0
1    NaN
2   -1.0
3    NaN
dtype: float64


In [31]:
print(s.dropna())

0    1.0
2   -1.0
dtype: float64


Pour supprimer une valeur sur un des axes d’une série ou d’un dataframe, NumPy propose la méthode drop()

In [35]:
s_num = pd.Series([1, 4, -1, np.nan],
             index = [5, 0, 4, 1])
s_texte = pd.Series([1, 4, -1, np.nan],
             index = ["c", "a", "b", "d"])
dico = {"height" : [58, 59, 60, 61, np.nan],
        "weight": [115, 117, 120, 123, 126],
        "age": [28, 33, 31, np.nan, 29],
        "taille": [162, 156, 172, 160, 158],
       } 
df = pd.DataFrame(dico)

In [36]:
print("Supprimer la première ligne :  \n", df.drop(0))

Supprimer la première ligne :  
    height  weight   age  taille
1    59.0     117  33.0     156
2    60.0     120  31.0     172
3    61.0     123   NaN     160
4     NaN     126  29.0     158


Pour supprimer plusieurs lignes, on donne le nom de ces lignes dans une liste à la méthode drop() :

In [37]:
print("Supprimer les 1ère et 4e lignes :  \n", df.drop([1,3]))

Supprimer les 1ère et 4e lignes :  
    height  weight   age  taille
0    58.0     115  28.0     162
2    60.0     120  31.0     172
4     NaN     126  29.0     158


Pour supprimer une colonne d’un dataframe, on procède de la même manière que pour les lignes, mais en ajoutant le paramètre axis=1 à la méthode drop() pour préciser que l’on s’intéresse aux colonnes :

In [39]:
print("Supprimer la première colonne :  \n", df.drop("height", axis=1))

Supprimer la première colonne :  
    weight   age  taille
0     115  28.0     162
1     117  33.0     156
2     120  31.0     172
3     123   NaN     160
4     126  29.0     158


Pour modifier une valeur particulière dans une série ou dans un dataframe, on peut utiliser le symbole égale (=) en ayant au préalable ciblé l’emplacement de la valeur à modifier

In [40]:
dico = {"ville" : ["Marseille", "Aix",
                   "Marseille", "Aix", "Paris", "Paris"],
        "annee": [2019, 2019, 2018, 2018,2019, 2019],
        "x": [1, 2, 2, 2, 0, 0],
        "y": [3, 3, 2, 1, 4, 4],
       } 
df = pd.DataFrame(dico)
print("df : \n", df)

df : 
        ville  annee  x  y
0  Marseille   2019  1  3
1        Aix   2019  2  3
2  Marseille   2018  2  2
3        Aix   2018  2  1
4      Paris   2019  0  4
5      Paris   2019  0  4


odifions la valeur de la première ligne de df pour la colonne annee, pour que celle-ci vaille 2020. Dans un premier temps, récupérons la position de la colonne annee dans le dataframe, à l’aide de la méthode get_loc() appliquée à l’attribut colnames du dataframe :

In [41]:
pos_annee = df.columns.get_loc("annee")
print("pos_annee : ", pos_annee)

pos_annee :  1


In [42]:
# Ensuite, effectuons la modification :
df.iloc[0,pos_annee] = 2020
print("df : \n", df)

df : 
        ville  annee  x  y
0  Marseille   2020  1  3
1        Aix   2019  2  3
2  Marseille   2018  2  2
3        Aix   2018  2  1
4      Paris   2019  0  4
5      Paris   2019  0  4


Pour modifier toutes les valeurs d’une colonne pour y placer une valeur particulière, par exemple un 2 dans la colonne x de df :



In [43]:
df.x = 2
print("df : \n", df)

df : 
        ville  annee  x  y
0  Marseille   2020  2  3
1        Aix   2019  2  3
2  Marseille   2018  2  2
3        Aix   2018  2  1
4      Paris   2019  2  4
5      Paris   2019  2  4


Pour remplacer plusieurs colonnes en même temps :

In [44]:
df[["x", "y"]] = [[2, 3, 4, 2, 1, 0], 1]
print("df : \n", df)

df : 
        ville  annee  x  y
0  Marseille   2020  2  1
1        Aix   2019  3  1
2  Marseille   2018  4  1
3        Aix   2018  2  1
4      Paris   2019  1  1
5      Paris   2019  0  1


Pour retirer les valeurs dupliquées dans un dataframe, NumPy propose la méthode drop_duplicates(), qui prend plusieurs paramètres optionnels :

* subset : en indiquant un ou plusieurs noms de colonnes, la recherche de doublons se fait uniquement sur ces colonnes ;
keep : permet d’indiquer quelle observation garder en cas de doublons identifies :

* si keep='first', tous les doublons sont retirés sauf la première occurrence,
si keep='last', tous les doublons sont retirés sauf la dernière occurrence, -si keep='False', tous les doublons sont retirés ;

* inplace : booléen (défaut : False) pour indiquer si le retrait des doublons doit s’effectuer sur le dataframe ou bien si une copie doit être retournée (par défaut).

In [45]:
dico = {"ville" : ["Marseille", "Aix",
                   "Marseille", "Aix", "Paris", "Paris"],
        "annee": [2019, 2019, 2018, 2018,2019, 2019],
        "x": [1, 2, 2, 2, 0, 0],
        "y": [3, 3, 2, 1, 4, 4],
       } 
df = pd.DataFrame(dico)
print(df)

       ville  annee  x  y
0  Marseille   2019  1  3
1        Aix   2019  2  3
2  Marseille   2018  2  2
3        Aix   2018  2  1
4      Paris   2019  0  4
5      Paris   2019  0  4


In [46]:
# Pour retirer les doublons :
print(df.drop_duplicates())

       ville  annee  x  y
0  Marseille   2019  1  3
1        Aix   2019  2  3
2  Marseille   2018  2  2
3        Aix   2018  2  1
4      Paris   2019  0  4


Pour retirer les doublons identifiés quand on se concentre sur le nom des villes, et en conservant uniquement la première valeur :

In [47]:
print(df.drop_duplicates(subset = ["ville"], keep = 'first'))

       ville  annee  x  y
0  Marseille   2019  1  3
1        Aix   2019  2  3
4      Paris   2019  0  4


Il est aisé de trier un dataframe par ordre croissant ou décroissant d’une ou plusieurs de ses colonnes. Pour ce faire, on utilise la méthode sort_values(). La syntaxe est la suivante :



```
DataFrame.sort_values(by, axis=0, ascending=True,
                      inplace=False, kind="quicksort",
                      na_position="last")
```
* by : nom ou liste de nom de la ou les colonnes utilisées pour effectuer le tri ;
* axis : 0 pour l’index (par défaut), 1 pour les colonnes
* ascending : booléen ou liste de booléens, quand True le tri est fait par valeurs croissantes (par défaut), quand False il est effectué par valeurs décroissantes
* inplace : si True, le tri affecte le dataframe, sinon il retourne une vue ;
kind : choix de l’algorithme de tri (quicksort (par défaut), mergesort, heapsort) ;
* na_position : si first, les valeurs manquantes sont placées au début ; si last (par défaut), à la fin.


In [48]:
dico = {"height" : [58, 59, 60, 61, 62],
        "weight": [115, np.nan, 120, 123, 126],
        "age": [28, 33, 31, 31, 29],
        "taille": [162, 156, 172, 160, 158],
        "married": [True, True, np.nan, False, True],
        "city": ["A", "B", "B", "B", "A"]
       } 
df = pd.DataFrame(dico)

In [49]:
# Si on trie les valeurs par ordre décroissant des valeurs de la colonne height :
df.sort_values(by="height", ascending=False)

Unnamed: 0,height,weight,age,taille,married,city
4,62,126.0,29,158,True,A
3,61,123.0,31,160,False,B
2,60,120.0,31,172,,B
1,59,,33,156,True,B
0,58,115.0,28,162,True,A


Il est fréquent d’avoir des données en provenance de plusieurs sources lorsque l’on réalise une analyse. Il est alors nécessaire de pouvoir combiner les différentes sources dans une seule (concatenation)

In [50]:
x_1 = pd.DataFrame(np.random.randn(5, 4),
                   columns=["a", "b", "c", "d"])
x_2 = pd.DataFrame(np.random.randn(5, 2),
                   columns = ["e", "f"])
print("x_1 : \n", x_1)

x_1 : 
           a         b         c         d
0  0.494418  1.312459  0.361296  0.515049
1  0.557884 -1.405821  1.523818  0.778057
2  1.422562 -0.537636 -1.028232 -1.203495
3 -1.041744  0.856157  1.055042  0.338324
4 -0.036040 -2.020056 -1.657221  0.448863


In [51]:
print("\nx_2 : \n", x_2)


x_2 : 
           e         f
0  1.181133  0.096114
1 -0.537664 -1.698687
2  0.164414  0.863455
3  0.076421 -0.735140
4 -0.866361  0.145512


Pour “coller” le dataframe x_2 à droite de x_1, on peut utiliser la méthode concat() de pandas. Pour indiquer que la concaténation s’effectue sur les colonnes, on précise la valeur 1 pour le paramètre axix comme suit :

In [52]:
print(pd.concat([x_1, x_2], axis = 1))

          a         b         c         d         e         f
0  0.494418  1.312459  0.361296  0.515049  1.181133  0.096114
1  0.557884 -1.405821  1.523818  0.778057 -0.537664 -1.698687
2  1.422562 -0.537636 -1.028232 -1.203495  0.164414  0.863455
3 -1.041744  0.856157  1.055042  0.338324  0.076421 -0.735140
4 -0.036040 -2.020056 -1.657221  0.448863 -0.866361  0.145512


Pour coller les dataframes les uns en-dessous des autres, on peut utiliser la méthode append()

In [53]:
x_3 = pd.DataFrame(np.random.randn(5, 2),
                   columns = ["e", "f"])
print("x_3 : \n", x_3)

x_3 : 
           e         f
0 -0.708666 -0.910068
1 -1.079794 -0.295148
2 -0.357332  1.471755
3 -0.710064  0.530040
4 -0.789306 -3.041356


In [54]:
print(pd.concat([x_2, x_3], axis = 0))

          e         f
0  1.181133  0.096114
1 -0.537664 -1.698687
2  0.164414  0.863455
3  0.076421 -0.735140
4 -0.866361  0.145512
0 -0.708666 -0.910068
1 -1.079794 -0.295148
2 -0.357332  1.471755
3 -0.710064  0.530040
4 -0.789306 -3.041356


##4 Importation des données

Pour importer des données depuis un fichier CSV, pandas propose la fonction read_csv() :

Parmi les paramètres que l’on utilise fréquemment :

* sep, delimiter : séparateur de champs ;
* decimal : séparateur de décimales ;
* header : numéro(s) de ligne(s) à utiliser comme en-tête des données ;
* skiprows : numéro(s) de ligne(s) à sauter au début ;
* skipfooter : numéro(s) de ligne(s) à sauter à la fin ;
* nrows : nombre de ligne à lire ;
* na_values : chaînes de caractères supplémentaires à considérer comme valeurs manquantes (en plus de #N/A, #N/A N/A, #NA, -1.#IND, -1.#QNAN, -NaN, -nan, 1.#IND, 1.#QNAN, N/A, NA, NULL, NaN, n/a, nan, null) ;
* quotechar : caractère de quote ;
* encoding : encodage des caractères (défaut utf-8). 

In [None]:
# connecter google colab avec google drive
from google.colab import drive
drive.mount('/content/drive')

Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgf4n4g3pfee6491hc0brc4i.apps.googleusercontent.com&redirect_uri=urn%3aietf%3awg%3aoauth%3a2.0%3aoob&scope=email%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdocs.test%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive.photos.readonly%20https%3a%2f%2fwww.googleapis.com%2fauth%2fpeopleapi.readonly&response_type=code

Enter your authorization code:
··········
Mounted at /content/drive


In [None]:
!ls drive/My\ Drive

'Aula 01'
'Aula 02'
 AutoML
 Bicicletas.csv
 Bikes_aula3.ipynb
 Bikes_aula4.ipynb
 Bikes_aula5.ipynb
 Camada-Linear-aula3.2.ipynb
 census.csv
'Classificação-Linear-aula 31.ipynb'
'Colab Notebooks'
'Copie de Modèle de compte-rendu de réunion [gestiondeprojet.pm] Modèle public.gdoc'
 CORD-19-research-challenge.zip
'Cours python-estiam'
 credit-card-clients.csv
 credit-data.csv
'cronograma de estudos (1).gsheet'
'cronograma de estudos (1).xlsx'
'cronograma de estudos DS (1).xlsx'
'curso deep learning-udemy'
'curso pandas'
'curso pytorch'
'Cursos de machine learning'
'curso series temporais (udemy)'
 dadosImagem
 data-science-e-saude-aula3
 DSA
'estatistica python : Alura'
 fifa.csv
'forum cv video.pptx'
 gender_submission.csv
'Geopandas - dados'
'Getting started.pdf'
'house-prices (1).csv'
 imagens
'Imóveis Residenciais(aula pandas).ipynb'
 libras.avi
 mercado.csv
 ml-latest-small
 modulos
 NLP
'Para julho - estudar : .gdoc'
 petr4_1_2010_11_2017.csv
 petr4.csv
 petr4_treinamento.cs

In [None]:
ad = '/content/drive/My Drive/Cours python-estiam/Social_Network_Ads.csv'

In [None]:
ads= pd.read_csv(ad)
ads.head()

Unnamed: 0,User ID,Gender,Age,EstimatedSalary,Purchased
0,15624510,Male,19.0,19000.0,0
1,15810944,Male,35.0,20000.0,0
2,15668575,Female,26.0,43000.0,0
3,15603246,Female,27.0,57000.0,0
4,15804002,Male,19.0,76000.0,0


In [None]:
ads.tail()

Unnamed: 0,User ID,Gender,Age,EstimatedSalary,Purchased
395,15691863,Female,46.0,41000.0,1
396,15706071,Male,51.0,23000.0,1
397,15654296,Female,50.0,20000.0,1
398,15755018,Male,36.0,33000.0,0
399,15594041,Female,49.0,36000.0,1


In [None]:
ads.shape

(400, 5)

In [None]:
ads.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   User ID          400 non-null    int64  
 1   Gender           400 non-null    object 
 2   Age              400 non-null    float64
 3   EstimatedSalary  400 non-null    float64
 4   Purchased        400 non-null    int64  
dtypes: float64(2), int64(2), object(1)
memory usage: 15.8+ KB


In [None]:
ads.columns

Index(['User ID', 'Gender', 'Age', 'EstimatedSalary', 'Purchased'], dtype='object')

In [None]:
# describe retourne un résumé statistique des données
ads.describe()

Unnamed: 0,User ID,Age,EstimatedSalary,Purchased
count,400.0,400.0,400.0,400.0
mean,15691540.0,37.655,69742.5,0.3575
std,71658.32,10.482877,34096.960282,0.479864
min,15566690.0,18.0,15000.0,0.0
25%,15626760.0,29.75,43000.0,0.0
50%,15694340.0,37.0,70000.0,0.0
75%,15750360.0,46.0,88000.0,1.0
max,15815240.0,60.0,150000.0,1.0


In [None]:
# changer les noms de colonnes 
ads.rename (columns={'EstimatedSalary':'Salaire'})

Unnamed: 0,User ID,Gender,Age,Salaire,Purchased
0,15624510,Male,19.0,19000.0,0
1,15810944,Male,35.0,20000.0,0
2,15668575,Female,26.0,43000.0,0
3,15603246,Female,27.0,57000.0,0
4,15804002,Male,19.0,76000.0,0
...,...,...,...,...,...
395,15691863,Female,46.0,41000.0,1
396,15706071,Male,51.0,23000.0,1
397,15654296,Female,50.0,20000.0,1
398,15755018,Male,36.0,33000.0,0
