# Introduction

Pandas est une librairie python qui permet de manipuler facilement des données à analyser :

+ manipuler des tableaux de données avec des étiquettes de variables (colonnes) et d'individus (lignes).
+ ces tableaux sont appelés DataFrames, similaires aux dataframes sous R.
+ on peut facilement lire et écrire ces dataframes à partir ou vers un fichier tabulé.
+ on peut faciler tracer des graphes à partir de ces DataFrames grâce à matplotlib.

# Séries

Les séries sur **Pandas** sont des tableaux étiquetés unidimensionnel capable de contenir des données de tout type (entier, string, float, objects, etc.). Les étiquettes sont appelées le plus souvent index. Nous pouvons voir une série comme une colonne sur une feuille Excel.

Avant tout d'abord, il faut commencé par importer **pandas**

In [5]:
import pandas as pd
pd.Series?

## Création d'une séries

Les Séries sur **pandas** peuvent etre créer à partir d'une liste, d'un tableau, d'un dictionnaire, d'un scalaire, etc.

### Création d'une série à partir d'une liste

In [6]:
etudiants = ['Ngor', 'Niokhor', 'Dibor']
pd.Series(etudiants)

0       Ngor
1    Niokhor
2      Dibor
dtype: object

In [7]:
nombres = [1, 2, 3,5]
pd.Series(nombres)

0    1
1    2
2    3
3    5
dtype: int64

In [8]:
etudiants = ['Ngor', 'Niokhor', None]
pd.Series(etudiants)

0       Ngor
1    Niokhor
2       None
dtype: object

In [9]:
nombres = [1, 2, None]
pd.Series(nombres)

0    1.0
1    2.0
2    NaN
dtype: float64

### Création d'une série à partir d'un tableau numpy

In [10]:
import numpy as np

etudiants = np.array(['Ngor','Niokhor','Dibor','Gnilane'])


In [11]:
etudiants

array(['Ngor', 'Niokhor', 'Dibor', 'Gnilane'], dtype='<U7')

In [12]:
ser = pd.Series(etudiants)
print(ser)

0       Ngor
1    Niokhor
2      Dibor
3    Gnilane
dtype: object


### Création d'une série à partir d'un dictionnaire

In [13]:
sports = {'Tir à l\'arc': 'Bhutan',
          'Golf': 'Ecosse',
          'Sumo': 'Japon',
          'Taekwondo': 'Corée du Sud'}
s = pd.Series(sports)

In [14]:
s.index

Index(['Tir à l'arc', 'Golf', 'Sumo', 'Taekwondo'], dtype='object')

In [15]:
s.values

array(['Bhutan', 'Ecosse', 'Japon', 'Corée du Sud'], dtype=object)

Afficher les indexes

In [16]:
s.index

Index(['Tir à l'arc', 'Golf', 'Sumo', 'Taekwondo'], dtype='object')

In [17]:
pd.Series?

Afficher les valeurs

In [18]:
s.values

array(['Bhutan', 'Ecosse', 'Japon', 'Corée du Sud'], dtype=object)

L'index peut etre défini au moment de la création

In [19]:
s = pd.Series(['Tiger', 'Bear', 'Moose'], index=['India', 'America', 'Canada'])
s

India      Tiger
America     Bear
Canada     Moose
dtype: object

In [20]:
sports = {'Tir à l\'arc': 'Bhutan',
          'Golf': 'Ecosse',
          'Sumo': 'Japon',
          'Taekwondo': 'Corée du Sud'}
s = pd.Series(sports, index=['Golf', 'Sumo', 'Hockey'])

In [21]:
s

Golf      Ecosse
Sumo       Japon
Hockey       NaN
dtype: object

# DataFrame

Les Dataframes sont des tableaux à deux dimensions, avec des variables en colonnes et des observations en ligne. Les colonnes et lignes des dataframes sont indexées.

### Création de dataframes à partir d’un dictionnaire

Pour créer un dataframe, on peut fournir à la fonction DataFrame() de pandas un dictionnaire pouvant être transformé en serie. C’est le cas d’un dictionnaire dont les valeurs associées aux clés ont toutes la même longueur :

In [22]:
dico = {"height" : 
               [58, 59, 60, 61, 62,
                63, 64, 65, 66, 67,
                68, 69, 70, 71, 72],
        "weight": 
               [115, 117, 120, 123, 126,
                129, 132, 135, 139, 142,
                146, 150, 154, 159, 164]
       } 

In [23]:
dico

{'height': [58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72],
 'weight': [115,
  117,
  120,
  123,
  126,
  129,
  132,
  135,
  139,
  142,
  146,
  150,
  154,
  159,
  164]}

In [24]:
df = pd.DataFrame(dico)
df

Unnamed: 0,height,weight
0,58,115
1,59,117
2,60,120
3,61,123
4,62,126
5,63,129
6,64,132
7,65,135
8,66,139
9,67,142


Afficher les colonnes 

In [25]:
df.columns

Index(['height', 'weight'], dtype='object')

### head() et tail()

Les méthodes head() et tail() permettent d’afficher les premières lignes (les 5 premières, par défaut) ou les dernières lignes (les 5 dernières, par défaut). On peut ajouter le paramètre **n** pour afficher **n** lignes

In [26]:
#Afficher les 5 premières lignes
df.head()

Unnamed: 0,height,weight
0,58,115
1,59,117
2,60,120
3,61,123
4,62,126


In [27]:
#Afficher les 5 premières lignes
df.tail()

Unnamed: 0,height,weight
10,68,146
11,69,150
12,70,154
13,71,159
14,72,164


Lors de la création d'un **DataFrame**, on peut indiquer les colonnes en paramètre ou bien définir l'ordre d'apparition des colonnes

In [28]:
pd.DataFrame?

In [29]:
df = pd.DataFrame(dico, columns = ["weight", "height"])
print(df.head(2))

   weight  height
0     115      58
1     117      59


In [30]:
df = pd.DataFrame(dico, columns = ["weight"])
print(df.head(2))

   weight
0     115
1     117


**NB:** Si on indique un nom de colonne absent parmi les clés du dictionnaires, le dataframe résultant contiendra une colonne portant ce nom mais remplie de valeurs NaN

In [31]:
df = pd.DataFrame(dico, columns = ["weight", "height", "age"])
print(df.head(2))

   weight  height  age
0     115      58  NaN
1     117      59  NaN


### Création de dataframes à partir d’une série

In [32]:
s = pd.Series([1, 4, -1, np.nan], index = ["o", "d", "i", "l"])
s.name = "nom_variable"

In [33]:
s

o    1.0
d    4.0
i   -1.0
l    NaN
Name: nom_variable, dtype: float64

In [34]:
df = pd.DataFrame(s, columns = ["nom_variable"])
print(df)

   nom_variable
o           1.0
d           4.0
i          -1.0
l           NaN


In [35]:
df1 = pd.DataFrame(s)
print(df1)

   nom_variable
o           1.0
d           4.0
i          -1.0
l           NaN


**NB:** Si on n’attribue pas de nom à la série, il suffit de ne pas renseigner le paramètre columns de la fonction DataFrame. Mais dans ce cas, la colonne n’aura pas de non, juste un index numérique.

In [36]:
s = pd.Series([1, 4, -1, np.nan], index = ["o", "d", "i", "l"])
df = pd.DataFrame(s)
print(df)

     0
o  1.0
d  4.0
i -1.0
l  NaN


### Création de dataframes à partir d’une liste de dictionnaire

In [37]:
dico_1 = {
    "Nom": "Pendragon",
    "Prenom": "Arthur",
    "Role": "Roi de Bretagne",
    "Guerrier": "Ouzin"
}
dico_2 = {
    "Nom": "de Galles",
    "Prenom": "Perceval",
    "Role": "Chevalier du Pays de Galles"
}

In [38]:
dico_1

{'Nom': 'Pendragon',
 'Prenom': 'Arthur',
 'Role': 'Roi de Bretagne',
 'Guerrier': 'Ouzin'}

In [39]:
dico_2

{'Nom': 'de Galles',
 'Prenom': 'Perceval',
 'Role': 'Chevalier du Pays de Galles'}

In [40]:
df = pd.DataFrame([dico_1, dico_2])
print(df)

         Nom    Prenom                         Role Guerrier
0  Pendragon    Arthur              Roi de Bretagne    Ouzin
1  de Galles  Perceval  Chevalier du Pays de Galles      NaN


### Remarque: Dans la pratique, nous allons importer des fichiers excel, csv, sql, etc. 

In [41]:
ls

 Le volume dans le lecteur C n'a pas de nom.
 Le num‚ro de s‚rie du volume est D8A4-9F86

 R‚pertoire de C:\Users\Lenovo\Desktop\python-for-data-science-IPD\Cour 5

10/08/2020  21:00    <DIR>          .
10/08/2020  21:00    <DIR>          ..
01/08/2020  11:05    <DIR>          .ipynb_checkpoints
02/08/2020  17:15           458ÿ236 Data Viz.ipynb
31/07/2020  16:27    <DIR>          donnees
10/08/2020  21:00            89ÿ740 Pandas.ipynb
02/08/2020  17:15            11ÿ541 test.pdf
               3 fichier(s)          559ÿ517 octets
               4 R‚p(s)  549ÿ619ÿ712ÿ000 octets libres


In [44]:
cd ..

C:\Users\Lenovo\Desktop\python-for-data-science-IPD\Cour 5


In [45]:
df=pd.read_csv('donnees/housing.csv', sep=",")

In [46]:
df.head(2)

Unnamed: 0,RM,LSTAT,PTRATIO,MEDV
0,6.575,4.98,15.3,504000.0
1,6.421,9.14,17.8,453600.0


# Manipulation des DataFrame

## Series

In [47]:
df = pd.read_csv('donnees/imdb_1000.csv')

In [48]:
df.head(2)

Unnamed: 0,star_rating,title,content_rating,genre,duration,actors_list
0,9.3,The Shawshank Redemption,R,Crime,142,"[u'Tim Robbins', u'Morgan Freeman', u'Bob Gunt..."
1,9.2,The Godfather,R,Crime,175,"[u'Marlon Brando', u'Al Pacino', u'James Caan']"


In [49]:
df = df.set_index("title")

df.head()

Unnamed: 0_level_0,star_rating,content_rating,genre,duration,actors_list
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
The Shawshank Redemption,9.3,R,Crime,142,"[u'Tim Robbins', u'Morgan Freeman', u'Bob Gunt..."
The Godfather,9.2,R,Crime,175,"[u'Marlon Brando', u'Al Pacino', u'James Caan']"
The Godfather: Part II,9.1,R,Crime,200,"[u'Al Pacino', u'Robert De Niro', u'Robert Duv..."
The Dark Knight,9.0,PG-13,Action,152,"[u'Christian Bale', u'Heath Ledger', u'Aaron E..."
Pulp Fiction,8.9,R,Crime,154,"[u'John Travolta', u'Uma Thurman', u'Samuel L...."


In [50]:
df.index

Index(['The Shawshank Redemption', 'The Godfather', 'The Godfather: Part II',
       'The Dark Knight', 'Pulp Fiction', '12 Angry Men',
       'The Good, the Bad and the Ugly',
       'The Lord of the Rings: The Return of the King', 'Schindler's List',
       'Fight Club',
       ...
       'Law Abiding Citizen', 'Wonder Boys', 'Death at a Funeral',
       'Blue Valentine', 'The Cider House Rules', 'Tootsie',
       'Back to the Future Part III',
       'Master and Commander: The Far Side of the World', 'Poltergeist',
       'Wall Street'],
      dtype='object', name='title', length=979)

In [51]:
df['content_rating']

title
The Shawshank Redemption                               R
The Godfather                                          R
The Godfather: Part II                                 R
The Dark Knight                                    PG-13
Pulp Fiction                                           R
                                                   ...  
Tootsie                                               PG
Back to the Future Part III                           PG
Master and Commander: The Far Side of the World    PG-13
Poltergeist                                           PG
Wall Street                                            R
Name: content_rating, Length: 979, dtype: object

In [52]:
type(df['content_rating'])

pandas.core.series.Series

In [53]:
df['content_rating'].values

array(['R', 'R', 'R', 'PG-13', 'R', 'NOT RATED', 'NOT RATED', 'PG-13',
       'R', 'R', 'PG-13', 'PG-13', 'PG', 'PG-13', 'PG-13', 'PG-13', 'R',
       'UNRATED', 'R', 'PG', 'R', 'R', 'APPROVED', 'R', 'R', 'PG-13',
       'PG-13', 'R', 'R', 'PASSED', 'PG', 'R', 'PG', 'R', 'R', 'G', 'R',
       'PG', 'APPROVED', 'R', 'R', 'NOT RATED', 'R', 'PG-13', 'R', 'R',
       'R', 'PG', 'PG', 'R', 'R', 'R', 'APPROVED', 'PG-13', 'PG', 'G',
       'R', 'R', 'APPROVED', 'R', 'PG-13', 'UNRATED', 'R', 'NOT RATED',
       'G', 'APPROVED', 'NOT RATED', 'R', 'R', 'PG-13', 'R', 'APPROVED',
       'NOT RATED', 'PG-13', 'APPROVED', 'R', 'APPROVED', 'R', 'R',
       'PASSED', 'PG', 'G', 'R', 'NOT RATED', 'R', 'PG', 'X', 'NOT RATED',
       'NOT RATED', 'NOT RATED', 'R', 'R', 'R', 'NOT RATED', 'APPROVED',
       'APPROVED', 'UNRATED', 'PG', 'UNRATED', 'R', 'NOT RATED', 'PG',
       'R', 'APPROVED', 'NOT RATED', 'NOT RATED', 'R', 'APPROVED',
       'NOT RATED', 'NOT RATED', 'G', 'NOT RATED', 'R', 'PG-13', 'R', '

In [54]:
print(type(df['content_rating'].values))

<class 'numpy.ndarray'>


In [55]:
type(df[["duration", "genre"]])

pandas.core.frame.DataFrame

#### iloc et loc

In [56]:
df.head(2)

Unnamed: 0_level_0,star_rating,content_rating,genre,duration,actors_list
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
The Shawshank Redemption,9.3,R,Crime,142,"[u'Tim Robbins', u'Morgan Freeman', u'Bob Gunt..."
The Godfather,9.2,R,Crime,175,"[u'Marlon Brando', u'Al Pacino', u'James Caan']"


In [57]:
df.iloc[0]

star_rating                                                     9.3
content_rating                                                    R
genre                                                         Crime
duration                                                        142
actors_list       [u'Tim Robbins', u'Morgan Freeman', u'Bob Gunt...
Name: The Shawshank Redemption, dtype: object

In [58]:
df.iloc[1]

star_rating                                                   9.2
content_rating                                                  R
genre                                                       Crime
duration                                                      175
actors_list       [u'Marlon Brando', u'Al Pacino', u'James Caan']
Name: The Godfather, dtype: object

In [59]:
df.tail(2)

Unnamed: 0_level_0,star_rating,content_rating,genre,duration,actors_list
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Poltergeist,7.4,PG,Horror,114,"[u'JoBeth Williams', u""Heather O'Rourke"", u'Cr..."
Wall Street,7.4,R,Crime,126,"[u'Charlie Sheen', u'Michael Douglas', u'Tamar..."


In [60]:
df.columns

Index(['star_rating', 'content_rating', 'genre', 'duration', 'actors_list'], dtype='object')

In [61]:
df.iloc[-1]

star_rating                                                     7.4
content_rating                                                    R
genre                                                         Crime
duration                                                        126
actors_list       [u'Charlie Sheen', u'Michael Douglas', u'Tamar...
Name: Wall Street, dtype: object

In [62]:
df.iloc[:,0]

title
The Shawshank Redemption                           9.3
The Godfather                                      9.2
The Godfather: Part II                             9.1
The Dark Knight                                    9.0
Pulp Fiction                                       8.9
                                                  ... 
Tootsie                                            7.4
Back to the Future Part III                        7.4
Master and Commander: The Far Side of the World    7.4
Poltergeist                                        7.4
Wall Street                                        7.4
Name: star_rating, Length: 979, dtype: float64

In [63]:
df.iloc[:,1]

title
The Shawshank Redemption                               R
The Godfather                                          R
The Godfather: Part II                                 R
The Dark Knight                                    PG-13
Pulp Fiction                                           R
                                                   ...  
Tootsie                                               PG
Back to the Future Part III                           PG
Master and Commander: The Far Side of the World    PG-13
Poltergeist                                           PG
Wall Street                                            R
Name: content_rating, Length: 979, dtype: object

In [64]:
df.iloc[:,-1]

title
The Shawshank Redemption                           [u'Tim Robbins', u'Morgan Freeman', u'Bob Gunt...
The Godfather                                        [u'Marlon Brando', u'Al Pacino', u'James Caan']
The Godfather: Part II                             [u'Al Pacino', u'Robert De Niro', u'Robert Duv...
The Dark Knight                                    [u'Christian Bale', u'Heath Ledger', u'Aaron E...
Pulp Fiction                                       [u'John Travolta', u'Uma Thurman', u'Samuel L....
                                                                         ...                        
Tootsie                                            [u'Dustin Hoffman', u'Jessica Lange', u'Teri G...
Back to the Future Part III                        [u'Michael J. Fox', u'Christopher Lloyd', u'Ma...
Master and Commander: The Far Side of the World    [u'Russell Crowe', u'Paul Bettany', u'Billy Bo...
Poltergeist                                        [u'JoBeth Williams', u"Heather O'R

In [65]:
df.iloc[0:5]

Unnamed: 0_level_0,star_rating,content_rating,genre,duration,actors_list
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
The Shawshank Redemption,9.3,R,Crime,142,"[u'Tim Robbins', u'Morgan Freeman', u'Bob Gunt..."
The Godfather,9.2,R,Crime,175,"[u'Marlon Brando', u'Al Pacino', u'James Caan']"
The Godfather: Part II,9.1,R,Crime,200,"[u'Al Pacino', u'Robert De Niro', u'Robert Duv..."
The Dark Knight,9.0,PG-13,Action,152,"[u'Christian Bale', u'Heath Ledger', u'Aaron E..."
Pulp Fiction,8.9,R,Crime,154,"[u'John Travolta', u'Uma Thurman', u'Samuel L...."


In [66]:
df.iloc[:, 0:2]

Unnamed: 0_level_0,star_rating,content_rating
title,Unnamed: 1_level_1,Unnamed: 2_level_1
The Shawshank Redemption,9.3,R
The Godfather,9.2,R
The Godfather: Part II,9.1,R
The Dark Knight,9.0,PG-13
Pulp Fiction,8.9,R
...,...,...
Tootsie,7.4,PG
Back to the Future Part III,7.4,PG
Master and Commander: The Far Side of the World,7.4,PG-13
Poltergeist,7.4,PG


In [67]:
df.iloc[[0,3,6,24], [0,2]]

Unnamed: 0_level_0,star_rating,genre
title,Unnamed: 1_level_1,Unnamed: 2_level_1
The Shawshank Redemption,9.3,Crime
The Dark Knight,9.0,Action
"The Good, the Bad and the Ugly",8.9,Western
Se7en,8.7,Drama


In [68]:
df.iloc[:5, 0]

title
The Shawshank Redemption    9.3
The Godfather               9.2
The Godfather: Part II      9.1
The Dark Knight             9.0
Pulp Fiction                8.9
Name: star_rating, dtype: float64

In [69]:
df.head()

Unnamed: 0_level_0,star_rating,content_rating,genre,duration,actors_list
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
The Shawshank Redemption,9.3,R,Crime,142,"[u'Tim Robbins', u'Morgan Freeman', u'Bob Gunt..."
The Godfather,9.2,R,Crime,175,"[u'Marlon Brando', u'Al Pacino', u'James Caan']"
The Godfather: Part II,9.1,R,Crime,200,"[u'Al Pacino', u'Robert De Niro', u'Robert Duv..."
The Dark Knight,9.0,PG-13,Action,152,"[u'Christian Bale', u'Heath Ledger', u'Aaron E..."
Pulp Fiction,8.9,R,Crime,154,"[u'John Travolta', u'Uma Thurman', u'Samuel L...."


In [70]:
print(df.iloc[0,4])

[u'Tim Robbins', u'Morgan Freeman', u'Bob Gunton']


In [71]:
print(df.iloc[0]["actors_list"])

[u'Tim Robbins', u'Morgan Freeman', u'Bob Gunton']


Si vous préferez les clés, il faudra utiliser **loc**

In [72]:
df.loc["The Usual Suspects"]

star_rating                                                     8.7
content_rating                                                    R
genre                                                         Crime
duration                                                        106
actors_list       [u'Kevin Spacey', u'Gabriel Byrne', u'Chazz Pa...
Name: The Usual Suspects, dtype: object

In [73]:
df.loc["The Usual Suspects", "actors_list"]

"[u'Kevin Spacey', u'Gabriel Byrne', u'Chazz Palminteri']"

In [74]:
df.loc["Blue Valentine":, ["genre", "duration"]]

Unnamed: 0_level_0,genre,duration
title,Unnamed: 1_level_1,Unnamed: 2_level_1
Blue Valentine,Drama,112
The Cider House Rules,Drama,126
Tootsie,Comedy,116
Back to the Future Part III,Adventure,118
Master and Commander: The Far Side of the World,Action,138
Poltergeist,Horror,114
Wall Street,Crime,126


### Filtrage

In [75]:
drama_movies_bool = df['genre'] == "Drama"
drama_movies_bool.head()

title
The Shawshank Redemption    False
The Godfather               False
The Godfather: Part II      False
The Dark Knight             False
Pulp Fiction                False
Name: genre, dtype: bool

In [76]:
drama_movies = df.loc[drama_movies_bool]
drama_movies.head()

Unnamed: 0_level_0,star_rating,content_rating,genre,duration,actors_list
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
12 Angry Men,8.9,NOT RATED,Drama,96,"[u'Henry Fonda', u'Lee J. Cobb', u'Martin Bals..."
Fight Club,8.9,R,Drama,139,"[u'Brad Pitt', u'Edward Norton', u'Helena Bonh..."
Forrest Gump,8.8,PG-13,Drama,142,"[u'Tom Hanks', u'Robin Wright', u'Gary Sinise']"
One Flew Over the Cuckoo's Nest,8.7,R,Drama,133,"[u'Jack Nicholson', u'Louise Fletcher', u'Mich..."
Seven Samurai,8.7,UNRATED,Drama,207,"[u'Toshir\xf4 Mifune', u'Takashi Shimura', u'K..."


In [77]:
top_movies = df.loc[df["star_rating"] > 9, ["star_rating"]]
top_movies

Unnamed: 0_level_0,star_rating
title,Unnamed: 1_level_1
The Shawshank Redemption,9.3
The Godfather,9.2
The Godfather: Part II,9.1


#  Modification des données

##  Ajouter/Supprimer les lignes et les colnnes

In [82]:
df.head()

Unnamed: 0_level_0,star_rating,content_rating,genre,duration,actors_list,type,long_movie
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
The Shawshank Redemption,9.3,R,Crime,142,"[u'Tim Robbins', u'Morgan Freeman', u'Bob Gunt...",movie,False
The Godfather,9.2,R,Crime,175,"[u'Marlon Brando', u'Al Pacino', u'James Caan']",movie,True
The Godfather: Part II,9.1,R,Crime,200,"[u'Al Pacino', u'Robert De Niro', u'Robert Duv...",movie,True
The Dark Knight,9.0,PG-13,Action,152,"[u'Christian Bale', u'Heath Ledger', u'Aaron E...",movie,False
Pulp Fiction,8.9,R,Crime,154,"[u'John Travolta', u'Uma Thurman', u'Samuel L....",movie,False


In [79]:
df["type"] = "movie"

In [81]:
df["long_movie"] = df["duration"] > 160

In [None]:
df.head()

In [None]:
df = df.drop(['type'], axis=1)
df.head()

## Valeurs manquantes

In [None]:
new_df = pd.read_csv('donnees/class-grades.csv')
new_df.head(10)

In [None]:
new_df.info()

In [None]:
new_df = pd.read_csv('donnees/class-grades.csv', na_values=['?'])

In [None]:
new_df.info()

In [None]:
drop_df = new_df.dropna()
drop_df.info()

## Concaténation et jointure

###  `concat()`

In [None]:
s1 = pd.Series(['apple', 'orange', 'banana'],
               index=[1, 2, 4])
s2 = pd.Series(['pineapple', 'wildberry', 'raspberry'],
               index=[3, 2, 6])

print(s1)
print(s2)

In [None]:
pd.concat([s1, s2], axis=0)

In [None]:
pd.concat([s1, s2], axis=1)

###  `merge()`

In [83]:
meal = ['pizza', 'pasta', 'burger']
prices = [11.8, 12.9, 15.60]
calories = [870, 790, 950]

prices = pd.DataFrame({'meal': meal, 'prices': prices})
calories = pd.DataFrame(calories, index=meal, columns=['calories'])

In [87]:
prices

Unnamed: 0,meal,prices
0,pizza,11.8
1,pasta,12.9
2,burger,15.6


In [88]:
calories

Unnamed: 0,calories
pizza,870
pasta,790
burger,950


In [90]:
prices.merge(calories, left_on='meal', right_index=True)

Unnamed: 0,meal,prices,calories
0,pizza,11.8,870
1,pasta,12.9,790
2,burger,15.6,950
