# DataFrames

Tout au long du cours, la plupart de nos explorations de données se feront avec des DataFrames. Les DataFrames sont un outil extrêmement puissant et une extension naturelle de la série Pandas. Par définition :

**Un DataFrame Pandas est constitué de plusieurs séries Pandas qui partagent des valeurs d'index.**

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

## Importations

In [1]:
import numpy as np
import pandas as pd

## Création d'un DataFrame à partir d'objets Python

In [None]:
# help(pd.DataFrame)

In [2]:
# Assurez-vous que l'appel du seed se trouve dans la même cellule que l'appel d'une fonction random
# https://stackoverflow.com/questions/21494489/what-does-numpy-random-seed0-do
np.random.seed(101)
my_data = np.random.randint(0, 101, (4, 3))

In [3]:
my_data #tableau 2D, tableau Numpy

array([[95, 11, 81],
       [70, 63, 87],
       [75,  9, 77],
       [40,  4, 63]])

In [6]:
#creation d'index avec des etats americaines
my_index = ['CA','NY','AZ','TX'] 

In [7]:
#creation de noms de colonnes
mycolumns = ['Jan','Feb','Mar'] 

In [8]:
#Creation du DataFrame (pas necessaire d'indiquer l'index et les colonnes)
df = pd.DataFrame(data = my_data)
df

Unnamed: 0,0,1,2
0,95,11,81
1,70,63,87
2,75,9,77
3,40,4,63


In [10]:
#Creation du DataFrame avec index
df = pd.DataFrame(data = my_data, index = my_index)
df

Unnamed: 0,0,1,2
CA,95,11,81
NY,70,63,87
AZ,75,9,77
TX,40,4,63


In [11]:
#Creation du DataFrame avec index et nom de colonnes
df = pd.DataFrame(data = my_data, index = my_index, columns = mycolumns)
df

Unnamed: 0,Jan,Feb,Mar
CA,95,11,81
NY,70,63,87
AZ,75,9,77
TX,40,4,63


In [12]:
#info sur le DataFrame (# colonnes, #lignes,#dtypes #memory)
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, CA to TX
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   Jan     4 non-null      int32
 1   Feb     4 non-null      int32
 2   Mar     4 non-null      int32
dtypes: int32(3)
memory usage: 80.0+ bytes



## Lecture d'un fichier .csv pour un DataFrame

----

----

Les fichiers CSV (Comma Separated Values = Valeurs séparées par des virgules) sont des fichiers texte qui utilisent des virgules comme délimiteurs de champ.

### Avec Google Colab

Importer un fichier directement depuis le menu de gauche (Fichiers). Puis, appeler directement le fichier avec :
    
        df = pd.read_csv('un_fichier.csv')
        
ou clic droit sur le nom du fichier uploadé / copier le chemin d'accès et coller le dans la méthode read_csv(' ici ')
    
        df = pd.read_csv('/content/example.csv')
        
**Attention : Il faudra toujours uploader le fichier de nouveau lorsque votre notebook sur Google Colab se recycle.**

ou Connecter (Google) Drive à Google Colab, cliquez sur 'Drive' puis sélectionner le fichier csv, clic droit / copier chemin d'accès et le coller.

    
        df = pd.read_csv('coller le chemin d'accès du fichier CSV depuis le Drive ici...')

### Avec Distribution Anaconda ou Autres

Les fichiers de valeurs séparées par des virgules sont des fichiers texte qui utilisent des virgules comme délimiteurs de champs.
Vous devrez peut-être installer <tt>xlrd</tt> et <tt>openpyxl</tt>.<br>
Dans votre terminal/commande (ou directement depuis jupyter notebook) :

    conda install xlrd
    conda install openpyxl

Ensuite, redémarrez Jupyter Notebook ou Spyder.
(ou utilisez pip install si vous n'utilisez pas la distribution Anaconda)

### Comprendre le chemin (path) des fichiers

Vous avez deux options lorsque vous lisez un dossier avec Pandas :

1. Si votre fichier .py ou votre notebook .ipynb se trouve dans le **même** dossier que le fichier .csv que vous voulez lire, il vous suffit d'indiquer le nom du fichier sous forme de chaîne de caractères (string), par exemple :
    
        df = pd.read_csv('un_fichier.csv')
        
2. Indiquez le chemin d'accès complet au fichier si vous vous trouvez dans un autre répertoire. Le chemin d'accès doit être correct à 100% pour que cela fonctionne. Par exemple sur Windows (sur Mac/Linux, ce seront des slashs simples '/') :

        df = pd.read_csv("C:\\Users\\nom_d'utilisateur\\files\\un_fichier.csv")

### Imprimer le chemin du fichier du répertoire actuel avec pwd

In [None]:
pwd

### Lister les fichiers dans votre répertoire actuel avec ls

In [14]:
ls

 Le volume dans le lecteur G s'appelle New Volume
 Le num‚ro de s‚rie du volume est BE4F-E4C8

 R‚pertoire de G:\Data Analyst\Python\Udemy\Data Science et Machine Learning\Pandas

2022-11-05  16:31    <DIR>          .
2022-11-04  23:58    <DIR>          ..
2022-11-05  16:19    <DIR>          .ipynb_checkpoints
2022-11-05  16:17         2ÿ946ÿ037 1_Pandas_Series.ipynb
2022-11-05  16:31           622ÿ252 2_Pandas_DataFrames.ipynb
2022-11-04  23:51           112ÿ761 3_Pandas_Filtrage_conditionnel.ipynb
               3 fichier(s)        3ÿ681ÿ050 octets
               3 R‚p(s)  966ÿ443ÿ634ÿ688 octets libres


In [17]:
df = pd.read_csv(r"G:\Data Analyst\Python\Pandas\Data\tips.csv")
df

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


----
A propos de ce DataSet

* Description
    * Un serveur a enregistré des informations sur chaque pourboire qu'il a reçu sur une période de quelques mois dans un restaurant. Il a recueilli plusieurs variables :

* Format
    * Un dataFrame avec 244 lignes et 7 variables.

* Détails
    * **tip** : Pourboire en dollars,
    * **total_bill** : Facture en dollars,
    * **sex** : sexe du payeur de la facture,
    * **somker** : s'il y avait des fumeurs dans la fête,
    * **day** jour de la semaine,
    * **time** : l'heure de la journée,
    * **size** : taille de la fête.

Au total, il a enregistré 244 pourboires. Les données ont été rapportées dans une collection d'études de cas pour les statistiques commerciales (Bryant & Smith 1995).

* Références
    * Bryant, P. G. et Smith, M (1995) Practical Data Analysis : Case Studies in Business Statistics. Homewood, IL : Richard D. Irwin Publishing :
    
* Note : Nous avons créé quelques colonnes supplémentaires avec de **fausses données**, notamment le nom (**Payer Name**), le numéro de CC (**CC Number**) et l'ID de paiement (**Payment ID**).

----

## Obtenir des informations de base sur le DataFrame

In [18]:
#les noms des colonnes
df.columns

Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size'], dtype='object')

In [19]:
#les valeurs d'index
df.index

RangeIndex(start=0, stop=244, step=1)

In [20]:
#Afficher les 3 premieres lignes
df.head(3)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3


In [21]:
#Afficher les 3 dernieres lignes
df.tail(3)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
241,22.67,2.0,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2
243,18.78,3.0,Female,No,Thur,Dinner,2


In [22]:
df.info() #nombre d'entrées, nombre total de colonnes, type de données, memoire)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   total_bill  244 non-null    float64
 1   tip         244 non-null    float64
 2   sex         244 non-null    object 
 3   smoker      244 non-null    object 
 4   day         244 non-null    object 
 5   time        244 non-null    object 
 6   size        244 non-null    int64  
dtypes: float64(2), int64(1), object(4)
memory usage: 13.5+ KB


In [23]:
len(df) #le nombre de lignes

244

In [24]:
df.describe() #Statistique

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


In [25]:
df.describe().transpose() #Interverti(colonne deviens index et vice versa)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
total_bill,244.0,19.785943,8.902412,3.07,13.3475,17.795,24.1275,50.81
tip,244.0,2.998279,1.383638,1.0,2.0,2.9,3.5625,10.0
size,244.0,2.569672,0.9511,1.0,2.0,2.0,3.0,6.0


## Sélection et indexation

Apprenons à extraire des informations d'un DataFrame.

### Colonnes

Nous allons commencer à apprendre comment extraire des informations à partir des colonnes.

In [26]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


#### Saisir une seule colonne

In [28]:
df["total_bill"] #on prend la colonne "total_bill"

0      16.99
1      10.34
2      21.01
3      23.68
4      24.59
       ...  
239    29.03
240    27.18
241    22.67
242    17.82
243    18.78
Name: total_bill, Length: 244, dtype: float64

In [29]:
#chaque colonne du DataFrame est tout simplement une Serie qui partage le meme index
type(df["total_bill"])

pandas.core.series.Series

#### Saisir plusieurs colonnes

In [31]:
# (Methode 1) Notez que c'est une liste python de noms de colonnes ! D'où les doubles crochets.
mycols = ["total_bill", "tip"]
df[mycols]

Unnamed: 0,total_bill,tip
0,16.99,1.01
1,10.34,1.66
2,21.01,3.50
3,23.68,3.31
4,24.59,3.61
...,...,...
239,29.03,5.92
240,27.18,2.00
241,22.67,2.00
242,17.82,1.75


In [32]:
# (Methode 2) Notez que c'est une liste python de noms de colonnes ! D'où les doubles crochets.
df[["total_bill", "tip"]] #2 crochets car on a une liste de colonnes

Unnamed: 0,total_bill,tip
0,16.99,1.01
1,10.34,1.66
2,21.01,3.50
3,23.68,3.31
4,24.59,3.61
...,...,...
239,29.03,5.92
240,27.18,2.00
241,22.67,2.00
242,17.82,1.75


#### Créer de nouvelles colonnes

In [37]:
# On desire savoir le % de tip du total
(df["tip"] * 100) / df["total_bill"]

0       5.944673
1      16.054159
2      16.658734
3      13.978041
4      14.680765
         ...    
239    20.392697
240     7.358352
241     8.822232
242     9.820426
243    15.974441
Length: 244, dtype: float64

In [39]:
#nouvelle colonne 'tip_percentage'
df["tip_percentage"] = (df["tip"] * 100) / df["total_bill"] 

In [70]:
df.head() #on peut voir la nouvelle colonne

Unnamed: 0,Payment ID,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
0,Sun2959,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410
1,Sun4608,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230
2,Sun4458,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322
3,Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
4,Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221


In [41]:
# On desire savoir le prix par personne
df["total_bill"] / df["size"]

0       8.495000
1       3.446667
2       7.003333
3      11.840000
4       6.147500
         ...    
239     9.676667
240    13.590000
241    11.335000
242     8.910000
243     9.390000
Length: 244, dtype: float64

In [45]:
#nouvelle colonne "price_per_person"
df["price_per_person"] = df["total_bill"] / df["size"] 

In [53]:
df.head() #on peut voir la nouvelle colonne

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45
2,21.01,3.5,Male,No,Sun,Dinner,3,7.0
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15


#### Ajuster les colonnes existantes

In [47]:
help(np.round)

Help on function round_ in module numpy:

round_(a, decimals=0, out=None)
    Round an array to the given number of decimals.
    
    See Also
    --------
    around : equivalent function; see for details.



In [48]:
# Parce que les pandas sont basés sur numpy, nous obtenons des capacités incroyables avec les fonctions universelles de NumPy !
df['price_per_person'] = np.round(df['price_per_person'],2)

In [69]:
df.head() #price_per_person est presentement juste avec 2 decimales

Unnamed: 0,Payment ID,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
0,Sun2959,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410
1,Sun4608,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230
2,Sun4458,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322
3,Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
4,Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221


#### Supprimer des colonnes

In [None]:
#Methode 1
df.drop('tip_percentage',axis=1, inplace=True)

In [51]:
#Methode 2
df = df.drop("tip_percentage",axis=1)
#axis=0 suprime une ligne et axis=1 supprime une colonne

In [68]:
df.head() #le tip_porcentage n'existe plus

Unnamed: 0,Payment ID,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
0,Sun2959,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410
1,Sun4608,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230
2,Sun4458,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322
3,Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
4,Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221


## Bases de l'index

Avant de passer en revue les mêmes tâches de récupération pour les lignes (rows), essayons de comprendre les bases de l'index d'un DataFrame Pandas.

In [58]:
df = pd.read_csv(r"G:\Data Analyst\Data\tips2.csv")

In [59]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number,Payment ID
0,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410,Sun2959
1,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230,Sun4608
2,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322,Sun4458
3,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994,Sun5260
4,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221,Sun2251


In [55]:
df.index

RangeIndex(start=0, stop=244, step=1)

In [62]:
#on a defini Payement id comme index
df = df.set_index("Payment ID")

In [67]:
df.head() #on peut voir le nouveau index

Unnamed: 0,Payment ID,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
0,Sun2959,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410
1,Sun4608,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230
2,Sun4458,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322
3,Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
4,Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221


In [74]:
df = df.reset_index() #on reset l'index

In [66]:
df.head() #on n'a plus Payment ID comme id

Unnamed: 0,Payment ID,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
0,Sun2959,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410
1,Sun4608,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230
2,Sun4458,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322
3,Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
4,Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221


### Lignes (rows)

Explorons maintenant ces mêmes concepts mais avec des lignes.

#### Saisir une seule ligne

In [75]:
#on a defini Payement id comme index
df = df.set_index("Payment ID")

In [76]:
df.head()

Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
Payment ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Sun2959,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410
Sun4608,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230
Sun4458,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322
Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221


In [77]:
# à partir d'un entier
df.iloc[0] #on obtiens la serie de la ligne 1

total_bill                       16.99
tip                               1.01
sex                             Female
smoker                              No
day                                Sun
time                            Dinner
size                                 2
price_per_person                  8.49
Payer Name          Christy Cunningham
CC Number             3560325168603410
Name: Sun2959, dtype: object

In [78]:
# à partir d'un nom
df.loc["Sun2959"] #on obtiens la serie de la ligne 1

total_bill                       16.99
tip                               1.01
sex                             Female
smoker                              No
day                                Sun
time                            Dinner
size                                 2
price_per_person                  8.49
Payer Name          Christy Cunningham
CC Number             3560325168603410
Name: Sun2959, dtype: object

#### Saisir plusieurs lignes

In [79]:
df.iloc[0:4]

Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
Payment ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Sun2959,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410
Sun4608,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230
Sun4458,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322
Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994


In [80]:
df.loc[['Sun2959','Sun5260']]

Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
Payment ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Sun2959,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410
Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994


#### Supprimer une ligne

Généralement, les jeux de données (datasets) sont suffisamment volumineux pour ne pas supprimer de lignes comme celle-ci, car nous ne connaîtrons pas l'emplacement de leur ligne pour une condition spécifique. Nous supprimons plutôt des lignes en fonction de conditions telles que les données manquantes ou les valeurs de colonne. La prochaine leçon abordera cette question de façon beaucoup plus détaillée.

In [83]:
df.head()

Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
Payment ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Sun2959,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410
Sun4608,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230
Sun4458,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322
Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221


In [84]:
df.drop('Sun2959',axis=0).head() #on efface la ligne avec index "Sun2959"

Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
Payment ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Sun4608,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230
Sun4458,21.01,3.5,Male,No,Sun,Dinner,3,7.0,Travis Walters,6011812112971322
Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221
Sun9679,25.29,4.71,Male,No,Sun,Dinner,4,6.32,Erik Smith,213140353657882


In [None]:
# Erreur si vous avez un index étiqueté avec des chaines de nom !
# df.drop(0,axis=0).head()

#### Insérer une nouvelle ligne

Il est plutôt rare d'ajouter une ligne comme ceci. Habituellement, vous utilisez pd.concat() pour ajouter plusieurs lignes à la fois. Vous pouvez utiliser la méthode .append() avec une liste d'objets pd.Series(), mais vous ne nous verrez pas faire cela avec des données  réalistes issues du monde réel.

In [86]:
one_row = df.iloc[0]

In [87]:
one_row

total_bill                       16.99
tip                               1.01
sex                             Female
smoker                              No
day                                Sun
time                            Dinner
size                                 2
price_per_person                  8.49
Payer Name          Christy Cunningham
CC Number             3560325168603410
Name: Sun2959, dtype: object

In [89]:
df.append(one_row) #on remarque que la derniere ligne est pareil a la premiere ligne

  df.append(one_row) #on remarque que la derniere ligne est pareil a la premiere ligne


Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size,price_per_person,Payer Name,CC Number
Payment ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Sun2959,16.99,1.01,Female,No,Sun,Dinner,2,8.49,Christy Cunningham,3560325168603410
Sun4608,10.34,1.66,Male,No,Sun,Dinner,3,3.45,Douglas Tucker,4478071379779230
Sun4458,21.01,3.50,Male,No,Sun,Dinner,3,7.00,Travis Walters,6011812112971322
Sun5260,23.68,3.31,Male,No,Sun,Dinner,2,11.84,Nathaniel Harris,4676137647685994
Sun2251,24.59,3.61,Female,No,Sun,Dinner,4,6.15,Tonya Carter,4832732618637221
...,...,...,...,...,...,...,...,...,...,...
Sat1766,27.18,2.00,Female,Yes,Sat,Dinner,2,13.59,Monica Sanders,3506806155565404
Sat3880,22.67,2.00,Male,Yes,Sat,Dinner,2,11.34,Keith Wong,6011891618747196
Sat17,17.82,1.75,Male,No,Sat,Dinner,2,8.91,Dennis Dixon,4375220550950
Thur672,18.78,3.00,Female,No,Thur,Dinner,2,9.39,Michelle Hardin,3511451626698139


--------