# Gestion des doublons (méthodes duplicated et drop_duplicates)

In [1]:
import pandas as pd

link = 'https://raw.githubusercontent.com/QuantikDataStudio/dataset/main/Transactions.csv'

transactions = pd.read_csv(link,                         # chemin du fichier
                           sep = ',',                    # caractère séparant les valeurs
                           header = 0,                   # numéro de la ligne contenant le nom des colonnes
                           index_col = 'transaction_id') # nom de la colonne qui indexe les entrées

transactions.head(10)

Unnamed: 0_level_0,cust_id,tran_date,prod_subcat_code,prod_cat_code,Qty,Rate,Tax,total_amt,Store_type
transaction_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
80712190438,270351,28-02-2014,1,1,-5,-772,405.3,-4265.3,e-Shop
29258453508,270384,27-02-2014,5,3,-5,-1497,785.925,-8270.925,e-Shop
51750724947,273420,24-02-2014,6,5,-2,-791,166.11,-1748.11,TeleShop
93274880719,271509,24-02-2014,11,6,-3,-1363,429.345,-4518.345,e-Shop
51750724947,273420,23-02-2014,6,5,-2,-791,166.11,-1748.11,TeleShop
97439039119,272357,23-02-2014,8,3,-2,-824,173.04,-1821.04,TeleShop
45649838090,273667,22-02-2014,11,6,-1,-1450,152.25,-1602.25,e-Shop
22643667930,271489,22-02-2014,12,6,-1,-1225,128.625,-1353.625,TeleShop
79792372943,275108,22-02-2014,3,1,-3,-908,286.02,-3010.02,MBR
50076728598,269014,21-02-2014,8,3,-4,-581,244.02,-2568.02,e-Shop


In [3]:
print(transactions.duplicated().sum()) # Nombre de doublons total dans le DtaFrame transactions

13


Les transactions ont été enregistrées dans l'ordre antichronologique, c'est-à-dire que les premières lignes contiennent les transactions les plus récentes et les dernières lignes les transactions les plus anciennes.

+ Éliminer les doublons de la base de données en ne gardant que la première occurrence.
+ À l'aide des paramètres subset et keep de la méthode drop_duplicates de transactions, afficher la transaction la plus récente pour chaque catégorie de prod_cat_code. Pour cela, vous pourrez enlever tous les doublons de la colonne prod_cat_code en ne gardant que les premières occurrences.

In [7]:
transactions_first = transactions.drop_duplicates(keep = 'first')  # Eliminons les doublons en ne gardant que les premieres occurences
print(transactions_first.duplicated().sum())

0


In [8]:
# À l'aide des paramètres subset et keep de la méthode drop_duplicates de transactions, afficher la transaction la plus récente pour chaque catégorie de prod_cat_code. Pour cela, vous pourrez enlever tous les doublons de la colonne prod_cat_code en ne gardant que les premières occurrences.

transactions.drop_duplicates(subset = 'prod_cat_code', keep = 'first')

Unnamed: 0_level_0,cust_id,tran_date,prod_subcat_code,prod_cat_code,Qty,Rate,Tax,total_amt,Store_type
transaction_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
80712190438,270351,28-02-2014,1,1,-5,-772,405.3,-4265.3,e-Shop
29258453508,270384,27-02-2014,5,3,-5,-1497,785.925,-8270.925,e-Shop
51750724947,273420,24-02-2014,6,5,-2,-791,166.11,-1748.11,TeleShop
93274880719,271509,24-02-2014,11,6,-3,-1363,429.345,-4518.345,e-Shop
43134751727,268487,20-02-2014,3,2,-1,-611,64.155,-675.155,e-Shop
25963520987,274829,20-02-2014,4,4,3,502,158.13,1664.13,Flagship store


# Modification des éléments d'un DataFrame (méthodes replace, rename et astype)

+ Importer le module numpy sous le nom np.
+ Remplacer les modalités ['e-Shop', 'TeleShop', 'MBR', 'Flagship store',  np.nan] de la colonne Store_type par les modalités [1, 2, 3, 4, 0]. On en profitera pour remplacer les nan de la colonne prod_subcat_code.
La valeur np.nan est celle qui encode une valeur manquante. Nous allons remplacer cette valeur par 0.

+ Convertir les colonnes Store_type et prod_subcat_code en type 'int'.
+  Renommer les colonnes Store_type, Qty, Rate et Tax avec store_type, qty, rate et tax.

In [9]:
import numpy as np

In [12]:
transactions_new = transactions.replace(to_replace = ['e-Shop', 'TeleShop', 'MBR', 'Flagship store',  np.nan], value = [1, 2, 3, 4, 0])
transactions_new

  transactions_new = transactions.replace(to_replace = ['e-Shop', 'TeleShop', 'MBR', 'Flagship store',  np.nan], value = [1, 2, 3, 4, 0])


Unnamed: 0_level_0,cust_id,tran_date,prod_subcat_code,prod_cat_code,Qty,Rate,Tax,total_amt,Store_type
transaction_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
80712190438,270351,28-02-2014,1,1,-5,-772,405.300,-4265.300,1
29258453508,270384,27-02-2014,5,3,-5,-1497,785.925,-8270.925,1
51750724947,273420,24-02-2014,6,5,-2,-791,166.110,-1748.110,2
93274880719,271509,24-02-2014,11,6,-3,-1363,429.345,-4518.345,1
51750724947,273420,23-02-2014,6,5,-2,-791,166.110,-1748.110,2
...,...,...,...,...,...,...,...,...,...
94340757522,274550,25-01-2011,12,5,1,1264,132.720,1396.720,1
89780862956,270022,25-01-2011,4,1,1,677,71.085,748.085,1
85115299378,271020,25-01-2011,2,6,4,1052,441.840,4649.840,3
72870271171,270911,25-01-2011,11,5,3,1142,359.730,3785.730,2


In [15]:
transactions_new.info()

<class 'pandas.core.frame.DataFrame'>
Index: 23053 entries, 80712190438 to 77960931771
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   cust_id           23053 non-null  int64  
 1   tran_date         23053 non-null  object 
 2   prod_subcat_code  23053 non-null  int64  
 3   prod_cat_code     23053 non-null  int64  
 4   Qty               23053 non-null  int64  
 5   Rate              23053 non-null  int64  
 6   Tax               23053 non-null  float64
 7   total_amt         23053 non-null  float64
 8   Store_type        23053 non-null  int64  
dtypes: float64(2), int64(6), object(1)
memory usage: 1.8+ MB


In [19]:
conversion = {'Store_type': 'int',
              'prod_subcat_code': 'int'}

In [20]:
transactions_converti = transactions_new.astype(conversion)

In [21]:
transactions_converti.info()

<class 'pandas.core.frame.DataFrame'>
Index: 23053 entries, 80712190438 to 77960931771
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   cust_id           23053 non-null  int64  
 1   tran_date         23053 non-null  object 
 2   prod_subcat_code  23053 non-null  int64  
 3   prod_cat_code     23053 non-null  int64  
 4   Qty               23053 non-null  int64  
 5   Rate              23053 non-null  int64  
 6   Tax               23053 non-null  float64
 7   total_amt         23053 non-null  float64
 8   Store_type        23053 non-null  int64  
dtypes: float64(2), int64(6), object(1)
memory usage: 1.8+ MB


In [23]:
renomme = {'Store_type': 'store_type', 
           'Qty': 'qty', 
           'Rate': 'rate',  
           'Tax' : 'tax'}


In [27]:
transactions_renomme = transactions_converti.rename(renomme, axis = 1)
transactions_renomme

Unnamed: 0_level_0,cust_id,tran_date,prod_subcat_code,prod_cat_code,qty,rate,tax,total_amt,store_type
transaction_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
80712190438,270351,28-02-2014,1,1,-5,-772,405.300,-4265.300,1
29258453508,270384,27-02-2014,5,3,-5,-1497,785.925,-8270.925,1
51750724947,273420,24-02-2014,6,5,-2,-791,166.110,-1748.110,2
93274880719,271509,24-02-2014,11,6,-3,-1363,429.345,-4518.345,1
51750724947,273420,23-02-2014,6,5,-2,-791,166.110,-1748.110,2
...,...,...,...,...,...,...,...,...,...
94340757522,274550,25-01-2011,12,5,1,1264,132.720,1396.720,1
89780862956,270022,25-01-2011,4,1,1,677,71.085,748.085,1
85115299378,271020,25-01-2011,2,6,4,1052,441.840,4649.840,3
72870271171,270911,25-01-2011,11,5,3,1142,359.730,3785.730,2


# Apply et Lambda : Aller plus loin ! 🦾
+ Ecrire une fonction convert_to_fahrenheit qui prend une liste de températures en Celsius et renvoie une liste correspondante de températures en Fahrenheit.

+ Utilisez la fonction apply lambda pour appliquer convert_to_fahrenheit à une colonne "température" dans un df