# Voir les versions de pandas

In [None]:
import pandas as pd

In [None]:
pd.__version__

In [None]:
pd.show_versions()

# Créer une série panda manuellement

In [None]:
import numpy as np

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6 ,8])

In [None]:
# Créer la série en la nommant
s = pd.Series([1, 3, 5, np.nan, 6 ,8], name = 'serie')

In [None]:
# Renommer la série
s.name = 'serie2'

In [None]:
# Créer et nommer une série à partir d'une liste, et définir son index
s = pd.Series([1, 3, 5, np.nan, 6 ,8], name='serie',
              index =['zero', 'un', 'deux', 'trois', 'quatre', 'cinq'])

In [None]:
s['un']

In [None]:
# s.count() > ne compte pas la valeur np.nan
# s.size > toutes les valeurs sont comptées
print(s.count(), ' - ',s.size)

In [None]:
# créer manuellement une série de type catégorie, non ordonnée
s = pd.Series (['m', 'l', 'xs', 's', 'xl'], dtype='category')

In [None]:
s.cat.ordered # Retourne False

In [None]:
# Créer manuellement une série de type catégorie ordonnée
s2 = pd.Series (['m', 'l', 'xs ', 's', 'xl '])
size_type = pd.api.types.CategoricalDtype(categories = ['xs','s','m','l','xl'], ordered=True)
s3 = s2.astype(size_type)

# Créer un dataframe

In [None]:
# Manuellement, avec un array numpy et un range de date, en nommant les colonnes
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list("ABCD"))
# list("ABCD") > ['A', 'B', 'C', 'D']

In [None]:
# Manuellement, à partir de dictionnaires - k, v : v est une liste et sera une colonne du dataframe - k sera son nom
df = pd.DataFrame({
    "A": 1.0,
    "B": pd.Timestamp("20130102"),
    "C": pd.Series(1, index = list(range(4)), dtype="float32"),
    "D": np.array([3] * 4, dtype="int32"),
    "E": pd.Categorical(["test","train","test","train"]),
    "G": "foo"})

In [None]:
# Manuellement, à partir de dictionnaires - k, v : v est une liste et sera une colonne du dataframe - k sera son nom
import string
import random
df = pd.DataFrame(
    {
        "groupe": ["Groupe {}".format(x + 1) for x in range(5)] * 5,
        "Joueur": random.sample(list(string.ascii_lowercase), 25),
        "Performance": np.random.uniform(0.200, 0.400, 25),
    }
)

In [None]:
#Créer un dataframe à partir d’un dictionnaire de dictionnaires, 
#dont les clés sont partagées et utilisées pour créer les index du dataframe
df=pd.DataFrame({'Attendance': {0: 60, 1: 100, 2: 80,3: 75, 4: 95},
                 'Name': {0: 'Olivia', 1: 'John', 2: 'Laura',3: 'Ben',4: 'Kevin'},
                 'Obtained Marks': {0: 56, 1: 75, 2: 82, 3: 64, 4: 67}})

In [None]:
# Créer un dataframe à partir de listes de tuples - 1 tuple > 1 ligne
df = pd.DataFrame([
    ("bird", "Falconiformes", 389.0),
    ("bird", "Psittaciformes", 24.0),
    ("mammal", "Carnivora", 80.2),
    ("mammal", "Primates", np.nan),
    ("mammal", "Carnivora", 58)
    ],
    index=["falcon", "parrot", "lion", "monkey", "leopard"],
    columns=("class", "order", "max_speed")
)

In [None]:
# Créer un dataframe à partir de listes de listes - 1 liste > 1 ligne
df = pd.DataFrame([
    ["Andre", "directeur", 230],
    ["Barbara", "assistante", 25],
    ["Corinne", "comptable", 35]
    ],
    columns=("nom", "fonction", "km")
)

In [None]:
l1 = ["Caroline", "directeur", 230]
l2 = ["Barbara", "assistante", 25]
l3 = ["Karine", "comptable", 35]
df = pd.DataFrame([l1,l2,l3], columns=("nom", "fonction", "kms"))

In [None]:
# Créer un dataframe manuellement indexé par des dates
dates = pd.date_range("20190101", periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates)

# Créer un dataframe à partir d'un fichier CSV

In [None]:
#Créer un dataframe à partir de données dans un fichier CSV
df = pd.read_csv(r"C:\data_folder\data.csv")
#r > raw file, on laisse tel quel les \

In [None]:
# Créer un dataframe à partir de données dans un fichier CSV
# Décodage des dates 
df = pd.read_csv(r"C:\data_folder\data.csv",parse_dates=True)

In [None]:
# Créer un dataframe à partir de données dans un fichier CSV
# Décodage des dates
# Le nom des colonnes est sur la première ligne
df = pd.read_csv(r"C:\data_folder\data.csv",parse_dates=True, index_col=0)

In [None]:
# Créer un dataframe à partir de données dans un fichier CSV
# Décodage des dates
# Le nom des colonnes est sur la première ligne
# On ne lt qu'une partie des colonnes
df = pd.read_csv(r"C:\data_folder\data.csv",parse_dates=True, index_col=0, usecols=['City', 'State'])
# ou alors
df = pd.read_csv(r"C:\data_folder\data.csv",parse_dates=True, index_col=0, usecols=[0:4])

In [None]:
# On ne lit qu'une partie des lignes
df = pd.read_csv('http://bit.ly/uforeports', nrows=3)

In [None]:
# Créer un Dataframe, en spécifiant l’encodage en latin, en parsant les dates, 
# et en pointant que le format des dates commencent par les jours (et non les mois - format américain)
df = pd.read_csv('bikes.csv', sep=';', encoding='latin1', parse_dates=['Date'], dayfirst=True, index_col='Date')

In [None]:
# Créer un dataframe en concaténant plusieurs fichiers
from glob import glob
stock_files = sorted(glob('data/stocks*.csv')) #Liste des fichiers avec le même pattern
pd.concat((pd.read_csv(file) for file in stock_files), ignore_index=True)

# Créer un dataframe à partir d'un fichier Excel

In [None]:
# Créer un dataframe à partir de données dans un fichier Excel
df = pd.read_excel("path/to/data.csv")

# Créer un dataframe à partir de données online

In [None]:
# Créer un dataframe à partir d’un CSV en ligne
import pandas as pd
url = ("https://raw.github.com/pandas-dev/pandas/master/pandas/tests/io/data/csv/tips.csv")
tips = pd.read_csv(url)

In [None]:
# Créer un dataframe à partir d’un CSV en ligne
url = 'https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv'
chipo = pd.read_csv(url, sep = '\t')

In [None]:
# Exemples de dataset en ligne
drinks = pd.read_csv('http://bit.ly/drinksbycountry')
movies = pd.read_csv('http://bit.ly/imdbratings')
orders = pd.read_csv('http://bit.ly/chiporders', sep='\t')
stocks = pd.read_csv('http://bit.ly/smallstocks', parse_dates=['Date'])
titanic = pd.read_csv('http://bit.ly/kaggletrain')
ufo = pd.read_csv('http://bit.ly/uforeports', parse_dates=['Time'])

# Créer un dataframe à partir du presse-papier

In [None]:
# Récupérer facilement des données venant d’Excel ou de Google sheet
df = pd.read_clipboard()

# Créer un dataframe à partir d'un fichier - Récapitulatif

# Créer un dataframe en copiant un df existant

In [None]:
df2 = df.copy()

# Gérer l'affichage du notebook

In [None]:
# Afficher le setup du nombre maximal de lignes à afficher
pd.get_option('display.max_rows')

In [None]:
# Permettre l’affichage de 40 colonnes du dataframe
pd.options.display.max_columns = 40
pd.set_option('display.max_rows', None) # affichage de toutes les colonnes
pd.reset_option('display.max_rows') # reset du paramètrage

In [None]:
# Affichage de plus de caractères dans les colonnes
pd.get_option('display.max_colwidth')
pd.set_option('display.max_colwidth', 1000)

In [None]:
# Affichage de la précision des nombres
pd.set_option('display.precision', 2)

In [None]:
# Affichage du séparateur de milliers
pd.set_option('display.float_format', '{:,}'.format)

In [None]:
# AFfichage de l’ensemble des paramètrages possibles pour l’affichage
import pandas as pd
pd.describe_option()
pd.describe_option('rows')

# Examiner rapidement les caractéristiques d'un dataframe

In [None]:
# Afficher les 5 premières lignes d’un dataframe
df.head()
# Afficher les 10 premières lignes d’un dataframe
df.head(10)

In [None]:
# Afficher les 5 dernières lignes d’un dataframe
df.tail()
# Afficher les 10 dernières lignes d’un dataframe
df.tail(10)

In [None]:
# Afficher les index d'un dataframe > index pandas
df.index
# Afficher les colonnes d'un dataframe > Index pandas
df.columns
# Afficher les valeurs d'un dataframe > array numpy
df.values

In [None]:
# Afficher le nom des colonnes d’un dataframe en faisant une boucle
for val in df:
   print(val)

In [None]:
# Afficher des statistiques des colonnes numériques d’un dataframe
df.describe()
#count, mean, std, min, 25%, 50%, 75%, max

In [None]:
# Afficher des informations générales d’un dataframe (type d’index, noms des colonnes, types des colonnes, mémoire utilisée)
df.info()

In [None]:
# Afficher le nombre de lignes d’un dataframe
len(df)

In [None]:
# Afficher les dimensions d’un dataframe
df.shape
df.shape[0] # nombre de lignes
df.shape[1] # nombre de colonnes

# Examiner plus précisément les caractèristiques d'un dataframe

In [None]:
# Afficher des statistiques des colonnes numériques d’un dataframe, en changeant les quartiles
df.describe(percentiles=[.01, .3, .99])
#count, mean, std, min, 1%, 30%, 50%, 99%, max

In [None]:
# Afficher plus de statistiques des colonnes d’un dataframe, numériques ou non
df.describe(include="all")
#count, unique, top, freq, first, last, mean, std, min, 25%, 50%, 75%, max

In [None]:
# Afficher plus de statistiques des colonnes d’un dataframe, en fonction de leur type
df.describe(include=['object'])

In [None]:
# Itérer sur l’ensemble des lignes d’un dataframe
for index,row in df.iterrows():
   print(index,row["Col1"])

In [None]:
# Afficher les types des colonnes et leur nombre
df.dtypes.value_counts()
df.dtypes.value_counts(normalize=True) #pourcentage
df.get_dtype_counts() # Va être déprécié

In [None]:
# Sortir des statistiques sur une série
df.col1.agg(['mean', 'min', 'max'])

In [None]:
# Sortir des statistiques sur toutes les séries du dataframe
df.agg(['mean', 'min', 'max'])

In [None]:
# Compter le nombre de valeurs d’une série qui satisfont une condition
df.col1.gt(20).count() # combien de valeurs de col1 sont supérieures à 20 ?
df.col1.gt(20).mul(100).mean()  # quel pourcentage de valeurs de col1 sont supérieures à 20 ?

# Effectuer le profiling d'un dataframe

In [None]:
import pandas_profiling
pandas_profiling.ProfileReport(df)

# Ordonner, renommer et supprimer des colonnes

In [None]:
# Réordonner les colonnes d’un dataframe
new_col_order = ['col3','col1', 'col2']
new_df = df[new_col_order]

In [None]:
# Modifier le nom des colonnes du Dataframe avec un dictionnaire
df.rename( columns = {"col1":"New Col1", "col2":"New Col2" })
# ou alors
df.rename( columns = {"col1":"New Col1", "col2":"New Col2" }, inplace=True) # pour sauvegarder les changements

In [None]:
# Modifier directement le nom des colonnes
df.columns = df.columns.str.replace(' ', '_')

In [None]:
# Modifier directement le nom des colonnes
df.columns = map(str.lower, df.columns)

In [None]:
# Modifier le nom des colonnes à la création du dataframe
df = pd.read_csv("df.csv", header=0, names=new_cols)

In [None]:
# Ajouter un prefixe ou un suffixe aux noms des colonnes
df.add_prefix('X_')
df.add_suffix('_Y')

In [None]:
# Inverser l’ordre des colonnes
df.loc[:, ::-1]

In [None]:
# Supprimer des colonnes d’un dataframe
df.drop(['Col1','Col2'], axis=1, inplace=True) # inplace > sauvegarde des résultats
# ou alors
df.drop(['Col1','Col2'], axis='columns', inplace=True)

In [None]:
# Garder des colonnes que d'un certain type
df.select_dtypes(include=[np.number]).dtypes

# Modifier l'index des lignes d'un dataframe

In [None]:
# Changer l’index d’une série
data = data.set_index('Col1')

In [None]:
# Inverser les lignes d’un dataframe
df.loc[::-1]

In [None]:
# Modifier les index Lignes d’un dataframe
df.reindex(index=[])
#Nan si nouveaux index inconnus

In [None]:
# Modifier les index Lignes d’un dataframe et mettre 0 si index inconnus
df.reindex(index=[],fill_value=0)

In [None]:
# Modifier les index Lignes d’un dataframe et mettre les valeurs du dernier index si index inconnus
df.reindex(index=[],method='ffill')

# Transformer un dataframe

In [None]:
# Transposer un dataframe
df.T

In [None]:
Transformer un dataframe en Array numpy
df.to_numpy()

# Diminuer la taille d'un dataframe

In [None]:
# Visualiser la taille d’un dataframe
df.info(memory_usage='deep')

In [None]:
# Visualiser la taille d’une série du dataframe
df.col1.nbytes                  # taille en mémoire
df.col1.astype('Int16').nbytes  # taille en mémoire aprés transformation
df.memory_usage(deep=True)      # inclue les index et les objets

In [None]:
# Modifier certaines Séries chaînes de caractères en Catégories
df['continent'] = df.continent.astype('category')
df.continent.head()           # Visualisation des chaînes de caractères
df.continent.cat.codes.head() # Visualisation des chiffres
df.continent.cat.categories   # Voir le codage des catégories

In [None]:
# Modifier certaines Séries chaînes de caractères en Catégories ordonnées
priority_dtype = pd.api.types.CategoricalDtype(categories=['LOW', 'MEDIUM', 'HIGH'], ordered=True)
df['priority'] = df['priority'].astype(priority_dtype)
# ou alors
from pandas.api.types import CategoricalDtype
quality_cat = CategoricalDtype(['good', 'very good', 'excellent'], ordered=True)
df['quality'] = df.quality.astype(quality_cat)
# ou alors
values = pd.Series(sorted(set(city_mpg ))) # Liste unique ordonnée
city_type = pd.CategoricalDtype(categories=values ,ordered=True)
city_mpg.astype(city_type)

In [None]:
# Sélection aléatoire d’un échantillon du dataframe
df.sample(n=3, random_state=42)

In [None]:
# Séparer le df en 2 groupes aléatoires
df1 = df.sample(frac=0.75, random_state=99)
df2 = df.loc[~df.index.isin(df1.index), :]

# Changer l'apparence d'un dataframe

In [None]:
format_dict = {'Date':'{:%m/%d/%y}', 'Close':'${:.2f}', 'Volume':'{:,}'}
df.style.format(format_dict)

In [None]:
(stocks.style.format(format_dict)
 .hide_index()
 .highlight_min('Close', color='red')
 .highlight_max('Close', color='lightgreen')
)

In [None]:
(stocks.style.format(format_dict)
 .hide_index()
 .background_gradient(subset='Volume', cmap='Blues')
)

In [None]:
(stocks.style.format(format_dict)
 .hide_index()
 .bar('Volume', color='lightblue', align='zero')
 .set_caption('Stock Prices from October 2016')
)

# Trier un dataframe

In [None]:
# Trier un dataframe par ses index lignes par ordre croissant
df.sort_index(axis=0, ascending=True)
# ou alors
df.sort_index(axis='index', ascending=True)

In [None]:
# Trier un dataframe par ses index lignes par ordre décroissant
df.sort_index(axis=0, ascending=False)

In [None]:
# Trier un dataframe par ses colonnes par ordre décroissant (noms des colonnes)
df.sort_index(axis=1, ascending=False)

In [None]:
# Trier un dataframe par ses les valeurs d’une de ses colonnes par ordre croissant
df.sort_values(by="C", ascending=True)

In [None]:
# Trier un dataframe par les valeurs de plusieurs colonnes
df = df.sort(["col1","col2","col3"],ascending=[1,1,0])

# Sélectionner les données d'un dataframe - les colonnes par leur nom

In [None]:
# Sélectionner une colonne d’un dataframe par son nom et l’affecter à une série
s = df["Col1"]
# ou alors
s = df.Col1 # il faut que le nom ne comporte pas d'espace

In [None]:
# Sélectionner une colonne d’un dataframe par son nom et l’affecter à un Dataframe
s = df[["Col1"]]

In [None]:
# Sélectionner plusieurs colonnes d’un dataframe par leurs noms et les affecter à un dataframe
df[["Col1","Col2"]]

In [None]:
# Sélectionner plusieurs colonnes d’un dataframe par leurs noms et les affecter à un dataframe
df.loc[:, ["Col1","Col2"]]

In [None]:
# Sélectionner plusieurs colonnes d’un dataframe appartenant à un range et les affecter à un dataframe
df.loc[:, "Col1":"Col2"]

In [None]:
# Sélectionner les colonnes du dataframe qui sont dans une liste
df.filter(items=['col1', 'col2'])

In [None]:
# Sélectionner les colonnes du dataframe dont le nom respecte une regex
df.filter(regex='e$', axis=1)

In [None]:
# Sélectionner les colonnes du dataframe dont le nom contient une chaine de caractère
df.filter(like='2018', axis=1)

# Sélectionner les données d'un dataframe - les colonnes par leur position

In [None]:
# Sélectionner plusieurs colonnes d’un dataframe par leurs positions
df.iloc[:,1:3]

In [None]:
# Sélectionner la dernière colonne d’un dataframe
df.iloc[:,-1]

# Sélectionner les données d'un dataframe - les colonnes par leur type

In [None]:
# Sélectionner les colonnes d’un certain type
df.select_dtypes(include=['int']).head()
df.select_dtypes(include=['number', 'object', 'category', 'datetime']).head()

In [None]:
# Sélectionner des colonnes en excluant certains types
df.select_dtypes(exclude='number').head()

# Sélectionner les données d'un dataframe - les lignes par leur index

In [None]:
# Sélectionner des lignes d’un Dataframe par leur index
df[0:3]
df["20210101":"20210131"]

In [None]:
# Sélectionner des lignes d’un Dataframe indexé par une date
df['2019']['close']
df.loc['2016':'2019','close']

# Sélectionner les données d'un dataframe - les lignes par de nom de l'index

In [None]:
# Sélectionner des lignes d’un Dataframe par le nom de leur index
df.loc["idx1"]
df.loc["idx1","idx2"] ou df.loc[["idx1","idx2"]]

In [None]:
# Sélectionner une ligne d’un Dataframe par son nom et l’affecter à un dataframe
df.loc[["idx1"]]

# Sélectionner les données d'un dataframe - les lignes par leur position

In [None]:
# Sélectionner des lignes d’un Dataframe par leur position
df.iloc[1]
df.iloc[1:3,:]
df.iloc[[1,3,4],:]

# Sélectionner les données d'un dataframe suivant un critère logique

In [None]:
# Filtrage booléen
booleen = df["Col1"]>0
df[booleen]
df[booleen].describe()

In [None]:
# Sélectionner les lignes qui vérifient une même condition sur une de leur colonne
df[df["Col1"]>0]

In [None]:
# Sélectionner les lignes qui vérifient une même condition sur une de leur colonne
df[df["Col1"].isin("un","deux")]

In [None]:
# Sélectionner les lignes qui vérifient une même condition sur une de leur colonne de type caractère
df[df["Col1"].str.startswith('J')]
df[df["Col1"].str.contains('y')]
df[~df["Col1"].str.contains('y')]

In [None]:
# Sélectionner les lignes qui vérifient une même condition sur une de leur colonne
df.where[df["Col1"]>0]] # Mêmes dimensions que df, contrairement à df[df["Col1"]>0]

In [None]:
# Sélectionner les lignes en écrivant une query
df.query('col1>0 and col2 < 0')

In [None]:
# Sélectionner les lignes qui contiennent les 5 valeurs extremes d’une colonne
df.nlargest(5,'Col1')
df.nsmallest(5,'Col1')
# Sélectionner les lignes qui contiennent les 5 valeurs minimales d’une colonne et les 5 valeurs maximales d’une autre colonne
df.nlargest(5,'Col1').nsmallest(5,'Col2')

In [None]:
# Sélectionner toutes les lignes d’un dataframe qui font partie de catégories les plus/moins représentées
counts = df.col1.value_counts()
df[df.col1.isin(counts.nlargest(3).index)].head()

In [None]:
# Sélectionner les lignes qui vérifient plusieurs mêmes conditions sur leurs colonnes (And)
df[(df["col1"]>0) & (df["col2"] < 0)]

In [None]:
# Sélectionner les lignes qui vérifient plusieurs mêmes conditions sur leurs colonnes (Or)
df[(df["col1"]>0) | (df["col2"] < 0)]

In [None]:
# Sélectionner les lignes qui vérifient plusieurs mêmes conditions sur leurs colonnes (And)
df[ np.logical_and(df["col1"]>0, df["col2"] < 0] # moins fréquent

# Ajouter une nouvelle colonne au dataframe

In [None]:
# Ajouter une nouvelle colonne et l’initialiser à zéro
df.loc[:,"nouvelle"] = 0
# ou alors
df["nouvelle"] = 0

In [None]:
# Ajouter une nouvelle colonne et l’initialiser à partir des données d’autres colonnes
df.loc[:,"nouvelle"] = df.loc[:,"col1"]  + df.loc[:,"col2"] 
df["nouvelle"] = df["col1"]  + df["col2"]

In [None]:
# Ajouter une nouvelle colonne et l’initialiser à partir des données d’autres colonnes
# Calculs à partir des méthodes liées aux séries
df["nouvelle"] = df["col1"].add(df["col2"], fill_value=0) 
df["nouvelle"] = df["col1"].add(df["col2"], fill_value=0).div(2) # chaining

In [None]:
# Ajouter une nouvelle colonne et l’initialiser à partir des données d’autres colonnes avec la méthode where de numpy
df["nouvelle"] = np.where(df["col1"]<10, "Pas Mal","Bien")

In [None]:
# Remplacer les valeurs d’une série qui ne sont pas dans le top5 des valeurs les plus représentées par "Autres"
top5 = col1.value_counts().index[:5]
col1.where(col1.isin(top5), other='Autres')

In [None]:
# Et si on veut inverser la logique de la cellule du dessus
top5 = col1.value_counts().index[:5]
col1.where(~col1.isin(top5), other='Autres') #~ inverse la logique
# ou alors
col1.mask(col1.isin(top5), other='Autres')   # Même effet que le ~

In [None]:
# Garder les valeurs d’une série qui sont dans le top5 des valeurs les plus représentées, 
# mettre "TOP10" pour celles qui sont dans le Top10, et "Autres" sinon
top5 = col1.value_counts().index[:5]
top10 = col1.value_counts().index[:10]
col1.where(col1.isin(top5), other='TOP10').where(col1.isin(top10), other='Autres')
# ou alors
import numpy as np
np.select([col1.isin(top5), col1.isin(top10)],[col1, 'Top10'], 'Other')

# Modifier des colonnes de type String

In [None]:
# Modifier des chaînes de caractères en utilisant des String Methods
df["col"] = df["col"].str.upper()                               # tout en majuscule
df["col"] = df["col"].str.replace('[', '').str.replace(']', '') # on supprime les chaines "[]"
df["col"] = df["col"].str.replace('$', '').astype(float)        # on supprime le signe $ et on convertit en nombre

In [None]:
# Modifier des Strings en nombres en gérant les erreurs - sur une série
pd.to_numeric(df.col1, errors='coerce')                # Nan si erreur
pd.to_numeric(df.col_three, errors='coerce').fillna(0) # 0 si erreur

In [None]:
# Modifier des Strings en nombres en gérant les erreurs - sur le dataframe complet
df = df.apply(pd.to_numeric, errors='coerce').fillna(0)

In [None]:
# Modification d’un string dans une Série - Remplacement simple
df.col1.replace(to_replace='old',value='new')
# ou alors
df.col1.replace(to_replace={'old':'new'})

In [None]:
# Modification d’un string dans une Série - avec les regex
df.col1.replace(to_replace='z.*',value='zanne',regex=True)
make.replace(r'( Fer)ra(r.*)',value=r'\2-other -\1', regex=True)

In [None]:
# Modifier plusieurs colonnes String > Nombre
cols = df.columns                                         # choix de la liste des colonnes
df[cols] = df[cols].apply(pd.to_numeric, errors='coerce')

# Changer le type d’une colonne de dataframe

In [None]:
# Transformer une colonne en nombre
df["col"] = df["col"].astype(float)

In [None]:
# Modifier Plusieurs colonnes
df = df.astype({'col1':'float', 'col2':'float'})

In [None]:
# Modifier les valeurs à la création du dataframe
pd.read_csv('df.csv', dtype={'column_x':float})

In [None]:
# Vérifier les capacités des différents types (int64, uint8, float16, float64) - Min et Max possibles
np.iinfo('int64')
# iinfo(min = -9223372036854775808 , max =9223372036854775807 , dtype=int64)
np.iinfo('uint8')
# iinfo(min=0, max =255 , dtype=uint8)
np.finfo('float16')
# finfo(resolution =0.001 , min = -6.55040e+04, max =6.55040e+04, dtype=float16)
np.finfo('float64')
# finfo(resolution =1e-15, min = -1.7976931348623157e+308 ,max =1.7976931348623157 e+308 , dtype=float64)

# Changer le type d’une colonne de dataframe en catégorie

In [None]:
# Modifier une colonne du Dataframe contenant un nombre fini de modalités par des nombres
data['sex'].map({'male':0, 'female':1}) # map et dictionnaire
# ou alors
data['sex'].replace( ['male','female'] , [0,1])

data['sex'].astype('category').cat.codes

# Modifier une valeur du dataframe

In [None]:
# Modifier la valeur en se basant sur les noms des index lignes et colonnes
df.at[dates[0],"A"]=0

In [None]:
# Modifier la valeur en se basant sur les positions de la ligne et colonne
df.iat[0,1]=0
df.iat[0,1]=np.nan

In [None]:
# Modifier dans le dataframe tout un ensemble de valeurs
df.loc[df.col1=='NOT RATED', 'col1'] = np.nan

# Ajouter une catégorie pour des valeurs numériques continues

In [None]:
# bornes définies par l'utilisateur et nommage de chaque groupe
pd.cut(titanic.Age, bins=[0, 18, 25, 99], labels=['child', 'young adult', 'adult'])

pd.cut(df.col1, 10)              # 10 groupes avec bornes réparties équitablement
pd.cut(df.col1, [0,10,20,30,40]) # Avec définition des bornes
pd.qcut(df.col1, 10)             # 10 groupes répartis équitablement en nombre (quartiles)

# Ajouter un classement pour des valeurs numériques continues

In [None]:
col1.rank()               # rang des valeurs identiques > moyenne de leur rang
col1.rank(method='min')   # les valeurs identiques auront le même rang
col1.rank(method='dense') # pas de trous dans les classements

# Dataframe avec un index de type Date - Timeseries

In [None]:
# Convertir la Série en format datetime
df['Time'] = pd.to_datetime(df.Time)
df['Time'] = pd.to_datetime(df.Time, format="%d/%m/%y")
df['Time'] = pd.to_datetime(df.Time, infer_datetime_format=True) # Panda devine le bon format de date à appliquer

In [None]:
# A partir d’une données de type date, extraire les informations spécifiques liées aux dates
df.Time.dt.hour
df.Time.dt.weekday_name
df.Time.dayofyear.hour
(day.Time.max() - day.Time.min()).days

In [None]:
# Filtrer les données de type date
df[df.time_column > pd.datetime_column(2014, 1, 1)]

# Gérer les valeurs manquantes du dataframe > les compter

In [None]:
# Visualiser les colonnes d’un dataframe et du nombre de valeurs manquantes
df.info()

In [None]:
# identifier les colonnes avec des valeurs manquantes et en faire une liste
cols_miss_val = [col for col in df.columns if df[col].isnull().any()] 

In [None]:
# Visualiser les valeurs NA du dataframe
pd.isna(df)

In [None]:
# Visualiser le nombre de NA du dataframe par colonne
pd.isna(df).sum()
# ou alors
df.isnull().sum()

In [None]:
# Visualiser le nombre de valeurs non nulles pour une colonne du dataframe
df["col1"].notnull().sum()
df.notnull().sum()

In [None]:
# Visualiser le pourcentage de valeurs non nulles pour les colonnes du dataframe
df.notnull().mean()

In [None]:
# Visualiser le nombre de NA du dataframe au total
pd.isna(df).sum().sum()
# ou alors
df.isnull().sum().sum()

In [None]:
# Visualiser le nombre de NA du dataframe par type de colonne
df.isnull().dtypes.value_counts()
df.isnull().dtypes.value_counts(normalize=True) #pourcentage

In [None]:
# Visualiser le nombre de valeurs non NA du dataframe par colonne
df.count()

In [None]:
# Visualiser le pourcentage de NA du dataframe par colonne
pd.isna(df).mean()

In [None]:
# Les valeurs manquantes sont exclues par défaut du comptage
df.column_x.value_counts()              # exclusion des valeurs manquantes
df.column_x.value_counts(dropna=False)  # inclusion des valeurs manquantes

In [None]:
# Créer le dataframe sans tenir compte du filtre des valeurs manquantes
df = pd.read_csv("df.csv", header=0, names=new_cols, na_filter=False)

# Gérer les valeurs manquantes du dataframe > les supprimer

In [None]:
# Avant de supprimer, vérifier combien de lignes seront supprimées
df.dropna(how="any").shape # Au moins une des valeurs la ligne est manquante
df.dropna(how="all").shape # Toutes les valeurs de la ligne sont manquantes

In [None]:
# Supprimer d’un dataframe toutes les lignes qui comportent une valeur NA
df.dropna(how="any") # au moins une
df.dropna(how="all") # Toutes

In [None]:
# Supprimer d’un dataframe toutes les lignes qui comportent une valeur NA sur certaines colonnes
df.dropna(subset=['col1', 'col2'],how="any") # au moins une
df.dropna(subset=['col1', 'col2'],how="all") # toutes

In [None]:
# Supprimer d’un dataframe toutes les lignes qui comportent une valeur NA
df.dropna(axis=0)

In [None]:
# Supprimer les colonnes qui ont plus de 10% de valeurs manquantes
df.dropna(thresh=len(df)*0.9, axis='columns')

# Gérer les valeurs manquantes du dataframe > les remplacer

In [None]:
# Remplacer dans un dataframe les valeurs NA par une constante
df.fillna(value=0)

In [None]:
# Remplacer dans un dataframe les valeurs NA par une constante
df['col1'].fillna(value='defaut',inplace=True)

In [None]:
# Remplacer dans un dataframe les valeurs NA par des constantes différentes suivant les colonnes
df = df.fillna({
 'col1': 'missing',
 'col2': '99.999',
 'col3': '999',
 'col4': 'missing',
 'col5': 'missing',
 'col6': '99'
})

In [None]:
# Remplacer dans un dataframe les valeurs NA d’une colonne en se basant sur les valeurs qui précèdent
df["col1"].fillna(inplace=True, method='bfill') # Backward fill
# ou alors
df["col1"].bfill(inplace=True)                  # equivalent

In [None]:
# Remplacer dans un dataframe les valeurs NA d’une colonne en se basant sur les valeurs qui suivent
df["col1"].fillna(inplace=True, method='ffill') # forward fill

In [None]:
# Remplacer dans un dataframe les valeurs NA d’une colonne en interpolant les valeurs
df["col1"].interpolate() #interpolation

# Gestion des valeurs extrêmes - Les retirer

In [None]:
# Enlever dans un dataframe les valeurs extrêmes, à partir des quartiles
# Les remplacer par les bornes du quartile
df.col1.clip(lower=df.col1.quantile(.05), upper=df.col1.quantile(.95))

# Gérer les doublons dans une série

In [None]:
# Trouver les doublons dans une série
df.col1.duplicated().tail()

In [None]:
# Compter le nombre de doublons
df.col1.duplicated().sum()

In [None]:
# Afficher tous les doublons pour une série
df.loc[col1.duplicated(keep=False), :]

In [None]:
# Afficher tous les doublons pour une série (en ignorant première occurrence)
df.loc[col1.duplicated(keep='first'), :]

In [None]:
# Afficher tous les doublons pour une série (en ignorant la dernière occurrence)
df.loc[col1.duplicated(keep='last'), :]

In [None]:
# Supprimer les doublons pour une série
df.col1.drop_duplicated(keep='first') # Pour chaque groupe dupliqué, on ne garde que la première occurence trouvée
# ou alors
df.col1.drop_duplicated(keep='last') # On ne garde que la dernière occurence trouvée
# ou alors
df.col1.drop_duplicated(keep='false') # On supprime tous les doublons

# Gérer les doublons dans le dataframe

In [None]:
# Trouver les doublons dans la df
df.duplicated().tail()

In [None]:
# Supprimer les doublons pour un dataframe
df.drop_duplicated(keep='first')
# ou alors
df.drop_duplicated(keep='last')
# ou alors
df.drop_duplicated(keep='false')

# Calcul statistique sur les données du dataframe

In [None]:
# Visualiser la moyenne des colonnes (format numérique) du dataframe
df.mean()

In [None]:
# Visualiser la somme des colonnes  (format numérique) du dataframe
df.sum()

In [None]:
# Visualiser le nombre de valeurs non nulles par colonne du dataframe
df.count()

In [None]:
# Visualiser les statistiques sur une colonne
df["Col1"].mean()
df["Col1"].count()
df["Col1"].sum()

In [None]:
# Visualiser les différentes valeurs d’une colonne et leur nombre d’apparition
df["Col1"].value_counts()
df["Col1"].value_counts(1) # sous forme de pourcentage
df["Col1"].value_counts(normalize=True) # sous forme de pourcentage

In [None]:
# Visualiser les différentes valeurs d’une colonne
df["Col1"].unique()

In [None]:
# Visualiser le nombre des différentes valeurs d’une colonne
df["Col1"].nunique()

In [None]:
# Calculer la corrélation entre 2 colonnes du dataframe
df[ ['c1','c2'] ].corr()

In [None]:
# Visualiser la somme par ligne de toutes les colonnes numériques du dataframe
df.sum(1)

# Calculer avec la fonction apply

In [None]:
Note : apply peut ne pas être une solution performante ...

In [None]:
# Effectuer une somme cumulative sur toutes les colonnes d’un dataframe
df.apply(np.cumsum)

In [None]:
# Trouver pour chaque colonne d’un dataframe, la différence entre la valeur maximale et minimale (par colonne)
df.apply(lambda x: x.max() - x.min())

In [None]:
# Trouver pour chaque colonne d’un dataframe, l’index qui contient la valeur maximale
df.apply(lambda x:x.idmax())

In [None]:
# Calculer la somme par colonne d’un dataframe
result = df.apply(np.sum, axis=0)

In [None]:
# Calculer la somme par ligne d’un dataframe
result = df.apply(np.sum, axis=1)

In [None]:
# Mettre dans une nouvelle colonne du dataframe la longueur d’une colonne de type caractère
df["nouvelle"] = df["Col2"].apply(len)

In [None]:
# Mettre dans une nouvelle colonne du dataframe une chaine en majuscule issue d’une autre colonne
df["nouvelle"] = df["Col2"].apply(str.upper)

In [None]:
# Sortir le premier élément d’une liste (split de caractères)
df.col1.str.split(',').apply(lambda x: x[0])

# Fusionner deux dataframes - concatenation

In [None]:
# Fusionner 2 dataframes verticalement, qui ont les mêmes colonnes
df = pd.concat([df1,df2], ignore_index=True)

In [None]:
# Fusionner 2 dataframes horizontalement, en faisant la jointure avec les index
df = pd.concat([df1,df2], axis=1)

# Fusionner deux dataframes - Merge

In [None]:
# Merger 2 dataframes avec une clé de jointure commune entre les 2 df (et de même nom)
pd.merge(df_left, df_right, on="key")

In [None]:
# Merger 2 dataframes avec une clé de jointure commune entre les 2 df
pd.merge(df_left, df_right, left_on="key1", right_on="key1", how='outer')

In [None]:
# Merger 2 Dataframe, en précisant le type de jointure, la clé de jointure et en renommant les colonnes mergées
pd.merge(btc,eth,on='Date',how='inner',suffixes=('_btc','_eth')) # how = 'inner', 'outer'

# GroupBy de dataframe - regrouper et aggréger

In [None]:
# Faire un group by de somme de toutes les colonnes numériques, suivant les valeurs uniques d’une colonne d’un dataframe
df.groupby("Col1").sum()

In [None]:
# Faire un group by de moyenne de toutes les colonnes numériques, suivant les valeurs uniques d’une colonne d’un dataframe
df.groupby("Col1").mean()

In [None]:
# Faire un group by de somme  de toutes les colonnes numériques, suivant les valeurs de deux colonnes de dataframe
df.groupby(["Col1","Col2"]).sum()

In [None]:
# Faire un group by de compte de toutes les colonnes numériques, suivant les valeurs d’une colonne d’un dataframe
df.groupby("Col1").count()

In [None]:
# Spécialiser le comptage sur une colonne (ici Col3)
df.groupby(["Col1","Col2"])["Col3"].sum()

In [None]:
# Examiner les groupes issus d’un groupby
obj = df.groupby('col1')
obj.groups
for name,group in obj:
    print(name,'contains',group.shape[0],'rows')
obj.get_group('Tier 1')

In [None]:
# Faire plusieurs calculs par regroupement
df.groupby('col1').agg([np.mean,np.median])

In [None]:
# Faire des regroupements sur plusieurs colonnes et mettre à plat le tableau (pas de multi-index)
df.groupby(['col1','col2'],as_index=False).agg({'col3':np.mean})

In [None]:
# Faire des regroupements sur plusieurs colonnes, différents calculs sur la même quantité et mettre à plat le tableau
df.groupby(['co1','col2'],as_index=False).agg({'col3':[np.mean,np.sum,'count']})

In [None]:
# Mettre le nom des colonnes à plat avec un group by
tab.columns = tab.columns.map(' '.join) # Mise à plat des colonnes multi-index

In [None]:
# Présenter plus simplement un groupby à plusieurs niveaux
titanic.groupby(['Sex', 'Pclass']).Survived.mean().unstack() # Pclass passe de ligne (index niveau2) à colonne

# Faire des calcul sur des dataframes séries temporelles

In [None]:
# Faire un group by de données, suivant une période temporelle (jour, mois, année, …)
# Sélection d'un range de date (entre deux années)
df.loc['2016':'2019','close'].resample('w').mean()

In [None]:
# Faire des statistiques suivant les valeurs d’une colonne d’un dataframe
df['close'].resample('w').agg(['mean','std','min','max'])

In [None]:
# Faire une moyenne mobile simple sur 7 jours
df.loc['2019','close'].rolling(window=7).mean()

In [None]:
# Faire une moyenne mobile exponentielle
df.loc['2019','close'].ewm(alpha=0.5).mean()

# Fonction transform

In [None]:
# Insérer dans le df initial des aggrégations de group by dans de nouvelles colonnes
total_price = orders.groupby('order_id').item_price.transform('sum')
# Pour chaque commande, on calcule la somme, et on réinjecte au niveau du détail de la commande

# Fonction Stack / unstack

In [None]:
# Stack : transformer toutes les colonnes en lignes : Intitulé de la colonne et sa valeur
df.stack().reset_index()

In [None]:
# Présenter plus simplement un groupby à plusieurs niveaux
titanic.groupby(['Sex', 'Pclass']).Survived.mean().unstack()

# Calcul suivant des pivots

In [None]:
# Faire un calcul de table pivot sur un dataframe, sur 2 valeurs de lignes et 1 valeur de colonne
pd.pivot_table(df, values="D", index=["Col1","Col2"], columns=["Col3"]) 

In [None]:
titanic.pivot_table(index='Sex', columns='Pclass', values='Survived', aggfunc='mean')
# Même tableau avec les totaux (lignes et colonnes)
titanic.pivot_table(index='Sex', columns='Pclass', values='Survived', aggfunc='mean', margins=True)

# Création de valeurs dummies (transformation pour les algorithmes de Machine Learning)

In [None]:
column_x_dummies = pd.get_dummies(df.column_x).iloc[:, 1:]