<h2>Fonction d'aggrégation</h2>


Une **fonction d'agrégation** est une fonction qui prend plusieurs valeurs en entrée et retourne une seule valeur qui résume ou agrège les données. Ces fonctions sont utilisées pour obtenir des résumés statistiques ou des mesures synthétiques à partir d'un ensemble de données.

Voici quelques exemples courants de fonctions d'agrégation :

1. **Somme** : Cette fonction agrège les valeurs en additionnant toutes les valeurs de l'ensemble de données.

2. **Moyenne** : Calcule la moyenne des valeurs de l'ensemble de données.

3. **Médiane** : Identifie la valeur médiane de l'ensemble de données, c'est-à-dire la valeur qui se trouve au milieu lorsqu'elles sont triées.

4. **Minimum et Maximum** : Retourne respectivement la plus petite et la plus grande valeur de l'ensemble de données.

5. **Écart-type** : Calcule la dispersion des valeurs par rapport à la moyenne.

6. **Variance** : Mesure la variabilité des données.

7. **Comptage** : Compte le nombre total d'observations dans l'ensemble de données.

8. **Mode** : Identifie la valeur la plus fréquemment observée.

9. **Écart interquartile** : Mesure l'écart entre le premier quartile et le troisième quartile de l'ensemble de données.

10. **Produit** : Multiplie toutes les valeurs de l'ensemble de données.

11. **Équivalent de l'agrégation de texte** : Par exemple, concaténer des chaînes de caractères ou trouver la plus longue chaîne.

<h4>Comment appliquer les fonctions d'aggrégation?</h4>

<ul>
    <li>
        <em>Sélectionner vos données</em>
        <p>Imaginez que vous ayez une grande feuille de calcul avec beaucoup d'informations. Vous pouvez utiliser une fonction pour trouver et travailler uniquement avec les parties qui vous intéressent.</p>
    </li>
    <li>
        <em>Appliquer la fonction</em>
        <p> Vous pouvez demander à la fonction de faire des choses comme calculer des moyennes, compter des occurrences, ou même créer de nouveaux tableaux à partir de vos données existantes.</p>
    </li>
     <li>
        <em>Voir le résultat</em>
        <p>Une fois que vous avez utilisé la fonction, elle vous renverra les résultats de l'opération que vous lui avez demandée.</p>
    </li>
</ul>

<h3>Quelques exemple de fonctions d'aggrégation</h3>

<ol>
    <li><code>mean()</code> : Calcule la moyenne des valeurs dans un groupe.</li>
    <li><code>sum()</code> : Calcule la somme des valeurs dans un groupe.</li>
    <li><code>min()</code> : Retourne la valeur minimale dans un groupe.</li>
    <li><code>max()</code> : Retourne la valeur maximale dans un groupe.</li>
    <li><code>count()</code> : Compte le nombre de valeurs non nulles dans un groupe.</li>
    <li><code>median()</code> : Calcule la médiane des valeurs dans un groupe.</li>
    <li><code>std()</code> : Calcule l'écart-type des valeurs dans un groupe.</li>
    <li><code>var()</code> : Calcule la variance des valeurs dans un groupe.</li>
    <li><code>first()</code> : Retourne la première valeur non nulle dans un groupe.</li>
    <li><code>last()</code> : Retourne la dernière valeur non nulle dans un groupe.</li>
    <li><code>nunique()</code> : Compte le nombre de valeurs uniques dans un groupe.</li>
    <li><code>agg()</code> : Permet d'appliquer plusieurs fonctions d'agrégation à la fois.</li>
    <li><code>describe()</code> : Génère des statistiques descriptives pour un groupe.</li>
    <li><code>quantile(q)</code> : Calcule le quantile spécifié <code>q</code>.</li>
    <li><code>idxmin()</code> : Retourne l'indice de la valeur minimale dans un groupe.</li>
    <li><code>idxmax()</code> : Retourne l'indice de la valeur maximale dans un groupe.</li>
    <li><code>skew()</code> : Calcule l'asymétrie des valeurs dans un groupe.</li>
    <li><code>kurt()</code> : Calcule l'aplatissement des valeurs dans un groupe.</li>
    <li><code>cumsum()</code> : Calcule la somme cumulée des valeurs dans un groupe.</li>
    <li><code>cummin()</code> : Calcule le minimum cumulatif des valeurs dans un groupe.</li>
    <li><code>cummax()</code> : Calcule le maximum cumulatif des valeurs dans un groupe.</li>
    <li><code>cumprod()</code> : Calcule le produit cumulatif des valeurs dans un groupe.</li>
</ol>

<h4>La moyenne</h4>

In [1]:
import pandas as pd

data = {'A': [1, 2, 3, 4, 5],
        'B': [10, 20, 30, 40, 50]}

df = pd.DataFrame(data)
mean_A = df['A'].mean()
mean_B = df['B'].mean()

print(f"Moyenne de A : {mean_A}")
print(f"Moyenne de B : {mean_B}")


Moyenne de A : 3.0
Moyenne de B : 30.0


<h4>Sommes</h4>

In [2]:
sum_A = df['A'].sum()
sum_B = df['B'].sum()
B = df.sum()
print(f"Somme de A : {sum_A}")
print(f"Somme de B : {sum_B}")
print(B)

Somme de A : 15
Somme de B : 150
A     15
B    150
dtype: int64


<h4>Compte</h4>

In [3]:
count_A = df['A'].count()
count_B = df['B'].count()

print(f"Nombre de valeurs non nulles dans A : {count_A}")
print(f"Nombre de valeurs non nulles dans B : {count_B}")

Nombre de valeurs non nulles dans A : 5
Nombre de valeurs non nulles dans B : 5


<h4>Exercice d'application</h4>

Supposons que vous travaillez pour une entreprise de vente au détail et que vous avez un DataFrame contenant des informations sur les ventes de produits. Voici un exemple simplifié de ce DataFrame :


In [27]:
data = {'Product': ['A', 'B', 'A', 'C', 'B', 'A'],
        'Quantity': [10, 20, 30, 40, 50, 60],
        'Price': [5, 10, 8, 12, 7, 9]}

df = pd.DataFrame(data)
data

{'Product': ['A', 'B', 'A', 'C', 'B', 'A'],
 'Quantity': [10, 20, 30, 40, 50, 60],
 'Price': [5, 10, 8, 12, 7, 9]}

Vous devez résoudre les problèmes suivants en utilisant les fonctions d'agrégation :

Compter les catégories de produit vendue. <br>
Trouvez la quantité totale vendue. <br>
Calculez le prix moyen. <br>

<h5>Correction</h5>

In [28]:
#Compter les catégories de produit vendue. 
nombre_categories = df['Product'].nunique()
nombre_categories

3

In [30]:
# Trouvez la quantité totale vendue.
quantite_totale_vendue = df['Quantity'].sum()
quantite_totale_vendue

210

In [None]:
# Calculez le prix moyen.
prix_moyen = df['Price'].mean()
prix_moyen

<h3>Fonction de transformation</h3>

Une fonction de transformation, en termes de traitement de données, est une fonction qui prend une ou plusieurs valeurs en entrée, les modifie d'une certaine manière, puis renvoie le résultat transformé en sortie. Contrairement aux fonctions d'agrégation qui réduisent les données à un seul résultat, les fonctions de transformation agissent sur chaque élément individuel sans agréger les données.

<code>np.log(), np.exp():</code> Calculent le logarithme naturel et l'exponentielle d'un nombre respectivement. <br>
<code>np.sin(), np.cos(), np.sqrt():</code> Calculent le sinus, le cosinus et la racine carrée d'un nombre respectivement.

<code>str.upper(), str.lower():</code> Mettent en majuscules ou en minuscules une chaîne de caractères. <br>
<code> str.replace():</code> Remplace des sous-chaînes dans une chaîne de caractères.

In [7]:
import numpy as np
data = {'A': [1, 2, 3, 4, 5],
        'B': [10, 20, 30, 40, 50],
        'C':["A", "C", "D", "E","F"]}
data["D"] = np.sqrt(data["A"])
data

{'A': [1, 2, 3, 4, 5],
 'B': [10, 20, 30, 40, 50],
 'C': ['A', 'C', 'D', 'E', 'F'],
 'D': array([1.        , 1.41421356, 1.73205081, 2.        , 2.23606798])}

Problème : Gestion des données de ventes

Supposons que vous travaillez pour une entreprise de vente en ligne qui souhaite analyser ses données de ventes pour mieux comprendre les habitudes d'achat de ses clients. Vous disposez d'un ensemble de données contenant des informations sur les transactions passées, notamment les produits achetés, les quantités, les prix, et les dates.

Votre objectif est de préparer les données pour une analyse approfondie en effectuant les étapes suivantes :

Calculer le montant total de chaque transaction en multipliant la quantité achetée par le prix unitaire.
Ajouter une colonne pour indiquer le mois de chaque transaction.
Regrouper les données par mois pour obtenir des informations agrégées sur les ventes mensuelles.
Identifier les produits les plus populaires en comptant combien de fois chaque produit a été acheté.
Calculer le revenu moyen par transaction.
Ces étapes permettront à l'entreprise de tirer des conclusions utiles sur les habitudes d'achat de ses clients et de prendre des décisions basées sur des données fiables.

In [32]:
import pandas as pd

data = {
    'Produit': ['A', 'B', 'A', 'C', 'B', 'C'],
    'Quantité': [3, 2, 1, 4, 2, 3],
    'Prix Unitaire': [10, 5, 12, 8, 6, 10],
    'Date': ['2023-09-01', '2023-09-02', '2023-09-02', '2023-09-03', '2023-09-03', '2023-09-04']
}

df = pd.DataFrame(data)
df['Date'] = pd.to_datetime(df['Date'])

# 1. Calculer le montant total de chaque transaction
df['Montant Total'] = df['Quantité'] * df['Prix Unitaire']

# 2. Ajouter une colonne pour indiquer le mois de chaque transaction
df['Mois'] = df['Date'].dt.month

# 5. Identifier les produits les plus populaires
produits_populaires = df['Produit'].value_counts()

# 6. Calculer le revenu moyen par transaction
revenu_moyen_par_transaction = df['Montant Total'].mean()

print("Montant total de chaque transaction :")
print(df)


print("\nProduits populaires :")
print(produits_populaires)

print("\nRevenu moyen par transaction :")
print(revenu_moyen_par_transaction)


Montant total de chaque transaction :
  Produit  Quantité  Prix Unitaire       Date  Montant Total  Mois
0       A         3             10 2023-09-01             30     9
1       B         2              5 2023-09-02             10     9
2       A         1             12 2023-09-02             12     9
3       C         4              8 2023-09-03             32     9
4       B         2              6 2023-09-03             12     9
5       C         3             10 2023-09-04             30     9

Ventes par mois :
Mois
9    126
Name: Montant Total, dtype: int64

Produits populaires :
A    2
B    2
C    2
Name: Produit, dtype: int64

Revenu moyen par transaction :
21.0


<h4>Fonctions de filtrage</h4>

***Fonctionnement des fonctions de filtrage***
Les fonctions de filtrage en Pandas permettent de sélectionner des données spécifiques à partir d'un DataFrame en se basant sur des critères spécifiés. Voici le principe de fonctionnement de ces fonctions :

1. ****Condition de Filtrage**** : Tout d'abord, vous spécifiez une condition basée sur les valeurs des colonnes du DataFrame. Par exemple, vous pourriez vouloir sélectionner toutes les lignes où une colonne a une valeur supérieure à 5.

2. ****Création d'un Masque**** : Lorsque vous appliquez une condition, Pandas crée un masque booléen. Cela signifie que pour chaque ligne du DataFrame, une valeur `True` ou `False` est assignée en fonction de si la condition est vérifiée ou non. Par exemple, si la condition est `df['Colonne'] > 5`, le masque aura `True` pour les lignes où cette condition est vraie, et `False` sinon.

3. ****Application du Masque**** : Le masque est ensuite utilisé pour sélectionner les lignes qui répondent à la condition. Cela signifie que seules les lignes avec des valeurs `True` dans le masque seront incluses dans le résultat final.

4. ****Résultat Final**** : Le résultat de l'opération de filtrage est un nouveau DataFrame qui contient uniquement les lignes qui satisfont à la condition spécifiée.

<h5>Filtrage avec condition simple</h5>

In [8]:
import pandas as pd

data = {'Colonne': [1, 7, 3, 9, 2]}
df = pd.DataFrame(data)

result = df[df['Colonne'] > 5]
print(result)


   Colonne
1        7
3        9


<h5>Filtrage avec plusieurs conditions</h5>

In [9]:
result = df[(df['Colonne'] > 2) & (df['Colonne'] < 8)]
print(result)

   Colonne
1        7
2        3


<h5>Filtrage avec l'opérateur isin</h5>

In [10]:
result = df[df['Colonne'].isin([1, 3, 5])]
print(result)

   Colonne
0        1
2        3


<h5>Filtrage avec l'opérateur ~ (négation)</h5>

In [11]:
result = df[~(df['Colonne'] > 5)]
print(result)


   Colonne
0        1
2        3
4        2


<h5>Filtrage avec between</h5>

In [13]:
result = df[df['Colonne'].between(4, 9)]
print(result)


   Colonne
1        7
3        9


<h4>Fonctions de trie</h4>

En analyse de données, une fonction de tri est une méthode ou un processus permettant d'organiser un jeu de données selon un ordre spécifique. L'objectif du tri est de rendre les données plus lisibles et plus faciles à analyser en les disposant dans un ordre particulier.

Par exemple, on peut trier des données numériques du plus petit au plus grand pour identifier des tendances ou des valeurs extrêmes. On peut également trier des données textuelles par ordre alphabétique ou selon d'autres critères pour faciliter leur examen.

Les fonctions de tri en analyse de données peuvent être utilisées pour :

Classer les données : Organiser les données de manière à ce qu'elles suivent un ordre spécifique, facilitant ainsi l'identification de schémas ou de tendances.

Identifier des valeurs extrêmes : En triant les données, on peut repérer rapidement les valeurs les plus petites ou les plus grandes.

Faciliter la visualisation : Les graphiques et les visualisations sont souvent plus clairs lorsque les données sont triées.

Simplifier les comparaisons : Le tri permet de comparer facilement des éléments adjacents ou des groupes de données.

Faciliter l'agrégation : Lorsque les données sont triées, il est plus facile de les regrouper ou de les agréger selon des critères spécifiques.

Voici quelques-unes des fonctions de tri couramment utilisées en pandas :

`sort_values() :` Trie un DataFrame en fonction des valeurs dans une ou plusieurs colonnes. On peut spécifier l'ordre (croissant ou décroissant) pour chaque colonne.

`sort_index() :` Trie un DataFrame en fonction des index (lignes) plutôt que des valeurs.

`nlargest() et nsmallest() :` Retourne les n plus grandes ou plus petites valeurs d'une série ou d'un DataFrame.

`rank() :` Attribution de classements (ranks) aux éléments d'une série ou d'un DataFrame en fonction des valeurs.

`argsort() :` Retourne un index qui trie les éléments d'une série.

`natsort() :` Trie les chaînes de caractères en utilisant un tri "naturel", c'est-à-dire en tenant compte des chiffres et de l'ordre alphabétique.

<h5>Sort_values</h5>

In [16]:
import pandas as pd

# Création d'un DataFrame
data = {'A': [3, 1, 2], 'B': [1, 3, 2]}
df = pd.DataFrame(data)

# Tri par la colonne 'A' en ordre croissant
df_sorted = df.sort_values(by='A')
print(df_sorted)


   A  B
1  1  3
2  2  2
0  3  1


<h5>nlargest et nsamllest</h5>

In [17]:
# Sélection des deux plus grandes valeurs dans la colonne 'A'
top_2_largest = df['A'].nlargest(2)
print(top_2_largest)

0    3
2    2
Name: A, dtype: int64


<h5>argsort</h5>

In [20]:
indices = df['A'].argsort()
indices

0    1
1    2
2    0
Name: A, dtype: int64

<h3>Fonctions de groupement</h3>

Une fonction de groupement en pandas permet de regrouper des données en fonction d'une ou plusieurs clés, puis d'effectuer des opérations sur ces groupes. Ces opérations peuvent être des agrégations (comme la somme, la moyenne, le comptage) ou des transformations (comme le calcul de pourcentages par groupe).

Les étapes pour utiliser une fonction de groupement en pandas sont généralement les suivantes :

Division par clé : Les données sont divisées en groupes en fonction des valeurs de la ou des clés spécifiées.

Application d'une fonction : Une fonction d'agrégation (comme la somme, la moyenne, etc.) ou une transformation (comme le calcul de pourcentages) est appliquée à chaque groupe.

Combinaison des résultats : Les résultats de l'application de la fonction sur chaque groupe sont combinés pour produire un nouvel objet.

Pour regrouper un données on utilise la fonction <code>groupe_by</code>

<h5>Les paramètres les plus souvent utilisés</h5>

by : C'est l'argument principal qui spécifie les colonnes ou les clés à utiliser pour le regroupement. Il peut s'agir d'un nom de colonne (str), d'une liste de noms de colonnes, d'une fonction ou d'un objet similaire à un tableau qui sera utilisé pour effectuer le regroupement.

axis : Cet argument permet de spécifier l'axe sur lequel effectuer le regroupement. Par défaut, il s'agit de l'axe 0, c'est-à-dire les lignes. Si vous voulez regrouper les colonnes, vous pouvez utiliser axis=1.

sort : Ce paramètre détermine si les groupes doivent être triés. Par défaut, il est à True.

In [22]:
import pandas as pd

# Création d'un DataFrame
data = {'Category': ['A', 'B', 'A', 'B', 'A'],
        'Value': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)

# Regroupement par 'Category'
grouped = df.groupby('Category')


<h5>Application</h5>

<h6>Fonction d'aggrégation</h6>

In [23]:
mean_values = grouped['Value'].mean()
mean_values

Category
A    30.0
B    30.0
Name: Value, dtype: float64

<h6>Fonction personnalisée</h6>

In [24]:
def custom_function(x):
    return x.sum() / x.max()

custom_result = grouped['Value'].agg(custom_function)
custom_result

Category
A    1.8
B    1.5
Name: Value, dtype: float64

<h6>Fonction transform</h6>

In [25]:
normalized_values = grouped['Value'].transform(lambda x: (x - x.mean()) / x.std())
normalized_values

0   -1.000000
1   -0.707107
2    0.000000
3    0.707107
4    1.000000
Name: Value, dtype: float64