In [3]:
"""Fusionner des données avec Pandas
La fonction ou méthode prévue par Pandas pour faire une jointure se nommemerge .
Eh oui ! Vous avez bien lu ! J’ai bien dit fonction ou méthode. Car il existe deux façons de faire une jointure entre 2 data frames 
A et B  avec Pandas : 

- via la fonction Pandas. Dans ce cas-là, l’écriture sera  pd.merge(A, B);
- via la méthode de data frame. Dans ce cas-là, l'écriture sera  A.merge(B)

# une jointure naturelle.
"""

import pandas as pd

clients = pd.read_csv("data/clients.csv")
prets = pd.read_csv("data/prets.csv")

In [11]:
# Joindture des data frames prets et clients
'''
Il existe 4 types de jointures, qui sont toutes focalisées sur les différentes clés

- interne (inner join): Type de jointure par défaut. Avec une jointure interne, ne sont conservées dans le résultat final
  que les lignes dont les clés sont dans le premier data frame ET dans le second data frame. ie, que pour chaque clé identifiée
  à droite ou à gauche, elle vérifie s'il y a une correspondance dans l’autre table. Si c’est le cas, elle conserve la clé avec
  les informations des autres tables, sinon, elle supprime la clé dans le résultat final.
  
  "pd.merge(A, B, on="key", how="inner")"

  
- a gauche (left join): est une jointure qui se concentre sur les identifiants de la table située à gauche.
  C'est-à-dire qu’elle conserve forcément toutes les clés qui se trouvent dans la première table, et complète, lorsqu’elle le peut,
  avec les informations de la seconde table.

  "pd.merge(A, B, on="key", how="left")"
  
- a droite: (right join): est… l’alter ego de la jointure à gauche, avec le data frame de droite.

  "pd.merge(A, B, on="key", how="right")"

  
- externe (ou outer join) est une sorte de conjonction des jointures à gauche et à droite. C’est-à-dire qu’on conserve TOUTES
  les clés trouvées, que ce soit à gauche ou à droite, et on bouche les informations manquantes par des valeurs manquantes

  "pd.merge(A, B, on="key", how="outer")"
'''
data = pd.merge(clients, prets, on="identifiant")
data

Unnamed: 0,identifiant,email,nom,genre,ville,CP,revenu,remboursement,duree,type,taux
0,0,LaurentDagenais@rhyta.com,Laurent Dagenais,M,TOULOUSE,31100,3669.0,1130.05,240,immobilier,1.168
1,1,GuyMarois@fleckens.hu,Guy Marois,M,PARIS,75009,5310.0,240.00,64,automobile,3.701
2,1,GuyMarois@fleckens.hu,Guy Marois,M,PARIS,75009,5310.0,1247.85,300,immobilier,1.173
3,2,BeaufortLesage@einrot.com,Beaufort Lesage,M,MARSEILLE,13010,1873.0,552.54,240,immobilier,0.972
4,3,RussellDurand@armyspy.com,Russell Durand,M,MARSEILLE,13010,1684.0,586.03,180,immobilier,1.014
...,...,...,...,...,...,...,...,...,...,...,...
239,224,ApollineMichaud@superrito.com,Apolline Michaud,F,PARIS,75008,5118.0,1248.79,300,immobilier,1.206
240,224,ApollineMichaud@superrito.com,Apolline Michaud,F,PARIS,75008,5118.0,238.20,25,automobile,3.423
241,225,PascalineBeaudry@rhyta.com,Pascaline Beaudry,F,BORDEAUX,33100,2356.0,876.43,180,immobilier,1.172
242,226,FleurCaouette@jourrapide.com,Fleur Caouette,F,PARIS,75002,5098.0,2910.96,240,immobilier,1.140


In [12]:
# Concaténez des données avec Pandas
"""
La concaténation intervient lorsqu’on souhaite assembler plusieurs data frames qui ont la même structure,
les mêmes colonnes, les mêmes types, mais des informations différentes

liste_concat = [df1, df2]
pd.concat(liste_concat)

pour eviter les index en doublon, on utilise l’argumentignore_index , qui équivaut à appliquer une méthode reset_index

pd.concat([df1, df2], ignore_index=True)
"""

concat_data = pd.concat([clients, prets], ignore_index=True)
concat_data

Unnamed: 0,identifiant,email,nom,genre,ville,CP,revenu,remboursement,duree,type,taux
0,0,LaurentDagenais@rhyta.com,Laurent Dagenais,M,,,,,,,
1,1,GuyMarois@fleckens.hu,Guy Marois,M,,,,,,,
2,2,BeaufortLesage@einrot.com,Beaufort Lesage,M,,,,,,,
3,3,RussellDurand@armyspy.com,Russell Durand,M,,,,,,,
4,4,AlexisRiel@rhyta.com,Alexis Riel,M,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...
467,224,,,,PARIS,75008.0,5118.0,1248.79,300.0,immobilier,1.206
468,224,,,,PARIS,75008.0,5118.0,238.20,25.0,automobile,3.423
469,225,,,,BORDEAUX,33100.0,2356.0,876.43,180.0,immobilier,1.172
470,226,,,,PARIS,75002.0,5098.0,2910.96,240.0,immobilier,1.140


In [46]:
notes = pd.read_csv("data/notes.csv")
notes

Unnamed: 0,nom,matiere,note
0,Laurent Dagenais,Français,16
1,Guy Marois,Français,13
2,Beaufort Lesage,Français,8
3,Russell Durand,Français,10
4,Alexis Riel,Français,15
...,...,...,...
79,Agrican Foucault,Physique/Chimie,9
80,Prunella Josseaume,Physique/Chimie,6
81,Yseult Charest,Physique/Chimie,16
82,Dorothee Aupry,Physique/Chimie,17


In [47]:
# Quelle est la valeur arrondie à 2 chiffres après la virgule ?
moyenne_maths = notes[notes['matiere'] == 'Mathématiques']['note'].mean()
round(moyenne_maths, 2)

11.33

In [48]:
# Si on calcule la moyenne par élève sur les 4 matières, combien d’élèves n’ont pas la moyenne (moyenne globale < 10) sur l’année ?
moyennes_eleves = notes.groupby('nom')['note'].mean()
nb_eleves_sous_moyenne = (moyennes_eleves < 10).sum()
nb_eleves_sous_moyenne

6

In [50]:
# ensemble des noms des élèves ayant obtenu plus de 15 en mathématiques ou en physique/chimie
notes.loc[((notes['matiere'] == 'Mathématiques') | (notes['matiere'] == 'Physique/Chimie')) & (notes['note'] >= 15), 'nom']

22         Guy Marois
23    Beaufort Lesage
28     Agramant Pepin
30    Theodore Clavet
31     Byron Lefebvre
32       Florus Devoe
65    Beaufort Lesage
68      Leon Lapresse
70     Agramant Pepin
74       Florus Devoe
78    Agate Grandbois
81     Yseult Charest
82     Dorothee Aupry
Name: nom, dtype: object

In [52]:
notes_sup = pd.read_csv("data/notes_sup.csv")

# Quelle fonction et/ou méthode serait adaptée pour rassembler les deux fichiers en un seul ?
pd.concat([notes, notes_sup], ignore_index=True)

Unnamed: 0,nom,matiere,note
0,Laurent Dagenais,Français,16
1,Guy Marois,Français,13
2,Beaufort Lesage,Français,8
3,Russell Durand,Français,10
4,Alexis Riel,Français,15
...,...,...,...
121,Agrican Foucault,Anglais,10
122,Prunella Josseaume,Anglais,20
123,Yseult Charest,Anglais,7
124,Dorothee Aupry,Anglais,11


In [53]:
notes.pivot_table(index='nom', columns='matiere', values='note')

matiere,Biologie,Français,Mathématiques,Physique/Chimie
nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Aceline Hughes,15.0,12.0,13.0,10.0
Agate Grandbois,19.0,12.0,9.0,17.0
Agramant Pepin,6.0,17.0,18.0,16.0
Agrican Foucault,14.0,10.0,13.0,9.0
Aiglentina Lambert,7.0,16.0,6.0,5.0
Alexis Riel,5.0,15.0,5.0,11.0
Amaury Reault,7.0,8.0,11.0,8.0
Beaufort Lesage,8.0,8.0,15.0,18.0
Byron Lefebvre,15.0,13.0,19.0,8.0
Dorothee Aupry,16.0,13.0,13.0,17.0


In [54]:
produits = pd.read_csv("data/csv_quizz/produits.csv")
produits

Unnamed: 0,id,prix
0,0,24.8
1,1,13.1
2,2,23.7
3,3,16.0
4,4,19.0
...,...,...
95,95,21.2
96,96,18.8
97,97,8.9
98,98,20.0


In [60]:
commandes = pd.read_csv("data/csv_quizz/commande.csv")
commandes

Unnamed: 0,id,nombre
0,70,2
1,41,4
2,72,2
3,92,8
4,73,1
...,...,...
995,37,2
996,83,6
997,44,3
998,23,9


In [62]:
# Fusion des dataframes pour avoir le prix avec chaque commande
df_complet = commandes.merge(produits, on='id')
df_complet

Unnamed: 0,id,nombre,prix
0,70,2,17.6
1,41,4,20.7
2,72,2,14.9
3,92,8,7.4
4,73,1,22.5
...,...,...,...
995,37,2,27.7
996,83,6,15.4
997,44,3,21.8
998,23,9,18.6


In [67]:
# déterminer l’identifiant du produit qui a été le plus vendu (à ne pas confondre avec le produit qui a été le plus commandé),
# et le produit qui a rapporté le moins de chiffre d’affaires au total

# Calcul des ventes totales par produit
ventes_par_produit = df_complet.groupby('id')['nombre'].sum()
ventes_par_produit.idxmax()

8

In [69]:
# Calcul du chiffre d'affaires par produit
df_complet['ca'] = df_complet['nombre'] * df_complet['prix']
ca_par_produit = df_complet.groupby('id')['ca'].sum()
produit_ca_min = ca_par_produit.idxmin()
produit_ca_min

58