## Pandas

Pandas (panel data system) est une bibliothèque Python dédiée à la manipulation et à l'analyse de données. Elel permet de charger des fichiers comme du CSV mais aussi Excel, SQL et HTML

In [11]:
# pip install pandas
import pandas as pd

### 1. series
- C'est une structure de données qui contient un tableau avec un index nominatif.

In [12]:
annees = [1750, 1865, 1984]

serie1 = pd.Series(data=annees)

print(serie1)
print(serie1[0])

pays = ["USA", "Canada", "France"]
serie2 = pd.Series(data=annees, index=pays)
print(serie2)
print(serie2["Canada"])
print("année la plus grande :", serie2.max())
print(serie2.sum())
print(serie2["Canada"])

0    1750
1    1865
2    1984
dtype: int64
1750
USA       1750
Canada    1865
France    1984
dtype: int64
1865
année la plus grande : 1984
5599
1865


2. DataFrame

- Un DataFrame est un tableau de lignes et de colones dans pandas que nous pouvons filtrer et restructurer
- Le dataframe est le principal objet avec lequel nous allons travailler.

In [13]:
data = {"Produit" : ['Pomme', "Banane", "Orange", "Poire"],
        "Prix" : [1.00, 0.60, 0.80, 1.20]}

df_fruits = pd.DataFrame(data=data, index=["A", "B", "C", "D"])
print(df_fruits.loc["B"])
print(df_fruits.iloc[1])
print(df_fruits["Prix"])

data = [
    {"Produit" : "Pomme", "Prix" : 1.00},
    {"Produit" : "Poire", "Prix" : 0.60},
    {"Produit" : "Orange", "Prix" : 0.80},
    {"Produit" : "Banane", "Prix" : 1.80}
]

df_fruits = pd.DataFrame(data=data)
print(df_fruits)

data = [["Pomme", 1.00], ["Poire", 0.60], ["Orange", 0.80]]
df_fruits = pd.DataFrame(data=data)
df_fruits.columns = ["Produit", "Prix"]
print(df_fruits)

couleurs = ["Rouge", "Vert", "Orange"]
df_fruits["Couleur"] = couleurs
print(df_fruits)

print("-" * 50)
# df = pd.read_csv("./fruits.csv")
# print(df)

Produit    Banane
Prix          0.6
Name: B, dtype: object
Produit    Banane
Prix          0.6
Name: B, dtype: object
A    1.0
B    0.6
C    0.8
D    1.2
Name: Prix, dtype: float64
  Produit  Prix
0   Pomme   1.0
1   Poire   0.6
2  Orange   0.8
3  Banane   1.8
  Produit  Prix
0   Pomme   1.0
1   Poire   0.6
2  Orange   0.8
  Produit  Prix Couleur
0   Pomme   1.0   Rouge
1   Poire   0.6    Vert
2  Orange   0.8  Orange
--------------------------------------------------


### Exercice 01 :

En utilisant le fichier CSV :
- Récupérez les 20 premiers enregistrements
- Récupérez les 10 derniers enregistrements
- Trouvez le nombres d'enregistrements de cette df
- Trouvez le noms des colones
- Trouvez les types des colones
- Calculer l'écart type des salaires
- Quelles est la valeur moyenne des salaires des 50 permiers enregistrements

In [14]:
# Correction
df = pd.read_csv("./Salaries.csv")

# print(df)

# Récupérez les 20 premiers enregistrements
# print(df.head(20))

# Récupérez les 10 derniers enregistrements
# print(df.tail(10))

# Trouvez le nombres d'enregistrements de cette df
# print(df.shape[0])
# print(df.count())
# print(len(df))

# Trouvez le noms des colones
# print(df.columns)

# Trouvez les types des colones
# print(df.dtypes)

# Calculer l'écart type des salaires
print(df["salary"].std().round(2))

# Quelles est la valeur moyenne des salaires des 50 permiers enregistrements
print(df["salary"].head(50).mean())


28293.66
113789.14


### 3. Iloc

In [15]:
print("Affichage de la première ligne (en série)")
print(df.iloc[0])

print("Affichage de la première ligne (en df)")
print(df.iloc[[0]])

print("Afficher la première et troisième ligne")
print(df.iloc[[0, 2]])

print("Afficher de la première à la troisième ligne ")
print(df.iloc[0:3])

print("Afficher de la 5éme à la 10éme ligne ")
print(df.iloc[4:10])

Affichage de la première ligne (en série)
rank            Prof
discipline         B
phd               56
service           49
sex             Male
salary        186960
Name: 0, dtype: object
Affichage de la première ligne (en df)
   rank discipline  phd  service   sex  salary
0  Prof          B   56       49  Male  186960
Afficher la première et troisième ligne
   rank discipline  phd  service   sex  salary
0  Prof          B   56       49  Male  186960
2  Prof          A   23       20  Male  110515
Afficher de la première à la troisième ligne 
   rank discipline  phd  service   sex  salary
0  Prof          B   56       49  Male  186960
1  Prof          A   12        6  Male   93000
2  Prof          A   23       20  Male  110515
Afficher de la 5éme à la 10éme ligne 
        rank discipline  phd  service   sex  salary
4       Prof          B   20       18  Male  104800
5       Prof          A   20       20  Male  122400
6  AssocProf          A   20       17  Male   81285
7       Prof   

### 4. Filtrage conditionnel

En général, en analyse de données, nos ensembles de données sont suffisamment grandes pour ne pas filtrer en fonction de la position, mais plutôt en fonction d'une condition.

In [16]:
serieAnnees = pd.Series(data=annees, index=pays, name='year')
seriePop = pd.Series(data=[350, 38, 50], index=pays, name='Pop')
seriePIB = pd.Series(data=[20.5,pd.NA ,15.2], index=pays, name='PIB')

df = pd.DataFrame([serieAnnees, seriePop, seriePIB])
# print(df)

df = df.T
# print(df)

print(df["Pop"] > 50)

# Quel pays ont une population supérieur à 50 ?
print(df[df["Pop"] >= 50])

print("Pop supérieur à 50 ET Year supérieur à 1800")
# Opérateurs : OR => |       AND => &         NOT => ~
print((df["Pop"] >= 50) & (df["year"]>1800))
print(df[(df["Pop"] >= 50) & (df["year"]>1800)])

# La population est soit de 350, soit 50
print(df[df["Pop"].isin([350, 50])])


USA        True
Canada    False
France    False
Name: Pop, dtype: bool
          year    Pop   PIB
USA     1750.0  350.0  20.5
France  1984.0   50.0  15.2
Pop supérieur à 50 ET Year supérieur à 1800
USA       False
Canada    False
France     True
dtype: bool
          year   Pop   PIB
France  1984.0  50.0  15.2
          year    Pop   PIB
USA     1750.0  350.0  20.5
France  1984.0   50.0  15.2


### 5. Les données manquantes

- Les données seront souvent manquantes pour diverses raison, des méthodes ne peuvent pas fonctionner avec des données manquante.
- Les options pour gérer les données :
    - Les garder
    - Les supprimer
    - Les remplacer

In [17]:
print(df)
print(df.isnull())
# Pour compter le nombres de NA
print(df.isnull().sum())
print(df.notnull())

# Option 2 : Supprimer
# df = df.dropna() # df.dropna(axis=1) : supprime la colone avec des NA
# print(df)

# Option 3 : remplacer
pd.set_option('future.no_silent_downcasting', True)
df["PIB"] = df["PIB"].fillna(df["PIB"].mean())
print(df)
df.fillna("Nouvelle valeur")

          year    Pop   PIB
USA     1750.0  350.0  20.5
Canada    1865     38  <NA>
France  1984.0   50.0  15.2
         year    Pop    PIB
USA     False  False  False
Canada  False  False   True
France  False  False  False
year    0
Pop     0
PIB     1
dtype: int64
        year   Pop    PIB
USA     True  True   True
Canada  True  True  False
France  True  True   True
          year    Pop    PIB
USA     1750.0  350.0   20.5
Canada    1865     38  17.85
France  1984.0   50.0   15.2


Unnamed: 0,year,Pop,PIB
USA,1750.0,350.0,20.5
Canada,1865.0,38.0,17.85
France,1984.0,50.0,15.2


### 6. GroupBy

Permet d'examiner les données par catégorie

In [18]:
data = {
    "Produit" : ["Pomme", "Banane", "Orange", "Banane", "Poire", "Pomme"],
    "Magasin" : ["A", "B", "B", "A", "B", "B"],
    "Quantité" : [10, 5, 15, 8, 9, 7],
    "Prix" : [0.5, 0.9, 0.65, 0.35, 0.58, 0.67]
}

df = pd.DataFrame(data)

df["CA"] = df["Quantité"] * df["Prix"]

print(df)

# Le total des quantités et CA par produit
print(df.groupby("Produit")[["Quantité", "CA"]].sum())

# Moyenne du prix par produit et par magasin
print(df.groupby(["Produit", "Magasin"])["Prix"].mean())

  Produit Magasin  Quantité  Prix    CA
0   Pomme       A        10  0.50  5.00
1  Banane       B         5  0.90  4.50
2  Orange       B        15  0.65  9.75
3  Banane       A         8  0.35  2.80
4   Poire       B         9  0.58  5.22
5   Pomme       B         7  0.67  4.69
         Quantité    CA
Produit                
Banane         13  7.30
Orange         15  9.75
Poire           9  5.22
Pomme          17  9.69
Produit  Magasin
Banane   A          0.35
         B          0.90
Orange   B          0.65
Poire    B          0.58
Pomme    A          0.50
         B          0.67
Name: Prix, dtype: float64


### Exercice 02 :
avec Salaries.csv :
- Sortir toutes les stats de base de la colonne salaire (via une méthode)
- Calculer le salaire moyen
- Calculer le salaire moyen par rang

In [19]:
df = pd.read_csv("./Salaries.csv")

base_stats = df["salary"].describe()
print(base_stats)

mean_salary = df["salary"].mean().round(2)
print(f"Le salaire moyen est de : {mean_salary} €")

mean_salary_by_rank = df.groupby("rank")["salary"].mean().round(2)
print(mean_salary_by_rank)

count        78.000000
mean     108023.782051
std       28293.661022
min       57800.000000
25%       88612.500000
50%      104671.000000
75%      126774.750000
max      186960.000000
Name: salary, dtype: float64
Le salaire moyen est de : 108023.78 €
rank
AssocProf     91786.23
AsstProf      81362.79
Prof         123624.80
Name: salary, dtype: float64


### TP
1. Charger le fichier netflix.csv
2. Afficher les 5 premières lignes
3. Afficher les noms des colonnes et leur type
4. Combien il y a-t'il de films et séries dans le catalogue ?
5. Combien de contenus sont sortis en 2020 ?
6. Affiche tous les contenus dont le pays est "India"
7. Extraire tous les films de plus de 100 minutes
8. Extraire toutes les séries ayant plus d'une saison
9. Combien de contenu par pays ?
10. Liste des 5 acteurs les plus prolifiques

In [None]:
df = pd.read_csv("./netflix_titles.csv")

countries_split = df["country"].str.split(", ")
cast_split = df["cast"].str.split(", ")
df_country_exploded = df.assign(country=countries_split).explode("country")
df_cast_exploded = df.assign(cast=cast_split).explode("cast")

# print(df.head(5))
# print(df.dtypes)
# print(len(df))
# print(df["type"].value_counts()) => counts number of movies and tv shows separately
# print(len(df[df["release_year"] == 2020]))
# print(len(df_country_exploded[df_country_exploded["country"] == "India"]))
# print(df_country_exploded[df_country_exploded["country"] == "India"])
# print(df[(df["duration"].str.extract(r"(\d+)")[0].fillna(0).astype(int) > 100) & (df["type"] == "Movie")])
# print(df[(df["type"] == "TV Show") & (df["duration"].str.extract(r"(\d)")[0].fillna(0).astype(int) > 1)])
# print(df_country_exploded.groupby("country")["show_id"].count().sort_values(ascending=False ))
print(df_cast_exploded.groupby("cast")["show_id"].count().sort_values(ascending=False).head(5))

country
United States     3689
India             1046
United Kingdom     804
Canada             445
France             393
                  ... 
Somalia              1
Sudan                1
Uganda               1
Vatican City         1
United States,       1
Name: show_id, Length: 127, dtype: int64
cast
Anupam Kher         43
Shah Rukh Khan      35
Julie Tejwani       33
Naseeruddin Shah    32
Takahiro Sakurai    32
Name: show_id, dtype: int64
