# [Exercices] Premier pas avec `pandas`


# [Ex. 1] 


##### On s'intéresse au fichier disponible à : `data/co2-data/owid-co2-data.csv` 

- 1 - Lire le fichier
- 2 - S'assurer de la cohérence du type de chaque colonne
- 3 - Classer les pays par émissions totales de CO2 (= colonne `co2`) par ordre décroissant (quelle est l'unité de la variable CO2 ?). On pourra classer les pays seulement sur 2018.
- 4 - Classer les pays par PIB (= colonne `gdp`) par ordre décroissant. (quelle est l'unité de la variable PIB ?)
- 5 - Classer les pays par CO2 / PIB par ordre décroissant.
- 6 - Réaliser les top 25 pour ces 3 classements
- 7 - Quels pays apparraissent dans deux top ? 
- 8 - Dans 3 tops ?

#### question 1

#### question 2

#### question 3

#### question 4

#### question 5

##### Rappel : list comprehension

In [39]:
res = []
for x in range(10):
    res.append(x**2)
res


res = [
    x**2 
    for x in range(10)
]
res


res = [(x,y) for x in range(1, 9) for y in range(1, 9)]
res


res = [x**2 for x in range(10) if x%2==0]
res



[0, 4, 16, 36, 64]

#### Question 6

In [22]:
import pandas as pd
df = pd.read_csv('../data/co2-data/owid-co2-data.csv')

# Filtrer sur les lignes qui ont un iso_code renseigné -> ceux sont les PAYS
# On se débarasse ainsi des infos pour les continents et le monde
# On garde les lignes qui ont iso_code qui n'est PAS une valeur nulle
# ~ = 'not vectorisé' 

# On filtre en plus sur l'année 2018
df = df[(~df.iso_code.isnull()) & (df.year==2018)]

cols = ['co2', 'gdp', 'co2_per_gdp']


# Avec une liste comprehension
[
    # On classe selon la valeur de la colonne par ordre décroissant
    # on sélectionne sur les pays
    # On garde les 25 premières lignes
    df.sort_values(col, ascending=False)["country"].iloc[:25].tolist()
    for col in cols
]

# Avec une dict comprehension
{
    # On classe selon la valeur de la colonne
    # 
    col: df.sort_values(col, ascending=False)["country"].iloc[:25].tolist()
    for col in cols
}

# On peut appliquer le constructeur pd.DataFrame
top_25 = pd.DataFrame(
    {
    # On classe selon la valeur de la colonne
    # 
    col: df.sort_values(col, ascending=False)["country"].iloc[:25].tolist()
    for col in cols
}
)


# En utilisant .nlargest
top_25 = {}
for variable in ["co2", "gdp", "co2_per_gdp"]:
    top_25[variable] = df.nlargest(25, variable)['country'].tolist()

pd.DataFrame(top_25)

In [45]:
cols = ['co2', 'gdp', 'co2_per_gdp']


# Avec une liste comprehension
[
    # On classe selon la valeur de la colonne par ordre décroissant
    # on sélectionne sur les pays
    # On garde les 25 premières lignes
    df.sort_values(col, ascending=False)["country"].iloc[:25].tolist()
    for col in cols
]

# Avec une dict comprehension
{
    # On classe selon la valeur de la colonne
    # 
    col: df.sort_values(col, ascending=False)["country"].iloc[:25].tolist()
    for col in cols
}

# On peut appliquer le constructeur pd.DataFrame
top_25 = pd.DataFrame(
    {
    # On classe selon la valeur de la colonne
    # 
    col: df.sort_values(col, ascending=False)["country"].iloc[:25].tolist()
    for col in cols
}
)


# En utilisant .nlargest
top_25 = {}
for variable in ["co2", "gdp", "co2_per_gdp"]:
    top_25[variable] = df.nlargest(25, variable)['country'].tolist()

pd.DataFrame(top_25)

Unnamed: 0,co2,gdp,co2_per_gdp
0,China,China,North Korea
1,United States,United States,Trinidad and Tobago
2,India,India,Mongolia
3,Russia,Japan,Kazakhstan
4,Japan,Germany,South Africa
5,Germany,Russia,China
6,Iran,Indonesia,Libya
7,South Korea,Brazil,Ukraine
8,Saudi Arabia,France,Bosnia and Herzegovina
9,Indonesia,United Kingdom,Syria


In [29]:
top_25 = {}
for variable in ["co2", "gdp", "co2_per_gdp"]:
    top_25[variable] = df.nlargest(25, variable)['country'].tolist()

In [46]:
top25

Unnamed: 0,co2,gdp,co2_per_gdp
0,China,China,North Korea
1,United States,United States,Trinidad and Tobago
2,India,India,Mongolia
3,Russia,Japan,Kazakhstan
4,Japan,Germany,South Africa
5,Germany,Russia,China
6,Iran,Indonesia,Libya
7,South Korea,Brazil,Ukraine
8,Saudi Arabia,France,Bosnia and Herzegovina
9,Indonesia,United Kingdom,Syria


#### Question 7

In [50]:
comparison = {}

for col_1, col_2 in [
    ("co2", "gdp"), 
    ("co2", "co2_per_gdp"), 
    ("gdp", "co2_per_gdp")
]:
    # On garde les valzurs
    values_col1 = top25[col_1].values
    values_col2 = top25[col_2].values
    # On itére sur une liste
    for country in values_col_1:
        # on regarde si on est dans l'autre
        if country in values_col2: 
            comparison[col_1]

China
United States
India
Russia
Japan
Germany
Iran
South Korea
Saudi Arabia
Indonesia
Canada
Brazil
Mexico
Turkey
Australia
United Kingdom
Italy
Poland
France
Taiwan
Thailand
Spain
China
Russia
Iran
Saudi Arabia
South Africa
Kazakhstan
Vietnam
China
Russia
Saudi Arabia
Iran


#### Question 8

# [Ex. 2] Création de données de tests

### Question 1

> On veut créer un historique de ventes pour tester le code d'un future site de ecommerce - on peut le résumer dans le fichier CSV suivant :  

|        timestamp | customer_id | product_id | quantity | price | revenue |
|-----------------:|------------:|-----------:|---------:|------:|--------:|
| 2022/12/27 13:05 |        1986 |       3456 |        4 |     5 |      20 |
| 2022/12/27 13:05 |        1986 |       3459 |        3 |     6 |      18 |
| 2022/12/27 13:06 |       24501 |       1242 |        2 |     4 |       8 |
| 2022/12/27 13:12 |       48285 |       3424 |        4 |    25 |     100 |
| 2022/12/27 13:14 |        2422 |       3456 |       10 |     5 |      50 |
|              ... |         ... |        ... |      ... |   ... |     ... |


- timestamp (datetime)
- customer_id (int)
- product_id (int)
- quantity (int)
- price (int)
- revenue (int)


De plus on souhaite que l'historique vérifie les contraintes suivantes : 
- La période va du 2022/07/01 00:00:00 au 2022/12/31 23:59:59 (inclus)
- 100 000 transactions (lignes) 
- 4000 clients différents
- 250 produits différents avec un prix moyen de 15 €
- La quantité moyenne vendue par transaction est de 2.1 unités
- Un même produit est toujours vendu au même prix

**Créer un tel fichier**

(**en adaptant le code ci-dessous avec les bonnes constantes et en ajoutant les bons imports**)


### Question 2 
On ajoute les contraintes suivantes : 
- Lorsque l'on achète le mardi, on bénéficie d'une remise (crée une colonne discount)
    - De 5% pour une transaction de 1 à 3 produits
    - De 10% pour une transaction à partir de 4 produits
- Les clients sont 50 % à faire au moins une transaction par mois sur tout la période
- 10 % des clients font une seule transaction sur tout la période


**Créer un tel fichier**


### Question 3
Ecrire une fonction `split_train_test` qui prend en argument une DataFrame `df` et un réel `test_proportion` entre 0 et 1 et renvoie deux DataFrames `train` et `test`, ayant les mêmes colonnes que `df` et se partageant ses lignes (aléatoirement et de manière mutuellement exclusive) avec les proportions `1 - test_portion` et `test_portion`


### Question 4
Même question, en faisant en sorte que les moyennes des variables quantitatives des deux DataFrames `test` et `train` soient proches de celles des moyennes des variables quantitatives de `df` (moins de 10% d'écart)

### Question 5
Même question, en faisant en sorte que les histogrammes des variables quantitatives des deux DataFrames `test` et `train` soient ressemblant à ceux des variables quantitatives de `df` (moins de 10% d'écart)

# [Ex. 3 ] 

Le fichier `movie_metadata.csv` contient des informations au sujet de 5043 films qui ont été extraites de l'IMDB.

- 1.
 - a. Quels sont les 10 réalisateurs qui ont le meilleur score (`imdb_score`) moyen ?
 - b. Quels sont les 10 pays qui ont le meilleur score (`imdb_score`) moyen ?
 

- 2. 
 - a. Créer une colonne par genre (columne `genres` Action, Adventure...) qui faut True si le film a ce genre renseigné et 0 sinon.
 - b. Calculer le nombre total de films par genre
 - c. Calculer l'évolution du nombre de films par genre entre 2000 et 2010
 - d. Calculer l'évolution 'Year to Year' (% d'augmentation entre année N et N+1) du nombre de films pour chaque genre.
 - e. Faire de même pour chaque pays.
 
 
- 3. On s'intéresser seulement aux films publiés après 2000.
- a. Calculer le prix à la minute de chaque film (à partir des colonnes `budget` et `duration`)
- b. Quels sont tous les acteurs (renseignés dans les colonnes `actor_X_name`) qui ont joué dans les films qui ont un prix à la minute dans les 10% les plus élevés ? 


- 4. 
- a. Quels sont les réalisateurs dont les films ont la rentabilité moyenne (`gross` / `budget`) la plus élevée ?
- b. Même question pour les pays.


- 5. 
 - a. Plusieurs utilisateurs de l'IMDB ont reporté que les notes seraient gonflées depuis quelques années. Que peut-on calculer pour essayer de s'en assurer ? Proposer deux méthodes.
 - b. Implémenter ces deux méthodes.


- 6. 
 - a. En calculant des moyennes, en regardant des évolutions, en calculant des proportions ou des tables de contingence... déterminer des conditions qui semblent être associées à des notes plus élevées.
 - b. Bâtir un modèle de prédiction de la variable `imdb_score` sur la base des autres variables et des données disponibles a priori (ie, pour réaliser la prédiction d'un film sorti en 2010, on peut utiliser toutes les statistiques des films sortis en 2009)
 (On pourra utiliser seulement les variables #likes sur facebook pour le film, et la durée et filtrer sur les films après 2000 et sur les films des Etats-Unis et du Royaume Uni et reproduire la méthode dans 3_a_... - 9. Un peu de prédiction - 𝑃=𝑎1×𝐶+𝑎2×𝐷 )


- 7. On crée un nouvelle variable `is_good_movie` qui vaut True si l`imdb_score` est plus grand que 7 et vaut False sinon. 

 - a. En calculant des moyennes, en regardant des évolutions, en calculant des proportions ou des tables de contingence... déterminer des conditions qui semblent être associées à "des bons films".
 - b. Bâtir un modèle de prédiction de la variable `is_good_movie` sur la base des autres variables et des données disponibles a priori.


# [Ex. 4] 
###### On se restreint aux colonnes suivantes : 
['color', 'duration', 'country'  'budget', 'title_year', 'imdb_score']

Sélectionner un échantillon représentatif des :
- Films américains de 2000 à 2010 (10 % du total des films américains de 2000 à 2010)
- Films de Science-Fiction (20 % du total des films de SF)


Même questions en ajoutant la colonne 'genres'

# [Ex. 5] Une question d'entretien


Les questions suivantes ont été posées au cours de plusieurs entretiens pour des postes de Junior Data Scientists au sein d'une start-up parisienne : 

> On dispose d'un historique de ventes sur un site de ecommerce qui peut être résumé dans le fichier CSV suivant :  

|        timestamp | customer_id | product_id | quantity | price | revenue |
|-----------------:|------------:|-----------:|---------:|------:|--------:|
| 2022/12/27 13:05 |        1986 |       3456 |        4 |     5 |      20 |
| 2022/12/27 13:05 |        1986 |       3459 |        3 |     6 |      18 |
| 2022/12/27 13:06 |       24501 |       1242 |        2 |     4 |       8 |
| 2022/12/27 13:12 |       48285 |       3424 |        4 |    25 |     100 |
| 2022/12/27 13:14 |        2422 |       3456 |       10 |     5 |      50 |
|              ... |         ... |        ... |      ... |   ... |     ... |


- timestamp (datetime)
- customer_id (int)
- product_id (int)
- quantity (int)
- price (int)
- revenue (int)

Pour chaque transaction (ie une ligne dans le fichier) ci-dessus :
- 1. Ecrire qui une fonction qui prend en entrée la DataFrame des transactions et l'index d'une ligne (transaction) et renvoie True si la transaction a un chiffre d'affaire (colonne `revenue`) qui est dans le top 25% des transactions de la journée. Utiliser cette fonction pour flaguer ces transactions.


- 2. Même question mais avec le mois en cours à la place de la journée
