# TP sur les donn√©es structur√©es - CORRIG√â
## Partie 2 : Analyse de donn√©es avec Python et Pandas
### Films ayant r√©alis√© plus d'un million d'entr√©es

**Objectif :** Analyser les donn√©es des films √† succ√®s en 2023 et 2024 en utilisant Python et la biblioth√®que Pandas.

**Note :** Les fichiers `films_2024.csv` et `films_2023.csv` doivent √™tre pr√©sents dans votre espace Capytale.

## 1. Importation et chargement des donn√©es

Commen√ßons par importer la biblioth√®que Pandas et charger les fichiers CSV.

In [None]:
import pandas as pd

# Lire les donn√©es de l'ann√©e 2024 (fichier CSV)
df_2024 = pd.read_csv('films_2024.csv')

# Afficher les premi√®res lignes
print("Premi√®res lignes du DataFrame :")
print(df_2024.head(10))

In [None]:
# Afficher les colonnes disponibles
print("\nColonnes disponibles :")
print(df_2024.columns.tolist())

## 2. Analyse sommaire des donn√©es

### Question 1
√âcrivez le code qui affiche le film ayant fait le plus d'entr√©es en 2024. Donnez son titre et son nombre d'entr√©es.

In [None]:
# Solution
film_top_2024 = df_2024.sort_values('entr√©es (millions)', ascending=False).iloc[0]
print(f"Film avec le plus d'entr√©es en 2024 : {film_top_2024['titre']}")
print(f"Nombre d'entr√©es : {film_top_2024['entr√©es (millions)']} millions")

# R√©ponse : UN P'TIT TRUC EN PLUS avec 10,72 millions d'entr√©es

### Question 2
Chargez maintenant les donn√©es de 2023 et trouvez le film fran√ßais ayant fait le plus d'entr√©es cette ann√©e-l√†.

In [None]:
# Charger les donn√©es 2023
df_2023 = pd.read_csv('films_2023.csv')

# Solution
films_fr_2023 = df_2023[df_2023['nationalit√©'] == 'FRANCE']
top_fr_2023 = films_fr_2023.sort_values('entr√©es (millions)', ascending=False).iloc[0]
print(f"Film fran√ßais avec le plus d'entr√©es en 2023 : {top_fr_2023['titre']}")
print(f"Nombre d'entr√©es : {top_fr_2023['entr√©es (millions)']} millions")

# R√©ponse : AST√âRIX ET OB√âLIX : L'EMPIRE DU MILIEU avec 4,61 millions d'entr√©es

### Question 3
Quelle est la nationalit√© du film ayant fait le plus d'entr√©es en 2023 ?

In [None]:
# Solution
film_top_2023 = df_2023.sort_values('entr√©es (millions)', ascending=False).iloc[0]
print(f"Film avec le plus d'entr√©es en 2023 : {film_top_2023['titre']}")
print(f"Nationalit√© : {film_top_2023['nationalit√©']}")
print(f"Nombre d'entr√©es : {film_top_2023['entr√©es (millions)']} millions")

# R√©ponse : ETATS UNIS (film : BARBIE avec 5,29 millions d'entr√©es)

## 3. Filtrage et agr√©gation

### Filtrer les films fran√ßais de 2024

In [None]:
# Filtrer les films fran√ßais
films_fr = df_2024[df_2024['nationalit√©'] == 'FRANCE']

# Afficher les r√©sultats
print(films_fr[['titre', 'entr√©es (millions)']].head())

### Question 4
√âcrivez le code qui affiche les trois films fran√ßais ayant fait le plus d'entr√©es en 2024.

In [None]:
# Solution
top3_fr = films_fr.sort_values('entr√©es (millions)', ascending=False).head(3)
print("Top 3 des films fran√ßais en 2024 :")
print(top3_fr[['titre', 'entr√©es (millions)']])

# R√©ponse :
# 1. UN P'TIT TRUC EN PLUS (10,72 millions)
# 2. LE COMTE DE MONTE-CRISTO (9,39 millions)
# 3. LE R√àGNE ANIMAL (2,11 millions)

### Question 5
√âcrivez le code qui compte le nombre de films fran√ßais ayant r√©alis√© plus d'un million d'entr√©es en 2024.

In [None]:
# Solution
nombre_films_fr = len(films_fr)
print(f"Nombre de films fran√ßais ayant d√©pass√© 1 million d'entr√©es en 2024 : {nombre_films_fr}")

# Autre m√©thode :
nombre_films_fr_2 = films_fr.shape[0]
print(f"V√©rification : {nombre_films_fr_2}")

# R√©ponse : 16 films fran√ßais

### Question 6
√âcrivez le code qui calcule le total d'entr√©es r√©alis√©es par les films fran√ßais en 2024.

In [None]:
# Solution
total_entrees_fr = films_fr['entr√©es (millions)'].sum()
print(f"Total des entr√©es pour les films fran√ßais en 2024 : {total_entrees_fr:.2f} millions")

# R√©ponse : 34,47 millions d'entr√©es

### üìä Astuce : R√©sum√© statistique

La fonction `describe()` donne un r√©sum√© statistique complet d'une colonne. Cela affiche le minimum, maximum, moyenne, m√©diane, etc.

In [None]:
print(films_fr['entr√©es (millions)'].describe())

## 4. Analyse avanc√©e : Films de 2023 et 2024

### Films sortis en 2023 mais comptabilis√©s en 2024

### Question 7
√âcrivez le code qui filtre et affiche les films de 2024 dont la date de sortie est en 2023. Expliquez pourquoi ces films apparaissent dans la liste 2024.

In [None]:
df_2024['sortie'] = pd.to_datetime(df_2024['sortie'])
df_2024['ann√©e_sortie'] = df_2024['sortie'].dt.year

# Solution
films_2023_dans_2024 = df_2024[df_2024['ann√©e_sortie'] == 2023]
print(f"Nombre de films sortis en 2023 mais dans la liste 2024 : {len(films_2023_dans_2024)}")
print("\nCes films sont :")
print(films_2023_dans_2024[['titre', 'sortie', 'entr√©es (millions)']])

print("\nExplication : Ces films sont sortis en fin d'ann√©e 2023 mais ont r√©alis√©")
print("la majorit√© de leurs entr√©es en 2024. C'est pourquoi ils apparaissent dans")
print("les statistiques de 2024.")

### Analyse par nationalit√©

### Question 8
√âcrivez le code qui filtre les films am√©ricains (ETATS UNIS) sortis en 2024 (pas en 2023), les trie par entr√©es d√©croissantes, et affiche les trois premiers titres ainsi que leur nombre total.

In [None]:
# Solution
films_us_2024 = df_2024[(df_2024['nationalit√©'] == 'ETATS UNIS') & 
                         (df_2024['ann√©e_sortie'] == 2024)]
top3_us = films_us_2024.sort_values('entr√©es (millions)', ascending=False).head(3)
print("Top 3 des films am√©ricains sortis en 2024 :")
print(top3_us[['titre', 'entr√©es (millions)']])
print(f"\nNombre total de films am√©ricains sortis en 2024 : {len(films_us_2024)}")

### Question 9
Calculez le total d'entr√©es des films am√©ricains sortis en 2024.

In [None]:
# Solution
total_us_2024 = films_us_2024['entr√©es (millions)'].sum()
print(f"Total des entr√©es pour les films am√©ricains sortis en 2024 : {total_us_2024:.2f} millions")

### Question 10
Combien de films britanniques (GRANDE BRETAGNE) ont r√©alis√© plus d'un million d'entr√©es en 2024 ?

In [None]:
# Solution
films_gb = df_2024[df_2024['nationalit√©'] == 'GRANDE BRETAGNE']
print(f"Nombre de films britanniques en 2024 : {len(films_gb)}")
print("\nLes films britanniques sont :")
print(films_gb[['titre', 'entr√©es (millions)']])

### Question 11
Trouvez le film fran√ßais ayant r√©alis√© le moins d'entr√©es (mais plus d'un million) en 2024.

In [None]:
# Solution
film_fr_min = films_fr.sort_values('entr√©es (millions)', ascending=True).iloc[0]
print(f"Film fran√ßais avec le moins d'entr√©es en 2024 : {film_fr_min['titre']}")
print(f"Nombre d'entr√©es : {film_fr_min['entr√©es (millions)']} millions")

### Analyse de l'ann√©e 2023

### Question 12
Comptez le nombre de films fran√ßais ayant r√©alis√© plus d'un million d'entr√©es en 2023.

In [None]:
# Solution
films_fr_2023 = df_2023[df_2023['nationalit√©'] == 'FRANCE']
nombre_fr_2023 = len(films_fr_2023)
print(f"Nombre de films fran√ßais ayant d√©pass√© 1 million d'entr√©es en 2023 : {nombre_fr_2023}")

# R√©ponse : 23 films fran√ßais en 2023

### Question 13
Trouvez le film am√©ricain ayant fait le plus d'entr√©es en 2023 et son nombre d'entr√©es.

In [None]:
# Solution
films_us_2023 = df_2023[df_2023['nationalit√©'] == 'ETATS UNIS']
top_us_2023 = films_us_2023.sort_values('entr√©es (millions)', ascending=False).iloc[0]
print(f"Film am√©ricain avec le plus d'entr√©es en 2023 : {top_us_2023['titre']}")
print(f"Nombre d'entr√©es : {top_us_2023['entr√©es (millions)']} millions")

# R√©ponse : BARBIE avec 5,29 millions d'entr√©es

### Question 14
Trouvez le film japonais (JP) de 2023 ayant d√©pass√© le million d'entr√©es.

In [None]:
# Solution
films_jp_2023 = df_2023[df_2023['nationalit√©'] == 'JP']
print(f"Nombre de films japonais en 2023 : {len(films_jp_2023)}")
if len(films_jp_2023) > 0:
    print("\nFilm(s) japonais :")
    print(films_jp_2023[['titre', 'entr√©es (millions)']])

# R√©ponse : SUZUME avec 1,54 million d'entr√©es

### Question 15
Combien de films de la liste 2023 sont en r√©alit√© sortis en 2022 ?

In [None]:
# Solution
df_2023['sortie'] = pd.to_datetime(df_2023['sortie'])
df_2023['ann√©e_sortie'] = df_2023['sortie'].dt.year

films_2022_dans_2023 = df_2023[df_2023['ann√©e_sortie'] == 2022]
print(f"Nombre de films sortis en 2022 mais dans la liste 2023 : {len(films_2022_dans_2023)}")
print("\nCes films sont :")
print(films_2022_dans_2023[['titre', 'sortie', 'entr√©es (millions)']])

### Comparaison 2023-2024

### Question 16
Comparez le nombre total de films ayant r√©alis√© plus d'un million d'entr√©es en 2023 et en 2024.

In [None]:
# Solution
nb_films_2023 = len(df_2023)
nb_films_2024 = len(df_2024)

print(f"Nombre de films ayant d√©pass√© 1 million d'entr√©es en 2023 : {nb_films_2023}")
print(f"Nombre de films ayant d√©pass√© 1 million d'entr√©es en 2024 : {nb_films_2024}")
print(f"\nDiff√©rence : {nb_films_2023 - nb_films_2024} films")

if nb_films_2023 > nb_films_2024:
    print(f"Il y a eu {nb_films_2023 - nb_films_2024} film(s) de plus en 2023 qu'en 2024.")
else:
    print(f"Il y a eu {nb_films_2024 - nb_films_2023} film(s) de plus en 2024 qu'en 2023.")

# R√©ponse : 43 films en 2023 vs 36 films en 2024 (7 films de plus en 2023)

### Question 17
Trouvez le film fran√ßais ayant r√©alis√© le plus d'entr√©es sur les deux ann√©es confondues.

In [None]:
# Solution
# Concat√©ner les deux DataFrames de films fran√ßais
films_fr_2023_bis = df_2023[df_2023['nationalit√©'] == 'FRANCE']
films_fr_2024_bis = df_2024[df_2024['nationalit√©'] == 'FRANCE']
tous_films_fr = pd.concat([films_fr_2023_bis, films_fr_2024_bis])

# Trouver le film avec le plus d'entr√©es
top_fr_global = tous_films_fr.sort_values('entr√©es (millions)', ascending=False).iloc[0]
print(f"Film fran√ßais avec le plus d'entr√©es sur 2023-2024 : {top_fr_global['titre']}")
print(f"Nombre d'entr√©es : {top_fr_global['entr√©es (millions)']} millions")
print(f"Ann√©e : {int(top_fr_global['ann√©e_sortie'])}")

# R√©ponse : UN P'TIT TRUC EN PLUS avec 10,72 millions d'entr√©es (2024)

## 5. Pour aller plus loin : Groupby et agr√©gations

### Regroupement par nationalit√©

Pandas permet de regrouper les donn√©es facilement avec `groupby()` :

In [None]:
# Grouper par nationalit√© et calculer des statistiques
stats_nationalite = df_2024.groupby('nationalit√©').agg({
    'titre': 'count',  # Compter les films
    'entr√©es (millions)': 'sum'  # Sommer les entr√©es
})

# Renommer les colonnes pour plus de clart√©
stats_nationalite.columns = ['Nombre de films', 'Total entr√©es']

# Trier par nombre d'entr√©es d√©croissant
stats_nationalite = stats_nationalite.sort_values('Total entr√©es',
                                                   ascending=False)

print(stats_nationalite)

### Question 18
Utilisez `groupby()` pour cr√©er un tableau r√©sumant, pour chaque nationalit√© en 2024, le nombre de films et le total d'entr√©es. Quelle nationalit√© domine ?

In [None]:
# Solution (code d√©j√† fourni ci-dessus)
print("Analyse par nationalit√© en 2024 :")
print(stats_nationalite)

print("\nAnalyse :")
nationalite_dominante = stats_nationalite.index[0]
total_dominant = stats_nationalite.iloc[0]['Total entr√©es']
nb_films_dominant = stats_nationalite.iloc[0]['Nombre de films']

print(f"La nationalit√© dominante en termes de nombre d'entr√©es est : {nationalite_dominante}")
print(f"Avec {total_dominant:.2f} millions d'entr√©es r√©parties sur {nb_films_dominant} films.")

# R√©ponse : FRANCE domine avec environ 34,47 millions d'entr√©es sur 16 films

### Analyse temporelle (D√©fi)

### Question 19 (D√©fi)
Cr√©ez une analyse temporelle des sorties de films en 2024. Votre code doit :
- Extraire le mois et le trimestre de la date de sortie
- Grouper par trimestre
- Calculer le nombre de films et le total d'entr√©es par trimestre
- Afficher les r√©sultats sous forme de tableau

In [None]:
df_2024['mois'] = df_2024['sortie'].dt.month
df_2024['trimestre'] = 'T' + ((df_2024['sortie'].dt.month - 1) // 3 + 1).astype(str)

# Solution
stats_trimestre = df_2024.groupby('trimestre').agg({
    'titre': 'count',
    'entr√©es (millions)': 'sum'
})

stats_trimestre.columns = ['Nombre de films', 'Total entr√©es (millions)']

print("Analyse temporelle des sorties de films en 2024 :")
print(stats_trimestre)

print("\nAnalyse d√©taill√©e :")
for trimestre in stats_trimestre.index:
    nb = stats_trimestre.loc[trimestre, 'Nombre de films']
    total = stats_trimestre.loc[trimestre, 'Total entr√©es (millions)']
    moyenne = total / nb if nb > 0 else 0
    print(f"{trimestre} : {nb} films sortis, {total:.2f} millions d'entr√©es (moyenne : {moyenne:.2f} M par film)")

trimestre_max = stats_trimestre['Total entr√©es (millions)'].idxmax()
print(f"\nLe trimestre avec le plus d'entr√©es est le {trimestre_max}.")

---

### ‚ö†Ô∏è R√©flexion critique

**Rappelez-vous :** Cette analyse regroupe par date de **sortie**, pas par p√©riode de fr√©quentation r√©elle. Un film sorti en juin g√©n√®re des entr√©es sur plusieurs mois !

**Exemple :** "LE COMTE DE MONTE-CRISTO" est sorti le 28 juin 2024 et a fait 9,39 millions d'entr√©es. Mais ces entr√©es ont √©t√© r√©alis√©es sur plusieurs mois (juin, juillet, ao√ªt...). Dans notre analyse, tout est attribu√© √† "juin".

**Cons√©quence :** Les trimestres avec beaucoup de sorties (√©t√©, fin d'ann√©e) semblent avoir plus d'entr√©es, mais une partie de ces entr√©es se r√©alise en r√©alit√© sur les trimestres suivants.

---

## Fin du TP - CORRIG√â

Ce corrig√© vous permet de v√©rifier vos r√©ponses et de comprendre la logique de r√©solution de chaque question.