<h1>Exercice</h1>

Vous travaillez pour une société de distribution de films. Vous avez un DataFrame movies qui contient des données sur les sorties de films les plus rentables. Vous devez filtrer, trier et transformer ces données pour préparer votre analyse.

<b>Énoncé de l'Exercice</b>

Avec le DataFrame movies, réalisez les opérations suivantes en utilisant pandas :
1) Filtrez et affichez les films dont le total des recettes (Total Gross) dépasse 800 millions de dollars.
2) Filtrez et affichez les films dont le nom contient le mot "Star".
3) Filtrez et affichez les films qui appartiennent aux distributeurs 'Warner Bros.' ou 'Universal Pictures'.
4) Utilisez une combinaison de filtres pour sélectionner les films sortis après le 01-01-2015 avec une note (% of Total) supérieure à 30%.
5) Filtrez les films par leur note en utilisant .query() pour ceux ayant une note entre 25% et 35% inclus.
6) Identifiez les films sortis après 2010 qui ont une recette moyenne par salle supérieure à la médiane de tous les films.
7) Triez les films par leur Total Gross en ordre décroissant.
8) Triez les films par leur Date de sortie en ordre ascendant, en gérant correctement les valeurs manquantes.
9) Effectuez un tri multicritères : d'abord par Distributor (ordre alphabétique) puis par Opening en ordre décroissant.
10) Trier les films par la longueur de leur nom (Release) en utilisant une fonction de clé personnalisée qui trie les films par le nombre de caractères, en ordre décroissant. 
11) Créez une nouvelle colonne 'Revenue per Theater' en divisant Total Gross par Theaters.
12) créez une nouvelle colonne 'Is Blockbuster' qui marque 'Yes' pour les films avec plus de 40% de Total Gross et 'No' pour les autres.
13) Ajoutez une colonne 'Profitability' calculée comme le rapport (division) entre le Total Gross et Opening. Cela peut servir à évaluer l'endurance du film au box-office après le week-end d'ouverture.
14) Créez une nouvelle colonne 'Genre' en utilisant la méthode .map() avec une fonction qui assigne 'Action' aux films avec le mot 'War' ou 'Battle' dans leur titre, 'Adventure' pour les films avec 'Star' ou 'Journey', et 'Other' pour tous les autres films.
15) Enregristrez le dataframe dans un csv 'Top_Highest_Openings_Modeled.csv'

In [None]:
import pandas as pd

movies = pd.read_csv('Top_Highest_Openings.csv')
movies['Date'] = pd.to_datetime(movies['Date'], dayfirst=True)

movies.head(3)

In [None]:
#1. Filtrez par Total Gross > 800M
movies[movies['Total Gross'] > 800000000]

In [None]:
#2. Filtrez par nom contenant "Star"
movies[movies['Release'].str.contains('Star')]

In [None]:
# 3. Filtrez par distributeur
movies[movies['Distributor'].isin(['Warner Bros.', 'Universal Pictures'])]

In [None]:
# 4. Combinaison de filtres pour % of Total et Date
movies[(movies['% of Total'] > 30) & (pd.to_datetime(movies['Date']) > '2015-01-01')]

In [None]:
# 5. Filtrez par note avec .query()
movies.query('25 <= `% of Total` <= 35')

In [None]:
#6. films sortis après 2010 qui ont une recette moyenne par salle supérieure à la médiane de tous les films

median_average = movies['Average'].median()
movies[(movies['Date']> '31/12/2009') & (movies['Average'] > median_average)]

In [None]:
# 7. Tri par Total Gross
movies.sort_values(by='Total Gross', ascending=False)

In [None]:
# 8. Tri par Date avec gestion des NaN
movies.sort_values(by='Date', na_position='first')

In [None]:
# 9. Tri multicritères par Distributor et Opening
movies.sort_values(by=['Distributor', 'Opening'], ascending=[True, False])

In [None]:
#10 Trier les films par la longueur de leur nom (Release)
movies.sort_values(by='Release', key=lambda x: x.str.len(), ascending=False)

In [None]:
# 11. Nouvelle colonne Revenue per Theater
movies['Revenue per Theater'] = movies['Total Gross'] / movies['Theaters']
movies.head(5)

In [None]:
# 12. Nouvelle colonne Is Blockbuster avec .map()
movies['Is Blockbuster'] = movies['% of Total'].map(lambda x: 'Yes' if x > 40 else 'No')
movies.head(5)

In [None]:
# 13. colonne 'Profitability' calculée comme le rapport entre le Total Gross et Opening
movies['Profitability'] = movies['Total Gross'] / movies['Opening']
movies.head(5)

In [None]:
#14 Créez une nouvelle colonne 'Genre' 

def assign_genre(title):
    if 'War' in title or 'Battle' in title:
        return 'Action'
    elif 'Star' in title or 'Journey' in title:
        return 'Adventure'
    else:
        return 'Other'

movies['Genre'] = movies['Release'].map(assign_genre)
movies.head(5)

In [None]:
#15 enregistrement
movies.to_csv('Top_Highest_Openings_Modeled.csv')