# film-genre-statistics
Analyse de donn√©es de genre pour les films sortis entre 1995 et 2018. 

# Ensemble de donn√©es sur les Statistiques de Genre des Films (1995-2018)

## Description
Cet ensemble de donn√©es fournit des statistiques de genre pour les films sortis entre 1995 et 2018. Il offre des informations d√©taill√©es sur divers aspects des films, tels que les revenus bruts, les billets vendus et les chiffres ajust√©s √† l'inflation. Les colonnes comprennent des donn√©es sur le genre, l'ann√©e de sortie, le nombre de films, les revenus bruts, les billets vendus, le brut ajust√© √† l'inflation, le meilleur film de chaque genre et ann√©e, ainsi que les revenus bruts associ√©s.

## Colonnes
- Genre: Cat√©gorie ou type de film (Cat√©goriel)
- Ann√©e: Ann√©e de sortie des films (Num√©rique)
- Films sortis: Nombre de films sortis dans un genre et une ann√©e sp√©cifiques (Num√©rique)
- Brut: Revenu brut total g√©n√©r√© par les films dans un genre et une ann√©e sp√©cifiques (Num√©rique)
- Billets vendus: Nombre total de billets vendus pour des films d'un genre et d'une ann√©e sp√©cifiques (Num√©rique)
- Brut ajust√© √† l'inflation: Revenu brut ajust√© √† l'inflation, tenant compte de l'√©volution de la valeur de l'argent au fil du temps (Num√©rique)
- Meilleur film: Titre du film le plus rentable dans un genre et une ann√©e sp√©cifiques (Texte)
- Meilleur film brut (cette ann√©e): Revenus bruts g√©n√©r√©s par le film le plus rentable dans un genre et une ann√©e sp√©cifiques (Num√©rique)
- Meilleur film brut ajust√© √† l'inflation (cette ann√©e): Revenus bruts ajust√©s √† l'inflation du film le plus rentable dans un genre et une ann√©e sp√©cifiques (Num√©rique)

## Utilisation
Avant d'analyser les donn√©es, familiarisez-vous avec les diff√©rentes colonnes et leurs descriptions. Vous pouvez utiliser cet ensemble de donn√©es pour des analyses telles que la recherche de genres populaires, la mesure de la r√©ussite financi√®re des films, la compr√©hension des tendances cin√©matographiques, et bien plus encore.

## Visualisation des donn√©es
Pour une analyse plus approfondie, envisagez d'utiliser des techniques de visualisation de donn√©es, telles que des graphiques temporels, des graphiques de dispersion, et des matrices de corr√©lation.

## Id√©es de recherche
- Pr√©dire la popularit√© et le succ√®s des films dans diff√©rents genres.
- Comparaison des performances des films au fil du temps.
- Analyser l'impact de la popularit√© du genre sur les ventes de billets.

## Source de donn√©es
kaggle

#Atelier :  R√©ussite au baccalaur√©at selon l‚Äôorigine sociale Reviews EDA w/ Python üìà

##Description des donn√©es:


Ce jeu de donn√©es contient les r√©sultats au baccalaur√©at par origine sociale et par type de baccalaur√©at. Le baccalaur√©at est un dipl√¥me national qui sanctionne la fin des √©tudes secondaires g√©n√©rales, technologiques ou professionnelles.
Chaque jeu de donn√©es regroupe l'ensemble des candidats au baccalaur√©at des sessions de juin et de septembre, quels que soient leur origine scolaire (candidats individuels compris) et le minist√®re de rattachement des √©tablissements fr√©quent√©s (√©ducation nationale ou agriculture). L'ensemble des s√©ries sont repr√©sent√©es (g√©n√©rales, technologiques r√©nov√©es, technologiques non r√©nov√©es (s√©ries artistiques F11M et F11D) et professionnelles).

##1. Importation et nettoyage des donn√©es

-Charger l'ensemble des donn√©es depuis le fichier CSV fourni dans le lien Kaggle.
-Examiner les donn√©es pour d√©tecter et corriger les √©ventuelles valeurs manquantes ou incoh√©rentes.
-V√©rifier les types de donn√©es de chaque colonne pour s'assurer qu'ils sont appropri√©s pour l'analyse.

In [None]:
import pandas as pd

films = pd.read_csv("D:/IA_COURS/Python/Data/films.csv")

# V√©rifier les premi√®res lignes pour comprendre la structure
print(films.head())

# V√©rifier les types de donn√©es et les valeurs manquantes
print(films.info())

# Nettoyer les donn√©es si n√©cessaire (ex: valeurs manquantes, types incorrects)
# Exemple: df['colonne'] = df['colonne'].fillna(valeur) ou df.dropna()

##2.Analyse exploratoire des donn√©es (EDA)

-R√©aliser une statistique descriptive pour obtenir un aper√ßu g√©n√©ral des donn√©es telles que la moyenne, la m√©diane, les quartiles, etc.
-Examiner la distribution du nombre de films par genre et par ann√©e pour identifier les tendances.
-Analyser les revenus bruts et les billets vendus par genre et par ann√©e pour √©valuer la popularit√© et la rentabilit√©.

In [None]:
# Statistiques descriptives
print(films.describe())

# Nombre de films par genre et par ann√©e
print(films.groupby(['Genre', 'Ann√©e']).size())

# Revenus bruts et billets vendus par genre et par ann√©e
print(films.groupby(['Genre', 'Ann√©e'])[['Brut', 'Billets vendus']].sum())


##3. Visualisation des donn√©es

-Cr√©er des graphiques temporels pour visualiser l'√©volution du nombre de films, des revenus bruts, et des billets vendus par genre au fil des ann√©es.
-Utiliser des graphiques de dispersion pour explorer la relation entre les revenus bruts et les billets vendus.
-Concevoir des matrices de corr√©lation pour identifier les relations potentielles entre les diff√©rentes variables num√©riques.


In [None]:
import matplotlib.pyplot as plt

# Evolution du nombre de films par ann√©e pour un genre sp√©cifique
df_genre_ann√©e = films.groupby(['Ann√©e', 'Genre']).size().unstack().fillna(0)
df_genre_ann√©e.plot(kind='line', figsize=(10, 6))
plt.title('Nombre de films par genre par ann√©e')
plt.xlabel('Ann√©e')
plt.ylabel('Nombre de films')
plt.legend(title='Genre')
plt.show()

# Relation entre revenus bruts et billets vendus pour un genre sp√©cifique
plt.figure(figsize=(10, 6))
plt.scatter(films['Brut'], films['Billets vendus'])
plt.title('Relation entre revenus bruts et billets vendus')
plt.xlabel('Revenus bruts')
plt.ylabel('Billets vendus')
plt.show()


##4.Analyse approfondie

-D√©terminer les genres les plus populaires et les plus rentables en analysant les revenus bruts et les billets vendus.
-Identifier les films les plus performants de chaque genre pour chaque ann√©e, en se concentrant sur ceux qui ont g√©n√©r√© les revenus bruts les plus √©lev√©s et ajust√©s √† l'inflation.
-Explorer les tendances au fil du temps pour voir comment les pr√©f√©rences en mati√®re de genre ont √©volu√©.

In [None]:
# Genre le plus populaire par ann√©e en termes de billets vendus
df_populaire = films.groupby(['Ann√©e', 'Genre'])['Billets vendus'].sum().reset_index()
genre_plus_populaire = df_populaire.loc[df_populaire.groupby('Ann√©e')['Billets vendus'].idxmax()]

print(genre_plus_populaire)

# Film le plus rentable par genre et par ann√©e
df_meilleur_film = films.loc[films.groupby(['Genre', 'Ann√©e'])['Brut'].idxmax()]
print(df_meilleur_film[['Ann√©e', 'Genre', 'Meilleur film', 'Brut']])


##5. Conclusion et recommandations