# film-genre-statistics
Analyse de données de genre pour les films sortis entre 1995 et 2018. 

# Ensemble de données sur les Statistiques de Genre des Films (1995-2018)

## Description
Cet ensemble de données fournit des statistiques de genre pour les films sortis entre 1995 et 2018. Il offre des informations détaillées sur divers aspects des films, tels que les revenus bruts, les billets vendus et les chiffres ajustés à l'inflation. Les colonnes comprennent des données sur le genre, l'année de sortie, le nombre de films, les revenus bruts, les billets vendus, le brut ajusté à l'inflation, le meilleur film de chaque genre et année, ainsi que les revenus bruts associés.

## Colonnes
- Genre: Catégorie ou type de film (Catégoriel)
- Année: Année de sortie des films (Numérique)
- Films sortis: Nombre de films sortis dans un genre et une année spécifiques (Numérique)
- Brut: Revenu brut total généré par les films dans un genre et une année spécifiques (Numérique)
- Billets vendus: Nombre total de billets vendus pour des films d'un genre et d'une année spécifiques (Numérique)
- Brut ajusté à l'inflation: Revenu brut ajusté à l'inflation, tenant compte de l'évolution de la valeur de l'argent au fil du temps (Numérique)
- Meilleur film: Titre du film le plus rentable dans un genre et une année spécifiques (Texte)
- Meilleur film brut (cette année): Revenus bruts générés par le film le plus rentable dans un genre et une année spécifiques (Numérique)
- Meilleur film brut ajusté à l'inflation (cette année): Revenus bruts ajustés à l'inflation du film le plus rentable dans un genre et une année spécifiques (Numérique)

## Utilisation
Avant d'analyser les données, familiarisez-vous avec les différentes colonnes et leurs descriptions. Vous pouvez utiliser cet ensemble de données pour des analyses telles que la recherche de genres populaires, la mesure de la réussite financière des films, la compréhension des tendances cinématographiques, et bien plus encore.

## Visualisation des données
Pour une analyse plus approfondie, envisagez d'utiliser des techniques de visualisation de données, telles que des graphiques temporels, des graphiques de dispersion, et des matrices de corrélation.

## Idées de recherche
- Prédire la popularité et le succès des films dans différents genres.
- Comparaison des performances des films au fil du temps.
- Analyser l'impact de la popularité du genre sur les ventes de billets.

## Source de données
kaggle

#Atelier :  Réussite au baccalauréat selon l’origine sociale Reviews EDA w/ Python 📈

##Description des données:


Ce jeu de données contient les résultats au baccalauréat par origine sociale et par type de baccalauréat. Le baccalauréat est un diplôme national qui sanctionne la fin des études secondaires générales, technologiques ou professionnelles.
Chaque jeu de données regroupe l'ensemble des candidats au baccalauréat des sessions de juin et de septembre, quels que soient leur origine scolaire (candidats individuels compris) et le ministère de rattachement des établissements fréquentés (éducation nationale ou agriculture). L'ensemble des séries sont représentées (générales, technologiques rénovées, technologiques non rénovées (séries artistiques F11M et F11D) et professionnelles).

##1. Importation et nettoyage des données

-Charger l'ensemble des données depuis le fichier CSV fourni dans le lien Kaggle.
-Examiner les données pour détecter et corriger les éventuelles valeurs manquantes ou incohérentes.
-Vérifier les types de données de chaque colonne pour s'assurer qu'ils sont appropriés pour l'analyse.

In [None]:
import pandas as pd

films = pd.read_csv("D:/IA_COURS/Python/Data/films.csv")

# Vérifier les premières lignes pour comprendre la structure
print(films.head())

# Vérifier les types de données et les valeurs manquantes
print(films.info())

# Nettoyer les données si nécessaire (ex: valeurs manquantes, types incorrects)
# Exemple: df['colonne'] = df['colonne'].fillna(valeur) ou df.dropna()

##2.Analyse exploratoire des données (EDA)

-Réaliser une statistique descriptive pour obtenir un aperçu général des données telles que la moyenne, la médiane, les quartiles, etc.
-Examiner la distribution du nombre de films par genre et par année pour identifier les tendances.
-Analyser les revenus bruts et les billets vendus par genre et par année pour évaluer la popularité et la rentabilité.

In [None]:
# Statistiques descriptives
print(films.describe())

# Nombre de films par genre et par année
print(films.groupby(['Genre', 'Année']).size())

# Revenus bruts et billets vendus par genre et par année
print(films.groupby(['Genre', 'Année'])[['Brut', 'Billets vendus']].sum())


##3. Visualisation des données

-Créer des graphiques temporels pour visualiser l'évolution du nombre de films, des revenus bruts, et des billets vendus par genre au fil des années.
-Utiliser des graphiques de dispersion pour explorer la relation entre les revenus bruts et les billets vendus.
-Concevoir des matrices de corrélation pour identifier les relations potentielles entre les différentes variables numériques.


In [None]:
import matplotlib.pyplot as plt

# Evolution du nombre de films par année pour un genre spécifique
df_genre_année = films.groupby(['Année', 'Genre']).size().unstack().fillna(0)
df_genre_année.plot(kind='line', figsize=(10, 6))
plt.title('Nombre de films par genre par année')
plt.xlabel('Année')
plt.ylabel('Nombre de films')
plt.legend(title='Genre')
plt.show()

# Relation entre revenus bruts et billets vendus pour un genre spécifique
plt.figure(figsize=(10, 6))
plt.scatter(films['Brut'], films['Billets vendus'])
plt.title('Relation entre revenus bruts et billets vendus')
plt.xlabel('Revenus bruts')
plt.ylabel('Billets vendus')
plt.show()


##4.Analyse approfondie

-Déterminer les genres les plus populaires et les plus rentables en analysant les revenus bruts et les billets vendus.
-Identifier les films les plus performants de chaque genre pour chaque année, en se concentrant sur ceux qui ont généré les revenus bruts les plus élevés et ajustés à l'inflation.
-Explorer les tendances au fil du temps pour voir comment les préférences en matière de genre ont évolué.

In [None]:
# Genre le plus populaire par année en termes de billets vendus
df_populaire = films.groupby(['Année', 'Genre'])['Billets vendus'].sum().reset_index()
genre_plus_populaire = df_populaire.loc[df_populaire.groupby('Année')['Billets vendus'].idxmax()]

print(genre_plus_populaire)

# Film le plus rentable par genre et par année
df_meilleur_film = films.loc[films.groupby(['Genre', 'Année'])['Brut'].idxmax()]
print(df_meilleur_film[['Année', 'Genre', 'Meilleur film', 'Brut']])


##5. Conclusion et recommandations