---
<img src="https://asset.brandfetch.io/idvDrMBg3m/idgDR62lX4.png" alt="Logo Data Rockstars" width="274" height="80">

### 🔒 Le contenu de ce document est confidentiel. 📝
_Le contenu de ce document est confidentiel et la copie ou la distribution est interdite._ 😶‍🌫️

📧 Pour toute question, veuillez nous contacter à [contact@datarockstars.ai](mailto:contact@datarockstars.ai)

---

# Projet : Visualisation de données cinématographiques avec Streamlit

**Objectif :** Développer une application Streamlit pour visualiser et explorer le dataset TMDb, offrant des analyses personnalisées sur les films, leur distribution, leur popularité et leur performance.

**Base de données :** The Movie Database, une base de données de films et d'acteurs. Il vous suffit de la télécharger en suivant sur ce [lien](https://drive.google.com/drive/folders/1faeYpmMg5nfysUUrpF1ht3gz7kGZy5mP?usp=sharing) (Projet 7). Chargez-la alors sur ce Notebook et commencez à l'utiliser à l'aide de Pandas ou toute autre librairie Python.

## Étapes du projet
- Analyse et préparation des données :
   - Charger et préparer les données pour l'application (nettoyage, transformation, etc.).
   - S'approprier le dataset proposé : 
       - A quoi correspondent les colonnes / lignes ?
       - Quelles informations peut-on en tirer ?
       - Quelles informations sont-elles intéressantes à visualiser ?
   - Fusionner les datasets de films et d'acteurs si nécessaire pour enrichir les informations disponibles.
- Conception de l'interface utilisateur :
   - Planifier la mise en page et les fonctionnalités de l'application Streamlit : son objectif va être de restituer des visualisations ou des informations à l'utilisateur selon des filtres qu'il aura choisi.
   - Définir les types de visualisations et les filtres à intégrer.
- Développement de l'application :
   - Utiliser Streamlit pour créer l'interface utilisateur.
   - Intégrer des visualisations interactives avec des bibliothèques comme Matplotlib, Seaborn ou Plotly.
   - Ajouter des widgets pour permettre aux utilisateurs de filtrer les données (par exemple, par année, genre, popularité, etc.).
- Fonctionnalités personnalisées :
   - Créer des visualisations personnalisées en fonction des choix de l'utilisateur.
   - Permettre l'affichage de détails sur les films, les acteurs, et d'autres métriques clés.
- Tests et optimisation :
   - Tester l'application pour assurer sa performance et sa convivialité.
   - Optimiser le code pour une meilleure efficacité et réactivité.
- Documentation et restitution : 
   - S'il reste du temps, déployer l'application gratuitement sur Heroku en se référant à leur documentation.
   - Documenter le processus de développement et les instructions d'utilisation dans ce Notebook.
   - Préparer une démonstration de l'application.

## Livrables

- Code source de l'application Streamlit sous le nom de app.py.
- Rapport d'analyse avec visualisations contenu dans le Notebook.
- Facultatif : Application Web interactive hébergée (par exemple, sur Heroku, Streamlit Sharing, etc.).

Pour rappel, tout livrable doit être monté sur ce Jupyter Notebook en utilisant l'icône de téléversement en haut à gauche de la fenêtre Notebook (à droite du "+" bleu).

## Conclusion

Ce projet vous permettra d'appliquer vos compétences en développement Python et en visualisation de données pour créer une application Web interactive. Vous apprendre à utiliser Streamlit pour développer des applications conviviales, à intégrer des analyses de données complexes, et à présenter des informations de manière engageante et informative.


<div style="border:2px solid red; padding: 10px;">
    <p style="color: red;"><strong>⚠️ Soumettre votre challenge à la fin de chaque module ⚠️</strong></p>
    <ul>
        <li>💾 Avant de soumettre le lab, pensez à bien <strong> télécharger votre Jupyter notebook</strong> en cliquant sur <em>Fichier > Download.</em>.</li>
        <li>✏️ Seul le notebook <code>main.ipynb</code> sera sauvegardé et envoyé pour évaluation à vos professeurs. Si vous avez d'autres notebooks, ils ne seront <strong>pas comptabilisés. </strong></li>
        <li>🚫 Une fois que vous avez soumis votre travail, vous ne pourrez plus le modifier. Vous aurez cependant, la possibilité de faire une nouvelle tentative autant de fois que souhaité.</li>
    </ul>
    <p>Assurez-vous de vérifier vos fichiers avant de procéder !</p>
</div>

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import ast  # Pour convertir les strings en listes
import requests

In [2]:
df_tmdb = pd.read_csv('./data/TMDb_Dataset.csv')
df_tmdb.head()

Unnamed: 0,TMDb_id,IMDB_id,Title,Categories,Date,Country,Runtime,Cast,Crew,First_Man_Age,...,Revenue,Popularity,Note,Nb_notes,Collection,Films_Collection,Original,Keywords,Poster,Bechdel
0,5,113101,Four Rooms,"['Crime', 'Comedy']",1995-12-09,US,98,"[{'adult': False, 'gender': 2, 'id': 3129, 'kn...","[{'adult': False, 'gender': 1, 'id': 3110, 'kn...",34.0,...,4257354.0,16.063,5.687,2216,,,Original,"[{'id': 612, 'name': 'hotel'}, {'id': 613, 'na...",https://image.tmdb.org/t/p/w185/75aHn1NOYXh4M7...,3.0
1,6,107286,Judgment Night,"['Action', 'Crime', 'Thriller']",1993-10-15,JP,109,"[{'adult': False, 'gender': 2, 'id': 2880, 'kn...","[{'adult': False, 'gender': 2, 'id': 2042, 'kn...",31.0,...,12136938.0,15.373,6.553,262,,,Original,"[{'id': 520, 'name': 'chicago, illinois'}, {'i...",https://image.tmdb.org/t/p/w185/rYFAvSPlQUCeba...,
2,11,76759,Star Wars,"['Adventure', 'Action', 'Science Fiction']",1977-05-25,US,121,"[{'adult': False, 'gender': 2, 'id': 2, 'known...","[{'adult': False, 'gender': 2, 'id': 1, 'known...",26.0,...,775398007.0,74.392,8.206,17675,Star Wars Collection,"[{'adult': False, 'backdrop_path': '/yrdAamkeq...",Original,"[{'id': 803, 'name': 'android'}, {'id': 4270, ...",https://image.tmdb.org/t/p/w185/6FfCtAuVAW8XJj...,1.0
3,12,266543,Finding Nemo,"['Animation', 'Family']",2003-05-30,US,100,"[{'adult': False, 'gender': 2, 'id': 13, 'know...","[{'adult': False, 'gender': 2, 'id': 7, 'known...",56.0,...,940335536.0,124.945,7.825,16788,Finding Nemo Collection,"[{'adult': False, 'backdrop_path': '/yzqaKAhgl...",Original,"[{'id': 970, 'name': 'parent child relationshi...",https://image.tmdb.org/t/p/w185/eHuGQ10FUzK1md...,1.0
4,13,109830,Forrest Gump,"['Comedy', 'Drama', 'Romance']",1994-06-23,US,142,"[{'adult': False, 'gender': 2, 'id': 31, 'know...","[{'adult': False, 'gender': 2, 'id': 37, 'know...",38.0,...,677387716.0,62.805,8.48,23288,,,Original,"[{'id': 422, 'name': 'vietnam veteran'}, {'id'...",https://image.tmdb.org/t/p/w185/saHP97rTPS5eLm...,1.0


In [3]:
df_tmdb.head()

# NETTOYAGE :
# Formater la date
# Dégager les colonne TMDb_id, IMDB, Keywords, Crew, First_Man_Age, Collections, Films_Collection, 
# De là on voit s'il reste des Nans...

df_tmdb['Date'] = pd.to_datetime(df_tmdb['Date'], errors='coerce')
df_tmdb = df_tmdb.drop(columns=['TMDb_id', 'IMDB_id', 'Keywords', 'Crew', 'First_Man_Age', 'First_Woman_Age', 'Collection', 'Films_Collection', 'Bechdel'])

# reste 9000 na dans les revenus / Budjets et 6000 au bechdel

# On va les remplir par la moyenne :
df_tmdb['Budget'] = df_tmdb['Budget'].fillna(df_tmdb['Budget'].mean())
df_tmdb['Revenue'] = df_tmdb['Revenue'].fillna(df_tmdb['Revenue'].mean())





In [4]:
#Les noms de pays ne sont pas lisibles, on va remplacer par de vrais noms :

def get_country_name(value):
    # Clé d'API GeoNames
    username = 'raffiskender'  # Remplace par ton nom d'utilisateur GeoNames

    # URL de l'API GeoNames pour obtenir des informations sur un pays
    url = f"http://api.geonames.org/countryInfoJSON?formatted=true&lang=fr&country={value}&username=raffiskender"

    # Faire la requête GET
    response = requests.get(url)

    # Vérifier si la requête a réussi

    if response.status_code == 200:
        country_info = response.json()
        try:
            print(f'{value} => {country_info['geonames'][0]['countryName']}')
            return country_info['geonames'][0]['countryName']
        except Exception as e:
            print(f"Erreur {e} lors de la conversion de {value}.")
            return ("Inconnu")
    else:
        print(f"Erreur {response.text} lors de la requête.")

country_dict = {}
for country in df_tmdb['Country'].unique():
    country_dict[country] = get_country_name(country)

print(country_dict)



US => États-Unis
JP => Japon
Erreur list index out of range lors de la conversion de Inconnu.
DE => Allemagne
ES => Espagne
GB => Royaume Uni
MX => Mexique
FR => France
KR => Corée du Sud
NZ => Nouvelle-Zélande
DK => Danemark
IT => Italie
CA => Canada
SE => Suède
Erreur list index out of range lors de la conversion de SU.
HR => Croatie
AU => Australie
CH => Suisse
AT => Autriche
BE => Belgique
IN => Inde
BR => Brésil
CN => Chine
HK => Hong Kong
TH => Thaïlande
RO => Roumanie
LU => Luxembourg
SG => Singapour
FI => Finlande
RS => Serbie
TR => Turquie
IE => Irlande
AR => Argentine
PL => Pologne
CL => Chili
RU => Russie
IR => Iran
NO => Norvège
PT => Portugal
GR => Grèce
Erreur list index out of range lors de la conversion de XC.
AE => Émirats Arabes Unis
ZA => Afrique du Sud
NL => Pays-Bas
IL => Israël
ID => Indonésie
EE => Estonie
HU => Hongrie
BS => Bahamas
UA => Ukraine
CO => Colombie
BG => Bulgarie
IS => Islande
PE => Pérou
MK => Macédoine du Nord
CY => Chypre
CZ => Tchéquie
TW => Taï

In [5]:
df_tmdb['Country_lisible'] = df_tmdb['Country'].map(country_dict)

df_tmdb.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25022 entries, 0 to 25021
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Title            25022 non-null  object        
 1   Categories       25022 non-null  object        
 2   Date             25022 non-null  datetime64[ns]
 3   Country          25022 non-null  object        
 4   Runtime          25022 non-null  int64         
 5   Cast             25022 non-null  object        
 6   Budget           25022 non-null  float64       
 7   Revenue          25022 non-null  float64       
 8   Popularity       25022 non-null  float64       
 9   Note             25022 non-null  float64       
 10  Nb_notes         25022 non-null  int64         
 11  Original         25022 non-null  object        
 12  Poster           25022 non-null  object        
 13  Country_lisible  25022 non-null  object        
dtypes: datetime64[ns](1), float64(4), int6

In [6]:
#Éclater les catégories :

df_tmdb['Categories'] = df_tmdb['Categories'].apply(ast.literal_eval)

df_exploded = df_tmdb.explode(['Categories'])


In [7]:
df_dummies = pd.get_dummies(df_exploded, columns=['Categories'])

df_tmdb = df_dummies.groupby('Title', as_index=False, sort=False).max()
#print(type(df_tmdb.loc[0, 'Categories']))

df_tmdb.head()

Unnamed: 0,Title,Date,Country,Runtime,Cast,Budget,Revenue,Popularity,Note,Nb_notes,...,Categories_History,Categories_Horror,Categories_Music,Categories_Mystery,Categories_Romance,Categories_Science Fiction,Categories_TV Movie,Categories_Thriller,Categories_War,Categories_Western
0,Four Rooms,1995-12-09,US,98,"[{'adult': False, 'gender': 2, 'id': 3129, 'kn...",4000000.0,4257354.0,16.063,5.687,2216,...,False,False,False,False,False,False,False,False,False,False
1,Judgment Night,1993-10-15,JP,109,"[{'adult': False, 'gender': 2, 'id': 2880, 'kn...",21000000.0,12136938.0,15.373,6.553,262,...,False,False,False,False,False,False,False,True,False,False
2,Star Wars,1977-05-25,US,121,"[{'adult': False, 'gender': 2, 'id': 2, 'known...",11000000.0,775398007.0,74.392,8.206,17675,...,False,False,False,False,False,True,False,False,False,False
3,Finding Nemo,2003-05-30,US,100,"[{'adult': False, 'gender': 2, 'id': 13, 'know...",94000000.0,940335536.0,124.945,7.825,16788,...,False,False,False,False,False,False,False,False,False,False
4,Forrest Gump,1994-06-23,US,142,"[{'adult': False, 'gender': 2, 'id': 31, 'know...",55000000.0,677387716.0,62.805,8.48,23288,...,False,False,False,False,True,False,False,False,False,False


In [8]:
df_tmdb.info()
# Propre !


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23652 entries, 0 to 23651
Data columns (total 32 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   Title                       23652 non-null  object        
 1   Date                        23652 non-null  datetime64[ns]
 2   Country                     23652 non-null  object        
 3   Runtime                     23652 non-null  int64         
 4   Cast                        23652 non-null  object        
 5   Budget                      23652 non-null  float64       
 6   Revenue                     23652 non-null  float64       
 7   Popularity                  23652 non-null  float64       
 8   Note                        23652 non-null  float64       
 9   Nb_notes                    23652 non-null  int64         
 10  Original                    23652 non-null  object        
 11  Poster                      23652 non-null  object    

In [9]:
# sauvegarde
df_tmdb.to_csv('./data/TMDb_Dataset_clean.csv', index=False)

In [4]:
df_tmdb = pd.read_csv('./data/TMDb_Dataset_clean.csv', parse_dates=['Date'])

In [None]:
print(df_tmdb.loc['Poster'])

AttributeError: 'str' object has no attribute 'str'

In [None]:
# afficher les images du casting et de la jaquette (baseurl = https://image.tmdb.org/t/p/w185/)
# on pourrait calculer la moyenne d'age par au casting
# Ranger les films par catégories (avec des getDummies)
# Voir les revenus par country
# Voir les notes par budgets

