C'est ici que toute la documentation du pipeline, les résultats et les analyses visuelles sont intégrés.

Ce notebook contient les explications et appelle les scripts du dossier src/ pour exécuter chaque étape du pipeline.

On l'utilise pour charger et exécuter le pipeline étape par étape. 

Par exemple, pour exécuter la partie nettoyage, importer et exécuter data_preprocessing.py depuis src/.

À chaque étape (nettoyage, analyse des données, visualisations), ajouter des cellules Markdown dans le notebook pour expliquer ce que fait chaque étape, pourquoi elle est nécessaire, et les observations tirées des résultats.

C’est également ici que nous ajouterons les graphiques et analyses visuelles pour expliquer nos résultats intermédiaires.

Expliquer ce que l'on fait dans notre projet et que pour ce faire nous utiliserons une version clean de movie_metadata.
On affiche à partir de quelle année notre base de données de films commence pour exclure les évènements historiques trop lointains dans notre dataset additionnel.
On veut garder la première colonne pour relier le film à son résumé mais aussi la plupart des autres.
On veut transformer les formats de dates pour l’analyse temporelle.

In [5]:
from src.data_preprocessing import *
from tests.test_data_preprocessing import test_cleaned_movie_data
import pandas as pd

movies_data = pd.read_csv("data/MovieSummaries/movie.metadata.tsv", delimiter='\t') # Columns are separated by tabs rather than commas

# Cleaning the raw data of the movies dataset
cleaned_movies_data = clean_movie_data(movies_data)

#Checking if the cleaning worked 
test_cleaned_movie_data(cleaned_movies_data)

# Print the cleaned data results
print(cleaned_movies_data.head())


à compléter
      975900   /m/03vyhn            Ghosts of Mars  2001-08-24     14010832  \
6   10408933  /m/02qc0j7  Alexander's Ragtime Band  1938-08-16    3600000.0   
12    171005   /m/016ywb                   Henry V  1989-11-08   10161099.0   
16     77856    /m/0kcn7              Mary Poppins  1964-08-27  102272727.0   
20    612710   /m/02wjqm            New Rose Hotel  1999-10-01      21521.0   
28    156558   /m/014k4y                  Baby Boy  2001-06-27   29381649.0   

     98.0  {"/m/02h40lc": "English Language"}  \
6   106.0  {"/m/02h40lc": "English Language"}   
12  137.0  {"/m/02h40lc": "English Language"}   
16  139.0  {"/m/02h40lc": "English Language"}   
20   92.0  {"/m/02h40lc": "English Language"}   
28  123.0  {"/m/02h40lc": "English Language"}   

    {"/m/09c7w0": "United States of America"}  \
6   {"/m/09c7w0": "United States of America"}   
12             {"/m/07ssc": "United Kingdom"}   
16  {"/m/09c7w0": "United States of America"}   
20  {"/m/09c7w0": "Uni

On veut aussi clean et tokeniser les résumés de films pour en trouver plus facilement le thème (lien historique ou non) et se débarasser des valeurs manquantes.

In [6]:
from src.data_preprocessing import vectorize_plot_data, clean_plot_data
from tests.test_data_preprocessing import test_cleaned_plot_data, test_vectorized_plot_data
import pandas as pd

plot_data = pd.read_csv("data/MovieSummaries/plot_summaries.txt", delimiter='\t', header=None, names=['id', 'plot']) #document texte

# Cleaning the raw data and checking if it worked
cleaned_plot_data= clean_plot_data(plot_data)
test_cleaned_plot_data(cleaned_plot_data)

#Vectorizing/Tokenizing the cleaned data and checking if it worked
vectorized_plot_data = vectorize_plot_data(cleaned_plot_data)
test_vectorized_plot_data(vectorize_plot_data)

# Print the cleaned and vectorized/tokenized data results
print(vectorized_plot_data.head())

à compléter
à compléter
         id                                               plot
0  23890098  Shlykov, a hard-working taxi driver and Lyosha...
1  31186339  The nation of Panem consists of a wealthy Capi...
2  20663735  Poovalli Induchoodan  is sentenced for six yea...
3   2231378  The Lemon Drop Kid , a New York City swindler,...
4    595909  Seventh-day Adventist Church pastor Michael Ch...


Enfin, on veut clean notre dataset additionnel, création de catégories utiles pour l’analyse, comme « guerre », « crise économique », « période de stabilité ». On cherche encore ici à vectoriser et mettre sous forme de token certains types de mots en identifiant les catégories qui nous intéressent.
On veut éliminer les valeurs manquantes ainsi que les événements historiques beaucoup trop vieux pour notre analyse.
Peu importe la méthode utilisée pour tokeniser/vectroriser, expliquer ici pourquoi c'est approprié pour nos objectif et donner une  brève explication mathématique si possible.
On veut aussi transformer les formats de dates pour l’analyse temporelle à l'image de notre movie dataset.

In [7]:
from src.data_preprocessing import vectorize_historical_data, clean_historical_data
from tests.test_data_preprocessing import test_cleaned_historical_data, test_vectorized_historical_data
import pandas as pd

history_data = pd.read_csv("data/HistoricalDataset/historical.dataset.csv")

# Cleaning the raw data of the history dataset
print('\n The size of the original historical dataset is', history_data.shape)
cleaned_history = clean_historical_data(movies_data, history_data)
print('\n', cleaned_history.head())
print('\n The size of the cleaned historical dataset is now', cleaned_history.shape) 

test_cleaned_historical_data(cleaned_history)

#Vectorizing/Tokenizing the cleaned data and checking if it worked
vectorized_historical_data = vectorize_historical_data(cleaned_history)
test_vectorized_historical_data(vectorize_historical_data)

# Print the cleaned and vectorized/tokenized data results
print(vectorized_historical_data.head())


 The size of the original historical dataset is (1096, 12)

 In our dataset, the first movie that was released was in 1892

     Sl. No                  Name of Incident Date     Month  Year Country  \
5        9                Partition of India   15    August  1947   India   
6       10  IndoUnknownPakistani War of 1971    3  December  1971   India   
7       11    PokhranUnknownII Nuclear Tests   11       May  1998   India   
8       12             Mumbai Terror Attacks   26  November  2008   India   
12      16                 Swadeshi Movement    7    August  1905   India   

        Type of Event      Place Name  \
5           Partition  India/Pakistan   
6                 War      Bangladesh   
7        Nuclear Test         Pokhran   
8           Terrorism          Mumbai   
12  National Movement          Bengal   

                                               Impact  \
5   Creation of India and Pakistan; massive popula...   
6               Led to the independence of Banglad

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cleaned_data_history['Year'] = cleaned_data_history['Year'].astype(int) # converts the column ['Year'] from str to int


La prochaine étape est de faire des plots, voici mes idées mais rajoutez en à votre guise!! 

- Proportion de chaque genre dans les films sortis chaque année. (lineplot?)
- Heatmap temporelle avec les années et les genres pourrait aussi aider à voir les pics et baisses de popularité des genres.
- Comparer les genres populaires à des périodes historiques précises (avant, pendant, après).
- Ligne temporelle des revenus du box office pour des genres particuliers, avec des annotations pour les films les plus réussis. Les pics ou succès importants peuvent être marqués pour voir si d'autres films de genre similaire ont suivi. (matplotib.pyplot)
- Montrez la durée pendant laquelle un genre reste populaire après le succès d’un film spécifique. Chaque barre représente un genre et montre la période pendant laquelle il est resté en tendance. (barplot?)
- Carte géographique et graphique pour montrer l’origine des films (par pays) et un graphique en barres empilées pour voir comment les genres évoluent dans les différentes régions, en mettant en avant la diffusion de genres américains. (plotly.express.choropleth et seaborn)


In [8]:
# Appels au méthodes de plot dans analysis dans src apres nettoyage.