# <div style='color:white;background: #005792;text-align: center;padding: 15px 0'>Recommandations - Evaluation de la source de données Title basics</div>

## Participants
* Samantha
* Rachelle
* Andrew


## Résumé des observations

Ce jeu de données comprend 9 colonnes et 48 459 150 lignes et contient des valeurs manquantes et dubliquées.
En particulier, les colonnes `endYear` et `runtimeMinutes` ont environ 70% de valeurs manquantes.

### Anomalie

Les colonnes suivantes sont dans un mauvais typage : 
* isAdult 
* startYear
* endYear 


### Colonnes à supprimer

* `originalTitle` 98.6% de ses valeurs sont similaires à la colonne `primaryTitle`
* `startYear` n'apporte pas de plus-value pour la suite
* `endYear` possèdent 70% de valeurs manquantes
* `runtimeMinutes` possèdent 70% de valeurs manquantes


### Colonnes à conserver

* `tconst` a conservé jusqu'à la fusion complète des données de IMDb
* `titleType` permet de savoir le type de vidéos à cibler par la suite
* `primaryTitle` cette dernière est plus utilisé par les cinéastes et les valeurs de cette colonne représentent le titre le plus connu par les spectateurs.
* `genres` pour déterminer le genre du film

### Transformation

* Modifier le typage de la colonne `isAdult`
* Incorporer les valeurs positives de la colonne `isAdult`  en un type de genre dans la colonne `genres`
* Supprimer la colonne `isAdult`

## <div style='background: #005792;text-align: center;padding: 15px 0'> <a style= 'color:white;' >Configuration des variables globales</a></div>

### Installation des librairies

In [25]:
# !pip install pandas
# !pip install numpy
# !pip install matplotlib
# !pip install seaborn
# !pip install plotly-express
# !pip install plotly

### Importation des librairies

In [1]:
import os
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt

import re

### Chargement des fichiers

In [2]:
source_dir= '/home/dstrec/dstrec/010_data/000_source/imdb_datasets'
name_file= 'title.basics.tsv'
file_path= f"{source_dir}/{name_file}"

### Chargement des jeux de données

In [3]:
df= pd.read_csv(file_path, sep='\t', na_values='\\N', low_memory=False)

### Configuration des variables

### Configuration des fonctions

## <div style='background: #005792;text-align: center;padding: 15px 0'> <a style= 'color:white;' >Evaluation des données</a></div>

### Affichage du jeu de données

In [4]:
df.head()

Unnamed: 0,tconst,titleType,primaryTitle,originalTitle,isAdult,startYear,endYear,runtimeMinutes,genres
0,tt0000001,short,Carmencita,Carmencita,0.0,1894.0,,1,"Documentary,Short"
1,tt0000002,short,Le clown et ses chiens,Le clown et ses chiens,0.0,1892.0,,5,"Animation,Short"
2,tt0000003,short,Pauvre Pierrot,Pauvre Pierrot,0.0,1892.0,,5,"Animation,Comedy,Romance"
3,tt0000004,short,Un bon bock,Un bon bock,0.0,1892.0,,12,"Animation,Short"
4,tt0000005,short,Blacksmith Scene,Blacksmith Scene,0.0,1893.0,,1,"Comedy,Short"


In [5]:
print(f"Ce jeu de données a {df.shape[1]} colonnes et {df.shape[0]} lignes.")

Ce jeu de données a 9 colonnes et 10790736 lignes.


### EDA

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10790736 entries, 0 to 10790735
Data columns (total 9 columns):
 #   Column          Dtype  
---  ------          -----  
 0   tconst          object 
 1   titleType       object 
 2   primaryTitle    object 
 3   originalTitle   object 
 4   isAdult         float64
 5   startYear       float64
 6   endYear         float64
 7   runtimeMinutes  object 
 8   genres          object 
dtypes: float64(3), object(6)
memory usage: 740.9+ MB


<span style="font-size: 16px;"><b>Remarques :</b><br><br>
Le typage des colonnes suivantes sont incorrect : 
* isAdult         float64    => boolean
* startYear       float64    => date
* endYear         float64    => date
</span>

### Statistique descriptives

In [7]:
df.describe(include='all')

Unnamed: 0,tconst,titleType,primaryTitle,originalTitle,isAdult,startYear,endYear,runtimeMinutes,genres
count,10790736,10790736,10790717,10790717,10790740.0,9383932.0,123838.0,3347623.0,10310319
unique,10790736,11,4858621,4882234,,,,899.0,2372
top,tt0000001,tvEpisode,Episode #1.1,Episode #1.1,,,,30.0,Drama
freq,1,8260949,51755,51755,,,,287763.0,1234815
mean,,,,,0.1156689,2005.834,2006.858799,,
std,,,,,12.90243,20.03853,16.368326,,
min,,,,,0.0,1874.0,1906.0,,
25%,,,,,0.0,2001.0,2000.0,,
50%,,,,,0.0,2013.0,2013.0,,
75%,,,,,0.0,2019.0,2019.0,,


### Valeurs manquantes

In [8]:
df.isna().sum()  / len(df) * 100

tconst             0.000000
titleType          0.000000
primaryTitle       0.000176
originalTitle      0.000176
isAdult            0.000009
startYear         13.037146
endYear           98.852367
runtimeMinutes    68.976880
genres             4.452124
dtype: float64

<span style="font-size: 16px;"><b>Remarques :</b><br><br>
Les colonnes "endYear" et "runtimeMinutes" possèdent 70% de valeurs manquantes. En conséquence, ces colonnes pourraient être retirées du DataFrame.
</span>

### Valeurs dupliquées

In [9]:
print(f"Ce jeu de données a {df.duplicated().values.sum()} valeur(s) dupliquée(s).")

Ce jeu de données a 0 valeur(s) dupliquée(s).


### Valeurs uniques

In [10]:
df['isAdult'].unique()

array([0.000e+00, 1.000e+00, 2.019e+03, 1.981e+03, 2.020e+03, 2.017e+03,
             nan, 2.023e+03, 2.022e+03, 2.011e+03, 2.016e+03, 2.015e+03,
       2.014e+03, 2.013e+03, 2.012e+03, 2.018e+03, 2.021e+03, 1.979e+03,
       1.980e+03, 1.982e+03, 1.983e+03, 1.984e+03, 1.987e+03, 1.985e+03,
       1.986e+03, 1.977e+03, 1.978e+03, 1.966e+03, 1.970e+03, 1.971e+03,
       1.972e+03, 1.973e+03, 1.974e+03, 1.975e+03, 1.988e+03, 1.976e+03,
       2.005e+03])

<span style="font-size: 16px;"><b>Remarques :</b><br><br>
La colonne "isAdult" a besoin d'une transformation de typage, et par la suite, incorporer
les valeurs positives en un type de genre dans la colonne genres
</span>

In [11]:
df['titleType'].unique()

array(['short', 'movie', 'tvShort', 'tvMovie', 'tvSeries', 'tvEpisode',
       'tvMiniSeries', 'tvSpecial', 'video', 'videoGame', 'tvPilot'],
      dtype=object)

### Comparaison de valeurs

In [12]:
df['titles_identical'] = df['primaryTitle'] == df['originalTitle']
identical_percentage = df['titles_identical'].mean() * 100
identical_percentage

98.57200658045939

In [13]:
print(f"Cette colonne a {df['titles_identical'].shape[0]} lignes.")

Cette colonne a 10790736 lignes.


In [14]:
df_not_identical = df[df['titles_identical'] == False]
df_not_identical[['primaryTitle', 'originalTitle']]

Unnamed: 0,primaryTitle,originalTitle
9,Leaving the Factory,La sortie de l'usine Lumière à Lyon
11,The Arrival of a Train,L'arrivée d'un train à La Ciotat
12,The Photographical Congress Arrives in Lyon,Le débarquement du congrès de photographie à Lyon
13,The Waterer Watered,L'arroseur arrosé
15,Boat Leaving the Port,Barque sortant du port
...,...,...
10790388,The Taste Is Mine,Mucho gusto
10790409,The Rehearsal,O Ensaio
10790502,Coven,Akelarre
10790534,The Secret of China,Hong xing zhao yao Zhong guo


<span style="font-size: 16px;"><b>Remarques :</b><br><br>
Etant donné que les colonnes "primaryTitle" et "originalTitle" sont similaire entre elles a 98.6%, la colone "primaryTitle" peut être conservée, puisque cette dernière est plus utilisé par les cinéastes et les valeurs de cette colonne représentent le titre le plus connu par les spectateurs.
</span>