# <div style='color:white;background: #005792;text-align: center;padding: 15px 0'>Recommandations - Evaluation de la source de données Name basics</div>

## Participants
* Samantha
* Rachelle
* Andrew

## Résumé des observations

Ce jeu de données comprend 6 colonnes et 13 508 117 lignes, et il n'y a aucune valeur dupliquée dans les données.
Cependant, certaines colonnes contiennent des valeurs manquantes.
En particulier, les colonnes `birthYear` et `deathYear` ont environ 95% de valeurs manquantes.

### Anomalie

Les colonnes suivantes sont dans un mauvais typage : 
* birthYear
* deathYear 

### Colonnes à supprimer

* `birthYear` possèdent 95% de valeurs manquantes
* `deathYear` possèdent 95% de valeurs manquantes
* `primaryProfession` ne possèdent pas de valeurs suffisamment explicites pour être exploitées
* `knownForTitles` ne possèdent pas de valeurs suffisamment explicites pour être exploitées 

### Colonnes à conserver

* `nconst` permet la fusion avec le DataFrame Title-principals
* `primaryName` correspond aux noms du personnel

### Transformation


## <div style='background: #005792;text-align: center;padding: 15px 0'> <a style= 'color:white;' >Configuration des variables globales</a></div>

### Installation des librairies

In [25]:
# !pip install pandas
# !pip install numpy
# !pip install matplotlib
# !pip install seaborn
# !pip install plotly-express
# !pip install plotly

### Importation des librairies

In [1]:
import os
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt

import re

### Chargement des fichiers

In [2]:
source_dir= '/home/dstrec/dstrec/010_data/000_source/imdb_datasets'
name_file= 'name.basics.tsv'
file_path= f"{source_dir}/{name_file}"

### Chargement des jeux de données

In [3]:
df= pd.read_csv(file_path, sep='\t', na_values='\\N', low_memory=False)

### Configuration des variables

### Configuration des fonctions

## <div style='background: #005792;text-align: center;padding: 15px 0'> <a style= 'color:white;' >Evaluation des données</a></div>

### Affichage du jeu de données

In [4]:
df.head()

Unnamed: 0,nconst,primaryName,birthYear,deathYear,primaryProfession,knownForTitles
0,nm0000001,Fred Astaire,1899.0,1987.0,"actor,miscellaneous,producer","tt0072308,tt0050419,tt0053137,tt0027125"
1,nm0000002,Lauren Bacall,1924.0,2014.0,"actress,soundtrack,archive_footage","tt0037382,tt0075213,tt0117057,tt0038355"
2,nm0000003,Brigitte Bardot,1934.0,,"actress,music_department,producer","tt0057345,tt0049189,tt0056404,tt0054452"
3,nm0000004,John Belushi,1949.0,1982.0,"actor,writer,music_department","tt0072562,tt0077975,tt0080455,tt0078723"
4,nm0000005,Ingmar Bergman,1918.0,2007.0,"writer,director,actor","tt0050986,tt0083922,tt0050976,tt0069467"


In [5]:
print(f"Ce jeu de données a {df.shape[1]} colonnes et {df.shape[0]} lignes.")

Ce jeu de données a 6 colonnes et 13508117 lignes.


### EDA

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13508117 entries, 0 to 13508116
Data columns (total 6 columns):
 #   Column             Dtype  
---  ------             -----  
 0   nconst             object 
 1   primaryName        object 
 2   birthYear          float64
 3   deathYear          float64
 4   primaryProfession  object 
 5   knownForTitles     object 
dtypes: float64(2), object(4)
memory usage: 618.4+ MB


<span style="font-size: 16px;"><b>Remarques :</b><br><br>
Le typage des colonnes suivantes sont incorrect : 
* birthYear       float64    => date
* deathYear         float64    => date
</span>

### Statistique descriptives

In [7]:
df.describe(include='all')

Unnamed: 0,nconst,primaryName,birthYear,deathYear,primaryProfession,knownForTitles
count,13508117,13508061,615137.0,228644.0,10913774,12015920
unique,13508117,10403925,,,22874,5646697
top,nm0000001,Alex,,,actor,tt0123338
freq,1,491,,,2405259,8333
mean,,,1953.351315,1993.092244,,
std,,,35.544449,36.615123,,
min,,,4.0,17.0,,
25%,,,1932.0,1979.0,,
50%,,,1960.0,2001.0,,
75%,,,1979.0,2015.0,,


### Valeurs manquantes

In [9]:
df.isna().sum()  / len(df) * 100

nconst                0.000000
primaryName           0.000415
birthYear            95.446168
deathYear            98.307358
primaryProfession    19.205808
knownForTitles       11.046669
dtype: float64

<span style="font-size: 16px;"><b>Remarques :</b><br><br>
Les colonnes "birthYear" et "deathYear" possèdent 95% de valeurs manquantes. En conséquence, ces colonnes pourraient être retirées du DataFrame.
</span>

### Valeurs dupliquées

In [9]:
print(f"Ce jeu de données a {df.duplicated().values.sum()} valeur(s) dupliquée(s).")

Ce jeu de données a 0 valeur(s) dupliquée(s).
