# Lab Bi


In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


## 1. Entendimiento de los datos

En esta etapa es importante saber si los datos son o no suficientes para el alcance del proyecto y, en caso de serlo, entender bien sus características para poder definir el camino de limpieza y preparación para lograr el objetivo del proyecto.
En particular, es importante realizar un perfilamiento completo que incluya lo descrito en el manterial del curso -ver infografía de entendimiento de datos-, donde se incluye estadística descriptiva y gráficos sobre los datos, señalando sus principales estadísticos: media, varianza, desviación estándar, etc., para el caso de las columnas numéricas. En caso de datos categóricos recuerde que es importante conocer las categorías y en qué proporción se presentan. Tener en cuenta que una parte fundamental de esta etapa está relacionada con el análisis a nivel de calidad de datos y, en particular, a nivel de las dimensiones de calidad (completitud, unicidad, consistencia, validez) para identificar las actividades de preparación que requieren los datos.

In [36]:
df = pd.read_csv('./data/data.csv', sep=';')

In [37]:
df.shape

(7471, 18)

In [38]:
df.sample(5)

Unnamed: 0,#,index,tconst,titleType,originalTitle,isAdult,startYear,runtimeMinutes,averageRating,numVotes,ordering,region,language,types,attributes,isOriginalTitle,main_genre,secondary_genre
387,656,1219,tt0259534,movie,Ramayana: The Legend of Prince Rama,0.0,1993.0,135,92.0,11754.0,4.0,IN,en,imdbDisplay,\N,0.0,Action,Adventure
3821,4120,5536,tt3396910,movie,Banshee,0.0,2013.0,50,8.5,11340.0,16.0,IN,en,imdbDisplay,\N,0.0,Action,No tiene
5749,6108,8014,tt0180241,tvSeries,Tenacious D,0.0,1997.0,30,8.1,3801.0,2.0,CA,en,imdbDisplay,\N,0.0,Comedy,Music
6066,6431,8469,tt0417397,movie,9 rota,0.0,2005.0,139,7.1,21277.0,19.0,CA,en,imdbDisplay,\N,0.0,Action,Drama
269,535,1067,tt0195685,movie,Erin Brockovich,0.0,2000.0,131,7.4,208262.0,27.0,IN,en,imdbDisplay,\N,0.0,Biography,Drama


## 2. Preparación de datos

Es el procedimiento llevado a cabo para transformar los valores actuales de acuerdo con el objetivo de negocio a resolver, las técnicas y algoritmos a utilizar, y la calidad de los datos. Incluye la limpieza de los datos, como el manejo de los datos nulos (missing values) y los valores atípicos (outliers) con la justificación respectiva.

In [41]:
(df.isnull().sum() / df.shape[0]).sort_values(ascending = False)

numVotes           0.000134
ordering           0.000134
main_genre         0.000134
isOriginalTitle    0.000134
attributes         0.000134
types              0.000134
language           0.000134
region             0.000134
secondary_genre    0.000134
averageRating      0.000134
runtimeMinutes     0.000134
startYear          0.000134
isAdult            0.000134
index              0.000000
originalTitle      0.000000
titleType          0.000000
tconst             0.000000
#                  0.000000
dtype: float64

Ya que a priori se ve que los datos de todas las columnas tienen alto nivel de completitud pasaremos a analizar las columnas teniendo en cuenta los datos del diccionario de datos que nos pasaron

In [42]:
df.titleType.unique()

array(['movie', 'tvSeries', 'MOVIE', 'tvMiniSeries', 'MOvie', 'Movie',
       'tvMovie'], dtype=object)

En el diccionario de datos se nos dice lo siguiente sobre la columna de titleType, Tipo de contenido (movie, tvSeries, tvMiniSeries, tvMovie), al comparar nos damos cuenta de que hay datos  pero escritos de manera diferente, como MOVIE y MOvie, esto es lo mismo que movie pero al estar escrito diferente queda como si fuese una categoria diferente, es por esto que cambiaremos esos datos para que queden solo los tipos que se nos dieron en el diccionario de datos

In [43]:
df.titleType = df.titleType.str.lower()
df.titleType.unique()

array(['movie', 'tvseries', 'tvminiseries', 'tvmovie'], dtype=object)

Como vemos ahora los datos de titleType se encuentran en el formato correcto

In [45]:
print(df.isAdult.unique(), df.isOriginalTitle)

[ 0. nan] 0       0.0
1       0.0
2       0.0
3       0.0
4       0.0
       ... 
7466    0.0
7467    0.0
7468    0.0
7469    0.0
7470    0.0
Name: isOriginalTitle, Length: 7471, dtype: float64


Como vemos las columnas de isAdult y 

Al analizar la columna isAdult vemos que 

In [34]:
df = df.drop(['#', 'index', 'isAdult', 'attributes', 'isOriginalTitle', 'language'], axis=1)

In [29]:
df.titleType.unique()

array(['movie', 'tvSeries', 'MOVIE', 'tvMiniSeries', 'MOvie', 'Movie',
       'tvMovie'], dtype=object)

In [31]:
df.titleType.unique()

array(['movie', 'tvseries', 'tvminiseries', 'tvmovie'], dtype=object)

In [35]:
df.sample(5)

Unnamed: 0,tconst,titleType,originalTitle,startYear,runtimeMinutes,averageRating,numVotes,ordering,region,types,main_genre,secondary_genre
5185,tt7988304,tvseries,The Young Offenders,2018.0,30,8.0,4393.0,6.0,IN,imdbDisplay,Comedy,No tiene
4254,tt4834206,tvseries,A Series of Unfortunate Events,2017.0,50,7.8,64028.0,48.0,IN,imdbDisplay,Adventure,Comedy
1970,tt1241325,movie,Objectified,2009.0,75,7.0,3678.0,5.0,IN,imdbDisplay,Documentary,No tiene
7406,tt8168186,tvmovie,Jonas,2018.0,82,7.0,6600.0,9.0,CA,imdbDisplay,Drama,Mystery
770,tt0391304,movie,A Lot Like Love,2005.0,107,6.6,70400.0,20.0,IN,imdbDisplay,Comedy,Drama


## 3. Modelamiento 
En este paso se lleva a cabo la elección del modelo con el que queremos cumplir nuestra tarea de aprendizaje.
En este caso, deben usar el algoritmo de K-Means y deberán compararlo con otros dos algoritmos de agrupación, como clustering jerárquico, DBScan, HDBScan, Gaussian Mixture.
Tengan en cuenta que, en ambientes profesionales, la elección y justificación del algoritmo y sus hiperparámetros hace parte de su tarea de consultoría.
Se sugiere explorar la generación de grupos que puedan llevar a mejores valores de coeficiente de silueta, al igual que a una mejor descripción de los grupos identificados que aporte a la organización.

## 3. Validación 
En modelos de aprendizaje no supervisado la validación de los modelos es un reto importante que deben asumir los consultores.

## 4.  Visualización
El estudiante debe proponer una visualización de los resultados obtenidos en un tablero de control,
de tal manera que el cliente tenga la capacidad de entender los resultados obtenidos en su labor de consultoría.