# Análisis Perfilamiento de Datos

### Perfilamiento automático

#### Estadísticas Generales

La data extraída para la participación del proceso, consiste en la extracción de la información desde '2020-12-01' hasta el '2020-12-31'. En el primer recuadro se observan las estadísticas generales del perfilamiento de los datos.

![estadisticas_generales.jpg](images/estadisticas_generales.jpg)

Se evidencia que hay un total de 3082 registros, en promedio se extraen 100 registros diarios y estos contienen la información de lo que fue extraído del API. 

Según la plataforma, el calendario web es una lista completa de episodios que fueron reproducidos por canales web o streaming. Se uso el enlace de ejemplo recomendado por la prueba enviada al participante del proceso

Example: https://api.tvmaze.com/schedule/web?date=2020-05-29

*El Número de columnas es de 95 debido a que se expandieron todas las columnas que contienen la información en término de diccionarios o listas*

En cuanto a la calidad de las columnas de datos se encuentra que 26 columnas contienen datos faltantes, sin embargo, en la limpieza de datos ejecutada fueron eliminadas algunas de las columnas que no contribuían a la información recolectada en la tabla.

#### Muestra de Datos

La sección de muestra de datos contiene información del head() y tile() que ofrece pandas.

![muestra_datos.jpg](images/muestra_datos.jpg)

#### Estadísticas Específicas

##### Tipos de las Columnas

![estadisticas_especificas_tipos_columnas.jpg](images/estadisticas_especificas_tipos_columnas.jpg)

Se muestran cada una de las 93 variables que fueron extraídas del API, y muestra si las variables son numéricas, de texto o booleanas. Adicionalmente, se generan columnas de **tipo específico**, y con ello se puede verificar la completitud de cada variable en la base de datos. En está se determinan campos que en su mayoría son nulos como:

* summary: solo tiene completitud del 28.75%
* show.rating.average: solo el 13.66% de los registros fueron calificados.
* show.network: debido al origen de los datos el 93% de los datos de esta columna son nulos.
* show.webChannel.country.name, show.webChannel.country.code, show.webChannel.country.timezone = el 48.96% de los datos son de programas que fueron reproducidos de forma local y el 51.04% corresponde a programas que fueron transmitidos globalmente.
* flags de categoría: También se generaron flags por cada categoría y se obtuvo que el 34.88% de los shows no contiene la información del género.
* flags de día de la semana: El 76.44% de los registros contaban con información del día en que se transmite el programa


#### Frecuencia de categorías

![estadisticas_especificas_frecuencia_categorias.jpg](images/estadisticas_especificas_frecuencia_categorias.jpg)

La pestaña de frecuencia de categorías permite evidenciar aquellas columnas de categoría que tienen menos de 30 dimensiones, el valor y la frecuencia de la misma, esta gráfica permitió identificar que el 6.20% de las películas son de acción, el 8.01 son de Crimen, el 27.94% son de Drama, el 18.46% de comedia, etc.

También se evidencio que los programas analizados de web/streaming el solo el 8,73% se transmite los sábados y solo el 9.25% se transmite los domingos.

**Debido a la alta cantidad de nulos en las variables numéricas se desestimo el análisis de correlación y su generación se presentará en el perfilamiento manual**

### Perfilamiento Manual

*Nota: Debido a que las librerías de perfilamiento no siempre permiten realizar un proceso lo suficientemente personalizado se ejecutan pruebas de perfilamiento manual que permita esclarecer el entendimiento de los datos*

Paso 1:
- Cargar los datos 

In [13]:
# Importar librerías

import pandas as pd
from leila.calidad_datos import CalidadDatos
from leila import reporte

In [21]:
df = pd.read_csv('df_main.csv')
df.columns

Index(['Unnamed: 0', 'id', 'url', 'name', 'season', 'number', 'type',
       'airdate', 'airtime', 'airstamp', 'runtime', 'summary', 'show.id',
       'show.url', 'show.name', 'show.type', 'show.language', 'show.status',
       'show.runtime', 'show.averageRuntime', 'show.premiered', 'show.ended',
       'show.officialSite', 'show.schedule.time', 'show.rating.average',
       'show.weight', 'show.network', 'show.webChannel.id',
       'show.webChannel.name', 'show.webChannel.country.name',
       'show.webChannel.country.code', 'show.webChannel.country.timezone',
       'show.webChannel.officialSite', 'show.dvdCountry',
       'show.externals.tvrage', 'show.externals.thetvdb',
       'show.externals.imdb', 'show.image.medium', 'show.image.original',
       'show.summary', 'show.updated', 'show._links.self.href',
       'show._links.previousepisode.href', 'show.network.id',
       'show.network.name', 'show.network.country.name',
       'show.network.country.code', 'show.network.country

In [18]:
# Cargar la base de datos a la librería de perfilamiento
df_main_leila = CalidadDatos(df)

df_main_leila.DescripcionCategoricas(limite=0.2, categoriasMaximas=100, incluirNumericos=True, variables=['show.country'])

Unnamed: 0,Columna,Valor,Frecuencia,Porcentaje del total de filas
0,show.country,multi_countries,1446.0,0.469176
1,show.country,China,484.0,0.157041
2,show.country,United States,213.0,0.069111
3,show.country,Norway,183.0,0.059377
4,show.country,"Korea, Republic of",147.0,0.047696
5,show.country,Russian Federation,124.0,0.040234
6,show.country,India,72.0,0.023361
7,show.country,United Kingdom,48.0,0.015574
8,show.country,Japan,39.0,0.012654
9,show.country,Netherlands,36.0,0.011681


El 46% de los programas analizados se ejecutan en multiples países.

Esto siguiendo la definición propuesta por el api (Ver Imagen)

![api_definition_of_country.jpg](images/api_definition_of_country.jpg)

In [19]:
df_main_leila.DescripcionCategoricas(limite=0.2, categoriasMaximas=100, incluirNumericos=True, variables=['show.language'])

Unnamed: 0,Columna,Valor,Frecuencia,Porcentaje del total de filas
0,show.language,English,983.0,0.318949
1,show.language,Chinese,686.0,0.222583
2,show.language,Russian,246.0,0.079818
3,show.language,Norwegian,223.0,0.072356
4,show.language,Korean,181.0,0.058728
5,show.language,Arabic,66.0,0.021415
6,show.language,Hindi,64.0,0.020766
7,show.language,Japanese,64.0,0.020766
8,show.language,Spanish,60.0,0.019468
9,show.language,Thai,51.0,0.016548


el 31.89% de los programas transmitidos son en Inglés, mientras sigue por el 22.25% de los programas transmitidos en chino. Sin embargo el tercer lenguaje, Ruso, en esta lista no se encuentra ni cerca de estos porcentajes, con tan solo un 7.98%.

In [30]:
corr_categorias = df_main_leila.CorrelacionNumericas(metodo="pearson", variables=['Action', 'Adventure', 'Anime',
       'Children', 'Comedy', 'Crime', 'Drama', 'Family', 'Fantasy',
       'Food', 'History', 'Legal', 'Medical', 'Music', 'Mystery',
       'Nature', 'Romance', 'Science-Fiction', 'Sports', 'Supernatural',
       'Thriller', 'Travel', 'War'])
corr_categorias

Unnamed: 0,Action,Adventure,Anime,Children,Comedy,Crime,Drama,Family,Fantasy,Food,...,Music,Mystery,Nature,Romance,Science-Fiction,Sports,Supernatural,Thriller,Travel,War
Action,1.0,0.102444,0.478114,-0.078843,-0.155027,0.338507,-0.174754,-0.035551,0.409278,-0.047987,...,-0.075815,-0.110274,-0.086745,-0.163567,0.030045,-0.058382,0.089786,0.193366,-0.019186,-0.022949
Adventure,0.102444,1.0,0.137842,-0.070577,-0.178486,-0.108756,-0.251633,-0.042443,0.232624,-0.042956,...,-0.067867,-0.098713,0.615685,-0.146419,-0.112736,-0.052261,-0.046403,-0.104186,-0.017175,-0.020543
Anime,0.478114,0.137842,1.0,-0.068845,-0.013674,-0.106087,-0.230099,-0.041401,0.475008,-0.041902,...,-0.066201,-0.096291,-0.075745,-0.123919,0.137848,-0.050979,0.271783,-0.10163,-0.016753,-0.020039
Children,-0.078843,-0.070577,-0.068845,1.0,0.174571,-0.091074,0.017333,0.586202,-0.051439,-0.035972,...,0.148811,-0.082665,-0.065026,-0.122614,-0.094408,-0.043765,-0.038859,-0.087248,-0.014383,-0.017203
Comedy,-0.155027,-0.178486,-0.013674,0.174571,1.0,-0.141426,-0.391115,-0.091964,0.096175,-0.093077,...,0.042469,-0.12684,-0.168252,-0.292513,-0.145992,-0.11324,-0.008337,-0.22575,-0.037214,-0.044513
Crime,0.338507,-0.108756,-0.106087,-0.091074,-0.141426,1.0,0.046081,-0.054769,-0.079264,-0.055431,...,-0.087577,0.141331,-0.100202,-0.188942,-0.145478,-0.067439,-0.05988,0.399845,-0.022163,-0.02651
Drama,-0.174754,-0.251633,-0.230099,0.017333,-0.391115,0.046081,1.0,0.161635,-0.183398,-0.003107,...,-0.139048,0.134657,-0.231842,0.321479,0.218301,-0.156038,0.016471,0.0594,-0.051279,-0.061337
Family,-0.035551,-0.042443,-0.041401,0.586202,-0.091964,-0.054769,0.161635,1.0,-0.030933,-0.021633,...,-0.034178,-0.049712,-0.039105,-0.073736,-0.056774,-0.026319,-0.023369,-0.052468,-0.008649,-0.010346
Fantasy,0.409278,0.232624,0.475008,-0.051439,0.096175,-0.079264,-0.183398,-0.030933,1.0,-0.031308,...,-0.049463,0.121786,-0.056594,-0.082239,-0.082166,-0.03809,0.171389,-0.075934,-0.012518,-0.014973
Food,-0.047987,-0.042956,-0.041902,-0.035972,-0.093077,-0.055431,-0.003107,-0.021633,-0.031308,1.0,...,-0.034591,-0.050313,0.305059,0.079421,-0.05746,-0.026637,-0.023651,-0.053103,-0.008754,-0.010471


De un total de 26 categorías se excluyen Adult, DIY y Horror, debido a que no presentan ninguna etiqueta dentro de la data descargada del mes de diciembre. Se utilizó el coeficiente de relación de método pearson, este se caracteriza por ser una prueba que mide la relación estadistica entre dos variables, este coeficiente toma valores entre -1 y 1. Dentro de los hallazgos interesantes se encuentra un coeficiente de correlación de 0.47 entre Action y Anime, -0.97 entre Crime y Children, 0.58 entre Family y Children, 0.39 entre Thriller y Crime.

In [31]:
df_main_leila.DescripcionCategoricas(limite=0.2, categoriasMaximas=100, incluirNumericos=True, variables=['show.status'])

Unnamed: 0,Columna,Valor,Frecuencia,Porcentaje del total de filas
0,show.status,Ended,1383.0,0.448735
1,show.status,Running,1319.0,0.427969
2,show.status,To Be Determined,380.0,0.123297
3,show.status,Datos faltantes,0.0,0.0
4,show.status,Total categorías (incluye NA): 3,,


El 45% de las series que fueron transmitidas ya se encuentran finalizadas para el 2022, y otro 42% se encuentra corriendo aún. Algunas series no se ha determinado de forma oficial, este equivale al 12%.

In [32]:
descr_numericas = df_main_leila.DescripcionNumericas(variables = ['runtime', 'show.runtime', 'show.averageRuntime', 'show.rating.average'])
descr_numericas

Unnamed: 0,count,mean,std,min,25%,50%,75%,max,missing,outliers_total,outliers_altos,outliers_bajos
runtime,2854.0,37.543448,30.046489,1.0,19.0,31.0,45.0,335.0,0.073978,0.05451,0.05451,0.0
show.runtime,2065.0,38.527361,30.735451,1.0,20.0,34.0,45.0,300.0,0.329981,0.044127,0.044127,0.0
show.averageRuntime,2913.0,36.811535,28.101401,1.0,18.0,30.0,45.0,300.0,0.054835,0.056132,0.056132,0.0
show.rating.average,421.0,6.864608,0.938391,3.6,6.6,7.1,7.5,8.8,0.8634,0.011356,0.0,0.011356


* El tiempo promedio de runtime es de 31 minutos, solo el 7.3% de los datos se encuentran vacios.
* Como se mencionó previamente el rating fue evaluado para pocos registros, siendo nulo el 86.3%, sin embargo la calificación promedio es 7.1 y la máxima obtenida es de 8.8, esto para 421 registros