# Limpieza de los Datos

## 0.1 Librerías

In [1]:
import numpy as np 
import pandas as pd
import os 
import matplotlib.pyplot as plt

## 1.1 Carga de Datos - Plataformas

In [4]:
Data_Amazon = pd.read_csv('../data/raw/data_amazon_prime_video.csv')
Data_Amazon['platform'] = 'Amazon Prime Video'
Data_Amazon

Data_Apple = pd.read_csv('../data/raw/data_apple_tv.csv')
Data_Apple['platform'] = 'Apple TV'
Data_Apple

Data_HBO = pd.read_csv('../data/raw/data_hbo_max.csv')
Data_HBO['platform'] = 'HBO Max'
Data_HBO

Data_Netflix = pd.read_csv('../data/raw/data_netflix.csv')
Data_Netflix['platform'] = 'Netflix'
Data_Netflix

all_data = pd.concat([Data_Amazon, Data_Apple, Data_HBO, Data_Netflix], ignore_index=True)
all_data

Unnamed: 0,title,type,genres,releaseYear,imdbId,imdbAverageRating,imdbNumVotes,availableCountries,platform
0,Blondie,movie,"Comedy, Family",1938.0,tt0029927,6.9,890.0,"US, ZA",Amazon Prime Video
1,Ariel,movie,"Comedy, Crime, Romance",1988.0,tt0094675,7.4,8829.0,JP,Amazon Prime Video
2,Four Rooms,movie,Comedy,1995.0,tt0113101,6.7,112881.0,"AT, DE",Amazon Prime Video
3,Judgment Night,movie,"Action, Crime, Drama",1993.0,tt0107286,6.6,19385.0,US,Amazon Prime Video
4,Forrest Gump,movie,"Drama, Romance",1994.0,tt0109830,8.8,2330534.0,"AD, AT, CU, DE, FR, GF, IN, JP, MC, PF, SN",Amazon Prime Video
...,...,...,...,...,...,...,...,...,...
117491,,tv,Animation,2016.0,,,,"FJ, HK, ID, IN, JP, KR, MU, MY, PH, PK, SG, TH...",Netflix
117492,,tv,Animation,2005.0,,,,"JP, KR",Netflix
117493,La Vida es Sueño,tv,Documentary,2024.0,tt32268206,,,"AR, BO, CL, CO, CR, CU, DO, EC, GT, HN, MX, NI...",Netflix
117494,,tv,,2021.0,,,,US,Netflix


## 1.2 Carga de Datos - Precios

In [7]:
prices_data = pd.read_csv('../data/external/streaming_platforms_prices.csv')
prices_data

Unnamed: 0,Plataforma,Versión,Reproducción simultánea,Resolución Máxima,Días de Prueba gratuita,Compartir cuenta,Publicidad,Precio Inicial - Mensual,Fecha de lanzamiento,Precio Actual - Mensual,Precio Inicial - Anual,Precio Actual - Anual
0,Amazon Prime Video,Estándar con anuncios,2,4K,30,Sí,Sí,4.99,14/12/2016,4.99,19.95,49.9
1,Amazon Prime Video,Estándar sin anuncios,2,4K,30,Sí,No,4.99,14/12/2016,6.98,19.95,
2,Amazon Prime Video,Student con anuncios,1,4K,90,No,Sí,2.49,14/12/2016,2.49,19.95,24.95
3,Apple TV+,Estándar,1,4K HDR,7,Sí,No,4.99,01/11/2019,6.99,49.99,99.99
4,Netflix,Estándar con anuncios,1,Full HD,-,No,Sí,5.49,20/10/2015,6.99,,
5,Netflix,Estándar,2,Full HD,-,Sí,No,9.99,20/10/2015,13.99,,
6,Netflix,Premium,4,4K,-,Sí,No,11.99,20/10/2015,19.99,,
7,Netflix,Básico,1,HD,-,No,No,7.99,20/10/2015,7.99,,
8,Max,Estándar,2,Full HD,-,Sí,No,8.99,26/10/2021,9.99,69.99,99.9
9,Max,Premium,4,4K,-,Sí,No,,26/10/2021,13.99,,139.99


## 2.0 Limpieza de Datos - Plataformas

### Eliminación de titulos faltantes

In [6]:
all_data.dropna(subset=['title'], inplace=True)

### Eliminación de años futuros

In [7]:
all_data = all_data[all_data['releaseYear'] <= 2024]

### Eliminación de generos no especificados

In [8]:
all_data = all_data.dropna(subset=['genres'])

### Eliminación de datos duplicados

In [9]:
all_data.drop_duplicates(subset=['title', 'type', 'releaseYear', 'platform'], keep='first', inplace=True)

### Imputación de valores 

In [10]:
all_data['imdbAverageRating'] = all_data['imdbAverageRating'].fillna(all_data['imdbAverageRating'].median())
all_data['imdbNumVotes'] = all_data['imdbNumVotes'].fillna(all_data['imdbNumVotes'].median())

In [11]:
all_data

Unnamed: 0,title,type,genres,releaseYear,imdbId,imdbAverageRating,imdbNumVotes,availableCountries,platform
0,Blondie,movie,"Comedy, Family",1938.0,tt0029927,6.9,890.0,"US, ZA",Amazon Prime Video
1,Ariel,movie,"Comedy, Crime, Romance",1988.0,tt0094675,7.4,8829.0,JP,Amazon Prime Video
2,Four Rooms,movie,Comedy,1995.0,tt0113101,6.7,112881.0,"AT, DE",Amazon Prime Video
3,Judgment Night,movie,"Action, Crime, Drama",1993.0,tt0107286,6.6,19385.0,US,Amazon Prime Video
4,Forrest Gump,movie,"Drama, Romance",1994.0,tt0109830,8.8,2330534.0,"AD, AT, CU, DE, FR, GF, IN, JP, MC, PF, SN",Amazon Prime Video
...,...,...,...,...,...,...,...,...,...
117476,S.E.R.E.G.,tv,Action,2024.0,tt31242061,3.8,4564.0,HU,Netflix
117479,The Later Daters,tv,"Reality-TV, Romance",2024.0,tt34599590,7.0,268.0,"AD, AE, AG, AL, AO, AR, AT, AU, AZ, BA, BB, BE...",Netflix
117482,The Kings of Tupelo: A Southern Crime Saga,tv,"Crime, Documentary",2024.0,tt34682275,6.6,808.0,"AD, AE, AG, AL, AO, AR, AT, AU, AZ, BA, BB, BE...",Netflix
117489,Das Boot - Die komplette TV-Serie,tv,"Drama, War",1985.0,tt30970892,8.7,157.0,"AT, CH, DE, LI",Netflix


In [12]:
all_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 111738 entries, 0 to 117493
Data columns (total 9 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   title               111738 non-null  object 
 1   type                111738 non-null  object 
 2   genres              111738 non-null  object 
 3   releaseYear         111738 non-null  float64
 4   imdbId              107143 non-null  object 
 5   imdbAverageRating   111738 non-null  float64
 6   imdbNumVotes        111738 non-null  float64
 7   availableCountries  111738 non-null  object 
 8   platform            111738 non-null  object 
dtypes: float64(3), object(6)
memory usage: 8.5+ MB


In [13]:
all_data.isnull().sum()

title                    0
type                     0
genres                   0
releaseYear              0
imdbId                4595
imdbAverageRating        0
imdbNumVotes             0
availableCountries       0
platform                 0
dtype: int64

## 2.1 Limpieza de Datos - Precios

### Conversión de las colummas a formatos adecuado

In [11]:
prices_data['Días de Prueba gratuita'] = prices_data['Días de Prueba gratuita'].replace('-', 0).astype(int)
prices_data['Precio Actual - Mensual'] = prices_data['Precio Actual - Mensual'].fillna(prices_data['Precio Inicial - Mensual']) 
prices_data['Precio Actual - Mensual'] = prices_data['Precio Actual - Mensual'].astype(float) 

prices_data

Unnamed: 0,Plataforma,Versión,Reproducción simultánea,Resolución Máxima,Días de Prueba gratuita,Compartir cuenta,Publicidad,Precio Inicial - Mensual,Fecha de lanzamiento,Precio Actual - Mensual,Precio Inicial - Anual,Precio Actual - Anual
0,Amazon Prime Video,Estándar con anuncios,2,4K,30,Sí,Sí,4.99,14/12/2016,4.99,19.95,49.9
1,Amazon Prime Video,Estándar sin anuncios,2,4K,30,Sí,No,4.99,14/12/2016,6.98,19.95,
2,Amazon Prime Video,Student con anuncios,1,4K,90,No,Sí,2.49,14/12/2016,2.49,19.95,24.95
3,Apple TV+,Estándar,1,4K HDR,7,Sí,No,4.99,01/11/2019,6.99,49.99,99.99
4,Netflix,Estándar con anuncios,1,Full HD,0,No,Sí,5.49,20/10/2015,6.99,,
5,Netflix,Estándar,2,Full HD,0,Sí,No,9.99,20/10/2015,13.99,,
6,Netflix,Premium,4,4K,0,Sí,No,11.99,20/10/2015,19.99,,
7,Netflix,Básico,1,HD,0,No,No,7.99,20/10/2015,7.99,,
8,Max,Estándar,2,Full HD,0,Sí,No,8.99,26/10/2021,9.99,69.99,99.9
9,Max,Premium,4,4K,0,Sí,No,,26/10/2021,13.99,,139.99


In [17]:
prices_data.drop_duplicates(inplace=True)
prices_data

Unnamed: 0,Plataforma,Versión,Reproducción simultánea,Resolución Máxima,Días de Prueba gratuita,Compartir cuenta,Publicidad,Precio Inicial - Mensual,Fecha de lanzamiento,Precio Actual - Mensual,Precio Inicial - Anual,Precio Actual - Anual
0,Amazon Prime Video,Estándar con anuncios,2,4K,30,Sí,Sí,4.99,14/12/2016,4.99,19.95,49.9
1,Amazon Prime Video,Estándar sin anuncios,2,4K,30,Sí,No,4.99,14/12/2016,6.98,19.95,
2,Amazon Prime Video,Student con anuncios,1,4K,90,No,Sí,2.49,14/12/2016,2.49,19.95,24.95
3,Apple TV+,Estándar,1,4K HDR,7,Sí,No,4.99,01/11/2019,6.99,49.99,99.99
4,Netflix,Estándar con anuncios,1,Full HD,0,No,Sí,5.49,20/10/2015,6.99,,
5,Netflix,Estándar,2,Full HD,0,Sí,No,9.99,20/10/2015,13.99,,
6,Netflix,Premium,4,4K,0,Sí,No,11.99,20/10/2015,19.99,,
7,Netflix,Básico,1,HD,0,No,No,7.99,20/10/2015,7.99,,
8,Max,Estándar,2,Full HD,0,Sí,No,8.99,26/10/2021,9.99,69.99,99.9
9,Max,Premium,4,4K,0,Sí,No,,26/10/2021,13.99,,139.99


In [16]:
prices_data.describe(include='all')

Unnamed: 0,Plataforma,Versión,Reproducción simultánea,Resolución Máxima,Días de Prueba gratuita,Compartir cuenta,Publicidad,Precio Inicial - Mensual,Fecha de lanzamiento,Precio Actual - Mensual,Precio Inicial - Anual,Precio Actual - Anual
count,10,10,10.0,10,10.0,10,10,9.0,10,10.0,5.0,5.0
unique,4,6,,4,,2,2,,4,,,
top,Netflix,Estándar,,4K,,Sí,No,,20/10/2015,,,
freq,4,3,,5,,7,7,,4,,,
mean,,,2.0,,15.7,,,6.878889,,9.439,35.966,82.946
std,,,1.154701,,28.836898,,,3.028797,,5.177667,23.04258,45.517931
min,,,1.0,,0.0,,,2.49,,2.49,19.95,24.95
25%,,,1.0,,0.0,,,4.99,,6.9825,19.95,49.9
50%,,,2.0,,0.0,,,5.49,,7.49,19.95,99.9
75%,,,2.0,,24.25,,,8.99,,12.99,49.99,99.99


## 3.0 Guardamos la data limpia

In [14]:
all_data.to_csv('../data/processed/all_data_cleaned.csv', index=False)

In [18]:
prices_data.to_csv('../data/processed/streaming_platforms_prices_cleaned.csv', index=False)