### CONCATENACION, NORMALIZACION Y CONSULTAS

1. Se cargan los nuevos datos limpios
2. Se genera un nuevo EDA para normalizar las columnas
3. Se se realizan las consultas necesarias

In [1]:
import pandas as pd
import numpy as np
import pymysql
import sqlalchemy as sql
from sqlalchemy import create_engine
from pandas_profiling import ProfileReport 
import json
from pandas import json_normalize

In [3]:
# ruta de los datasets que se encuentran ya con algun proceso de ETL
dataset1 = pd.read_csv(r'D:\Python\PROYECTO_1_DATA_ENGINEER\DATASET_CLEAN\dataset_amazon_clean.csv', sep = ',', encoding = 'utf_8')
dataset2 = pd.read_csv(r'D:\Python\PROYECTO_1_DATA_ENGINEER\DATASET_CLEAN\dataset_disney_clean.csv', sep = ',', encoding = 'utf_8')
dataset3 = pd.read_csv(r'D:\Python\PROYECTO_1_DATA_ENGINEER\DATASET_CLEAN\dataset_hulu_clean.csv', sep = ',', encoding = 'utf_8')
dataset4 = pd.read_csv(r'D:\Python\PROYECTO_1_DATA_ENGINEER\DATASET_CLEAN\dataset_netflix_clean.csv', sep = ',', encoding = 'utf_8')

In [None]:
dataset3.head(10)

In [None]:
# Aqui se hace el procedimiento de concatenar los 4 archivos
frames = [dataset1, dataset2, dataset3, dataset4]
dataset_new= pd.concat(frames)
dataset_new.info()

In [None]:
dataset_new.tail(5)

In [5]:
# Procedemos a guardar los datos limpios concatenados concat() en la carpeta DATA_CLEAN
dataset_new.to_csv(r'D:\Python\PROYECTO_1_DATA_ENGINEER\DATASET_CLEAN\dataset_new.csv', index = False)

### CARGAR DATOS A SQL WORKBENCH PARA NORMALIZAR LAS COLUMNAS

In [None]:
# en este procedimiento se realiza la carga de datos
dataset_new = pd.read_csv(r"D:\Python\PROYECTO_1_DATA_ENGINEER\DATASET_CLEAN\dataset_new.csv", sep=',', encoding='UTF-8')
dataset_new.columns

In [None]:
dataset_new.info()

In [37]:
# Aqui se elimina la columna (description) no influye en los datos
dataset_new = dataset_new.drop(['description'], axis=1) 

In [None]:
# Elimina la plabara min de la columna duration
dataset_new['duration'] = dataset_new['duration'].replace('min','') # con el metodo replace podemos reemplazar caracteres

In [119]:
# La columna (min) de tipo string(str) se convierte a entero(int)
dataset_new['min'] = pd.to_numeric(dataset_new['min'])

In [None]:
dataset_new.dtypes

In [7]:
# Aqui se genera la conexion a SQL workbench para pasar los datos a una tabla de SQL
connect_info = 'mysql+pymysql://root:Haad91280567#@localhost:3306/etl_pindividual1?charset=utf8'
engine = create_engine(connect_info)

In [None]:
# Se crea la tabla con sus columnas y tipos de datos
dataset_new.to_sql(name = 'dataset_new',   # Nombre de la tabla en la BD
           con = engine,
           if_exists = 'append',
           index = False,
           dtype = {'show_id': sql.VARCHAR(100),
                    'type': sql.VARCHAR(200),
                    'title': sql.VARCHAR(200),
                    'cast': sql.VARCHAR(2048),
                    'release_year': sql.INT(),
                    'duration': sql.VARCHAR(200),
                    'listed_in': sql.VARCHAR(200),
                    'platform': sql.VARCHAR(100),
                    'min': sql.INT(),
                    'season': sql.VARCHAR(100)
                    
                                       
                    }
           )

In [None]:
# En esta linea creamos un base de datos sqlite con los datos limpios. Con esta base de datos es qu vamos a realizar las consultas
engine = sql.create_engine("sqlite:///BaseDatos/dataset_new.db")
dataset_new.to_sql(name="dataset_new", con=engine, if_exists = "replace")

In [None]:
# Aqui se prueba la conexion a traves de una consulta
pd.read_sql('SELECT * FROM dataset_new where platform = "hulu" ', engine)

### 3. PROCEDIMIENTO DE CONSULTA DE DATOS

In [134]:
filtro = dataset_new[dataset_new['title'].str.contains("the House That Jack Built", case = False)]
filtro

Unnamed: 0,show_id,type,title,cast,release_year,duration,listed_in,description,platform,min,season
12660,s1543,Movie,The House That Jack Built,sin dato,2018,151 min,"Crime, Drama, Horror",Jack is a serial killer who views each murder ...,hulu,151,min


In [None]:
# Aqui se crea una consulta con las condiciones y parametros que solicitan
consulta1 = (dataset_new['platform'] == 'hulu') & (dataset_new['release_year'] == 2018) & (dataset_new['type'] == 'Movie')
consulta1.iloc[12660]

In [None]:
#1 Se crea un filtro de la consulta1 y se obtiene un resultado
filtro = dataset_new[consulta1]['min'].idxmax() 
dataset_new.loc[filtro, 'title']



In [None]:
consulta2 = (dataset_new['type']=='Movie').groupby(dataset_new['platform']).count().sort_values(ascending=False)
print(consulta2)

In [None]:
#2 se crea una lista vacia, para luego de consultar la solicitud guardarla
lista = []
consulta2 = (dataset_new['type']=='Movie')&(dataset_new['platform']=='netflix')
lista.append(dataset_new[consulta2]['show_id'].count())
consulta3 = (dataset_new['type']=='TV Show')&(dataset_new['platform']=='netflix')
lista.append(dataset_new[consulta3]['show_id'].count())
print('plataforma Netflix', lista)


In [None]:
consulta3 = (dataset_new['type']=='TV Show').groupby(dataset_new['platform']).count().sort_values(ascending=False)

In [None]:
# 3
consulta4 = (dataset_new['listed_in'].str.contains('Comedy'))
grupo = dataset_new[consulta4].groupby('platform')['listed_in'].count()
print(grupo)

In [None]:
consulta12 = (dataset_new['platform'] == 'netflix') & (dataset_new['release_year'] == 2018) 
grupo = dataset_new[consulta12].groupby('platform')['cast'].count()
print(grupo)

#dataset_new.loc([dataset_new.cast.value_counts()]['cast']) 

In [210]:
lista1 = []
consulta2 = (dataset_new['release_year']==2018)&(dataset_new['platform']=='netflix')
lista1.append(dataset_new[consulta2]['cast'].mode())

#consulta3 = (dataset_new['type']=='TV Show')&(dataset_new['platform']=='netflix')
#lista.append(dataset_new[consulta3]['show_id'].count())
print('plataforma Netflix', lista1)



plataforma Netflix [0    sin dato
Name: cast, dtype: object]


In [73]:
dataset_new['title'].isin(['Global Meltdown']).any()

True

In [None]:
filtro1 = dataset_new[dataset_new['release_year'] == 2008]
filtro

In [None]:
filtro2 = dataset_new[dataset_new.release_year.isin([2008, 2009])]
filtro2.head(5)

In [None]:
cuenta = dataset_new['min'].idmax()
cuenta

In [None]:
dataset_new.iloc[dataset_new['title'] == 'Movie']

In [84]:
dataset_new.loc[(dataset_new.release_year == '2018') & (dataset_new['min'] == cuenta)]

Unnamed: 0,show_id,type,title,cast,release_year,duration,listed_in,description,platform,min,season


In [82]:

filtro3 = dataset_new[(dataset_new['release_year']=='2018') & (dataset_new['min'] == cuenta)]
filtro3

Unnamed: 0,show_id,type,title,cast,release_year,duration,listed_in,description,platform,min,season
