 # Transformando dataset de Netflix

In [1]:
import pandas as pd



 ## Cargando dataset limpio

In [2]:
data_file="../data/intermediate/netflix-limpio.csv"
data = pd.read_csv(data_file)
data.shape 



(6234, 11)

 ## Visualizando variables a normalizar
 Las variables con la menor cantidad de valores unicos, son candidatas
 a dejarlas como clasificadoras, en este caso es el tipo y el publico.

In [3]:
def valores_unicos(dataframe):
    for column in dataframe:
        nombre_col = dataframe[column].name
        unicos_col = len(dataframe[column].unique())
        tipo_col = dataframe[column].dtype
        print("columna {}".format(nombre_col),
            "valores unicos {}".format(unicos_col),
            "tipo {}".format(tipo_col),
            sep="\t") 
valores_unicos(data)



columna id	valores unicos 6234	tipo int64
columna tipo	valores unicos 2	tipo object
columna titulo	valores unicos 6172	tipo object
columna director	valores unicos 3302	tipo object
columna actores	valores unicos 5470	tipo object
columna pais	valores unicos 555	tipo object
columna incorporada	valores unicos 1525	tipo object
columna lanzamiento	valores unicos 72	tipo int64
columna publico	valores unicos 15	tipo object
columna duracion	valores unicos 201	tipo object
columna clasificacion	valores unicos 461	tipo object


 ## Normalizando columna tipo

In [4]:
pelicula =['Movie']
tv_serie=['TV Show']
data.loc[data['tipo'].isin(pelicula), 
             'tipo'] = 'Pelicula'
data.loc[data['tipo'].isin(tv_serie), 
             'tipo'] = 'Serie'
data.head()



Unnamed: 0,id,tipo,titulo,director,actores,pais,incorporada,lanzamiento,publico,duracion,clasificacion
0,81145628,Pelicula,Norm of the North: King Sized Adventure,"Richard Finn, Tim Maltby","Alan Marriott, Andrew Toth, Brian Dobson, Cole...","United States, India, South Korea, China","September 9, 2019",2019,TV-PG,90 min,"Children & Family Movies, Comedies"
1,80117401,Pelicula,Jandino: Whatever it Takes,Sin director,Jandino Asporaat,United Kingdom,"September 9, 2016",2016,TV-MA,94 min,Stand-Up Comedy
2,70234439,Serie,Transformers Prime,Sin director,"Peter Cullen, Sumalee Montano, Frank Welker, J...",United States,"September 8, 2018",2013,TV-Y7-FV,1 Season,Kids' TV
3,80058654,Serie,Transformers: Robots in Disguise,Sin director,"Will Friedle, Darren Criss, Constance Zimmer, ...",United States,"September 8, 2018",2016,TV-Y7,1 Season,Kids' TV
4,80125979,Pelicula,#realityhigh,Fernando Lebrija,"Nesta Cooper, Kate Walsh, John Michael Higgins...",United States,"September 8, 2017",2017,TV-14,99 min,Comedies


 ## Normalizando columna publico
 Esta es la clasificacion del publico que tiene una pelicula
 o serie de television, siendo estas infantil, adolecente y adulto,

In [5]:
infantil=['G','TV-G','TV-Y','PG','TV-Y7', 'TV-Y7-FV', 'TV-PG']
adolecentes=['PG-13', 'TV-14']
adultos=['R', 'NC-17', 'TV-MA', 'NR', 'UR'] 
data.loc[data['publico'].isin(infantil), 'publico'] = 'infantil'
data.loc[data['publico'].isin(adolecentes), 'publico'] = 'Adolecente'
data.loc[data['publico'].isin(adultos), 'publico'] = 'Adulto'
data.head()



Unnamed: 0,id,tipo,titulo,director,actores,pais,incorporada,lanzamiento,publico,duracion,clasificacion
0,81145628,Pelicula,Norm of the North: King Sized Adventure,"Richard Finn, Tim Maltby","Alan Marriott, Andrew Toth, Brian Dobson, Cole...","United States, India, South Korea, China","September 9, 2019",2019,infantil,90 min,"Children & Family Movies, Comedies"
1,80117401,Pelicula,Jandino: Whatever it Takes,Sin director,Jandino Asporaat,United Kingdom,"September 9, 2016",2016,Adulto,94 min,Stand-Up Comedy
2,70234439,Serie,Transformers Prime,Sin director,"Peter Cullen, Sumalee Montano, Frank Welker, J...",United States,"September 8, 2018",2013,infantil,1 Season,Kids' TV
3,80058654,Serie,Transformers: Robots in Disguise,Sin director,"Will Friedle, Darren Criss, Constance Zimmer, ...",United States,"September 8, 2018",2016,infantil,1 Season,Kids' TV
4,80125979,Pelicula,#realityhigh,Fernando Lebrija,"Nesta Cooper, Kate Walsh, John Michael Higgins...",United States,"September 8, 2017",2017,Adolecente,99 min,Comedies


 ## Contando valor de la columna tipo

In [6]:
data["tipo"] = data["tipo"].astype("category")
data["tipo"].dtype


CategoricalDtype(categories=['Pelicula', 'Serie'], ordered=False)

In [7]:
data["tipo"].value_counts()



Pelicula    4265
Serie       1969
Name: tipo, dtype: int64

 ## Contando valor de la columna publico

In [8]:
data["publico"] = data["publico"].astype("category")
data["publico"].dtype


CategoricalDtype(categories=['Adolecente', 'Adulto', 'Sin clasificar', 'infantil'], ordered=False)

In [9]:
data["publico"].value_counts()



Adulto            2762
Adolecente        1984
infantil          1478
Sin clasificar      10
Name: publico, dtype: int64

 ## Extrayendo los paises

In [10]:
data_copy = data.copy()
data_copy


Unnamed: 0,id,tipo,titulo,director,actores,pais,incorporada,lanzamiento,publico,duracion,clasificacion
0,81145628,Pelicula,Norm of the North: King Sized Adventure,"Richard Finn, Tim Maltby","Alan Marriott, Andrew Toth, Brian Dobson, Cole...","United States, India, South Korea, China","September 9, 2019",2019,infantil,90 min,"Children & Family Movies, Comedies"
1,80117401,Pelicula,Jandino: Whatever it Takes,Sin director,Jandino Asporaat,United Kingdom,"September 9, 2016",2016,Adulto,94 min,Stand-Up Comedy
2,70234439,Serie,Transformers Prime,Sin director,"Peter Cullen, Sumalee Montano, Frank Welker, J...",United States,"September 8, 2018",2013,infantil,1 Season,Kids' TV
3,80058654,Serie,Transformers: Robots in Disguise,Sin director,"Will Friedle, Darren Criss, Constance Zimmer, ...",United States,"September 8, 2018",2016,infantil,1 Season,Kids' TV
4,80125979,Pelicula,#realityhigh,Fernando Lebrija,"Nesta Cooper, Kate Walsh, John Michael Higgins...",United States,"September 8, 2017",2017,Adolecente,99 min,Comedies
...,...,...,...,...,...,...,...,...,...,...,...
6229,80000063,Serie,Red vs. Blue,Sin director,"Burnie Burns, Jason Saldaña, Gustavo Sorola, G...",United States,No definido,2015,Adulto,13 Seasons,"TV Action & Adventure, TV Comedies, TV Sci-Fi ..."
6230,70286564,Serie,Maron,Sin director,"Marc Maron, Judd Hirsch, Josh Brener, Nora Zeh...",United States,No definido,2016,Adulto,4 Seasons,TV Comedies
6231,80116008,Pelicula,Little Baby Bum: Nursery Rhyme Friends,Sin director,Sin actores,No clasificada,No definido,2016,Sin clasificar,60 min,Movies
6232,70281022,Serie,A Young Doctor's Notebook and Other Stories,Sin director,"Daniel Radcliffe, Jon Hamm, Adam Godley, Chris...",United Kingdom,No definido,2013,Adulto,2 Seasons,"British TV Shows, TV Comedies, TV Dramas"


In [11]:
def configura_dataframe(df, campo):
    split_data = df[campo].str.split(', ',expand=True)
    df.drop([campo], axis=1, inplace=True)
    df = pd.concat([df, split_data], axis=1)
    df = df.transpose()
    df.head(15)
    return df 

data_paises = data_copy[["id", "pais"]]
data_paises = configura_dataframe(data_paises, "pais")


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,


In [12]:
def expandir_dataframe(df):
    lista=[]
    for col in df:
        for i in range(len(df[col].values)):
            if df[col].values[i] is not None and i>0:
                lista.append([df[col].values[0], df[col].values[i]])
    return lista


In [13]:
def grabar_dataframe(df, nombre_archivo):
    df.to_csv(nombre_archivo, index=False, header=False)
    print(nombre_archivo, " almacenado.")

data_paises=pd.DataFrame(expandir_dataframe(data_paises))
grabar_dataframe(data_paises, "../data/intermediate/netflix-paises.csv")



../data/intermediate/netflix-paises.csv  almacenado.


 ## Extrayendo clasificaciones

In [14]:
data_clasificacion = data_copy[["id", "clasificacion"]]
data_clasificacion = configura_dataframe(data_clasificacion, "clasificacion")
data_clasificacion.head(15)
data_clasificacion=pd.DataFrame(expandir_dataframe(data_clasificacion))
grabar_dataframe(data_clasificacion, "../data/intermediate/netflix-clasificacion.csv")



../data/intermediate/netflix-clasificacion.csv  almacenado.


 ## Extrayendo actores

In [15]:
data_actores = data_copy[["id", "actores"]]
data_actores = configura_dataframe(data_actores, "actores")
data_actores.head(15)
data_actores=pd.DataFrame(expandir_dataframe(data_actores))
grabar_dataframe(data_actores, "../data/intermediate/netflix-actores.csv")



../data/intermediate/netflix-actores.csv  almacenado.


 ## Extrayendo directores

In [16]:
data_directores = data_copy[["id", "director"]]
data_directores = configura_dataframe(data_directores, "director")
data_directores.head(15)
data_directores = pd.DataFrame(expandir_dataframe(data_directores))
grabar_dataframe(data_directores, "../data/intermediate/netflix-directores.csv")



../data/intermediate/netflix-directores.csv  almacenado.


 ## Quitando columnas normalizadas
 Ya se ha descompuesto el dataset intermedio de netflix,
 Ahora las columnas, director, actores, paises y clasificacion
 no cuentasn para el proceso directamente deberan
 ser relacionadas directamente con los archivos generados
 "" por las diferentes normalizaciones que fueron realizadas.

In [17]:
data = data.drop(["director"], axis = 1)
data = data.drop(["actores"], axis = 1)
data = data.drop(["pais"], axis = 1)
data = data.drop(["clasificacion"], axis = 1)
data.head(10)



Unnamed: 0,id,tipo,titulo,incorporada,lanzamiento,publico,duracion
0,81145628,Pelicula,Norm of the North: King Sized Adventure,"September 9, 2019",2019,infantil,90 min
1,80117401,Pelicula,Jandino: Whatever it Takes,"September 9, 2016",2016,Adulto,94 min
2,70234439,Serie,Transformers Prime,"September 8, 2018",2013,infantil,1 Season
3,80058654,Serie,Transformers: Robots in Disguise,"September 8, 2018",2016,infantil,1 Season
4,80125979,Pelicula,#realityhigh,"September 8, 2017",2017,Adolecente,99 min
5,80163890,Serie,Apaches,"September 8, 2017",2016,Adulto,1 Season
6,70304989,Pelicula,Automata,"September 8, 2017",2014,Adulto,110 min
7,80164077,Pelicula,Fabrizio Copano: Solo pienso en mi,"September 8, 2017",2017,Adulto,60 min
8,80117902,Serie,Fire Chasers,"September 8, 2017",2017,Adulto,1 Season
9,70304990,Pelicula,Good People,"September 8, 2017",2014,Adulto,90 min


 ## Almacenando la transformacion del dataset
 El formato del archivo es .pkl, este tipo de archivo
 almacena la estructura de los objetos, esto permite
 mantener todos las categorias almacenadas internamente
 por lo tanto, no debere realizar filtrados o cosas por el estilo
 nuevamente.

In [18]:
data_file="../data/intermediate/netflix-categorizado.pkl"
data.to_pickle(data_file)
print(data_file, " almacenado.")
data_file="../data/intermediate/netflix-categorizado.csv"
data.to_csv(data_file, index=False, header=True)
print(data_file, " almacenado.")



../data/intermediate/netflix-categorizado.pkl  almacenado.
../data/intermediate/netflix-categorizado.csv  almacenado.


 # Finalizo la transformacion del dataset