# Funcion automatizada

In [1]:
# Librerias
import pandas as pd
import pymysql
from sqlalchemy import create_engine

def EDA(File, Encoding = 'utf-8'):
    ''' 
        DataFrame de relacion entre actores, año y plataforma 
    '''
    def DF_Actores(data, plataforma):
        # Obtenemos los años que no se repiten
        lista_anios = data['release_year'].unique().tolist()
        # Creamos un DataFrame de Actores
        df_cast = pd.DataFrame({'actor' : [], 'anio':[], 'plataforma':[]})
        # Iteramos entre cada año
        for anio in lista_anios:
            # Creamos una lista de listas temporal donde se guardará la extraccion de datos
            lista_all = []
            # Obtenemos la lista de casting en cada año
            list_cast = data['cast_actors'][data['release_year']==anio].tolist()
            # Iteramos entre cada casting
            for item in list_cast:
                # Separamos los nombres de los actores en cada lista de castings y los guardamos en una lista de listas
                lista_all.append(item.split(','))
                # Transformamos a lista de listas temporal a una lista simple temporal
                flatten_list = [element.strip() for sublist in lista_all for element in sublist]
                # Transformamos a DataFrame
                df = pd.DataFrame(flatten_list, columns=['actor'])
                df['anio'] = anio
                df['plataforma'] = plataforma
            # Combinamos con el DataFrame 'df_cast'
            df_cast = pd.concat([df_cast, df], axis = 0)
        # Pasamos a tipo entero la columna 'Anio'
        df_cast[['anio']] = df_cast[['anio']].astype(int)
        # Reestablecemos los indices
        df_cast.reset_index(inplace=True, drop=True)
        return df_cast
    
    ''' 
        DataFrame de relacion entre genero y plataforma
    '''
    def DF_Genero(dcsv, plataforma):
        # Obtenemos la columna 'listed_in'
        df_gen = dcsv['listed_in']
        # Creamos una lista de listas temporal donde se guardará la extraccion de datos
        lista_all = []
        # Obtenemos la lista de generos en cada plataforma
        list_gen = df_gen.tolist()
        # Iteramos entre cada generos
        for item in list_gen:
            # Separamos el genero en cada lista de generos y los guardamos en una lista de listas
            lista_all.append(item.split(','))
        # Transformamos a lista de listas temporal a una lista simple temporal
        flatten_list = [element.strip() for sublist in lista_all for element in sublist]
        # Transformamos a DataFrame
        df = pd.DataFrame(flatten_list, columns=['genero'])
        df['plataforma'] = plataforma
        return df

    
    ''' 
        DataFrame de transformación de los datos iniciales 
    '''
    def Transformacion(dcsv, plataforma):
        # Quitamos duplicados
        dcsv.drop_duplicates(inplace=True)
        # Eliminamos las columnas que no se usarán para consulta
        dcsv.drop(['show_id', 'director', 'country', 'date_added', 'rating', 'description'], axis=1, inplace=True)
        # Reemplazamos valores NaN:
        dcsv[['duration']] = dcsv[['duration']].fillna('0 min')
        dcsv[['cast']] = dcsv[['cast']].fillna('Unknown')
        # Creamos un nuevo DataFrame para expandir la columna 'duration' 
        df = dcsv['duration'].str.split(' ', expand=True)
        # Renombramos las nuevas columnas
        df.rename(columns = {0:'time', 1:'min_season'}, inplace = True)
        # Pasamos a tipo entero la columna 'time'
        df[['time']] = df[['time']].astype(int)
        # Corregimos: 'Seasons' and 'Season' -> 'season'
        df['min_season'] = df['min_season'].str.replace('Seasons','season')
        df['min_season'] = df['min_season'].str.replace('Season','season')
        # Eliminamos la columna 'duration' del DataFrmae 'data'
        dcsv.drop(['duration'], axis=1, inplace=True)
        # Combinamos con el DataFrame auxiliar
        dcsv = pd.concat([dcsv, df], axis = 1)
        # Cambiamos el nombre de las columnas
        dcsv.rename(columns={'type':'type_of', 'cast':'cast_actors', 'release_year':'release_year', 'listed_in':'listed_in', 
                             'time':'time_of', 'min_season':'min_season'}, inplace=True)
        # Obtenemos el tipo de plataforma segun el nombre del archivo
        dcsv['plataf'] = plataforma
        return dcsv
    

    # Identificamos el tipo de archivo para poder abrirlo
    if File.lower().endswith('.csv'):
        dcsv = pd.read_csv(File, encoding = Encoding)
    elif File.lower().endswith('.json'):
        dcsv = pd.read_json(File)
        
        
    # Obtenemos el tipo de plataforma segun el nombre del archivo
    plataforma = File.split('_')[0].capitalize()
    # Transformamos el DataFrame
    dcsv = Transformacion(dcsv, plataforma)
    # DataFrame de actores
    df_cast = DF_Actores(dcsv, plataforma)
    # DataFrame de generos
    df_generos = DF_Genero(dcsv, plataforma)
    # Usuario y contraseña a la base de datos
    cadena_conexion = 'mysql+pymysql://root:123456789@localhost:3306/EDA_BD'
    # Creamos la coneccion
    conexion = create_engine(cadena_conexion)
    # Eliminamos las columnas 'cast_actors' y 'listed_in'
    dcsv.drop(['cast_actors', 'listed_in'], axis=1, inplace=True)
    # Cargamos ambos DataFrames a la DB, si la tabla ya existe se adjunta
    dcsv.to_sql(name='datos', con=conexion, if_exists='append', index=False)
    df_cast.to_sql(name='casting', con=conexion, if_exists='append', index=False)
    df_generos.to_sql(name='generos', con=conexion, if_exists='append', index=False)
    # Retornamos los DataFrmaes
    return dcsv, df_cast, df_generos
    
print('Cargado ...')

Cargado ...


In [2]:
File = 'datasets/amazon_prime_titles.csv'
Data, Actors, Gene = EDA(File, Encoding = 'utf-8')
print(Actors)
print(Gene)
Data

                       actor  anio plataforma
0            Brendan Gleeson  2014     Amazon
1              Taylor Kitsch  2014     Amazon
2             Gordon Pinsent  2014     Amazon
3      Interviews with: Pink  2014     Amazon
4                      Adele  2014     Amazon
...                      ...   ...        ...
45595                   Totò  1957     Amazon
45596          Anne Cornwall  1927     Amazon
45597          Flora Bramley  1927     Amazon
45598         Harold Goodwin  1927     Amazon
45599          Snitz Edwards  1927     Amazon

[45600 rows x 3 columns]
              genero plataforma
0             Comedy     Amazon
1              Drama     Amazon
2              Drama     Amazon
3      International     Amazon
4             Action     Amazon
...              ...        ...
18304          Drama     Amazon
18305         Sports     Amazon
18306         Action     Amazon
18307          Drama     Amazon
18308       Suspense     Amazon

[18309 rows x 2 columns]


Unnamed: 0,type_of,title,release_year,time_of,min_season,plataf
0,Movie,The Grand Seduction,2014,113,min,Amazon
1,Movie,Take Care Good Night,2018,110,min,Amazon
2,Movie,Secrets of Deception,2017,74,min,Amazon
3,Movie,Pink: Staying True,2014,69,min,Amazon
4,Movie,Monster Maker,1989,45,min,Amazon
...,...,...,...,...,...,...
9663,Movie,Pride Of The Bowery,1940,60,min,Amazon
9664,TV Show,Planet Patrol,2018,4,season,Amazon
9665,Movie,Outpost,2008,90,min,Amazon
9666,TV Show,Maradona: Blessed Dream,2021,1,season,Amazon


In [3]:
File = 'datasets/disney_plus_titles.csv'
Data, Actors, Gene = EDA(File, Encoding = 'utf-8')
print(Actors)
print(Gene)
Data

                     actor  anio plataforma
0     Chris Diamantopoulos  2016     Disney
1             Tony Anselmo  2016     Disney
2          Tress MacNeille  2016     Disney
3              Bill Farmer  2016     Disney
4             Russi Taylor  2016     Disney
...                    ...   ...        ...
6084            Dean Jones  1968     Disney
6085     Suzanne Pleshette  1968     Disney
6086       Elsa Lanchester  1968     Disney
6087            Joby Baker  1968     Disney
6088          Elliott Reid  1968     Disney

[6089 rows x 3 columns]
                genero plataforma
0            Animation     Disney
1               Family     Disney
2               Comedy     Disney
3            Animation     Disney
4               Comedy     Disney
...                ...        ...
3905            Comedy     Disney
3906     Coming of Age     Disney
3907  Action-Adventure     Disney
3908  Animals & Nature     Disney
3909         Animation     Disney

[3910 rows x 2 columns]


Unnamed: 0,type_of,title,release_year,time_of,min_season,plataf
0,Movie,Duck the Halls: A Mickey Mouse Christmas Special,2016,23,min,Disney
1,Movie,Ernest Saves Christmas,1988,91,min,Disney
2,Movie,Ice Age: A Mammoth Christmas,2011,23,min,Disney
3,Movie,The Queen Family Singalong,2021,41,min,Disney
4,TV Show,The Beatles: Get Back,2021,1,season,Disney
...,...,...,...,...,...,...
1445,Movie,X-Men Origins: Wolverine,2009,108,min,Disney
1446,Movie,Night at the Museum: Battle of the Smithsonian,2009,106,min,Disney
1447,Movie,Eddie the Eagle,2016,107,min,Disney
1448,Movie,Bend It Like Beckham,2003,112,min,Disney


In [4]:
File = 'datasets/hulu_titles.csv'
Data, Actors, Gene = EDA(File, Encoding = 'utf-8')
print(Actors)
print(Gene)
Data

        actor  anio plataforma
0     Unknown  2021       Hulu
1     Unknown  2021       Hulu
2     Unknown  2021       Hulu
3     Unknown  2021       Hulu
4     Unknown  2021       Hulu
...       ...   ...        ...
3068  Unknown  1971       Hulu
3069  Unknown  1971       Hulu
3070  Unknown  1954       Hulu
3071  Unknown  1969       Hulu
3072  Unknown  1969       Hulu

[3073 rows x 3 columns]
               genero plataforma
0              Comedy       Hulu
1            Stand Up       Hulu
2               Crime       Hulu
3               Drama       Hulu
4            Thriller       Hulu
...               ...        ...
6756  Science Fiction       Hulu
6757         Thriller       Hulu
6758            Anime       Hulu
6759            Drama       Hulu
6760    International       Hulu

[6761 rows x 2 columns]


Unnamed: 0,type_of,title,release_year,time_of,min_season,plataf
0,Movie,Ricky Velez: Here's Everything,2021,0,min,Hulu
1,Movie,Silent Night,2020,94,min,Hulu
2,Movie,The Marksman,2021,108,min,Hulu
3,Movie,Gaia,2021,97,min,Hulu
4,Movie,Settlers,2021,104,min,Hulu
...,...,...,...,...,...,...
3068,TV Show,Star Trek: The Original Series,1966,3,season,Hulu
3069,TV Show,Star Trek: Voyager,1997,7,season,Hulu
3070,TV Show,The Fades,2011,1,season,Hulu
3071,TV Show,The Twilight Zone,1959,5,season,Hulu


In [5]:
File = 'datasets/netflix_titles.json'
Data, Actors, Gene = EDA(File)
print(Actors)
print(Gene)
Data

                     actor  anio plataforma
0                  Unknown  2020    Netflix
1                  Unknown  2020    Netflix
2      Luis Ernesto Franco  2020    Netflix
3              Camila Sodi  2020    Netflix
4             Sergio Goyri  2020    Netflix
...                    ...   ...        ...
64946        James Stewart  1947    Netflix
64947        Lloyd Bridges  1947    Netflix
64948              Unknown  1943    Netflix
64949              Unknown  1943    Netflix
64950              Unknown  1943    Netflix

[64951 rows x 3 columns]
                         genero plataforma
0                 Documentaries    Netflix
1        International TV Shows    Netflix
2                     TV Dramas    Netflix
3                  TV Mysteries    Netflix
4                Crime TV Shows    Netflix
...                         ...        ...
19318  Children & Family Movies    Netflix
19319                  Comedies    Netflix
19320                    Dramas    Netflix
19321      Inter

Unnamed: 0,type_of,title,release_year,time_of,min_season,plataf
0,Movie,Dick Johnson Is Dead,2020,90,min,Netflix
1,TV Show,Blood & Water,2021,2,season,Netflix
2,TV Show,Ganglands,2021,1,season,Netflix
3,TV Show,Jailbirds New Orleans,2021,1,season,Netflix
4,TV Show,Kota Factory,2021,2,season,Netflix
...,...,...,...,...,...,...
8802,Movie,Zodiac,2007,158,min,Netflix
8803,TV Show,Zombie Dumb,2018,2,season,Netflix
8804,Movie,Zombieland,2009,88,min,Netflix
8805,Movie,Zoom,2006,88,min,Netflix
