## FASE 1: Exploración y limpieza de datos. 

### Importación de librerías y archivo

In [3]:
# Importamos las librerías

import pandas as pd 
import numpy as np 

In [4]:
# Abrimos csv

df = pd.read_csv("rotten_tomatoes_movies.csv")

### Traducción nombre de columnas

In [5]:
# Renombramos las columnas del DataFrame

traducciones_columnas = {
    'movie_title': 'Titulo pelicula',
    'movie_info': 'Sinopsis',
    'critics_consensus': 'Consenso criticos',
    'content_rating': 'Clasificacion edad',
    'genres': 'Generos',
    'directors': 'Directores',
    'authors': 'Guionistas',
    'actors': 'Actores',
    'original_release_date': 'Fecha estreno original',
    'streaming_release_date': 'Fecha estreno streaming',
    'runtime': 'Duracion',
    'production_company': 'Productora',
    'tomatometer_status': 'Estado',
    'tomatometer_rating': 'Valoracion criticos',
    'tomatometer_count': 'Numero criticas',
    'audience_status': 'Estado audiencia',
    'audience_rating': 'Valoracion audiencia',
    'audience_count': 'Numero valoraciones audiencia',
    'tomatometer_top_critics_count': 'Numero top criticos',
    'tomatometer_fresh_critics_count': 'Numero criticas favorables',
    'tomatometer_rotten_critics_count': 'Numero criticas negativas'
}



In [6]:
# Se renombra el DataFrame
df.rename(columns=traducciones_columnas, inplace=True)

### EDA Basico

In [7]:
# Función de EDA

def eda_basico(df):

    print('🌷Ejemplo de datos del DF:')
    display(df.head(2))
    display(df.tail(2))
    display(df.sample(4))
    print('________________________________________________________________________________________________________\n')

    print('🌻Número de Filas:')
    display(df.shape[0])
    print('________________________________________________________________________________________________________\n')

    print('🌱Número de Columnas:')
    display(df.shape[1])
    print('________________________________________________________________________________________________________\n')

    print('🧬 Tipos de datos y número de columnas de cada tipo:')
    display(df.dtypes.value_counts())
    print('________________________________________________________________________________________________________\n')

    print('🌑Nombre de las columnas:')
    display(df.columns)
    print('________________________________________________________________________________________________________\n')

    print('🌼Información de la tabla:')
    display(df.info())
    print('________________________________________________________________________________________________________\n')

    print('🐲Filas duplicadas:')
    total_duplicados = df.duplicated().sum()
    if total_duplicados > 0:
        print(f'cantidad de duplicados: {total_duplicados}')
        print('Primeros duplicados')
        display(df[df.duplicated()].head(3))
    else:
        print('No hay duplicados')
    print('________________________________________________________________________________________________________\n')

    print('🐖Que porcentaje de nulos tenemos por columnas:')
    porc_nulos = (df.isnull().sum() / df.shape[0]) * 100
    df_nulos = pd.DataFrame(porc_nulos, columns = ["%_nulos"])
    display(df_nulos[df_nulos["%_nulos"] > 0])
    print('________________________________________________________________________________________________________\n')

    print("Las columnas categóricas que tienen nulos son :")
    nulos_cat = df[df.columns[df.isnull().any()]].select_dtypes(include = "O").columns
    display(nulos_cat)
    print('________________________________________________________________________________________________________\n')

    print('🌋Estadísticas de los datos categóricos:')
    display(df.describe(include='object').T)
    print('________________________________________________________________________________________________________\n')

    print("Las columnas numéricas que tienen nulos son : ")
    nulos_num = df[df.columns[df.isnull().any()]].select_dtypes(include = np.number).columns
    display(nulos_num)
    print('________________________________________________________________________________________________________\n')

    print('🍄Estadísticas de los datos numéricos:')
    display(df.describe().T)
    print('________________________________________________________________________________________________________\n')

In [8]:
# Ejecutamos la función de EDA

eda_basico(df)

🌷Ejemplo de datos del DF:


Unnamed: 0,rotten_tomatoes_link,Titulo pelicula,Sinopsis,Consenso criticos,Clasificacion edad,Generos,Directores,Guionistas,Actores,Fecha estreno original,...,Productora,Estado,Valoracion criticos,Numero criticas,Estado audiencia,Valoracion audiencia,Numero valoraciones audiencia,Numero top criticos,Numero criticas favorables,Numero criticas negativas
0,m/0814255,Percy Jackson & the Olympians: The Lightning T...,"Always trouble-prone, the life of teenager Per...",Though it may seem like just another Harry Pot...,PG,"Action & Adventure, Comedy, Drama, Science Fic...",Chris Columbus,"Craig Titley, Chris Columbus, Rick Riordan","Logan Lerman, Brandon T. Jackson, Alexandra Da...",2010-02-12,...,20th Century Fox,Rotten,49.0,149.0,Spilled,53.0,254421.0,43,73,76
1,m/0878835,Please Give,Kate (Catherine Keener) and her husband Alex (...,Nicole Holofcener's newest might seem slight i...,R,Comedy,Nicole Holofcener,Nicole Holofcener,"Catherine Keener, Amanda Peet, Oliver Platt, R...",2010-04-30,...,Sony Pictures Classics,Certified-Fresh,87.0,142.0,Upright,64.0,11574.0,44,123,19


Unnamed: 0,rotten_tomatoes_link,Titulo pelicula,Sinopsis,Consenso criticos,Clasificacion edad,Generos,Directores,Guionistas,Actores,Fecha estreno original,...,Productora,Estado,Valoracion criticos,Numero criticas,Estado audiencia,Valoracion audiencia,Numero valoraciones audiencia,Numero top criticos,Numero criticas favorables,Numero criticas negativas
17710,m/zulu,Zulu,"In 1879, the Zulu nation hands colonial Britis...",Zulu patiently establishes a cast of colorful ...,PG,"Classics, Drama","Cy Endfield, Cyril Endfield","Cy Endfield, John Prebble","Stanley Baker, Jack Hawkins, Ulla Jacobsson, J...",1964-06-17,...,Paramount Pictures,Fresh,96.0,23.0,Upright,91.0,30193.0,6,22,1
17711,m/zulu_dawn,Zulu Dawn,Sir Henry Bartle Frere's (John Mills) vastly o...,,PG,"Action & Adventure, Art House & International,...",Douglas Hickox,"Cy Endfield, Anthony Storey","Burt Lancaster, Peter O'Toole, Simon Ward, Joh...",1979-12-14,...,Tango Entertainment,Rotten,50.0,8.0,Upright,62.0,4469.0,0,4,4


Unnamed: 0,rotten_tomatoes_link,Titulo pelicula,Sinopsis,Consenso criticos,Clasificacion edad,Generos,Directores,Guionistas,Actores,Fecha estreno original,...,Productora,Estado,Valoracion criticos,Numero criticas,Estado audiencia,Valoracion audiencia,Numero valoraciones audiencia,Numero top criticos,Numero criticas favorables,Numero criticas negativas
16214,m/three_kings,Three Kings,"Just after the end of the Gulf War, four Ameri...",Three Kings successfully blends elements of ac...,R,"Action & Adventure, Comedy",David O. Russell,David O. Russell,"Mark Wahlberg, George Clooney, Ice Cube, Spike...",1999-10-01,...,Warner Bros. Pictures,Certified-Fresh,94.0,129.0,Upright,77.0,186136.0,30,121,8
13111,m/sex_monster,The Sex Monster,A Los Angeles contractor's (Mike Binder) vorac...,,R,Comedy,Mike Binder,Mike Binder,"Mariel Hemingway, Mike Binder, Renee Humphrey,...",2000-01-25,...,Trimark,Rotten,33.0,6.0,Spilled,45.0,2687.0,0,0,0
3796,m/blue_hawaii,Blue Hawaii,"After being discharged from the U.S. Army, coo...",,PG,"Classics, Musical & Performing Arts, Romance",Norman Taurog,"Hal Kanter, Allan Weiss","Elvis Presley, Joan Blackman, Angela Lansbury,...",1961-11-22,...,Paramount Pictures,Rotten,29.0,7.0,Upright,67.0,11247.0,0,2,5
5966,m/elling,Elling,"Elling (Per Christian Ellefsen), a sensitive, ...","Quirky without being overly cutesy, Elling is ...",R,"Art House & International, Comedy, Drama",Petter Naess,"Axel Hellstenius, Larry Stuckey","Per Christian Ellefsen, Sven Nordin, Marit Pia...",2002-05-29,...,First Look Pictures,Certified-Fresh,85.0,59.0,Upright,91.0,6821.0,18,50,9


________________________________________________________________________________________________________

🌻Número de Filas:


17712

________________________________________________________________________________________________________

🌱Número de Columnas:


22

________________________________________________________________________________________________________

🧬 Tipos de datos y número de columnas de cada tipo:


object     14
float64     5
int64       3
Name: count, dtype: int64

________________________________________________________________________________________________________

🌑Nombre de las columnas:


Index(['rotten_tomatoes_link', 'Titulo pelicula', 'Sinopsis',
       'Consenso criticos', 'Clasificacion edad', 'Generos', 'Directores',
       'Guionistas', 'Actores', 'Fecha estreno original',
       'Fecha estreno streaming', 'Duracion', 'Productora', 'Estado',
       'Valoracion criticos', 'Numero criticas', 'Estado audiencia',
       'Valoracion audiencia', 'Numero valoraciones audiencia',
       'Numero top criticos', 'Numero criticas favorables',
       'Numero criticas negativas'],
      dtype='object')

________________________________________________________________________________________________________

🌼Información de la tabla:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17712 entries, 0 to 17711
Data columns (total 22 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   rotten_tomatoes_link           17712 non-null  object 
 1   Titulo pelicula                17712 non-null  object 
 2   Sinopsis                       17391 non-null  object 
 3   Consenso criticos              9134 non-null   object 
 4   Clasificacion edad             17712 non-null  object 
 5   Generos                        17693 non-null  object 
 6   Directores                     17518 non-null  object 
 7   Guionistas                     16170 non-null  object 
 8   Actores                        17360 non-null  object 
 9   Fecha estreno original         16546 non-null  object 
 10  Fecha estreno streaming        173

None

________________________________________________________________________________________________________

🐲Filas duplicadas:
No hay duplicados
________________________________________________________________________________________________________

🐖Que porcentaje de nulos tenemos por columnas:


Unnamed: 0,%_nulos
Sinopsis,1.812331
Consenso criticos,48.430443
Generos,0.107272
Directores,1.095303
Guionistas,8.705962
Actores,1.987353
Fecha estreno original,6.583107
Fecha estreno streaming,2.168022
Duracion,1.772809
Productora,2.817299


________________________________________________________________________________________________________

Las columnas categóricas que tienen nulos son :


Index(['Sinopsis', 'Consenso criticos', 'Generos', 'Directores', 'Guionistas',
       'Actores', 'Fecha estreno original', 'Fecha estreno streaming',
       'Productora', 'Estado', 'Estado audiencia'],
      dtype='object')

________________________________________________________________________________________________________

🌋Estadísticas de los datos categóricos:


Unnamed: 0,count,unique,top,freq
rotten_tomatoes_link,17712,17712,m/0814255,1
Titulo pelicula,17712,17106,Hamlet,6
Sinopsis,17391,17389,"Wisecracking mercenary Deadpool meets Russell,...",2
Consenso criticos,9134,9132,High Life is as visually arresting as it is ch...,2
Clasificacion edad,17712,6,R,6377
Generos,17693,1106,Drama,1887
Directores,17518,8933,Clint Eastwood,38
Guionistas,16170,12989,Woody Allen,33
Actores,17360,17330,Werner Herzog,4
Fecha estreno original,16546,5804,2002-01-01,29


________________________________________________________________________________________________________

Las columnas numéricas que tienen nulos son : 


Index(['Duracion', 'Valoracion criticos', 'Numero criticas',
       'Valoracion audiencia', 'Numero valoraciones audiencia'],
      dtype='object')

________________________________________________________________________________________________________

🍄Estadísticas de los datos numéricos:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Duracion,17398.0,102.214048,18.70251,5.0,90.0,99.0,111.0,266.0
Valoracion criticos,17668.0,60.884763,28.44335,0.0,38.0,67.0,86.0,100.0
Numero criticas,17668.0,57.139801,68.37005,5.0,12.0,28.0,75.0,574.0
Valoracion audiencia,17416.0,60.55426,20.54337,0.0,45.0,63.0,78.0,100.0
Numero valoraciones audiencia,17415.0,143940.068332,1763577.0,5.0,707.5,4277.0,24988.0,35797635.0
Numero top criticos,17712.0,14.586326,15.14635,0.0,3.0,8.0,23.0,69.0
Numero criticas favorables,17712.0,36.374831,52.60104,0.0,6.0,16.0,44.0,497.0
Numero criticas negativas,17712.0,20.703139,30.24844,0.0,3.0,8.0,24.0,303.0


________________________________________________________________________________________________________



### Transformación de datos

In [9]:
# Borramos las columnas que no nos interesan
df.drop(columns=['rotten_tomatoes_link', 'Consenso criticos','Estado audiencia', 'Numero top criticos', 
                 'Numero criticas favorables','Numero criticas negativas'], inplace=True)

In [10]:
# Consulta de nulos

print('🐖Que porcentaje de nulos tenemos por columnas:')
porc_nulos = (df.isnull().sum() / df.shape[0]) * 100
df_nulos = pd.DataFrame(porc_nulos, columns = ["%_nulos"])
display(df_nulos[df_nulos["%_nulos"] > 0])
print('________________________________________________________________________________________________________\n')


🐖Que porcentaje de nulos tenemos por columnas:


Unnamed: 0,%_nulos
Sinopsis,1.812331
Generos,0.107272
Directores,1.095303
Guionistas,8.705962
Actores,1.987353
Fecha estreno original,6.583107
Fecha estreno streaming,2.168022
Duracion,1.772809
Productora,2.817299
Estado,0.248419


________________________________________________________________________________________________________



In [11]:
# Limpieza de filas con nulos
df.dropna(inplace=True)

In [12]:
# Dividimos la columna de géneros en varias columnas
#'Generos', 'Directores','Guionistas', 'Actores'

df['Generos'] = df['Generos'].apply(lambda x: x.split(',')[0].strip() if isinstance(x, str) else x)
df['Directores'] = df['Directores'].apply(lambda x: x.split(',')[0].strip() if isinstance(x, str) else x)
df['Guionistas'] = df['Guionistas'].apply(lambda x: x.split(',')[0].strip() if isinstance(x, str) else x)
df['Actores'] = df['Actores'].apply(lambda x: ', '.join([v.strip() for v in x.split(',')[:2]]) if isinstance(x, str) else x)

In [13]:
df.head(20)

Unnamed: 0,Titulo pelicula,Sinopsis,Clasificacion edad,Generos,Directores,Guionistas,Actores,Fecha estreno original,Fecha estreno streaming,Duracion,Productora,Estado,Valoracion criticos,Numero criticas,Valoracion audiencia,Numero valoraciones audiencia
0,Percy Jackson & the Olympians: The Lightning T...,"Always trouble-prone, the life of teenager Per...",PG,Action & Adventure,Chris Columbus,Craig Titley,"Logan Lerman, Brandon T. Jackson",2010-02-12,2015-11-25,119.0,20th Century Fox,Rotten,49.0,149.0,53.0,254421.0
1,Please Give,Kate (Catherine Keener) and her husband Alex (...,R,Comedy,Nicole Holofcener,Nicole Holofcener,"Catherine Keener, Amanda Peet",2010-04-30,2012-09-04,90.0,Sony Pictures Classics,Certified-Fresh,87.0,142.0,64.0,11574.0
2,10,"A successful, middle-aged Hollywood songwriter...",R,Comedy,Blake Edwards,Blake Edwards,"Dudley Moore, Bo Derek",1979-10-05,2014-07-24,122.0,Waner Bros.,Fresh,67.0,24.0,53.0,14684.0
3,12 Angry Men (Twelve Angry Men),Following the closing arguments in a murder tr...,NR,Classics,Sidney Lumet,Reginald Rose,"Martin Balsam, John Fiedler",1957-04-13,2017-01-13,95.0,Criterion Collection,Certified-Fresh,100.0,54.0,97.0,105386.0
4,"20,000 Leagues Under The Sea","In 1866, Professor Pierre M. Aronnax (Paul Luk...",G,Action & Adventure,Richard Fleischer,Earl Felton,"James Mason, Kirk Douglas",1954-01-01,2016-06-10,127.0,Disney,Fresh,89.0,27.0,74.0,68918.0
5,"10,000 B.C.",Mammoth hunter D'Leh (Steven Strait) has long ...,PG-13,Action & Adventure,Roland Emmerich,Harald Kloser,"Steven Strait, Camilla Belle",2008-03-07,2013-06-22,109.0,Warner Bros. Pictures,Rotten,8.0,149.0,37.0,411140.0
6,The 39 Steps,"While on vacation in London, Canadian Richard ...",NR,Action & Adventure,Alfred Hitchcock,Alma Reville,"Robert Donat, Madeleine Carroll",1935-08-01,2017-01-12,80.0,Gaumont British Distributors,Certified-Fresh,96.0,51.0,86.0,23890.0
7,3:10 to Yuma,"Dan Evans (Van Heflin), a drought-plagued Ariz...",NR,Classics,Delmer Daves,Halsted Welles,"Glenn Ford, Van Heflin",1957-08-07,2012-04-16,92.0,Columbia Pictures,Fresh,96.0,28.0,79.0,9243.0
8,Charly (A Heartbeat Away),"Cultural differences, past loves and personal ...",PG,Comedy,Adam Thomas Anderegg,Jack Weyland,"Heather Beers, Gary Neilson",2002-09-27,2017-05-22,103.0,Excel Entertainment,Rotten,20.0,10.0,87.0,4819.0
9,Abraham Lincoln,The 16th U.S. president (Walter Huston) is por...,NR,Classics,D.W. Griffith,Gerrit J. Lloyd,"Walter Huston, Una Merkel",1930-11-08,2013-12-03,97.0,United Artists,Fresh,82.0,11.0,40.0,457.0


### Guardar archivo limpio

In [14]:
# Guardamos como csv para su uso en Tableau

df.to_csv("rotten_tomatoes_movies_limpio.csv", index=False)

### Creamos un df con los valores unicos de los directores

In [15]:
# Guardar df con lista de directores

df_directores = pd.DataFrame(df['Directores'].unique(), columns=['Directores'])
df_directores.to_csv("directores.csv", index=False)

In [17]:
df.columns

Index(['Titulo pelicula', 'Sinopsis', 'Clasificacion edad', 'Generos',
       'Directores', 'Guionistas', 'Actores', 'Fecha estreno original',
       'Fecha estreno streaming', 'Duracion', 'Productora', 'Estado',
       'Valoracion criticos', 'Numero criticas', 'Valoracion audiencia',
       'Numero valoraciones audiencia'],
      dtype='object')