### `Ingeniería de Datos`
#### Transformación de datos

In [1]:
import pandas as pd
from collections import Counter


**Transformación 1**: Generar campo id: Cada id se compondrá de la primera letra del nombre de la plataforma, seguido del show_id ya presente en los datasets (ejemplo para títulos de Amazon = as123)

In [2]:
lista_plataformas = ['datasets\\amazon_prime_titles.csv',
                    'datasets\\disney_plus_titles.csv',
                    'datasets\\hulu_titles.csv',
                    'datasets\\netflix_titles.csv']
inicial = ['a','d','h','n']

df_movies = pd.DataFrame()
#Usamos una iteración para cargar los cuatro archivos csv en un solo dataframe
for i in range(0,4): 
    df_plataforma = pd.read_csv(lista_plataformas[i])
    #Creamos el campo id concatenado (1er caracter + show_id)
    df_plataforma['id'] = inicial[i] + df_plataforma['show_id'] 
    #Agregamos los registros (peliculas) de la plataforma actual junto con el resto de plataformas
    df_movies = pd.concat([df_movies,df_plataforma]) 

print('Numero de registros del dataframe final:',  df_movies.shape[0] )



Numero de registros del dataframe final: 22998


Cargamos los archivos de ratings en un solo dataframe

In [3]:
lista_ratings = ['datasets\\ratings\\1.csv',
                    'datasets\\ratings\\2.csv',
                    'datasets\\ratings\\3.csv',
                    'datasets\\ratings\\4.csv',
                    'datasets\\ratings\\5.csv',
                    'datasets\\ratings\\6.csv',
                    'datasets\\ratings\\7.csv',
                    'datasets\\ratings\\8.csv']


df_scores = pd.DataFrame()
for i in range(0,8): #Usamos una iteración para cargar los cuatro archivos csv en un solo dataframe
    df_ratings = pd.read_csv(lista_ratings[i])
    df_scores = pd.concat([df_scores,df_ratings])
print('Numero de registros del dataframe final:',  df_scores.shape[0] )

Numero de registros del dataframe final: 11024289


In [4]:
#Almacenamos los registros agregados en un archivo csv
df_scores.to_csv('datasets\\scores_consolidados.csv', header=True, index=False)

Calculamos el promedio de score de cada pelicula usando su campo movieId y los almacenamos temporalmente en un dataframe scores_promedios

In [5]:
scores_promedios = df_scores.groupby('movieId')['rating'].mean().round(1).reset_index()
scores_promedios.head(5) #Vemos una muestra

Unnamed: 0,movieId,rating
0,as1,3.5
1,as10,3.4
2,as100,3.6
3,as1000,3.6
4,as1001,3.6


In [6]:
#Cambiamos el nombre del campo rating por score para identificarlo mejor al agregarlo a otro dataframe
scores_promedios.rename(columns={'rating':'score'},
               inplace=True)
scores_promedios.head(2)

Unnamed: 0,movieId,score
0,as1,3.5
1,as10,3.4


In [8]:
df_scores = pd.read_csv('datasets\\scores_consolidados.csv')

In [9]:
df_scores.head(50)

Unnamed: 0,userId,rating,timestamp,movieId
0,1,1.0,1425941529,as680
1,1,4.5,1425942435,ns2186
2,1,5.0,1425941523,hs2381
3,1,5.0,1425941546,ns3663
4,1,5.0,1425941556,as9500
5,1,4.0,1425942148,as3004
6,1,4.5,1425941300,ns8282
7,1,5.0,1425941593,as6112
8,1,4.0,1425941601,hs327
9,1,4.0,1425942228,ns1358


**Transformación 2**: Los valores nulos del campo rating deberán reemplazarse por el string “G” (corresponde al maturity rating: “general for all audiences”

In [10]:
df_movies.fillna({'rating': 'G'}, inplace=True) # Sustituimos los valores nulos (NaN) del campo rating por el string 'G'

In [11]:
print(df_movies.info()) #Consultamos el total nulos para verificar que se aplicó la transformación en 'rating'

<class 'pandas.core.frame.DataFrame'>
Int64Index: 22998 entries, 0 to 8806
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       22998 non-null  object
 1   type          22998 non-null  object
 2   title         22998 non-null  object
 3   director      14739 non-null  object
 4   cast          17677 non-null  object
 5   country       11499 non-null  object
 6   date_added    13444 non-null  object
 7   release_year  22998 non-null  int64 
 8   rating        22998 non-null  object
 9   duration      22516 non-null  object
 10  listed_in     22998 non-null  object
 11  description   22994 non-null  object
 12  id            22998 non-null  object
dtypes: int64(1), object(12)
memory usage: 2.5+ MB
None


**Transformación 3**: De haber fechas, deberán tener el formato AAAA-mm-dd

In [12]:
df_movies['date_added'].head(50) #Consultamos algunos registros para verificar formato de la fecha

0     March 30, 2021
1     March 30, 2021
2     March 30, 2021
3     March 30, 2021
4     March 30, 2021
5     March 30, 2021
6     March 30, 2021
7     March 30, 2021
8     March 30, 2021
9      April 1, 2021
10     April 4, 2021
11    April 10, 2021
12    April 17, 2021
13    April 24, 2021
14       May 2, 2021
15      June 3, 2021
16               NaN
17               NaN
18               NaN
19               NaN
20               NaN
21               NaN
22               NaN
23               NaN
24               NaN
25               NaN
26               NaN
27               NaN
28               NaN
29               NaN
30               NaN
31               NaN
32               NaN
33               NaN
34               NaN
35               NaN
36               NaN
37               NaN
38               NaN
39               NaN
40               NaN
41               NaN
42               NaN
43               NaN
44               NaN
45               NaN
46               NaN
47           

In [13]:
def numero_mes(string):  #Creamos una función que reciba el nombre del mes y retorne su numero en formato string
    meses =['January','February','March','April','May','June','July','August','September','November','December']
    string = string.rstrip()
    if string in meses:
        if   (meses.index(string)+1)<10:
            posicion = '0'+str(meses.index(string)+1) #Concatenamos el cero a la derecha cuando el mes sea de un digito 
        else:
            posicion = str(meses.index(string)+1)
        return(posicion)
    else:
        return('00')


for i,registro in df_movies.iterrows():
    if not pd.isna(registro['date_added']): # Verificamos que el dato fecha no sea nulo (NaN)
        string_date = str(registro['date_added']) # Forzamos que sea un string para poder manipular caracter a caracter con slice
        year = string_date[-4:]
        month = numero_mes(string_date[:-8])
        day = string_date[-8:-6]
        if int(day)<10:
            day = '0'+ day.lstrip() #Concatenamos el cero a la derecha cuando el dia sea de un digito
        fecha= year +'-'+ month +'-' + day
        df_movies.loc[i,'date_added']=fecha #Modificar la fila del dataframe original utilizando loc o iloc 



In [14]:
df_movies['date_added'].head(50) #Verificamos el formato de algunos registros o filas

0     2021-09-25
1     2021-09-24
2     2021-09-24
3     2021-09-24
4     2021-09-24
5     2021-09-24
6     2021-09-24
7     2021-09-24
8     2021-09-24
9     2021-09-24
10    2021-09-24
11    2021-09-23
12    2021-09-23
13    2021-09-22
14    2021-09-22
15    2021-09-22
16    2021-09-22
17    2021-09-22
18    2021-09-22
19    2021-09-22
20    2021-09-22
21    2021-09-22
22    2021-09-21
23    2021-09-21
24    2021-09-21
25    2021-09-21
26    2021-09-21
27    2021-09-20
28    2021-09-19
29    2021-09-19
30    2021-09-17
31    2021-09-17
32    2021-09-17
33    2021-09-17
34    2021-09-17
35    2021-09-17
36    2021-09-17
37    2021-09-16
38    2021-09-16
39    2021-09-16
40    2021-09-16
41    2021-09-16
42    2021-09-16
43    2021-09-16
44    2021-09-16
45    2021-09-16
46    2021-09-16
47    2021-09-16
48    2021-09-16
49    2021-09-15
Name: date_added, dtype: object

**Transformación 4**: Los campos de texto deberán estar en minúsculas, sin excepciones

In [15]:
df_movies.head(2) #Consultamos algunos registros para verificar cuales son los campos tipo texto

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,id
0,s1,Movie,The Grand Seduction,Don McKellar,"Brendan Gleeson, Taylor Kitsch, Gordon Pinsent",Canada,2021-09-25,2014,G,113 min,"Comedy, Drama",A small fishing village must procure a local d...,as1
1,s2,Movie,Take Care Good Night,Girish Joshi,"Mahesh Manjrekar, Abhay Mahajan, Sachin Khedekar",India,2021-09-24,2018,13+,110 min,"Drama, International",A Metro Family decides to fight a Cyber Crimin...,as2


In [16]:
#Aplicamos la funcion lower() a los campos de tipo string que se requieren en minusculas
df_movies['type'] = df_movies['type'].str.lower()
df_movies['title'] = df_movies['title'].str.lower()
df_movies['director'] = df_movies['director'].str.lower()
df_movies['cast'] = df_movies['cast'].str.lower()
df_movies['country'] = df_movies['country'].str.lower()
df_movies['rating'] = df_movies['rating'].str.lower()
df_movies['duration'] = df_movies['duration'].str.lower()
df_movies['listed_in'] = df_movies['listed_in'].str.lower()
df_movies['description'] = df_movies['description'].str.lower()
df_movies.head(2) # Verificamos que se realizó la trasnformación consultando algunos registros

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,id
0,s1,movie,the grand seduction,don mckellar,"brendan gleeson, taylor kitsch, gordon pinsent",canada,2021-09-25,2014,g,113 min,"comedy, drama",a small fishing village must procure a local d...,as1
1,s2,movie,take care good night,girish joshi,"mahesh manjrekar, abhay mahajan, sachin khedekar",india,2021-09-24,2018,13+,110 min,"drama, international",a metro family decides to fight a cyber crimin...,as2



**Transformación 5**: El campo duration debe convertirse en dos campos: duration_int y duration_type. El primero será un integer y el segundo un string indicando la unidad de medición de duración: min (minutos) o season (temporadas)

In [17]:
#Creamos los campos duration_int y duration_type a partir del campo duration
df_movies[['duration_int','duration_type']]=df_movies.duration.str.split(expand=True)
df_movies.head(2) # verificamos que fueron creados

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,id,duration_int,duration_type
0,s1,movie,the grand seduction,don mckellar,"brendan gleeson, taylor kitsch, gordon pinsent",canada,2021-09-25,2014,g,113 min,"comedy, drama",a small fishing village must procure a local d...,as1,113,min
1,s2,movie,take care good night,girish joshi,"mahesh manjrekar, abhay mahajan, sachin khedekar",india,2021-09-24,2018,13+,110 min,"drama, international",a metro family decides to fight a cyber crimin...,as2,110,min


In [18]:
#Eliminamos el campo duration ya que no se va a usar en adelante
df_movies.drop(['duration'], axis = 'columns', inplace=True) 
df_movies.head(1) # verificamos que el campo duration fue eliminado

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,listed_in,description,id,duration_int,duration_type
0,s1,movie,the grand seduction,don mckellar,"brendan gleeson, taylor kitsch, gordon pinsent",canada,2021-09-25,2014,g,"comedy, drama",a small fishing village must procure a local d...,as1,113,min


In [19]:
print(df_movies['duration_int'].dtypes, "\n")  #Verificamos el tipo de datos del campo duration_int antes de la transformación

object 



In [20]:
df_movies.fillna({'duration_int': '0'}, inplace=True)             # Sustituimos los valores nulos (NaN) del campo  por ceros
df_movies['duration_int'] = df_movies['duration_int'].astype(int) # Convertimos el tipo del campo a  entero
print(df_movies['duration_int'].dtypes, "\n")     #Verificamos el tipo de datos del campo duration_int despues de la trasnformación

int32 



Agregamos el campo score (promedios) de peliculas al dataframe de las plataformas

In [21]:
scores_promedios = pd.read_csv('datasets\\scores_promedios.csv')

In [22]:

# Realizamos un merge de los dos dataframes utilizando el campo 'id' y 'movieId' como llaves de unión
df_movies = df_movies.merge(scores_promedios[['movieId', 'score']], left_on='id', right_on='movieId', how='left')

# Renombramos el campo 'score' como 'review_score'
df_movies = df_movies.rename(columns={'score': 'review_score'})

# Eliminamos el campo 'movieId'
df_movies = df_movies.drop('movieId', axis=1)

In [None]:
# df_movies.to_csv('movies_tratada.csv', header=True, index=False)

In [23]:
#Hacemos una copia de respaldo de las trasnformaciones realizadas
df_movies.to_csv('datasets\\movies.csv', header=True, index=False)


### Prueba de consultas

Película con mayor duración con filtros opcionales de AÑO, PLATAFORMA Y TIPO DE DURACIÓN. 

In [None]:
df_movies = pd.read_csv('datasets\\movies.csv')


In [24]:
df_movies.head(1)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,listed_in,description,id,duration_int,duration_type,review_score
0,s1,movie,the grand seduction,don mckellar,"brendan gleeson, taylor kitsch, gordon pinsent",canada,2021-09-25,2014,g,"comedy, drama",a small fishing village must procure a local d...,as1,113,min,3.5


In [25]:
df_movies.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 22998 entries, 0 to 22997
Data columns (total 15 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   show_id        22998 non-null  object 
 1   type           22998 non-null  object 
 2   title          22998 non-null  object 
 3   director       14739 non-null  object 
 4   cast           17677 non-null  object 
 5   country        11499 non-null  object 
 6   date_added     22146 non-null  object 
 7   release_year   22998 non-null  int64  
 8   rating         22998 non-null  object 
 9   listed_in      22998 non-null  object 
 10  description    22994 non-null  object 
 11  id             22998 non-null  object 
 12  duration_int   22998 non-null  int32  
 13  duration_type  22516 non-null  object 
 14  review_score   22998 non-null  float64
dtypes: float64(1), int32(1), int64(1), object(12)
memory usage: 2.7+ MB


Película con mayor duración con filtros opcionales de AÑO, PLATAFORMA Y TIPO DE DURACIÓN. (la función debe llamarse get_max_duration(year, platform, duration_type))

In [26]:
# df_movies = pd.read_csv('..\datasets\movies_scores.csv')
plataforma = 'Netflix'
anno = 2016
tipo_duracion ='min'
#Tomamos el primer caracter del nombre de la plataforma
id_plataforma = plataforma[0].lower()
# Creamos un dataframe df_plataforma solo con los registros de la plataforma indicada
df_plataforma = df_movies[df_movies['id'].str[0] == id_plataforma] 
# Creamos un df_filtered solo con las condiciones solicitadas
df_filtered = df_plataforma[(df_plataforma['duration_type']==tipo_duracion)&(df_plataforma['release_year']==anno)] 
# Ordenamos  df_filtered desendentemente por la columna duration_int 
df_filtered = df_filtered.sort_values(by=['duration_int'], ascending=[False])
pelicula_max = df_filtered.iloc[0, df_filtered.columns.get_loc('title')]
pelicula_max


'sairat'

Cantidad de películas por plataforma con un puntaje mayor a XX en determinado año (la función debe llamarse get_score_count(platform, scored, year))

In [27]:
plataforma = 'Netflix'
anno = 2016
score = 3.0

id_plataforma = plataforma[0].lower()
# Creamos un dataframe df_plataforma solo con los registros de la plataforma indicada
df_plataforma = df_movies[df_movies['id'].str[0] == id_plataforma] 
# Creamos un df_filtered solo con las condiciones solicitadas
df_filtered = df_plataforma[(df_plataforma['review_score'] > score)&(df_plataforma['release_year']==anno)] 
#Contamos el numero de registros del dataframe que cumple todas las condiciones
cantidad= df_filtered.shape[0]
cantidad

902

Cantidad de películas por plataforma con filtro de PLATAFORMA. (La función debe llamarse get_count_platform(platform))

In [28]:
plataforma = 'Netflix'
id_plataforma = plataforma[0].lower()
# Crear un dataframe solo con los registros del rating (clasificacion) indicado
df_plataforma= df_movies[df_movies['id'].str[0] == id_plataforma]
#Contamos el numero de registros del dataframe que cumple todas las condiciones
cantidad= int(df_plataforma.shape[0])
cantidad

8807

Actor que más se repite según plataforma y año. (La función debe llamarse get_actor(platform, year))

In [29]:
plataforma = 'Netflix'
anno = 2016
id_plataforma = plataforma[0].lower()
# Crear un dataframe solo con los registros de la plataforma indicada
df_plataforma= df_movies[(df_movies['id'].str[0] == id_plataforma)
                            &(df_movies['release_year']==anno)] 
# Creamos una lista con todas las palabras en el campo 'actores'
palabras = [palabra for registro in str(df_plataforma['cast']) for palabra in registro.split(',') if palabra.strip() ]

# Contamos las ocurrencias de cada palabra en la lista
conteo_palabras = Counter(palabras)
# Obtenemos la palabra que más se repite
actor_max = conteo_palabras.most_common(1)[0][0]
actor_max

'a'