In [1]:
import pandas as pd
import numpy as np
import warnings

warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows',None)

# Actor Clean

In [2]:
df = pd.read_csv('../raw_data/actor.csv')
df.head()

Unnamed: 0,actor_id,first_name,last_name,last_update
0,1,PENELOPE,GUINESS,2006-02-15 04:34:33
1,2,NICK,WAHLBERG,2006-02-15 04:34:33
2,3,ED,CHASE,2006-02-15 04:34:33
3,4,JENNIFER,DAVIS,2006-02-15 04:34:33
4,5,JOHNNY,LOLLOBRIGIDA,2006-02-15 04:34:33


In [3]:
df.isnull().sum()

actor_id       0
first_name     0
last_name      0
last_update    0
dtype: int64

Observamos en una primera exploración que el df obtenido de actor.csv no contiene valores nulos. A continuación revisaremos las columnas por si hubiera alguna incongruencia, la cual a primera vista no parece existir. Además transformaremos las columnas first_name y last_name para tener los datos en minúscula con una ortografía adecuada. 

In [4]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
actor_id,200.0,100.5,57.879185,1.0,50.75,100.5,150.25,200.0


In [5]:
len(df.actor_id.unique())

200

In [6]:
df.first_name = df.first_name.apply(lambda x: x.lower())
df.first_name = df.first_name.apply(lambda x: x.lower())

In [7]:
df.last_name = df.last_name.apply(lambda x: x.lower())
df.last_name = df.last_name.apply(lambda x: x.lower())

In [8]:
len(df.last_update.unique())

1

In [9]:
df.drop('last_update', axis=1, inplace=True)

Se observa que todos los 'actor_id' son únicos y se aplican funciones sobre las columnas de first y last name para mejorar la legibilidad. Además, observamos que la columna last_update únicamente contiene un valor. No contiene utilidad para el proyecto, por tanto decidimos eliminarla.

Se da por finalizada la exploración del data frame y se exporta para su posterior utilización. 

In [10]:
df.to_csv('../cleaned_data/1_clean_actor.csv', index=False)

# Category Clean

In [11]:
df2 = pd.read_csv('../raw_data/category.csv')
df2.head()

Unnamed: 0,category_id,name,last_update
0,1,Action,2006-02-15 04:46:27
1,2,Animation,2006-02-15 04:46:27
2,3,Children,2006-02-15 04:46:27
3,4,Classics,2006-02-15 04:46:27
4,5,Comedy,2006-02-15 04:46:27


In [12]:
df2.isnull().sum()

category_id    0
name           0
last_update    0
dtype: int64

In [13]:
df2.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
category_id,16.0,8.5,4.760952,1.0,4.75,8.5,12.25,16.0


In [14]:
len(df2.last_update.unique())

1

In [15]:
df2.to_csv('../cleaned_data/2_clean_category.csv', index=False)

En el tratamiento de los datos de categoría simplemente eliminamos la columna last_update debido a su falta de utilidad ya que todos los valores son iguales. De nuevo exportamos los datos para su posterior utilización.