# SQL

In [1]:
import pandas as pd
pd.set_option('display.max_columns', None)

### TABLA ACTOR

Estudio la estrfuctura y la información que me da esta tabla para la limpieza de datos.

In [2]:
actor_original= pd.read_csv('../data/actor.csv')

In [3]:
actor= actor_original.copy() #creo .copy del DF original

In [4]:
actor.shape

(200, 4)

In [5]:
actor.dtypes

actor_id        int64
first_name     object
last_name      object
last_update    object
dtype: object

In [6]:
duplicados= actor.duplicated()
filas_duplicados= actor[duplicados]
filas_duplicados

Unnamed: 0,actor_id,first_name,last_name,last_update


Una vez verificado que n hay duplicados paso a estudiar cada columna.

In [7]:
actor.columns

Index(['actor_id', 'first_name', 'last_name', 'last_update'], dtype='object')

A continuación, estudio que todas las columnas no tengan nulos.

In [8]:
actor.isnull().sum()

actor_id       0
first_name     0
last_name      0
last_update    0
dtype: int64

In [9]:
actor[['first_name', 'last_name']][:10] #estudio las columnas 'first_name' y 'last_name' para estandarizarlas.

Unnamed: 0,first_name,last_name
0,PENELOPE,GUINESS
1,NICK,WAHLBERG
2,ED,CHASE
3,JENNIFER,DAVIS
4,JOHNNY,LOLLOBRIGIDA
5,BETTE,NICHOLSON
6,GRACE,MOSTEL
7,MATTHEW,JOHANSSON
8,JOE,SWANK
9,CHRISTIAN,GABLE


In [10]:
#tranformo el nombre y apellido para que la primera letra sea mayúscula y el resto minúscula.

actor['first_name']=actor['first_name'].str.capitalize()
actor['last_name']=actor['last_name'].str.capitalize()

In [11]:
actor[['first_name','last_name']][:10]

Unnamed: 0,first_name,last_name
0,Penelope,Guiness
1,Nick,Wahlberg
2,Ed,Chase
3,Jennifer,Davis
4,Johnny,Lollobrigida
5,Bette,Nicholson
6,Grace,Mostel
7,Matthew,Johansson
8,Joe,Swank
9,Christian,Gable


In [12]:
actor.head()

Unnamed: 0,actor_id,first_name,last_name,last_update
0,1,Penelope,Guiness,2006-02-15 04:34:33
1,2,Nick,Wahlberg,2006-02-15 04:34:33
2,3,Ed,Chase,2006-02-15 04:34:33
3,4,Jennifer,Davis,2006-02-15 04:34:33
4,5,Johnny,Lollobrigida,2006-02-15 04:34:33


Creo una columna para separar la hora y la fecha por si más adelante me resulta interesante estudiarlo por separado. Tengo una columna 'last_update' que contiene valores de fecha y hora. Por lo que, lo primero que hago ya verificando que 'last_update' es 'object' tranformo mi DF en un objeto de tipo 'datetime'

In [13]:
actor['last_update']=pd.to_datetime(actor['last_update'])

Una vez, tranformada esta columna de mi DF en 'datetime, creo dos nuevas columnas 'date' y 'time' a partir de esta. 

In [14]:
actor['date']=actor['last_update'].dt.date
actor['time']=actor['last_update'].dt.time

In [15]:
actor.head()

Unnamed: 0,actor_id,first_name,last_name,last_update,date,time
0,1,Penelope,Guiness,2006-02-15 04:34:33,2006-02-15,04:34:33
1,2,Nick,Wahlberg,2006-02-15 04:34:33,2006-02-15,04:34:33
2,3,Ed,Chase,2006-02-15 04:34:33,2006-02-15,04:34:33
3,4,Jennifer,Davis,2006-02-15 04:34:33,2006-02-15,04:34:33
4,5,Johnny,Lollobrigida,2006-02-15 04:34:33,2006-02-15,04:34:33


Verifico que se hayan añadido correctamente las dos columnas

### TABLA CATEGORY

Estudio la siguiente tabla que es 'category'

In [16]:
category_original= pd.read_csv('../data/category.csv')

In [17]:
category= category_original.copy()
category

Unnamed: 0,category_id,name,last_update
0,1,Action,2006-02-15 04:46:27
1,2,Animation,2006-02-15 04:46:27
2,3,Children,2006-02-15 04:46:27
3,4,Classics,2006-02-15 04:46:27
4,5,Comedy,2006-02-15 04:46:27
5,6,Documentary,2006-02-15 04:46:27
6,7,Drama,2006-02-15 04:46:27
7,8,Family,2006-02-15 04:46:27
8,9,Foreign,2006-02-15 04:46:27
9,10,Games,2006-02-15 04:46:27


In [18]:
category.shape

(16, 3)

In [19]:
category.isnull().sum()

category_id    0
name           0
last_update    0
dtype: int64

In [20]:
category.dtypes

category_id     int64
name           object
last_update    object
dtype: object

Creo una columna para separar la hora y la fecha por si más adelante me resulta interesante estudarlo por separado.

Al verificar que la columna esta bien estandarizada hago lo mismo que con la tabla de 'actor'. Creo una columna para separar la hora y la fecha por si más adelante me resulta interesante estududiarlo por separado. Tengo una columna 'last_update' que contiene valores de fecha y hora. Por lo que, lo primero que hago ya verificando que 'last_update' es 'object' tranformo mi DF en un objeto de tipo 'datetime'

In [21]:
category['last_update']=pd.to_datetime(category['last_update'])

In [22]:
category['date']=category['last_update'].dt.date
category['time']=category['last_update'].dt.time

In [23]:
category.head()

Unnamed: 0,category_id,name,last_update,date,time
0,1,Action,2006-02-15 04:46:27,2006-02-15,04:46:27
1,2,Animation,2006-02-15 04:46:27,2006-02-15,04:46:27
2,3,Children,2006-02-15 04:46:27,2006-02-15,04:46:27
3,4,Classics,2006-02-15 04:46:27,2006-02-15,04:46:27
4,5,Comedy,2006-02-15 04:46:27,2006-02-15,04:46:27


## Tabla film

In [24]:
film_original=pd.read_csv('../data/film.csv')

In [26]:
film=film_original.copy()
film.head()

Unnamed: 0,film_id,title,description,release_year,language_id,original_language_id,rental_duration,rental_rate,length,replacement_cost,rating,special_features,last_update
0,1,ACADEMY DINOSAUR,A Epic Drama of a Feminist And a Mad Scientist...,2006,1,,6,0.99,86,20.99,PG,"Deleted Scenes,Behind the Scenes",2006-02-15 05:03:42
1,2,ACE GOLDFINGER,A Astounding Epistle of a Database Administrat...,2006,1,,3,4.99,48,12.99,G,"Trailers,Deleted Scenes",2006-02-15 05:03:42
2,3,ADAPTATION HOLES,A Astounding Reflection of a Lumberjack And a ...,2006,1,,7,2.99,50,18.99,NC-17,"Trailers,Deleted Scenes",2006-02-15 05:03:42
3,4,AFFAIR PREJUDICE,A Fanciful Documentary of a Frisbee And a Lumb...,2006,1,,5,2.99,117,26.99,G,"Commentaries,Behind the Scenes",2006-02-15 05:03:42
4,5,AFRICAN EGG,A Fast-Paced Documentary of a Pastry Chef And ...,2006,1,,6,2.99,130,22.99,G,Deleted Scenes,2006-02-15 05:03:42
