<center><head><b>Proyecto SQL data base building</b></head></center>

1. Importamos todas las librerías que podremos utilizar.

In [1]:
import pandas as pd # Importamos las librerías que vamos a necesitar o podemos necesitar
pd.set_option('display.max_columns', None)  # me muestre todas las columnas
pd.set_option('display.max_colwidth', 100)  # me muestre más caracteres por columna.
import numpy as np
import regex as re
import os
from IPython.display import Image, display
from IPython.display import HTML
import warnings
warnings.filterwarnings('ignore')   # Para quitar los warnings

2. Ahora, vamos a importar todas las tablas y a hacer una primera exploración para ver con qué nos encontramos y tomar ideas para armar la base de datos posteriormente. Veremos también qué se puede limpiar y/o unificar. Veremos si hay registros repetidos, valores nulos, columnas o tablas que podamos eliminar porque no aportan información (o la que aportan no está completa), etcétera.

In [2]:
act = pd.read_csv('../data/actor.csv', encoding = 'ISO-8859-1') # Importamos los siete dataframes.
cat = pd.read_csv('../data/category.csv', encoding = 'ISO-8859-1')
fil = pd.read_csv('../data/film.csv', encoding = 'ISO-8859-1')
inv = pd.read_csv('../data/inventory.csv', encoding = 'ISO-8859-1')
lan = pd.read_csv('../data/language.csv', encoding = 'ISO-8859-1')
old = pd.read_csv('../data/old_HDD.csv', encoding = 'ISO-8859-1')
ren = pd.read_csv('../data/rental.csv', encoding = 'ISO-8859-1')

**TABLA ACTOR**

In [3]:
act.head() # Miramos qué aspecto tienen los datos del dataframe de "actor".

Unnamed: 0,actor_id,first_name,last_name,last_update
0,1,PENELOPE,GUINESS,2006-02-15 04:34:33
1,2,NICK,WAHLBERG,2006-02-15 04:34:33
2,3,ED,CHASE,2006-02-15 04:34:33
3,4,JENNIFER,DAVIS,2006-02-15 04:34:33
4,5,JOHNNY,LOLLOBRIGIDA,2006-02-15 04:34:33


In [4]:
act.shape # Dimensiones: en "actors" (act), tenemos 200 filas y 4 columnas.

(200, 4)

In [5]:
act.info(memory_usage = 'deep') # Observamos los Dtype de cada una de las columnas.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   actor_id     200 non-null    int64 
 1   first_name   200 non-null    object
 2   last_name    200 non-null    object
 3   last_update  200 non-null    object
dtypes: int64(1), object(3)
memory usage: 41.0 KB


In [6]:
act.columns = act.columns.str.lower().str.strip().str.replace(" ", "_") # Vamos ahora a analizar las columnas; aquí nos
act.columns # aseguramos de que todo está en minúsculas y no hay espacios entre palabras (de haberlos se sutituyen por el
# underscore). A continuación, vamos a ir columna por columna para ver con qué nos encontramos.

Index(['actor_id', 'first_name', 'last_name', 'last_update'], dtype='object')

In [7]:
nan_cols = act.isna().sum() # No tenemos elementos nulos (esto ya lo vemos en info, pero hacemos un "double-check").

nan_cols[nan_cols>0]

Series([], dtype: int64)

In [8]:
act.actor_id.value_counts().head() # No tenemos id repetidos.

1      1
138    1
128    1
129    1
130    1
Name: actor_id, dtype: int64

In [9]:
act.actor_id.is_monotonic_increasing # Y estos id van en sucesión ascendente.

True

In [10]:
act.first_name.value_counts().head() # Tenemos varios nombres que se repiten

PENELOPE    4
JULIA       4
KENNETH     4
GENE        3
GROUCHO     3
Name: first_name, dtype: int64

In [11]:
act.last_name.value_counts().head() # Y con los apellidos nos pasa lo mismo; vamos a analizar en un subset de "nombre + apellido"
# si hay algún registro repetido.

KILMER     5
TEMPLE     4
NOLTE      4
GUINESS    3
ALLEN      3
Name: last_name, dtype: int64

In [12]:
subset = act[['first_name', 'last_name']] # Nos devuelve un True el subset, lo cuál quiere decir que hay actores repetidos
# (aparentemente). Vamos a ver cuáles son y a tomar una decisión.

subset.duplicated().any()

True

In [13]:
resultado = subset[subset.duplicated()] # Vemos que el registro de Susan Davis está repetido; vamos a asumir que no lo está
# ya que puedem ser dos actrices que se llamen igual (y se las está diferenciando por el id).

resultado

Unnamed: 0,first_name,last_name
109,SUSAN,DAVIS


In [14]:
act.last_update.value_counts() # Repetido en los 200 registros, no nos aporta nada esta columna.

2006-02-15 04:34:33    200
Name: last_update, dtype: int64

**TABLA CATEGORY**

In [15]:
cat.head() # Miramos qué aspecto tienen los datos del dataframe de "category".

Unnamed: 0,category_id,name,last_update
0,1,Action,2006-02-15 04:46:27
1,2,Animation,2006-02-15 04:46:27
2,3,Children,2006-02-15 04:46:27
3,4,Classics,2006-02-15 04:46:27
4,5,Comedy,2006-02-15 04:46:27


In [16]:
cat.shape # Dimensiones: en "actors" (act), tenemos 16 filas y 3 columnas.

(16, 3)

In [17]:
cat.info(memory_usage = 'deep') # Observamos los Dtype de cada una de las columnas.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   category_id  16 non-null     int64 
 1   name         16 non-null     object
 2   last_update  16 non-null     object
dtypes: int64(1), object(2)
memory usage: 2.4 KB


In [18]:
cat.columns = cat.columns.str.lower().str.strip().str.replace(" ", "_") # Vamos ahora a analizar las columnas; aquí nos
cat.columns # aseguramos de que todo está en minúsculas y no hay espacios entre palabras (de haberlos se sutituyen por el
# underscore). A continuación, vamos a ir columna por columna para ver con qué nos encontramos.

Index(['category_id', 'name', 'last_update'], dtype='object')

In [19]:
nan_cols = cat.isna().sum() # No tenemos elementos nulos.

nan_cols[nan_cols>0]

Series([], dtype: int64)

In [20]:
cat.category_id.value_counts().head() # No tenemos id repetidos.

1    1
2    1
3    1
4    1
5    1
Name: category_id, dtype: int64

In [21]:
cat.category_id.is_monotonic_increasing # Y estos id van en sucesión ascendente.

True

In [22]:
cat.name.value_counts().head() # No tenemos categorías repetidas.

Action       1
Animation    1
Children     1
Classics     1
Comedy       1
Name: name, dtype: int64

In [23]:
cat.last_update.value_counts() # Repetido en los 16 registros, no nos aporta nada esta columna.

2006-02-15 04:46:27    16
Name: last_update, dtype: int64

**TABLA FILMS**

In [24]:
fil.head() # Miramos qué aspecto tienen los datos del dataframe de "film".

Unnamed: 0,film_id,title,description,release_year,language_id,original_language_id,rental_duration,rental_rate,length,replacement_cost,rating,special_features,last_update
0,1,ACADEMY DINOSAUR,A Epic Drama of a Feminist And a Mad Scientist who must Battle a Teacher in The Canadian Rockies,2006,1,,6,0.99,86,20.99,PG,"Deleted Scenes,Behind the Scenes",2006-02-15 05:03:42
1,2,ACE GOLDFINGER,A Astounding Epistle of a Database Administrator And a Explorer who must Find a Car in Ancient C...,2006,1,,3,4.99,48,12.99,G,"Trailers,Deleted Scenes",2006-02-15 05:03:42
2,3,ADAPTATION HOLES,A Astounding Reflection of a Lumberjack And a Car who must Sink a Lumberjack in A Baloon Factory,2006,1,,7,2.99,50,18.99,NC-17,"Trailers,Deleted Scenes",2006-02-15 05:03:42
3,4,AFFAIR PREJUDICE,A Fanciful Documentary of a Frisbee And a Lumberjack who must Chase a Monkey in A Shark Tank,2006,1,,5,2.99,117,26.99,G,"Commentaries,Behind the Scenes",2006-02-15 05:03:42
4,5,AFRICAN EGG,A Fast-Paced Documentary of a Pastry Chef And a Dentist who must Pursue a Forensic Psychologist ...,2006,1,,6,2.99,130,22.99,G,Deleted Scenes,2006-02-15 05:03:42


In [25]:
fil.shape # Tenemos 1.000 filas y 13 columnas.

(1000, 13)

In [26]:
fil.info(memory_usage = 'deep') # Observamos los Dtype de cada una de las columnas.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   film_id               1000 non-null   int64  
 1   title                 1000 non-null   object 
 2   description           1000 non-null   object 
 3   release_year          1000 non-null   int64  
 4   language_id           1000 non-null   int64  
 5   original_language_id  0 non-null      float64
 6   rental_duration       1000 non-null   int64  
 7   rental_rate           1000 non-null   float64
 8   length                1000 non-null   int64  
 9   replacement_cost      1000 non-null   float64
 10  rating                1000 non-null   object 
 11  special_features      1000 non-null   object 
 12  last_update           1000 non-null   object 
dtypes: float64(3), int64(5), object(5)
memory usage: 495.3 KB


In [27]:
fil.columns = fil.columns.str.lower().str.strip().str.replace(" ", "_") # Vamos ahora a analizar las columnas; aquí nos
fil.columns # aseguramos de que todo está en minúsculas y no hay espacios entre palabras (de haberlos se sutituyen por el
# underscore). A continuación, vamos a ir columna por columna para ver con qué nos encontramos.

Index(['film_id', 'title', 'description', 'release_year', 'language_id',
       'original_language_id', 'rental_duration', 'rental_rate', 'length',
       'replacement_cost', 'rating', 'special_features', 'last_update'],
      dtype='object')

In [28]:
nan_cols = fil.isna().sum() # Tenemos elementos nulos en la columna "original_language_id" en todos los registros.

nan_cols[nan_cols>0]

original_language_id    1000
dtype: int64

In [29]:
fil.film_id.value_counts().head() # No tenemos id repetidos.

1      1
672    1
659    1
660    1
661    1
Name: film_id, dtype: int64

In [30]:
fil.film_id.is_monotonic_increasing # Y estos id van en sucesión ascendente.

True

In [31]:
fil.title.value_counts().head() # Tenemos un registro de 1.000 películas distintas.

ACADEMY DINOSAUR    1
PERFECT GROOVE      1
PARK CITIZEN        1
PARTY KNOCK         1
PAST SUICIDES       1
Name: title, dtype: int64

In [32]:
fil.description.value_counts().head() # Tenemos 1.000 descripciones distintas.

A Epic Drama of a Feminist And a Mad Scientist who must Battle a Teacher in The Canadian Rockies                   1
A Thrilling Yarn of a Dog And a Dog who must Build a Husband in A Baloon                                           1
A Taut Epistle of a Sumo Wrestler And a Girl who must Face a Husband in Ancient Japan                              1
A Fateful Display of a Technical Writer And a Butler who must Battle a Sumo Wrestler in An Abandoned Mine Shaft    1
A Intrepid Tale of a Madman And a Astronaut who must Challenge a Hunter in A Monastery                             1
Name: description, dtype: int64

In [33]:
fil.release_year.value_counts().head() # Repetido 1.000 veces. Todas son películas de 2006.

2006    1000
Name: release_year, dtype: int64

In [34]:
fil.language_id.value_counts().head() # Mismo lenguaje en todas: inglés.

1    1000
Name: language_id, dtype: int64

In [35]:
fil.original_language_id.value_counts().head() # Todo nulos, no disponemos de información sobre cuáles son las versiones
# originales de las películas.

Series([], Name: original_language_id, dtype: int64)

In [36]:
fil.rental_duration.value_counts().head() # Tenemos distintas duraciones.

6    212
3    203
4    203
7    191
5    191
Name: rental_duration, dtype: int64

In [37]:
fil.rental_rate.value_counts().head() # Los precios de alquiler.

0.99    341
4.99    336
2.99    323
Name: rental_rate, dtype: int64

In [38]:
fil.length.value_counts().head() # Distinas duraciones.

85     17
179    13
112    13
84     13
73     12
Name: length, dtype: int64

In [39]:
fil.replacement_cost.value_counts().head() # Distintos costes por no devolver las películas.

20.99    57
22.99    55
12.99    55
21.99    55
13.99    55
Name: replacement_cost, dtype: int64

In [40]:
fil.rating.value_counts().head() # Distinas calificaciones.

PG-13    223
NC-17    210
R        195
PG       194
G        178
Name: rating, dtype: int64

In [41]:
fil.special_features.value_counts().head() # Distintos extras.

Trailers,Commentaries,Behind the Scenes    79
Trailers                                   72
Trailers,Commentaries                      72
Trailers,Behind the Scenes                 72
Deleted Scenes,Behind the Scenes           71
Name: special_features, dtype: int64

In [42]:
fil.last_update.value_counts().head() # Y aquí el mismo dato todo el tiempo, no nos aporta nada.

2006-02-15 05:03:42    1000
Name: last_update, dtype: int64

**TABLA INVENTORY**

In [43]:
inv.head() # Miramos qué aspecto tienen los datos del dataframe de "inventory".

Unnamed: 0,inventory_id,film_id,store_id,last_update
0,1,1,1,2006-02-15 05:09:17
1,2,1,1,2006-02-15 05:09:17
2,3,1,1,2006-02-15 05:09:17
3,4,1,1,2006-02-15 05:09:17
4,5,1,2,2006-02-15 05:09:17


In [44]:
inv.shape # Tenemos 1.000 filas y 4 columnas.

(1000, 4)

In [45]:
inv.info(memory_usage = 'deep') # Observamos los Dtype de cada una de las columnas.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   inventory_id  1000 non-null   int64 
 1   film_id       1000 non-null   int64 
 2   store_id      1000 non-null   int64 
 3   last_update   1000 non-null   object
dtypes: int64(3), object(1)
memory usage: 97.8 KB


In [46]:
inv.columns = inv.columns.str.lower().str.strip().str.replace(" ", "_") # Vamos ahora a analizar las columnas; aquí nos
inv.columns # aseguramos de que todo está en minúsculas y no hay espacios entre palabras (de haberlos se sutituyen por el
# underscore). A continuación, vamos a ir columna por columna para ver con qué nos encontramos.

Index(['inventory_id', 'film_id', 'store_id', 'last_update'], dtype='object')

In [47]:
nan_cols = inv.isna().sum() # No tenemos elementos nulos.

nan_cols[nan_cols>0]

Series([], dtype: int64)

In [48]:
inv.inventory_id.value_counts().head() # No tenemos id repetidos.

1      1
672    1
659    1
660    1
661    1
Name: inventory_id, dtype: int64

In [49]:
inv.inventory_id.is_monotonic_increasing # Y estos id van en sucesión ascendente.

True

In [50]:
inv.film_id.value_counts().head() # Tenemos id repetidos; esto quiere decir que tenemos varias unidades físicas de
# películas y cada unidad física lleva su inventory_id asociado.

1      8
127    8
73     8
174    8
86     8
Name: film_id, dtype: int64

In [51]:
inv.store_id.value_counts().head() # Tenemos tienda 1 y tienda 2.

1    503
2    497
Name: store_id, dtype: int64

In [52]:
inv.last_update.value_counts().head() # Mismo dato en todos los elementos.

2006-02-15 05:09:17    1000
Name: last_update, dtype: int64

**TABLA LANGUAJE**

In [53]:
lan.head() # Miramos qué aspecto tienen los datos del dataframe de "languaje".

Unnamed: 0,language_id,name,last_update
0,1,English,2006-02-15 05:02:19
1,2,Italian,2006-02-15 05:02:19
2,3,Japanese,2006-02-15 05:02:19
3,4,Mandarin,2006-02-15 05:02:19
4,5,French,2006-02-15 05:02:19


In [54]:
lan.shape # Tenemos 6 filas y 3 columnas.

(6, 3)

In [55]:
lan.info (memory_usage = 'deep') # Observamos los Dtype de cada una de las columnas.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   language_id  6 non-null      int64 
 1   name         6 non-null      object
 2   last_update  6 non-null      object
dtypes: int64(1), object(2)
memory usage: 1016.0 bytes


In [56]:
lan.columns = lan.columns.str.lower().str.strip().str.replace(" ", "_") # Vamos ahora a analizar las columnas; aquí nos
lan.columns # aseguramos de que todo está en minúsculas y no hay espacios entre palabras (de haberlos se sutituyen por el
# underscore). A continuación, vamos a ir columna por columna para ver con qué nos encontramos.

Index(['language_id', 'name', 'last_update'], dtype='object')

In [57]:
nan_cols = lan.isna().sum() # No tenemos elementos nulos.

nan_cols[nan_cols>0]

Series([], dtype: int64)

In [58]:
lan.language_id.value_counts().head() # No tenemos id repetidos.

1    1
2    1
3    1
4    1
5    1
Name: language_id, dtype: int64

In [59]:
lan.language_id.is_monotonic_increasing # Y estos id van en sucesión ascendente.

True

In [60]:
lan.name.value_counts().head() # Tenemos 5 idiomas distintos.

English     1
Italian     1
Japanese    1
Mandarin    1
French      1
Name: name, dtype: int64

In [61]:
lan.last_update.value_counts().head() # Mismo dato en todos los elementos.

2006-02-15 05:02:19    6
Name: last_update, dtype: int64

**TABLA OLD_HDD**

In [62]:
old.head() # Miramos qué aspecto tienen los datos del dataframe de "old_HDD".

Unnamed: 0,first_name,last_name,title,release_year,category_id
0,PENELOPE,GUINESS,ACADEMY DINOSAUR,2006,6
1,PENELOPE,GUINESS,ANACONDA CONFESSIONS,2006,2
2,PENELOPE,GUINESS,ANGELS LIFE,2006,13
3,PENELOPE,GUINESS,BULWORTH COMMANDMENTS,2006,10
4,PENELOPE,GUINESS,CHEAPER CLYDE,2006,14


In [63]:
old.shape # Tenemos 1.000 filas y 5 columnas.

(1000, 5)

In [64]:
old.info (memory_usage = 'deep') # Observamos los Dtype de cada una de las columnas.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   first_name    1000 non-null   object
 1   last_name     1000 non-null   object
 2   title         1000 non-null   object
 3   release_year  1000 non-null   int64 
 4   category_id   1000 non-null   int64 
dtypes: int64(2), object(3)
memory usage: 207.6 KB


In [65]:
old.columns = old.columns.str.lower().str.strip().str.replace(" ", "_") # Vamos ahora a analizar las columnas; aquí nos
old.columns # aseguramos de que todo está en minúsculas y no hay espacios entre palabras (de haberlos se sutituyen por el
# underscore). A continuación, vamos a ir columna por columna para ver con qué nos encontramos.

Index(['first_name', 'last_name', 'title', 'release_year', 'category_id'], dtype='object')

In [66]:
nan_cols = old.isna().sum() # No tenemos elementos nulos.

nan_cols[nan_cols>0]

Series([], dtype: int64)

In [67]:
old.first_name.value_counts().head() # Tenemos nombres de actores y actrices repetidos.

SANDRA    56
VAL       35
UMA       35
JULIA     33
RIP       33
Name: first_name, dtype: int64

In [68]:
old.last_name.value_counts().head() # También apellidos.

OLIVIER    53
PECK       43
KILMER     37
BOLGER     35
WOOD       35
Name: last_name, dtype: int64

In [69]:
old.title.value_counts().head() # Y títulos.

BOONDOCK BALLROOM     6
FLASH WARS            5
STRANGER STRANGERS    5
OKLAHOMA JUMANJI      5
CHITTY LOCK           5
Name: title, dtype: int64

In [70]:
 subset = old[['first_name', 'last_name', 'title']] # En este subset, podemos ver que no hay registros duplicados.

subset.duplicated().any()

False

In [71]:
old.release_year.value_counts().head() # Mismo año de lanzamiento para todos los títulos de esta tabla (2006).

2006    1000
Name: release_year, dtype: int64

In [72]:
old.category_id.value_counts().head() # Tenemos distintos tipos de categoría en las películas de esta tabla.

15    79
1     77
2     75
7     74
13    73
Name: category_id, dtype: int64

**TABLA RENTAL**

In [73]:
ren.head() # Miramos qué aspecto tienen los datos del dataframe de "rental".

Unnamed: 0,rental_id,rental_date,inventory_id,customer_id,return_date,staff_id,last_update
0,1,2005-05-24 22:53:30,367,130,2005-05-26 22:04:30,1,2006-02-15 21:30:53
1,2,2005-05-24 22:54:33,1525,459,2005-05-28 19:40:33,1,2006-02-15 21:30:53
2,3,2005-05-24 23:03:39,1711,408,2005-06-01 22:12:39,1,2006-02-15 21:30:53
3,4,2005-05-24 23:04:41,2452,333,2005-06-03 01:43:41,2,2006-02-15 21:30:53
4,5,2005-05-24 23:05:21,2079,222,2005-06-02 04:33:21,1,2006-02-15 21:30:53


In [74]:
ren.shape # Tenemos 1.000 filas y 7 columnas.

(1000, 7)

In [75]:
ren.info(memory_usage = 'deep') # Observamos los Dtype de cada una de las columnas.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   rental_id     1000 non-null   int64 
 1   rental_date   1000 non-null   object
 2   inventory_id  1000 non-null   int64 
 3   customer_id   1000 non-null   int64 
 4   return_date   1000 non-null   object
 5   staff_id      1000 non-null   int64 
 6   last_update   1000 non-null   object
dtypes: int64(4), object(3)
memory usage: 254.0 KB


In [76]:
ren.columns = ren.columns.str.lower().str.strip().str.replace(" ", "_") # Vamos ahora a analizar las columnas; aquí nos
ren.columns # aseguramos de que todo está en minúsculas y no hay espacios entre palabras (de haberlos se sutituyen por el
# underscore). A continuación, vamos a ir columna por columna para ver con qué nos encontramos.

Index(['rental_id', 'rental_date', 'inventory_id', 'customer_id',
       'return_date', 'staff_id', 'last_update'],
      dtype='object')

In [77]:
nan_cols = ren.isna().sum() # No tenemos elementos nulos.

nan_cols[nan_cols>0]

Series([], dtype: int64)

In [78]:
ren.rental_id.value_counts().head()

1      1
673    1
660    1
661    1
662    1
Name: rental_id, dtype: int64

In [79]:
ren.rental_id.is_monotonic_increasing

True

In [80]:
ren.rental_date.value_counts().head() # Tenemos distintas fechas de alquiler (sólo hay una fecha repetida).

2005-05-30 14:47:31    2
2005-05-28 22:07:30    1
2005-05-28 20:53:31    1
2005-05-28 21:01:25    1
2005-05-28 21:09:31    1
Name: rental_date, dtype: int64

In [81]:
ren.inventory_id.value_counts().head() # Los inventory_id de antes iban de 1 a 1.000, aquí tenemos algunos de esos
# registros y otros. Eso es porque en inventory_id teníamos un inventario de películas que iban en orden alfabético de la A
# a la D (es decir, teníamos un inventario parcial, incompleto) y aquí tenemos otras películas también que empiezan por
# otras letras (aunque no disponemos de los títulos).

367     1
1769    1
1414    1
2247    1
2968    1
Name: inventory_id, dtype: int64

In [82]:
ren.customer_id.value_counts().head() # Tenemos distintos clientes que han alquilado películas; nos faltaría una tabla de
# clientes para tener información detallada sobre los mismos.

197    8
245    6
596    6
274    6
371    6
Name: customer_id, dtype: int64

In [83]:
ren.return_date.value_counts().head() # Distintas fechas de devolución (excepto dos registros, que coinciden).

2005-06-05 15:16:54    2
2005-06-03 06:05:10    2
2005-06-06 06:23:00    2
2005-05-26 22:04:30    1
2005-05-30 15:26:31    1
Name: return_date, dtype: int64

In [84]:
ren.staff_id.value_counts().head() # Sin más información que ésta, podemos conjeturar que hay un vendedor por cada tienda.

2    521
1    479
Name: staff_id, dtype: int64

In [85]:
ren.last_update.value_counts().head() # Lo mismo en todos los registros.

2006-02-15 21:30:53    1000
Name: last_update, dtype: int64

In [86]:
subset = ren[['rental_date', 'inventory_id', 'customer_id', 'return_date']] # Nos devuelve un False el subset, no hay
# registros duplicados.

subset.duplicated().any()

False

_**LIMPIEZA DE DATOS**_

Con lo que hemos visto hasta ahora en cada tabla, vamos a empezar a tomar decisiones para ver con cuál información nos quedamos y con cuál no. Haremos también una serie de transformaciones para, a posteriori, poder crear una base de datos con SQL desde el Workbench.

**ACTOR, CATEGORY, OLD_HDD Y FILMS**

Nuestra tabla de actor la vamos a desechar, luego de Old_HDD extraeremos los actores para introducirlos en la tabla Films y, por último, empleando Category y Old_HDD extraeremos las categorías correspondientes a las distintas películas para introducirlas en una nueva columna en Films.

In [87]:
fil['actors'] = '' # Creamos una columna vacía
def actors(peli): # Creamos función que saque los actores de esa película
    act = []
    for i in old.index:
        if old.title[i] == peli:
            name = old.first_name[i] + ' ' + old.last_name[i]
            act.append(name)
    return ', '.join(act)

In [88]:
#los introducimos por cada fila
for i in fil.index:
    fil['actors'][i] = actors(fil.title[i])

In [89]:
fil['category'] = '' # Creamos columna vacía.
def categ(peli):  # Creamos función que saque la categoría de esa película.
    categor = ''
    for i in old.index:
        if old.title[i] == peli:
            categor = cat[cat.category_id == old.category_id[i]].name.iloc[0]
            return categor
        
#Introducimos la categoría en cada fila
for i in fil.index:
    fil['category'][i] = categ(fil.title[i])

In [90]:
fil.category.fillna('', inplace=True) # Rellenamos los valores vacíos de category con '' (nada).

In [91]:
# Hacemos varios cambios en la tabla fil.
fil.rename({'language_id': 'language'}, axis=1, inplace=True) # Cambiamos el nombre de la columna language
fil.rename({'original_language_id': 'original_language'}, axis=1, inplace=True) 
# Cambiamos el nombre de la columna original language.
fil.language = 'English' # Que todos los language sean English.
fil.release_year = '' # Vaciamos release year porque el año de lanzamiento es el mismo.
fil.original_language = '' # Vaciamos original language porque son todo nulos y querremos llenarla en el futuro.
fil = fil.drop('last_update', axis = 1) # Eliminamos last_update.

In [92]:
fil.head()

Unnamed: 0,film_id,title,description,release_year,language,original_language,rental_duration,rental_rate,length,replacement_cost,rating,special_features,actors,category
0,1,ACADEMY DINOSAUR,A Epic Drama of a Feminist And a Mad Scientist who must Battle a Teacher in The Canadian Rockies,,English,,6,0.99,86,20.99,PG,"Deleted Scenes,Behind the Scenes","PENELOPE GUINESS, CHRISTIAN GABLE, LUCILLE TRACY, SANDRA PECK",Documentary
1,2,ACE GOLDFINGER,A Astounding Epistle of a Database Administrator And a Explorer who must Find a Car in Ancient C...,,English,,3,4.99,48,12.99,G,"Trailers,Deleted Scenes",BOB FAWCETT,Horror
2,3,ADAPTATION HOLES,A Astounding Reflection of a Lumberjack And a Car who must Sink a Lumberjack in A Baloon Factory,,English,,7,2.99,50,18.99,NC-17,"Trailers,Deleted Scenes","NICK WAHLBERG, BOB FAWCETT, CAMERON STREEP",Documentary
3,4,AFFAIR PREJUDICE,A Fanciful Documentary of a Frisbee And a Lumberjack who must Chase a Monkey in A Shark Tank,,English,,5,2.99,117,26.99,G,"Commentaries,Behind the Scenes",,
4,5,AFRICAN EGG,A Fast-Paced Documentary of a Pastry Chef And a Dentist who must Pursue a Forensic Psychologist ...,,English,,6,2.99,130,22.99,G,Deleted Scenes,,


_**INVENTORY**_

In [93]:
# Eliminamos la columna 'last_update'
inv = inv.drop(['last_update'], axis=1)

In [94]:
# Así queda la tabla inv.
inv.tail()

Unnamed: 0,inventory_id,film_id,store_id
995,996,222,2
996,997,222,2
997,998,222,2
998,999,223,2
999,1000,223,2


_**RENTAL**_

In [95]:
# Eliminamos la columna 'last_uptdate' de la tabla ren.

ren = ren.drop(['last_update'], axis=1)

ren = ren[ren['inventory_id'].isin(inv['inventory_id'])]

In [96]:
# Así queda la tabla ren.
ren.tail()

Unnamed: 0,rental_id,rental_date,inventory_id,customer_id,return_date,staff_id
970,972,2005-05-30 20:21:07,2,411,2005-06-06 00:36:07,1
976,978,2005-05-30 21:30:52,407,154,2005-06-07 16:22:52,1
981,983,2005-05-30 22:15:51,63,115,2005-06-02 22:56:51,1
985,987,2005-05-30 22:59:12,390,11,2005-06-07 20:56:12,1
993,995,2005-05-31 00:06:02,17,150,2005-06-06 02:30:02,2


In [97]:
ren.customer_id.max()

596

_**CUSTOMER**_

In [98]:
# Creamos el dataframe 'cus' con los ids de todos los clientes ya existentes.
# Añadimos columnas vacías para rellenar en el futuro.
cus = pd.DataFrame({'customer_id': range(1, 598)})
cus['name'] = ''
cus['lastname'] = ''
cus['telephone'] = ''
cus['mail'] = ''

In [99]:
cus.head()

Unnamed: 0,customer_id,name,lastname,telephone,mail
0,1,,,,
1,2,,,,
2,3,,,,
3,4,,,,
4,5,,,,


**CARGA DE DATOS**

In [100]:
%pip install pymysql

Note: you may need to restart the kernel to use updated packages.


In [101]:
from sqlalchemy import create_engine

In [102]:
# Cargamos archivo de contraseñas

with open('password.txt', 'r') as file:
    
    passwd = file.read().split('\n')[0]

In [103]:
str_conn = f'mysql+pymysql://root:{passwd}@localhost:3306/blockbuster'
cursor = create_engine(str_conn)

fil.to_sql('films',con=cursor, if_exists='append', index=False)
cus.to_sql('customer',con=cursor, if_exists='append', index=False)
inv.to_sql('inventory',con=cursor, if_exists='append', index=False)
ren.to_sql('rental',con=cursor, if_exists='append', index=False)

212