# Preparación de las tablas según el ERD

Por último, organizaremos un poco más las tablas según el ERD que hemos creado en MySQL:

![Image Alt Text](../images/ERD.png)

In [1]:
# Librerías

import numpy as np
import pandas as pd
import sys

# Funciones del archivo fun.py

sys.path.append('/home/marta/Desktop/IH/Lets_blockbust/SCC')
from fun import firstglance

In [2]:
# Importamos todas las tablas:

actor = pd.read_csv('../data/actor_clean.csv')
category = pd.read_csv('../data/category_clean.csv')
film = pd.read_csv('../data/film_clean.csv')
language = pd.read_csv('../data/language_clean.csv') 
actorfilm = pd.read_csv('../data/actorfilm_clean.csv')
rental = pd.read_csv('../data/rental_clean.csv') 
inventory = pd.read_csv('../data/inventory_clean.csv')
updates = pd.read_csv('../data/updates_clean.csv')
staff = pd.read_csv('../data/staff_clean.csv')
customer = pd.read_csv('../data/customers_clean.csv')

En el ERD se han cambiado algunas cosas de cara a mejorar las interconexiones entre tablas. Los aspectos principales que faltan por cambiar son los siguientes:

+ Crear una tabla de conexión many-to-many entre category y film, por si una película pertenece a varios géneros
+ Quitar la columna de language de la tabla film, y dejar sólo la de original_language como foreign key
+ Poner la columna language en el inventario, por si hay una misma película en varios idiomas
+ Quitar la columna film_id de la tabla rental, y dejar sólo el inventory_id ya que esto ya identifica la película
+ Cambiar algunos nombres de columnas (los ids) para que coincidan con los del ERD

In [3]:
# Vamos a ello. Empecemos por crear la tabla de conexión entre category y film.
# La llenamos con los matches de las películas que conocemos, que ya están especificados en la tabla film:

catfilm = pd.DataFrame(data = {'film_id':film.film_id,'category_id':film.category_id}) # La creamos 

catfilm

Unnamed: 0,film_id,category_id
0,1,6
1,2,11
2,3,6
3,4,-1
4,5,-1
...,...,...
995,996,6
996,997,12
997,998,11
998,999,-1


In [4]:
# Ahora ya podemos eliminar la columna category_id de film, ya que ambas tablas se conectarán a través
# de esta nueva tabla mixta.

film.drop(columns = 'category_id', inplace = True)

# Quitamos también la columna language, que pondremos en la tabla de inventory:

film.drop(columns = 'language_id', inplace = True)
inventory['language_id'] = 1 # De momento asumimos que todas las inventariadas estaban en inglés, según lo que
# había en la tabla film

In [5]:
# Quitamos ahora la columna film_id de rental y dejamos solo inventory_id como identificador:

rental.drop(columns = 'film_id', inplace = True)

In [6]:
# Por último, cambiamos los nombres de los ids de cada tabla para identificarlos bien como primary keys:

actor.columns = ['id','name']
inventory.columns = ['id','film_id','language_id']
rental.columns = ['id','customer_id','inventory_id','staff_id','rental_time','rental_date','return_date']
film_names = list(film.columns)
film_names[0] = 'id'
film.columns = film_names
cust_names = list(customer.columns)
cust_names[0] = 'id'
customer.columns = cust_names
staff_names = list(staff.columns)
staff_names[0] = 'id'
staff.columns = staff_names

In [7]:
# Guardamos todo en csv para migrar a SQL:

actor.to_csv('../data/actor_ready.csv', index = False)
category.to_csv('../data/category_ready.csv', index = False)
film.to_csv('../data/film_ready.csv', index = False)
language.to_csv('../data/language_ready.csv', index = False) 
actorfilm.to_csv('../data/actorfilm_ready.csv', index = False)
rental.to_csv('../data/rental_ready.csv', index = False) 
inventory.to_csv('../data/inventory_ready.csv', index = False)
updates.to_csv('../data/updates_ready.csv', index = False)
staff.to_csv('../data/staff_ready.csv', index = False)
customer.to_csv('../data/customer_ready.csv', index = False)