# Cineflix Rentals

Tablas a importar:

1. TABLA ACTOR
2. TABLA CATEGORY
3. TABLA FILM
4. TABLA INVENTORY
5. TABLA LANGUAGE
6. TABLA OLD-HDD
7. TABLA RENTAL

Nueva tabla:

8. TABLA CUSTOMER
9. TABLA STAFF


Importo la biblioteca que me interesa y configuro mis opciones de visualización para mostrar todas las columnas y filas de mi conjunto de datos.

In [1]:
import pandas as pd
pd.set_option('display.max_columns', None) 
pd.set_option('display.max_rows', None)

### TABLA ACTOR

Importo y estudio la estructura + la información que me da esta tabla para la limpieza de datos:

In [2]:
actor_original= pd.read_csv('../data/actor.csv')

In [3]:
actor= actor_original.copy() #.copy del DF original
actor.head()

Unnamed: 0,actor_id,first_name,last_name,last_update
0,1,PENELOPE,GUINESS,2006-02-15 04:34:33
1,2,NICK,WAHLBERG,2006-02-15 04:34:33
2,3,ED,CHASE,2006-02-15 04:34:33
3,4,JENNIFER,DAVIS,2006-02-15 04:34:33
4,5,JOHNNY,LOLLOBRIGIDA,2006-02-15 04:34:33


In [4]:
actor.shape #consulto dimensiones

(200, 4)

In [5]:
actor.dtypes #compruebo los tipos de datos

actor_id        int64
first_name     object
last_name      object
last_update    object
dtype: object

In [6]:
actor.columns #veo las columnas

Index(['actor_id', 'first_name', 'last_name', 'last_update'], dtype='object')

In [7]:
actor= actor.drop_duplicates() #borro duplicados

A continuación, estudio que todas las columnas no tengan nulos:

In [8]:
actor.isnull().sum()

actor_id       0
first_name     0
last_name      0
last_update    0
dtype: int64

In [9]:
#Estandarizo la tabla: transformo el nombre y apellido para que la primera letra sea mayúscula y el resto minúscula.

actor['first_name']=actor['first_name'].str.capitalize()
actor['last_name']=actor['last_name'].str.capitalize()

Al visualizar la tabla, observo que la columna 'last_update' contiene valores constantes (es decir, todos los registros tienen la misma fecha y hora, "2006-02-15 04:34:33"). Dado que no proporciona información variada o relevante para mi análisis de datos, su presencia en el DataFrame puede ocupar espacio innecesario y no contribuir de manera significativa al estudio de los datos.

In [10]:
actor.drop(columns=['last_update'], inplace=True)

In [11]:
actor.head()

Unnamed: 0,actor_id,first_name,last_name
0,1,Penelope,Guiness
1,2,Nick,Wahlberg
2,3,Ed,Chase
3,4,Jennifer,Davis
4,5,Johnny,Lollobrigida


### TABLA CATEGORY

Estudio la siguiente tabla que es 'category':

In [12]:
category_original= pd.read_csv('../data/category.csv')

In [13]:
category= category_original.copy() #.copy() del DF original
category.head()

Unnamed: 0,category_id,name,last_update
0,1,Action,2006-02-15 04:46:27
1,2,Animation,2006-02-15 04:46:27
2,3,Children,2006-02-15 04:46:27
3,4,Classics,2006-02-15 04:46:27
4,5,Comedy,2006-02-15 04:46:27


In [14]:
category.shape #consulto dimensiones

(16, 3)

In [15]:
category= category.drop_duplicates() #borro duplicados

In [16]:
category.isnull().sum() #verifico si hay nulos

category_id    0
name           0
last_update    0
dtype: int64

In [17]:
category.dtypes #compruebo los tipos de datos

category_id     int64
name           object
last_update    object
dtype: object

Dado que, al observar la tabla, noto que "last_update" contiene valores constantes (todos los registros tienen la misma fecha y hora, "2006-02-15 04:46:27") como la tabla de ACTOR, opto por eliminar esta columna en la tabla de 'CATEGORY' y continuo verificando qué este estandarizada.

In [18]:
category.drop(columns=['last_update'], inplace=True)

## Tabla film

Importo y estudio la siguiente tabla para la limpieza de datos:

In [19]:
film_original=pd.read_csv('../data/film.csv')

In [20]:
film=film_original.copy() #.copy() del DF original
film.head()

Unnamed: 0,film_id,title,description,release_year,language_id,original_language_id,rental_duration,rental_rate,length,replacement_cost,rating,special_features,last_update
0,1,ACADEMY DINOSAUR,A Epic Drama of a Feminist And a Mad Scientist...,2006,1,,6,0.99,86,20.99,PG,"Deleted Scenes,Behind the Scenes",2006-02-15 05:03:42
1,2,ACE GOLDFINGER,A Astounding Epistle of a Database Administrat...,2006,1,,3,4.99,48,12.99,G,"Trailers,Deleted Scenes",2006-02-15 05:03:42
2,3,ADAPTATION HOLES,A Astounding Reflection of a Lumberjack And a ...,2006,1,,7,2.99,50,18.99,NC-17,"Trailers,Deleted Scenes",2006-02-15 05:03:42
3,4,AFFAIR PREJUDICE,A Fanciful Documentary of a Frisbee And a Lumb...,2006,1,,5,2.99,117,26.99,G,"Commentaries,Behind the Scenes",2006-02-15 05:03:42
4,5,AFRICAN EGG,A Fast-Paced Documentary of a Pastry Chef And ...,2006,1,,6,2.99,130,22.99,G,Deleted Scenes,2006-02-15 05:03:42


In [21]:
film.shape #cosnulto dimensiones

(1000, 13)

In [22]:
film= film.drop_duplicates() #borro duplicados

In [23]:
film.columns

Index(['film_id', 'title', 'description', 'release_year', 'language_id',
       'original_language_id', 'rental_duration', 'rental_rate', 'length',
       'replacement_cost', 'rating', 'special_features', 'last_update'],
      dtype='object')

In [24]:
film.dtypes

film_id                   int64
title                    object
description              object
release_year              int64
language_id               int64
original_language_id    float64
rental_duration           int64
rental_rate             float64
length                    int64
replacement_cost        float64
rating                   object
special_features         object
last_update              object
dtype: object

La columna 'original_language_id' está completamente llena de valores nulos y no tengo información sobre el idioma original en mi conjunto de datos, por lo que, no es posible establecer una relación directa con la columna language_id. En este caso, considero eliminarla para simplificar la estructura de datos.

In [25]:
film.drop(columns=['original_language_id'],inplace=True)

Además, observo que en la columna 'realase_year' tienen el mismo valor: 2006, pero decido no eliminarla de momento por si más adelante la necesito para la relación.La columna de 'last_update' también la elimino como en las anteriores tablas.

In [26]:
film.drop(columns=['last_update'],inplace=True)

In [27]:
film[['language_id']].value_counts() #verifico si 1 es un valor constante. Entonces me dice que una película solo puede tener un idioma.

language_id
1              1000
dtype: int64

In [28]:
#Estandarizo la columna de 'title'
film['title']=film['title'].str.capitalize()

## Tabla inventory

Continuo con la tabla 'INVENTORY':

In [29]:
inventory_original= pd.read_csv('../data/inventory.csv')

In [30]:
inventory=inventory_original.copy()
inventory.head()

Unnamed: 0,inventory_id,film_id,store_id,last_update
0,1,1,1,2006-02-15 05:09:17
1,2,1,1,2006-02-15 05:09:17
2,3,1,1,2006-02-15 05:09:17
3,4,1,1,2006-02-15 05:09:17
4,5,1,2,2006-02-15 05:09:17


In [31]:
inventory.shape

(1000, 4)

In [32]:
inventory.dtypes

inventory_id     int64
film_id          int64
store_id         int64
last_update     object
dtype: object

In [33]:
#borro duplicados
inventory= inventory.drop_duplicates()

In [34]:
inventory.isnull().sum()

inventory_id    0
film_id         0
store_id        0
last_update     0
dtype: int64

Con esta columna ya voy sabiendo que va a ser relación con la tabla 'film'. Una vez confirmado esto, procedo a eliminar la columna de 'last_update' ídem a las anteriores tablas.

In [35]:
inventory.drop(columns=['last_update'], inplace=True)

## Tabla language

In [36]:
language_original=pd.read_csv('../data/language.csv')

In [37]:
language=language_original.copy()
language.head()

Unnamed: 0,language_id,name,last_update
0,1,English,2006-02-15 05:02:19
1,2,Italian,2006-02-15 05:02:19
2,3,Japanese,2006-02-15 05:02:19
3,4,Mandarin,2006-02-15 05:02:19
4,5,French,2006-02-15 05:02:19


In [38]:
language.isnull().sum() #verifico si hay nulos

language_id    0
name           0
last_update    0
dtype: int64

In [39]:
language.dtypes

language_id     int64
name           object
last_update    object
dtype: object

In [40]:
language.shape

(6, 3)

In [41]:
#borro duplicados
language= language.drop_duplicates()

In [42]:
#elimino la columna constante 'last_update'
language.drop(columns=['last_update'],inplace=True)

In [43]:
language.columns

Index(['language_id', 'name'], dtype='object')

In [44]:
language.value_counts() #estudio los valores unicos en la columna 'language'

language_id  name    
1            English     1
2            Italian     1
3            Japanese    1
4            Mandarin    1
5            French      1
6            German      1
dtype: int64

## Tabla old_HDD

In [45]:
old_HDD_original=pd.read_csv('../data/old_HDD.csv')

In [46]:
old_HDD=old_HDD_original.copy()
old_HDD.head()

Unnamed: 0,first_name,last_name,title,release_year,category_id
0,PENELOPE,GUINESS,ACADEMY DINOSAUR,2006,6
1,PENELOPE,GUINESS,ANACONDA CONFESSIONS,2006,2
2,PENELOPE,GUINESS,ANGELS LIFE,2006,13
3,PENELOPE,GUINESS,BULWORTH COMMANDMENTS,2006,10
4,PENELOPE,GUINESS,CHEAPER CLYDE,2006,14


In [47]:
old_HDD.dtypes

first_name      object
last_name       object
title           object
release_year     int64
category_id      int64
dtype: object

In [48]:
#borro duplicados

old_HDD = old_HDD.drop_duplicates()

In [49]:
#estandariza las columnas 'fist_name' y 'last_name'
old_HDD['first_name']=old_HDD['first_name'].str.capitalize()
old_HDD['last_name']=old_HDD['last_name'].str.capitalize()
old_HDD['title']=old_HDD['title'].str.capitalize()

En este punto, observo que puedo eliminar esta tabla y agregar la columna "category_id" a la tabla "film" para simplificar los datos y mejorar la eficiencia de mis consultas, ya que la información en las otras columnas está duplicada en otras tablas.

## Tabla rental

Limpio el último CSV:

In [50]:
rental_original=pd.read_csv('../data/rental.csv')

In [51]:
rental=rental_original.copy()
rental.head()

Unnamed: 0,rental_id,rental_date,inventory_id,customer_id,return_date,staff_id,last_update
0,1,2005-05-24 22:53:30,367,130,2005-05-26 22:04:30,1,2006-02-15 21:30:53
1,2,2005-05-24 22:54:33,1525,459,2005-05-28 19:40:33,1,2006-02-15 21:30:53
2,3,2005-05-24 23:03:39,1711,408,2005-06-01 22:12:39,1,2006-02-15 21:30:53
3,4,2005-05-24 23:04:41,2452,333,2005-06-03 01:43:41,2,2006-02-15 21:30:53
4,5,2005-05-24 23:05:21,2079,222,2005-06-02 04:33:21,1,2006-02-15 21:30:53


In [52]:
#borro duplicados
rental= rental.drop_duplicates()

In [53]:
#elimino la columna 'last_update'
rental.drop(columns=['last_update'],inplace=True)

In [54]:
rental.dtypes #Consulto los tipos de datos de este DF

rental_id        int64
rental_date     object
inventory_id     int64
customer_id      int64
return_date     object
staff_id         int64
dtype: object

Este estudio me lleva a concluir que desglosar la tabla de alquileres por año y fecha es una idea interesante, porque me permitirá analizar los patrones de alquiler a lo largo del tiempo de manera más detallada. Además, al hacer esta descomposición, podré convertir las columnas 'rental_date' y 'return_date' de objetos a objetos datetime. Esto es relevante porque me ayudará a realizar análisis temporales más precisos y útiles.

In [55]:
# Convierto las columnas 'rental_date' y 'return_date' a tipo datetime
rental['rental_date'] = pd.to_datetime(rental['rental_date'])
rental['return_date'] = pd.to_datetime(rental['return_date'])

In [56]:
# Creo una columna 'rental_year' para el año de alquiler
rental['rental_year'] = rental['rental_date'].dt.year

In [57]:
# Creo una columna 'rental_date_only' para la fecha de alquiler sin la hora
rental['rental_date_only'] = rental['rental_date'].dt.date

In [58]:
# Creo una columna 'return_year' para el año de devolución
rental['return_year'] = rental['return_date'].dt.year

In [59]:
# Creo una columna 'return_date_only' para la fecha de devolución sin la hora
rental['return_date_only'] = rental['return_date'].dt.date

In [60]:
rental.head()

Unnamed: 0,rental_id,rental_date,inventory_id,customer_id,return_date,staff_id,rental_year,rental_date_only,return_year,return_date_only
0,1,2005-05-24 22:53:30,367,130,2005-05-26 22:04:30,1,2005,2005-05-24,2005,2005-05-26
1,2,2005-05-24 22:54:33,1525,459,2005-05-28 19:40:33,1,2005,2005-05-24,2005,2005-05-28
2,3,2005-05-24 23:03:39,1711,408,2005-06-01 22:12:39,1,2005,2005-05-24,2005,2005-06-01
3,4,2005-05-24 23:04:41,2452,333,2005-06-03 01:43:41,2,2005,2005-05-24,2005,2005-06-03
4,5,2005-05-24 23:05:21,2079,222,2005-06-02 04:33:21,1,2005,2005-05-24,2005,2005-06-02


In [61]:
# Ahora puedo realizar análisis basados en año y fecha
# Por ejemplo, contar alquileres por año
rentals_by_year = rental['rental_year'].value_counts().sort_index()
rentals_by_year

2005    1000
Name: rental_year, dtype: int64

In [62]:
# O contar alquileres por fecha
rentals_by_date = rental['rental_date_only'].value_counts().sort_index()
rentals_by_date

2005-05-24      8
2005-05-25    137
2005-05-26    174
2005-05-27    166
2005-05-28    196
2005-05-29    154
2005-05-30    158
2005-05-31      7
Name: rental_date_only, dtype: int64

## Relación tablas

Llegado a este punto, considero que agregar columnas adicionales a mis DF's puede ser muy útil para facilitar la relación entre ellos y así preparar los datos antes de exportarlos a SQL.

### Creación nuevas tablas

##### Tabla CUSTOMER

Como objetivo de mi base de datos, me parece interesante establecer una estrutura básica para futuras transacciones de alquiler. Por eso, he decidido crear una nueva tabla denominada "CUSTOMER". Considero que es esencial para registrar, gestionar y mantener información de los clientes, lo que me permitirá proporcionar un servicio personalizado, realizar análisis de negocios y cumplir con regulaciones legales y de privacidad. Además, facilitará la comunicación con los clientes y la administración de cuentas y facturación.

Como no cuento inicialmente con datos específicos para crear la tabla de "CUSTOMER" pero deseo establecer una estructura básica para futuras transacciones de alquiler, voy a definir la tabla "CUSTOMER" con las columnas proporcionadasen otras tablas. Usaré '-' para llenar datos que aun no están en mi poder así podré tratarlos temporalmente hasta que tenga datos reales.

In [69]:
# Selecciono las columnas relevantes para la tabla "CUSTOMER" y borro duplicados
customer= rental[['customer_id']].drop_duplicates()

# Agrego nuevas columnas y las lleno con '-'
customer['first_name'] = '-'
customer['last_name'] = '-'
customer['email'] = '-'
customer['phone'] = '-'
customer['address'] = '-'

# Restablecer el índice
customer.reset_index(drop=True, inplace=True)

'''
Esta tabla "CUSTOMER" inicial es un punto de partida y se 
debe actualizar con información real de los clientes a medida 
que esté disponible.
'''

customer.head()


Unnamed: 0,customer_id,first_name,last_name,email,phone,address
0,130,-,-,-,-,-
1,459,-,-,-,-,-
2,408,-,-,-,-,-
3,333,-,-,-,-,-
4,222,-,-,-,-,-


Esto me permitirá crear la estructura de la tabla "CUSTOMER" en la base de datos y estar preparada para registrar información de clientes cuando esté disponible. A medida que reciba datos reales, simplemente actualizo la tabla con los valores adecuados.

##### Tabla STAFF

Por otro lado, considero interesante crear una tabla de "STAFF" basada en la tabla "RENTAL" para obtener información relevante sobre el personal involucrado en las transacciones de alquiler. La columna "staff_id" en la tabla "RENTAL" me proporciona identificadores únicos del personal que procesó las transacciones.

Creando una tabla "STAFF" con esta información inicial, que incluye identificadores, nombres, apellidos, correos electrónicos y números de teléfono. A medida que recopile más datos sobre el personal, puedo actualizar esta tabla. 

In [74]:
#extraigo valores unicos de la columna 'staff_id' de DF rental y los asigno a mi nueva columna 'staff_id' del nuevo DF.
staff= pd.DataFrame({'staff_id':rental['staff_id'].unique()})

In [75]:
staff['first_name']= '-'
staff['last_name']= '-'
staff['email']='-'
staff['phone']='-'

In [76]:
staff.reset_index(drop=True, inplace=True)

In [77]:
staff

Unnamed: 0,staff_id,first_name,last_name,email,phone
0,1,-,-,-,-
1,2,-,-,-,-


 # Integridad de PK y FK

Me aseguro de que las claves primarias sean únicas en su tabla correspondiente y que las claves foráneas coincidan con las claves primarias de las tablas relacionadas. Esto me garantizará la integridad referencial tabla por tabla.

Estudiando las tablas veo que es muy interesante omitir la tabla 'old_HDD', por lo que el unico valor que me interesa 'category_id' lo añado a la columna film_ para poder relacionarlas todas correctamente en SQL.

In [78]:
film_actor = pd.merge(actor[['actor_id']], film[['film_id']], how='cross')
film_actor[:10]

Unnamed: 0,actor_id,film_id
0,1,1
1,1,2
2,1,3
3,1,4
4,1,5
5,1,6
6,1,7
7,1,8
8,1,9
9,1,10


In [79]:
film['category_id'] = old_HDD['category_id']

In [81]:
film.head()

Unnamed: 0,film_id,title,description,release_year,language_id,rental_duration,rental_rate,length,replacement_cost,rating,special_features,category_id
0,1,Academy dinosaur,A Epic Drama of a Feminist And a Mad Scientist...,2006,1,6,0.99,86,20.99,PG,"Deleted Scenes,Behind the Scenes",6
1,2,Ace goldfinger,A Astounding Epistle of a Database Administrat...,2006,1,3,4.99,48,12.99,G,"Trailers,Deleted Scenes",2
2,3,Adaptation holes,A Astounding Reflection of a Lumberjack And a ...,2006,1,7,2.99,50,18.99,NC-17,"Trailers,Deleted Scenes",13
3,4,Affair prejudice,A Fanciful Documentary of a Frisbee And a Lumb...,2006,1,5,2.99,117,26.99,G,"Commentaries,Behind the Scenes",10
4,5,African egg,A Fast-Paced Documentary of a Pastry Chef And ...,2006,1,6,2.99,130,22.99,G,Deleted Scenes,14


In [82]:
film_actor.shape

(200000, 2)

Observo que he generado una nueva tabla pero con 200 000 filas. Debido a su tamaño, podría ser difícil de manejar o innecesariamente lenta para cierta operaciones. Por lo que ejecuto el sigueinte código para reducir el tamaño a 10 000 filas para facilitar el manejo.

In [83]:
#tomo una muestra aleatoria en las fila de este DF y con random_state= proporciono una semilla para la generación de num aleatorios.
film_actor = film_actor.sample(n=10000, random_state=1)

In [84]:
film_actor.shape

(10000, 2)

##### Relaciones en cada tabla:

- Tabla actor_:

Relación Many-to-Many con la tabla 'film_' debido a que un actor puede aparecer en muchas películas y en una película pueden aparecer varios actores

- Tabla category_:

La tabla category_ mantiene una relación One-to-Many con la tabla film_, ya que una categoría puede tener muchas películas. 

- Tabla customer_:

En esta tabla la relación es One-to-One. Cada registro en la tabla "rental" está asociado a un cliente específico, y cada cliente realiza una serie de alquileres.

- Tabla language_:

Existe una relación One-to-Many con la tabla film_ debido a que un idioma puede ser utilizado en muchas películas. 

- Tabla film_:

Relaciones Many-to-One con la tabla language_ y category_, ya que muchas películas pueden utilizar el mismo idioma o pertenecer a la misma categoría.

Ídem a la justificación con actor_.

- Tabla inventory_:

Mantiene una relación Many-to-One con la tabla film_, ya que muchas copias del mismo título de película pueden estar en inventario en diferentes tiendas.

- Tabla staff_:

Similar a la tabla de 'customer_' , es una relación 'One-to-One', ya que cada transacción es gestionada por un miembro del personal.

- Tabla rental_:

Tiene relaciones Many-to-One con las tablas inventory_, customer_, y staff_, lo que permite rastrear los alquileres en función del inventario, cliente y personal involucrado.

# Exportar datos

A continuación, guardar los datos en archivos separados y ubicaciones específicas.

In [None]:
actor.to_csv('../data/actor_.csv', index=False)
category.to_csv('../data/category_.csv', index=False)
film.to_csv('../data/film_.csv', index=False)
film_actor.to_csv('../data/film_actor.csv', index=False)
language.to_csv('../data/language_.csv', index=False)
inventory.to_csv('../data/inventory_.csv', index=False)
rental.to_csv('../data/rental_.csv', index=False)
customer.to_csv('../data/customer_.csv', index=False)
staff.to_csv('../data/staff_.csv', index=False)