# **Clean and Upload**

### 1. [Importación y conexión](#imp_con)
   - ##### 1.1 [Importación librerías](#importacion_lib)
   - ##### 1.2 [Conexión DB](#conexion)

### 2. [Limpieza CSV](#clean)
   - ##### 2.1 [Actor](#actor)   
   - ##### 2.2 [Category](#category)   
   - ##### 2.3 [Language](#language)   
   - ##### 2.4 [Old HDD](#old_hdd)
   - ##### 2.5 [Film](#film)
   - ##### 2.6 [Rental](#rental)   
   - ##### 2.7 [Inventory](#inventory)

### 3. [Creación tablas nuevas](#new_tables)
   - ##### 3.1 [Customers](#cust)  
   - ##### 3.2 [Stores](#store)  
   - ##### 3.3 [Employees](#emp)   
   - ##### 3.4 [Copies](#cop)  
   - ##### 3.5 [Actor_Film](#act_film)  
   - ##### 3.6 [Languages_intermedias](#lan_int)  
   - ##### 3.7 [Directors](#dir)  

### 4. [Querys](#querys)
   - ##### 4.1 [Query 1: Películas sin asociación con tabla Actors](#q1)
   - ##### 4.2 [Query 2: Top 5 de clientes que han alquilado más películas](#q2)
   - ##### 4.3 [Query 3: Top 5 de actores/actrices con más películas](#q3)
   - ##### 4.4 [Query 4: Top 5 de películas que ha generado más dinero en alquileres](#q4)
   - ##### 4.5 [Query 5: Creación de nuevas copias](#q5)
   - ##### 4.6 [Query 6: Número de películas por categoría](#q6)
   - ##### 4.7 [Query 7: Número de películas por clasificación de edad](#q7)
   - ##### 4.8 [Query 8: Películas con categoría Unknown](#q8)
   - ##### 4.9 [Query 9: Categoría más alquilada](#q9)
   - ##### 4.10 [Query 10: Categoría más alquilada por cliente](#q10)

## 1 - Importación y conexión <a name="imp_con"/>
***
***

### 1.1 - Importación de librerías <a name="importacion_lib"/>
***

In [3]:
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
from password import *
from src.video_func import *
import warnings
warnings.filterwarnings('ignore')  
pd.set_option('display.max_columns', None) 

### 1.2 - Conexión DB <a name="conexion"/>
---

Tras examinar todos los archivos .CSV ubicados en la carpeta data. Se han evaluado las realaciones entre las distintas tablas, y se ha procedido a crear una base de datos (DB) con las siguientes relaciones siguiendo las siguientes pautas:
- Consideramos que una película puede tener uno o más idiomas (tanto original como el de la copia)
- Una película solo puede tener una categoría
- Una película puede tener muchas copias, pero una copia sólo puede estar en una tienda
- Un empleado sólo puede estar asociado a una tienda
- Un alquiler sólo puede ser creado por un empleado
- Crearemos una tabla de directores aunque esta esté vacía.


Muchos de las tablas que se han creado no tenemos datos para llenarlas. Pero partimos de la base que estamos creando una DB para un video club y que para el correcto desarrollo de su negocio, estas tablas serán cumplimentadas en un futuro. 

Con esto el esquema de la DB es el siguiente:

![DB](../images/DBVC.png)

Establecemos conexión con la DB

In [2]:
str_conn = f'mysql+pymysql://{usuario}:{password}@localhost:3306/Video_Club'
cursor = create_engine(str_conn)

## 2 - Limpieza CSV<a name="clean"/>
---
---

Procederemos a la limpieza de los distintos archivos CSV que tenemos, para luego proceder a incluir todos los datos que tengamos a la DB. Debido a las relaciones expuestas arriba dentro de la DB, tendremos que introducir primero los datos de aquellas tablas que no tengan Foreign Keys.

### 2.1 - Actor <a name="actor"/>
***

In [3]:
act = pd.read_csv('../data/raw/actor.csv')
act.head()

Unnamed: 0,actor_id,first_name,last_name,last_update
0,1,PENELOPE,GUINESS,2006-02-15 04:34:33
1,2,NICK,WAHLBERG,2006-02-15 04:34:33
2,3,ED,CHASE,2006-02-15 04:34:33
3,4,JENNIFER,DAVIS,2006-02-15 04:34:33
4,5,JOHNNY,LOLLOBRIGIDA,2006-02-15 04:34:33


In [4]:
# Tamaño de la tabla
act.shape

(200, 4)

In [5]:
# Revisamos duplicados en nombre y apellido
act[['first_name','last_name']].duplicated().sum()

1

In [6]:
# Eliminamos el registro duplicado, y corregimos índices
act_index = act[act[['first_name','last_name']].duplicated()].index
act = act.drop(index= act_index).reset_index(drop= True)
act['actor_id'] = range(1,act.shape[0]+1) # 

In [7]:
act.last_update.unique()  # Last_update no nos aporta información

array(['2006-02-15 04:34:33'], dtype=object)

In [8]:
act.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 199 entries, 0 to 198
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   actor_id     199 non-null    int64 
 1   first_name   199 non-null    object
 2   last_name    199 non-null    object
 3   last_update  199 non-null    object
dtypes: int64(1), object(3)
memory usage: 6.3+ KB


In [9]:
# cols_info() es una función del módulo video_func ubicado en la carpeta src
cols_info(act)

Unnamed: 0,Col Type,str,int,float==nan,unique,unique %
actor_id,int64,0,199,True,199,100.0
first_name,object,199,0,True,128,64.32
last_name,object,199,0,True,121,60.8
last_update,object,199,0,True,1,0.5


De la información anterior podemos hacer las siguientes transformaciones:
* <ins>**first_name / last_name</ins>:** Aplicamos método Capitalize para un correcto formato
* <ins>**last_update</ins>:** La eliminamos no aporta información de utilidad y sólo tiene un valor único
* Renombramos los nombres de columnas para que coincidan con la DB

In [10]:
act.first_name = act.first_name.str.capitalize()
act.last_name = act.last_name.str.capitalize()
act = act.drop(columns='last_update')
act.columns = ['Id_Actors','Name','Last_name']

In [11]:
act.head()

Unnamed: 0,Id_Actors,Name,Last_name
0,1,Penelope,Guiness
1,2,Nick,Wahlberg
2,3,Ed,Chase
3,4,Jennifer,Davis
4,5,Johnny,Lollobrigida


Procedemos a actualizar la DB con los datos de la tabla Actors, y a guardar el CSV ya limpio

In [12]:
act.to_csv('../data/clean/actor_clean.csv',index=False)
act.to_sql(name='Actors',
           con=cursor,
           if_exists='append',
           index=False);

### 2.2 - Category <a name="category"/> 
***

In [13]:
cat = pd.read_csv('../data/raw/category.csv')
cat.head(16)

Unnamed: 0,category_id,name,last_update
0,1,Action,2006-02-15 04:46:27
1,2,Animation,2006-02-15 04:46:27
2,3,Children,2006-02-15 04:46:27
3,4,Classics,2006-02-15 04:46:27
4,5,Comedy,2006-02-15 04:46:27
5,6,Documentary,2006-02-15 04:46:27
6,7,Drama,2006-02-15 04:46:27
7,8,Family,2006-02-15 04:46:27
8,9,Foreign,2006-02-15 04:46:27
9,10,Games,2006-02-15 04:46:27


In [14]:
cat.shape

(16, 3)

In [15]:
cat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   category_id  16 non-null     int64 
 1   name         16 non-null     object
 2   last_update  16 non-null     object
dtypes: int64(1), object(2)
memory usage: 512.0+ bytes


In [16]:
cols_info(cat)

Unnamed: 0,Col Type,str,int,float==nan,unique,unique %
category_id,int64,0,16,True,16,100.0
name,object,16,0,True,16,100.0
last_update,object,16,0,True,1,6.25


In [17]:
cat.last_update.unique()

array(['2006-02-15 04:46:27'], dtype=object)

De la información anterior podemos hacer las siguientes transformaciones:
* <ins>**last_update</ins>:** La eliminamos no aporta información de utilidad y sólo tiene un valor único
* Creamos un nuevo registro para las categorías desconocidas con Id = 17 y valor 'Unknown'
* Renombramos los nombres de columnas para que coincidan con la DB

In [18]:
cat = cat.drop(columns='last_update')
cat.columns = ['Id_Category','Name']
cat = pd.concat([cat, pd.DataFrame({'Id_Category':[17],'Name':['Unknown']})]).reset_index(drop=True)
cat.tail()

Unnamed: 0,Id_Category,Name
12,13,New
13,14,Sci-Fi
14,15,Sports
15,16,Travel
16,17,Unknown


Procedemos a actualizar la DB con los datos de la tabla Category, y a guardar el CSV ya limpio

In [19]:
cat.to_csv('../data/clean/category_clean.csv',index=False)
cat.to_sql(name='Category',
           con=cursor,
           if_exists='append',
           index=False);

### 2.3 - Language <a name="language"/> 
***

In [20]:
lan = pd.read_csv('../data/raw/language.csv')
lan.head(10)

Unnamed: 0,language_id,name,last_update
0,1,English,2006-02-15 05:02:19
1,2,Italian,2006-02-15 05:02:19
2,3,Japanese,2006-02-15 05:02:19
3,4,Mandarin,2006-02-15 05:02:19
4,5,French,2006-02-15 05:02:19
5,6,German,2006-02-15 05:02:19


In [21]:
lan.shape

(6, 3)

In [22]:
lan.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   language_id  6 non-null      int64 
 1   name         6 non-null      object
 2   last_update  6 non-null      object
dtypes: int64(1), object(2)
memory usage: 272.0+ bytes


In [23]:
cols_info(lan)

Unnamed: 0,Col Type,str,int,float==nan,unique,unique %
language_id,int64,0,6,True,6,100.0
name,object,6,0,True,6,100.0
last_update,object,6,0,True,1,16.67


In [24]:
lan.last_update.unique()

array(['2006-02-15 05:02:19'], dtype=object)

De la información anterior podemos hacer las siguientes transformaciones:
* Añadiremos un registro nuevo con valor 'N/A' (No aplica), para aquellas cuyo idioma se desconozca o no tenga
* <ins>**last_update</ins>:** La eliminamos no aporta información de utilidad y sólo tiene un valor único
* Renombramos los nombres de columnas para que coincidan con la DB

In [25]:
lan = lan.drop(columns='last_update')
lan = pd.concat([lan, pd.DataFrame({'language_id':[7],'name':['N/A']})]).reset_index(drop=True)
lan.columns = ['Id_Languages','Name']
lan.head(10)

Unnamed: 0,Id_Languages,Name
0,1,English
1,2,Italian
2,3,Japanese
3,4,Mandarin
4,5,French
5,6,German
6,7,


Procedemos a actualizar la DB con los datos de la tabla Languages, y a guardar el CSV ya limpio

In [26]:
lan.to_csv('../data/clean/language_clean.csv',index=False)
lan.to_sql(name='languages',
           con=cursor,
           if_exists='append',
           index=False);

### 2.4 - Old HDD <a name="old_hdd"/> 
***

Analizaremos ahora este CSV porque es el que nos da las relaciones entre algunas de las tablas. Información que necesitaremos para completar las siguientes tablas

In [27]:
ohdd = pd.read_csv('../data/raw/old_HDD.csv')
ohdd.head()

Unnamed: 0,first_name,last_name,title,release_year,category_id
0,PENELOPE,GUINESS,ACADEMY DINOSAUR,2006,6
1,PENELOPE,GUINESS,ANACONDA CONFESSIONS,2006,2
2,PENELOPE,GUINESS,ANGELS LIFE,2006,13
3,PENELOPE,GUINESS,BULWORTH COMMANDMENTS,2006,10
4,PENELOPE,GUINESS,CHEAPER CLYDE,2006,14


In [28]:
ohdd.shape

(1000, 5)

In [29]:
ohdd.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   first_name    1000 non-null   object
 1   last_name     1000 non-null   object
 2   title         1000 non-null   object
 3   release_year  1000 non-null   int64 
 4   category_id   1000 non-null   int64 
dtypes: int64(2), object(3)
memory usage: 39.2+ KB


In [30]:
cols_info(ohdd)

Unnamed: 0,Col Type,str,int,float==nan,unique,unique %
first_name,object,1000,0,True,38,3.8
last_name,object,1000,0,True,37,3.7
title,object,1000,0,True,614,61.4
release_year,int64,0,1000,True,1,0.1
category_id,int64,0,1000,True,16,1.6


Solo disponemos información de 614 películas de las 1000 que componen el CSV de Films.
Esta información hay que tenerla en cuenta

In [31]:
# Solo disponemos de información de 39 actores para poder vincularlos con films

(ohdd.first_name + ' ' + ohdd.last_name).unique().size

39

De la información anterior podemos hacer las siguientes transformaciones:
* <ins>**first_name / last_name</ins>:** Aplicamos método Capitalize para un correcto formato
* <ins>**title</ins>:** Aplicamos método title para un correcto formato

In [32]:
ohdd.first_name = ohdd.first_name.str.capitalize()
ohdd.last_name = ohdd.last_name.str.capitalize()
ohdd.title = ohdd.title.str.title()
ohdd.head()

Unnamed: 0,first_name,last_name,title,release_year,category_id
0,Penelope,Guiness,Academy Dinosaur,2006,6
1,Penelope,Guiness,Anaconda Confessions,2006,2
2,Penelope,Guiness,Angels Life,2006,13
3,Penelope,Guiness,Bulworth Commandments,2006,10
4,Penelope,Guiness,Cheaper Clyde,2006,14


Procedemos a guardar únicamente el CSV

In [33]:
ohdd.to_csv('../data/clean/ohdd_clean.csv',index=False)

### 2.5 - Film <a name="film"/> 
***

In [34]:
film = pd.read_csv('../data/raw/film.csv')
film.head()

Unnamed: 0,film_id,title,description,release_year,language_id,original_language_id,rental_duration,rental_rate,length,replacement_cost,rating,special_features,last_update
0,1,ACADEMY DINOSAUR,A Epic Drama of a Feminist And a Mad Scientist...,2006,1,,6,0.99,86,20.99,PG,"Deleted Scenes,Behind the Scenes",2006-02-15 05:03:42
1,2,ACE GOLDFINGER,A Astounding Epistle of a Database Administrat...,2006,1,,3,4.99,48,12.99,G,"Trailers,Deleted Scenes",2006-02-15 05:03:42
2,3,ADAPTATION HOLES,A Astounding Reflection of a Lumberjack And a ...,2006,1,,7,2.99,50,18.99,NC-17,"Trailers,Deleted Scenes",2006-02-15 05:03:42
3,4,AFFAIR PREJUDICE,A Fanciful Documentary of a Frisbee And a Lumb...,2006,1,,5,2.99,117,26.99,G,"Commentaries,Behind the Scenes",2006-02-15 05:03:42
4,5,AFRICAN EGG,A Fast-Paced Documentary of a Pastry Chef And ...,2006,1,,6,2.99,130,22.99,G,Deleted Scenes,2006-02-15 05:03:42


In [35]:
film.tail()

Unnamed: 0,film_id,title,description,release_year,language_id,original_language_id,rental_duration,rental_rate,length,replacement_cost,rating,special_features,last_update
995,996,YOUNG LANGUAGE,A Unbelieveable Yarn of a Boat And a Database ...,2006,1,,6,0.99,183,9.99,G,"Trailers,Behind the Scenes",2006-02-15 05:03:42
996,997,YOUTH KICK,A Touching Drama of a Teacher And a Cat who mu...,2006,1,,4,0.99,179,14.99,NC-17,"Trailers,Behind the Scenes",2006-02-15 05:03:42
997,998,ZHIVAGO CORE,A Fateful Yarn of a Composer And a Man who mus...,2006,1,,6,0.99,105,10.99,NC-17,Deleted Scenes,2006-02-15 05:03:42
998,999,ZOOLANDER FICTION,A Fateful Reflection of a Waitress And a Boat ...,2006,1,,5,2.99,101,28.99,R,"Trailers,Deleted Scenes",2006-02-15 05:03:42
999,1000,ZORRO ARK,A Intrepid Panorama of a Mad Scientist And a B...,2006,1,,3,4.99,50,18.99,NC-17,"Trailers,Commentaries,Behind the Scenes",2006-02-15 05:03:42


In [36]:
film.shape

(1000, 13)

In [37]:
film.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   film_id               1000 non-null   int64  
 1   title                 1000 non-null   object 
 2   description           1000 non-null   object 
 3   release_year          1000 non-null   int64  
 4   language_id           1000 non-null   int64  
 5   original_language_id  0 non-null      float64
 6   rental_duration       1000 non-null   int64  
 7   rental_rate           1000 non-null   float64
 8   length                1000 non-null   int64  
 9   replacement_cost      1000 non-null   float64
 10  rating                1000 non-null   object 
 11  special_features      1000 non-null   object 
 12  last_update           1000 non-null   object 
dtypes: float64(3), int64(5), object(5)
memory usage: 101.7+ KB


In [38]:
cols_info(film)

Unnamed: 0,Col Type,Nulos,str,float,int,float==nan,unique,unique %
film_id,int64,0,0,0,1000,True,1000,100.0
title,object,0,1000,0,0,True,1000,100.0
description,object,0,1000,0,0,True,1000,100.0
release_year,int64,0,0,0,1000,True,1,0.1
language_id,int64,0,0,0,1000,True,1,0.1
original_language_id,float64,1000,0,1000,0,True,1,0.1
rental_duration,int64,0,0,0,1000,True,5,0.5
rental_rate,float64,0,0,1000,0,False,3,0.3
length,int64,0,0,0,1000,True,140,14.0
replacement_cost,float64,0,0,1000,0,False,21,2.1


De la información anterior podemos hacer las siguientes transformaciones:
* <ins>**title</ins>:** Aplicamos método title para un correcto formato
* <ins>**release_year</ins>:** Solo tiene un valor único de 2006, es improbable que todas las películas sean del 2006 (en la tabla OHDD también vimos lo mismo), pero no tenemos información que nos permita comprobarlo. Por lo que dejaremos el año 2006 y será una labor futura actualizar los valores de la DB en caso de ser necesario.
* <ins>**original_language_id</ins>:** Son todo nulos, los rellenaremos con 7 para que tome el valor 'Unknown' que hemos creado en la tabla Languages 
* <ins>**last_update</ins>:** La eliminamos no aporta información de utilidad y sólo tiene un valor único


In [39]:
film.title = film.title.str.title()
film.fillna(7,inplace=True)
film.original_language_id = film.original_language_id.astype(np.int8)
film = film.drop(columns='last_update')
film.head()

Unnamed: 0,film_id,title,description,release_year,language_id,original_language_id,rental_duration,rental_rate,length,replacement_cost,rating,special_features
0,1,Academy Dinosaur,A Epic Drama of a Feminist And a Mad Scientist...,2006,1,7,6,0.99,86,20.99,PG,"Deleted Scenes,Behind the Scenes"
1,2,Ace Goldfinger,A Astounding Epistle of a Database Administrat...,2006,1,7,3,4.99,48,12.99,G,"Trailers,Deleted Scenes"
2,3,Adaptation Holes,A Astounding Reflection of a Lumberjack And a ...,2006,1,7,7,2.99,50,18.99,NC-17,"Trailers,Deleted Scenes"
3,4,Affair Prejudice,A Fanciful Documentary of a Frisbee And a Lumb...,2006,1,7,5,2.99,117,26.99,G,"Commentaries,Behind the Scenes"
4,5,African Egg,A Fast-Paced Documentary of a Pastry Chef And ...,2006,1,7,6,2.99,130,22.99,G,Deleted Scenes


Para que la tabla films tenga la misma estructura que en la DB tenemos que hacer lo siguiente:
* Añadir la columna de Category_Id, y añadir la categoría correspondiente de cada película según tabla ohdd
* Eliminar las columnas de idioma. Crearemos el df film_lan que nos permitirá crear las tablas intermedias de idioma


In [40]:
# Hemos visto que sólo podemos sacar la categoría de 614 películas
# Vamos a ver cuales son

film_ohdd = pd.merge(left=film[['film_id','title']],
                     right=ohdd[['title','category_id']].drop_duplicates(),
                     how='inner',
                     left_on='title',
                     right_on='title')

In [41]:
film_ohdd.tail()

Unnamed: 0,film_id,title,category_id
609,993,Wrong Behavior,3
610,994,Wyoming Storm,13
611,996,Young Language,6
612,997,Youth Kick,12
613,998,Zhivago Core,11


In [42]:
film.insert(loc=4,column='Category_Id',value=17)  # Asignamos 17 porque es el valor que hemos decidido a desconocido

In [43]:
index = film.loc[film.film_id.isin(film_ohdd.film_id)].index
film.loc[index,'Category_Id'] = film_ohdd.category_id.to_list()

In [44]:
film.head()

Unnamed: 0,film_id,title,description,release_year,Category_Id,language_id,original_language_id,rental_duration,rental_rate,length,replacement_cost,rating,special_features
0,1,Academy Dinosaur,A Epic Drama of a Feminist And a Mad Scientist...,2006,6,1,7,6,0.99,86,20.99,PG,"Deleted Scenes,Behind the Scenes"
1,2,Ace Goldfinger,A Astounding Epistle of a Database Administrat...,2006,11,1,7,3,4.99,48,12.99,G,"Trailers,Deleted Scenes"
2,3,Adaptation Holes,A Astounding Reflection of a Lumberjack And a ...,2006,6,1,7,7,2.99,50,18.99,NC-17,"Trailers,Deleted Scenes"
3,4,Affair Prejudice,A Fanciful Documentary of a Frisbee And a Lumb...,2006,17,1,7,5,2.99,117,26.99,G,"Commentaries,Behind the Scenes"
4,5,African Egg,A Fast-Paced Documentary of a Pastry Chef And ...,2006,17,1,7,6,2.99,130,22.99,G,Deleted Scenes


In [45]:
film_lan = film[['film_id','language_id','original_language_id']]
film = film.drop(columns=['language_id','original_language_id'])

In [46]:
# Renombramos columnas para que coincidan con la DB
film.columns = ['Id_films','Title','Description','Release_year','Category_Id','Rent_duration','Rent_rate','Length','Replacement_cost','Rating','Special_Features']
film.head()

Unnamed: 0,Id_films,Title,Description,Release_year,Category_Id,Rent_duration,Rent_rate,Length,Replacement_cost,Rating,Special_Features
0,1,Academy Dinosaur,A Epic Drama of a Feminist And a Mad Scientist...,2006,6,6,0.99,86,20.99,PG,"Deleted Scenes,Behind the Scenes"
1,2,Ace Goldfinger,A Astounding Epistle of a Database Administrat...,2006,11,3,4.99,48,12.99,G,"Trailers,Deleted Scenes"
2,3,Adaptation Holes,A Astounding Reflection of a Lumberjack And a ...,2006,6,7,2.99,50,18.99,NC-17,"Trailers,Deleted Scenes"
3,4,Affair Prejudice,A Fanciful Documentary of a Frisbee And a Lumb...,2006,17,5,2.99,117,26.99,G,"Commentaries,Behind the Scenes"
4,5,African Egg,A Fast-Paced Documentary of a Pastry Chef And ...,2006,17,6,2.99,130,22.99,G,Deleted Scenes


In [47]:
film.to_csv('../data/clean/film_clean.csv',index=False)
film.to_sql(name='films',
           con=cursor,
           if_exists='append',
           index=False);

### 2.6 - Rental <a name="rental"/> 
***

In [48]:
rent = pd.read_csv('../data/raw/rental.csv')
rent.head()

Unnamed: 0,rental_id,rental_date,inventory_id,customer_id,return_date,staff_id,last_update
0,1,2005-05-24 22:53:30,367,130,2005-05-26 22:04:30,1,2006-02-15 21:30:53
1,2,2005-05-24 22:54:33,1525,459,2005-05-28 19:40:33,1,2006-02-15 21:30:53
2,3,2005-05-24 23:03:39,1711,408,2005-06-01 22:12:39,1,2006-02-15 21:30:53
3,4,2005-05-24 23:04:41,2452,333,2005-06-03 01:43:41,2,2006-02-15 21:30:53
4,5,2005-05-24 23:05:21,2079,222,2005-06-02 04:33:21,1,2006-02-15 21:30:53


In [49]:
rent.shape

(1000, 7)

In [50]:
rent.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   rental_id     1000 non-null   int64 
 1   rental_date   1000 non-null   object
 2   inventory_id  1000 non-null   int64 
 3   customer_id   1000 non-null   int64 
 4   return_date   1000 non-null   object
 5   staff_id      1000 non-null   int64 
 6   last_update   1000 non-null   object
dtypes: int64(4), object(3)
memory usage: 54.8+ KB


In [51]:
cols_info(rent)

Unnamed: 0,Col Type,str,int,float==nan,unique,unique %
rental_id,int64,0,1000,True,1000,100.0
rental_date,object,1000,0,True,999,99.9
inventory_id,int64,0,1000,True,1000,100.0
customer_id,int64,0,1000,True,485,48.5
return_date,object,1000,0,True,997,99.7
staff_id,int64,0,1000,True,2,0.2
last_update,object,1000,0,True,1,0.1


In [52]:
rent.last_update.unique()

array(['2006-02-15 21:30:53'], dtype=object)

In [53]:
print(f'\tFecha de alquiler max: {rent.rental_date.max()}\n',
      f'\tFecha de alquiler min: {rent.rental_date.min()}\n',
      f'\tFecha de devolución max: {rent.return_date.max()}\n',
      f'\tFecha de devolución min: {rent.return_date.min()}')

	Fecha de alquiler max: 2005-05-31 00:46:31
 	Fecha de alquiler min: 2005-05-24 22:53:30
 	Fecha de devolución max: 2005-06-09 01:19:28
 	Fecha de devolución min: 2005-05-25 23:55:21


- Tenemos 1000 registros únicos de alquileres. Cada uno asociado a una película a través del inventory_id
- Tenemos 485 clientes únicos de los que solo conocemos su Id
- Solo tenemos 2 empleados del los que solo conocemos su Id
- Vemos que las fechas de alquiler y devolución se mueven en un rango muy pequeño de días. No parece muy correcto pero las mantendremos ya que no tenemos ninguna información que nos indique lo contrario
- Borraremos last_update ya que no nos aporta información (valor único)



In [54]:
rent = rent.drop(columns='last_update')

De momento no trabajaremos más con esta tabla hasta que no analicemos el CSV de inventory, ya que este nos aportará la relación de la tabla rent con el resto de la DB

### 2.7 - Inventory <a name="inventory"/> 
***

In [55]:
inv = pd.read_csv('../data/raw/inventory.csv')
inv.head()

Unnamed: 0,inventory_id,film_id,store_id,last_update
0,1,1,1,2006-02-15 05:09:17
1,2,1,1,2006-02-15 05:09:17
2,3,1,1,2006-02-15 05:09:17
3,4,1,1,2006-02-15 05:09:17
4,5,1,2,2006-02-15 05:09:17


In [56]:
inv.shape

(1000, 4)

In [57]:
inv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   inventory_id  1000 non-null   int64 
 1   film_id       1000 non-null   int64 
 2   store_id      1000 non-null   int64 
 3   last_update   1000 non-null   object
dtypes: int64(3), object(1)
memory usage: 31.4+ KB


In [58]:
cols_info(inv)

Unnamed: 0,Col Type,str,int,float==nan,unique,unique %
inventory_id,int64,0,1000,True,1000,100.0
film_id,int64,0,1000,True,207,20.7
store_id,int64,0,1000,True,2,0.2
last_update,object,1000,0,True,1,0.1


In [59]:
inv.last_update.unique()

array(['2006-02-15 05:09:17'], dtype=object)

In [60]:
print(f'\tId_inv max en tabla rent: {rent.inventory_id.max()}\n',
      f'\tId_inv min en tabla rent: {rent.inventory_id.min()}\n',
      f'\tId_inv max en tabla inv: {inv.inventory_id.max()}\n',
      f'\tId_inv min en tabla inv: {inv.inventory_id.min()}')

	Id_inv max en tabla rent: 4581
 	Id_inv min en tabla rent: 2
 	Id_inv max en tabla inv: 1000
 	Id_inv min en tabla inv: 1


- La información más relevante es que en las tablas rent e inv tenemos 1000 valores únicos de inventory id, pero no son los mismos. Por lo que no tendremos la relación de todos los registros de rent con inventory_id
- Solo tenemos 2 tiendas, de las que no tenemos más información que su Id.

Unificaremos toda la información relevante en la tabla rent

In [61]:
# No quedamos únicamente con los registros de rent, que se puedan asociar con inv

rent =pd.merge(left=rent,
               right=inv.drop(columns='last_update'),
               how='inner',
               left_on='inventory_id',
               right_on='inventory_id')
rent.head()

Unnamed: 0,rental_id,rental_date,inventory_id,customer_id,return_date,staff_id,film_id,store_id
0,1,2005-05-24 22:53:30,367,130,2005-05-26 22:04:30,1,80,1
1,16,2005-05-25 00:43:11,389,316,2005-05-26 04:42:11,2,86,1
2,17,2005-05-25 01:06:36,830,575,2005-05-27 00:43:36,1,181,2
3,21,2005-05-25 01:59:46,146,388,2005-05-26 01:01:46,2,31,1
4,22,2005-05-25 02:19:23,727,509,2005-05-26 04:52:23,2,159,1


In [62]:
rent.shape

(212, 8)

In [63]:
# Reiniciamsos columna rental_id

rent.ren = rent.rental_id = list(range(1,rent.shape[0]+1))
rent.tail()

Unnamed: 0,rental_id,rental_date,inventory_id,customer_id,return_date,staff_id,film_id,store_id
207,208,2005-05-30 20:21:07,2,411,2005-06-06 00:36:07,1,1,1
208,209,2005-05-30 21:30:52,407,154,2005-06-07 16:22:52,1,90,1
209,210,2005-05-30 22:15:51,63,115,2005-06-02 22:56:51,1,12,2
210,211,2005-05-30 22:59:12,390,11,2005-06-07 20:56:12,1,86,1
211,212,2005-05-31 00:06:02,17,150,2005-06-06 02:30:02,2,4,1


In [64]:
# Eliminamos columna inventory_id no nos proporciona más información

rent = rent.drop(columns='inventory_id')
rent.head()

Unnamed: 0,rental_id,rental_date,customer_id,return_date,staff_id,film_id,store_id
0,1,2005-05-24 22:53:30,130,2005-05-26 22:04:30,1,80,1
1,2,2005-05-25 00:43:11,316,2005-05-26 04:42:11,2,86,1
2,3,2005-05-25 01:06:36,575,2005-05-27 00:43:36,1,181,2
3,4,2005-05-25 01:59:46,388,2005-05-26 01:01:46,2,31,1
4,5,2005-05-25 02:19:23,509,2005-05-26 04:52:23,2,159,1


Vamos a parar aquí con rent, ya que tenemos que crear tablas intermedias antes de poder subirla completa a la DB

## 3 - Creación tablas nuevas <a name="new_tables"/>
***
***

### 3.1 - Customers <a name="cust"/> 
***

De los clientes solo conocemos el Id. En esta tabla deberemos completar con su nombre y apellido pero no lo canocemos. Tal y como hemos definido la tabla customers en nuestra DB, el parámetro Id es autoincremental, por lo que mantener el Id que tenemos es complicado, ya que son 212 números aleatorios. Para poder conservar esta información y no perder consistencia en nuestra DB vamos a proceder de la siguiente manera, en la tabla customers:

* <ins>**Id_customer</ins>:** Asignamos ínidices nuecos desde 1 hasta la cantidad de clientes que tengamos
* <ins>**Name</ins>:** Como lo desconocemos los nombraremos siguiendo la siguiente estructura Name_ID_antiguo. Esto nos permitirá mantener la información por si en algún momento se puede actualizar
* <ins>**Last_name / Adress / Postal_code / Document_ID</ins>:** Seguiremos misma metodología que con Name

In [65]:
# Añadimos la cadena de texto deseada a todos los customer_id únicos que tenemos en la tabla rent

cust_name = ('Name_' + rent.customer_id.drop_duplicates().apply(str)).reset_index(drop=True) 
cust_lname = ('Last_name_' + rent.customer_id.drop_duplicates().apply(str)).reset_index(drop=True)
cust_adress = ('Adress_' + rent.customer_id.drop_duplicates().apply(str)).reset_index(drop=True)
cust_pcode = ('P_Code_' + rent.customer_id.drop_duplicates().apply(str)).reset_index(drop=True)
cust_doc = ('Doc_ID_' + rent.customer_id.drop_duplicates().apply(str)).reset_index(drop=True)

# Creamos df

cust = pd.DataFrame({'Id_Customer':list(range(1,len(cust_name)+1)),
                     'Name':cust_name,
                     'Last_name': cust_lname,
                     'Adress': cust_adress,
                     'Postal_code': cust_pcode,
                     'Document_Id': cust_doc                  
                    })
cust.head()

Unnamed: 0,Id_Customer,Name,Last_name,Adress,Postal_code,Document_Id
0,1,Name_130,Last_name_130,Adress_130,P_Code_130,Doc_ID_130
1,2,Name_316,Last_name_316,Adress_316,P_Code_316,Doc_ID_316
2,3,Name_575,Last_name_575,Adress_575,P_Code_575,Doc_ID_575
3,4,Name_388,Last_name_388,Adress_388,P_Code_388,Doc_ID_388
4,5,Name_509,Last_name_509,Adress_509,P_Code_509,Doc_ID_509


Guardamos la tabla customers como CSV y la subimos a la DB

In [66]:
cust.to_csv('../data/clean/customer_new.csv',index=False)
cust.to_sql(name='Customers',
            con=cursor,
            if_exists='append',
            index=False);

In [67]:
# Actualizamos tabla rent con los nuevos Customer_Id
# Usamos la función new_customer_id que asigna el nuevo valor de customer_id

def new_customer_id(_id_old):
    """
    Función que convierte el antiguo customer_id al nuevo valor de la nueva
    DB
    """
    global cust
    def get_id(serie):
        return serie[-1]
    # list_id serie cuyos indices es el nuevo id y valores old_id
    list_id = cust.Name.str.split('_').apply(get_id).apply(np.int16)
    return list_id.index[list_id == _id_old][0] + 1


rent.customer_id = rent.customer_id.apply(new_customer_id)
rent.head()

Unnamed: 0,rental_id,rental_date,customer_id,return_date,staff_id,film_id,store_id
0,1,2005-05-24 22:53:30,1,2005-05-26 22:04:30,1,80,1
1,2,2005-05-25 00:43:11,2,2005-05-26 04:42:11,2,86,1
2,3,2005-05-25 01:06:36,3,2005-05-27 00:43:36,1,181,2
3,4,2005-05-25 01:59:46,4,2005-05-26 01:01:46,2,31,1
4,5,2005-05-25 02:19:23,5,2005-05-26 04:52:23,2,159,1


### 3.2 - Stores <a name="store"/> 
***

Para poder completar la tabla rent y subirla a la DB, necesitamos completar primero la tabla stores y employees. Para ello seguiremos las siguientes premisas:
* Tenemos que asignar una tienda asociada a cada empleado. En los datos hemos observado que un empleado ha realizado alquileres en más de una tienda, eso en nuestra nueva DB no se puede hacer. Por lo que asignaremos una única tienda que representará a todas las tiendas del antiguo negocio
* Crearemos un nuevo registro de tienda que representará la tienda inicial del nuevo negocio
* Para mantener información de la antigua DB, crearemos los registros de los antiguos empleados aunque no tengamos sus datos. Los completaremos de manera similiar de como se ha hecho en customers

In [68]:
store = pd.DataFrame({'Id_Stores':[1,2],
                      'Adress':['Adress_Store_1','Paseo de la Chopera 14'],
                      'Postal_code': ['PC_Store_1','28045']})
store.head()

Unnamed: 0,Id_Stores,Adress,Postal_code
0,1,Adress_Store_1,PC_Store_1
1,2,Paseo de la Chopera 14,28045


Guardamos y subimos a la DB

In [69]:
store.to_csv('../data/clean/stores_new.csv',index=False)
store.to_sql(name='Stores',
             con=cursor,
             if_exists='append',
             index=False);

### 3.3 - Employees <a name="emp"/> 
***

In [70]:
emp = pd.DataFrame({'Id_Employee':[1,2],
                    'Name':['Name_emp_1','Name_emp_2'],
                    'Last_Name':['Last_name_emp_1','Last_name_emp_2'],
                    'Adress':['Adress_emp_1','Adress_emp_2'],
                    'Postal_code': ['PC_emp_1','PC_emp_2'],
                    'Document_Id':['Doc_emp_1','Doc_emp_2'],
                    'Store_Id':[1,1]})
emp.head()

Unnamed: 0,Id_Employee,Name,Last_Name,Adress,Postal_code,Document_Id,Store_Id
0,1,Name_emp_1,Last_name_emp_1,Adress_emp_1,PC_emp_1,Doc_emp_1,1
1,2,Name_emp_2,Last_name_emp_2,Adress_emp_2,PC_emp_2,Doc_emp_2,1


Guardamos y subimos a la DB

In [71]:
emp.to_csv('../data/clean/employees_new.csv',index=False)
emp.to_sql(name='Employees',
           con=cursor,
           if_exists='append',
           index=False);

### 3.4 - Copies <a name="cop"/> 
***

Nuestra DB permitirá que una película tenga varias copias. Para completar esta tabla seguiremos las siguientes pautas:
* De todo el catálogo de películas asumimos que tenemos todas, y una única copia de cada. Por lo que Id_copy = ID_film
* Todas las copias de las películas las asociaremos a la tienda 2 que es la que iniciará el nuevo negocio
* Todas las copias tendrán como estado de alquiler = 0 (Falso). Ya que al iniciar el negocio aún no hemos iniciado el negocio

In [72]:
cop = pd.DataFrame({'Id_Copy':film.Id_films,
                    'Is_rent':0,
                    'Films_Id': film.Id_films,
                    'Store_Id': 2})
cop

Unnamed: 0,Id_Copy,Is_rent,Films_Id,Store_Id
0,1,0,1,2
1,2,0,2,2
2,3,0,3,2
3,4,0,4,2
4,5,0,5,2
...,...,...,...,...
995,996,0,996,2
996,997,0,997,2
997,998,0,998,2
998,999,0,999,2


Subimos a la DB y guardamos

In [73]:
cop.to_csv('../data/clean/copies_new.csv',index=False)
cop.to_sql(name='Copies',
             con=cursor,
             if_exists='append',
             index=False);

Tras la creación de estas tablas ya podemos acabar de completar rent

In [74]:
rent.head()

Unnamed: 0,rental_id,rental_date,customer_id,return_date,staff_id,film_id,store_id
0,1,2005-05-24 22:53:30,1,2005-05-26 22:04:30,1,80,1
1,2,2005-05-25 00:43:11,2,2005-05-26 04:42:11,2,86,1
2,3,2005-05-25 01:06:36,3,2005-05-27 00:43:36,1,181,2
3,4,2005-05-25 01:59:46,4,2005-05-26 01:01:46,2,31,1
4,5,2005-05-25 02:19:23,5,2005-05-26 04:52:23,2,159,1


Consideraciones:
* Hemos establecido que dos tiendas del antiguo negocio estarán representadas con Id_Store = 1. Pero cada alquiler tiene que estar asociado a una copia, y todas las copias estarán asociadas la Id_Store = 1. Por lo que para ver si un alquiler corresponde al antiguo negocio, lo podremos saber únicamente por la fecha
* Sustituimos film_id por Copy_id, ya que así lo hemos definido en la tabla anterior

In [75]:
# Reordenamos campos y renombramos columnas
rent = rent[['rental_id','customer_id','film_id','rental_date','return_date','staff_id']]
rent.columns=['Id_Rent','Customers_Id','Copy_Id','Rental_date','Expired_date','Employee_Id']
rent.head()

Unnamed: 0,Id_Rent,Customers_Id,Copy_Id,Rental_date,Expired_date,Employee_Id
0,1,1,80,2005-05-24 22:53:30,2005-05-26 22:04:30,1
1,2,2,86,2005-05-25 00:43:11,2005-05-26 04:42:11,2
2,3,3,181,2005-05-25 01:06:36,2005-05-27 00:43:36,1
3,4,4,31,2005-05-25 01:59:46,2005-05-26 01:01:46,2
4,5,5,159,2005-05-25 02:19:23,2005-05-26 04:52:23,2


Subimos a la DB y guardamos

In [76]:
rent.to_csv('../data/clean/rental_clean.csv',index=False)
rent.to_sql(name='Rent',
            con=cursor,
            if_exists='append',
            index=False);

### 3.5 - Actor_Film <a name="act_film"/> 
***

Para completar la tabla intermedia que relaciona Actor y Film, tenemos que hacer uso de la tabla ohdd

In [77]:
ohdd.head()

Unnamed: 0,first_name,last_name,title,release_year,category_id
0,Penelope,Guiness,Academy Dinosaur,2006,6
1,Penelope,Guiness,Anaconda Confessions,2006,2
2,Penelope,Guiness,Angels Life,2006,13
3,Penelope,Guiness,Bulworth Commandments,2006,10
4,Penelope,Guiness,Cheaper Clyde,2006,14


In [78]:
act.head()

Unnamed: 0,Id_Actors,Name,Last_name
0,1,Penelope,Guiness
1,2,Nick,Wahlberg
2,3,Ed,Chase
3,4,Jennifer,Davis
4,5,Johnny,Lollobrigida


In [79]:
# Necesitamos crearnos un campo únuico para comparar

act['Complete_name'] = act.Name + ' ' + act.Last_name
ohdd['Complete_name'] = ohdd.first_name + ' ' + ohdd.last_name

In [80]:
act_film = pd.merge(left = ohdd[['title','Complete_name']],
                    right = act[['Id_Actors','Complete_name']],
                    how ='left',
                    left_on ='Complete_name',
                    right_on = 'Complete_name'                   
                   )

act_film.head()

Unnamed: 0,title,Complete_name,Id_Actors
0,Academy Dinosaur,Penelope Guiness,1
1,Anaconda Confessions,Penelope Guiness,1
2,Angels Life,Penelope Guiness,1
3,Bulworth Commandments,Penelope Guiness,1
4,Cheaper Clyde,Penelope Guiness,1


In [81]:
act_film = pd.merge(left = act_film[['title','Id_Actors']],
                    right = film[['Id_films','Title']],
                    how = 'left',
                    left_on = 'title',
                    right_on = 'Title'
                   )
act_film.head()

Unnamed: 0,title,Id_Actors,Id_films,Title
0,Academy Dinosaur,1,1,Academy Dinosaur
1,Anaconda Confessions,1,23,Anaconda Confessions
2,Angels Life,1,25,Angels Life
3,Bulworth Commandments,1,106,Bulworth Commandments
4,Cheaper Clyde,1,140,Cheaper Clyde


In [82]:
act_film = act_film[['Id_Actors','Id_films']]
act_film.columns=['Actors_Id','Films_Id']
act_film.head()

Unnamed: 0,Actors_Id,Films_Id
0,1,1
1,1,23
2,1,25
3,1,106
4,1,140


Guardamos y subimos a la DB

In [83]:
act_film.to_csv('../data/clean/act_film_new.csv',index=False)
act_film.to_sql(name='actor_film',
                con=cursor,
                if_exists='append',
                index=False);

### 3.6 - Language intermedias <a name="lan_int"/> 
***

En uno de los primeros puntos hemos visto que todas las películas tienen el mismo idioma (Id_Language = Id), y como idioma original tienen (Id_Language = 7). Crearemos las dos tablas intermediaas teniendo esto en cuenta

In [84]:
lan_int = pd.DataFrame({'Films_Id': film.Id_films,
                        'Languages_Id':1                       
                       })
lan_int_org = pd.DataFrame({'Films_Id': film.Id_films,
                            'Languages_Id':7
                           })

In [85]:
lan_int

Unnamed: 0,Films_Id,Languages_Id
0,1,1
1,2,1
2,3,1
3,4,1
4,5,1
...,...,...
995,996,1
996,997,1
997,998,1
998,999,1


Guardamos y subimos a la DB

In [86]:
lan_int.to_csv('../data/clean/lan_int_new.csv',index=False)
lan_int.to_sql(name='films_languages',
               con=cursor,
               if_exists='append',
               index=False);

In [87]:
lan_int_org.to_csv('../data/clean/lan_int_org_new.csv',index=False)
lan_int_org.to_sql(name='films_original',
                   con=cursor,
                   if_exists='append',
                   index=False);

### 3.7 - Directors <a name="dir"/> 
***

La tabla Directors se ha creado al inicializar la DB vacía. Nosotros la vamos a dejar así, ya que no tenemos más información de como completarla. Es una tabla que consideramos necesaria tener para el correcto desarrollo del negocio

## 4 - Querys <a name="new_tables"/>
***
***

### 4.1 - Query 1: Películas sin asociación con tabla Actors <a name="q1"/>
***

Hemos visto que no tenemos películas con actores asociados. Vamos a ver cuales son para saber que información tenemos que buscar para actualizar la DB

In [88]:
query = """ select F.Id_Films,
                   F.Title,
                   AF.Actors_Id from films as F

            left join actor_film as AF
                on F.Id_Films = AF.Films_Id
            
            where AF.Actors_Id is null
 """
pd.read_sql(query,cursor).head()

Unnamed: 0,Id_Films,Title,Actors_Id
0,4,Affair Prejudice,
1,5,African Egg,
2,7,Airplane Sierra,
3,8,Airport Pollock,
4,11,Alamo Videotape,


In [89]:
pd.read_sql(query,cursor).shape  # Vemos que la búsqueda es coherente ya que vimos que eran 386 películas las que no tenían actor asociado

(386, 3)

### 4.2 - Query 2: 5 Clientes que han alquilado más películas <a name="q2"/>
***

In [90]:
query = """ select 	R.Customers_Id,
		C.Name,
        C.Last_name,
        count(R.Copy_Id) as Count_film
			from rent as R

left join customers as C
	on R.Customers_Id = C.Id_Customer
    
group by R.Customers_ID, C.Name, C.Last_name
order by Count_film desc
limit 5
    """
pd.read_sql(query,cursor).head()

Unnamed: 0,Customers_Id,Name,Last_name,Count_film
0,35,Name_551,Last_name_551,4
1,31,Name_89,Last_name_89,3
2,93,Name_287,Last_name_287,3
3,65,Name_371,Last_name_371,3
4,3,Name_575,Last_name_575,2


### 4.3 - Query 3: Top 5 de actores/actrices con más películas <a name="q3"/>
***

In [91]:
query = """ select 	A.Id_Actors,
		A.Name,
        A.Last_name,
        count(F.Id_films) as Film_count		
		from films as F

inner join actor_film as AF
	on F.Id_Films = AF.Films_Id
    
inner join actors as A
	on AF.Actors_Id = A.Id_Actors

group by A.Id_Actors, A.Name, A.Last_name
order by Film_count desc
limit 5
"""

pd.read_sql(query,cursor).head()

Unnamed: 0,Id_Actors,Name,Last_name,Film_count
0,23,Sandra,Kilmer,37
1,37,Val,Bolger,35
2,13,Uma,Wood,35
3,27,Julia,Mcqueen,33
4,26,Rip,Crawford,33


### 4.4 - Query 4: Top 5 de películas que han generado más dinero en alquileres <a name="q4"/>
***

In [92]:
query = """
select 	F.Id_Films,
		F.Title,
        round(sum(F.Rent_rate),2) as Total_rent
		from rent as R

inner join copies as C
on R.Copy_Id = C.Id_Copy

inner join films as F
on F.Id_Films=C.Films_Id

group by F.Id_Films, F.Title
order by Total_rent desc
limit 5
"""

pd.read_sql(query,cursor).head()

Unnamed: 0,Id_Films,Title,Total_rent
0,86,Boogie Amelie,19.96
1,28,Anthem Luke,14.97
2,103,Bucket Brotherhood,14.97
3,117,Candles Grapes,14.97
4,159,Closer Bang,14.97


### 4.5 - Query 5: Creación de nuevas copias<a name="q5"/>
***

Vamos a crear nuevas copias de estas películas que hemos visto que son las más alquiladas

In [93]:
query = """
insert into copies (Is_rent,Films_Id,Store_Id)
values  (0,86,2),
        (0,28,2),
        (0,103,2),
        (0,117,2),
        (0,159,2)
        """
cursor.execute(query)

<sqlalchemy.engine.cursor.LegacyCursorResult at 0x171e10a2910>

### 4.6 - Query 6: Número de películas por categoría<a name="q6"/>
***

In [94]:
query = """
select  C.Id_Category,
		C.Name,
        count(F.Id_Films) as Count_films
			from films as F

left join category as C
on F.Category_Id = C.Id_Category

group by C.Id_Category, C.Name
order by Count_films desc
"""

pd.read_sql(query,cursor).head()

Unnamed: 0,Id_Category,Name,Count_films
0,17,Unknown,386
1,2,Animation,50
2,15,Sports,46
3,11,Horror,45
4,13,New,45


### 4.7 - Query 7: Número de películas por clasificación de edad<a name="q7"/>
***

In [95]:
query = """
select Rating, count(Id_Films) as count_films
from films
group by Rating
order by count_films
"""

pd.read_sql(query,cursor).head()

Unnamed: 0,Rating,count_films
0,G,178
1,PG,194
2,R,195
3,NC-17,210
4,PG-13,223


### 4.8 - Query 8: Películas con categoría 'Unknown'<a name="q8"/>
***

In [96]:
query = """
select  C.Id_Category,
		C.Name,
        F.Id_Films,
        F.Title
			from films as F
left join category as C
on F.Category_Id = C.Id_Category

where C.Name = 'Unknown'

"""
pd.read_sql(query,cursor).head()

Unnamed: 0,Id_Category,Name,Id_Films,Title
0,17,Unknown,4,Affair Prejudice
1,17,Unknown,5,African Egg
2,17,Unknown,7,Airplane Sierra
3,17,Unknown,8,Airport Pollock
4,17,Unknown,11,Alamo Videotape


### 4.9 - Query 9: Categoría más alquilada <a name="q9"/>
***

In [97]:
query = """
select CAT.Id_Category,
	   CAT.Name,
       count(R.Id_Rent) as count_rent
       from rent as R

left join copies as COP
on COP.Id_Copy = R.Copy_Id

left join films as F
on COP.Films_Id = F.Id_Films

left join category as CAT
on CAT.Id_Category = F.Category_Id

group by CAT.Id_Category, CAT.Name
order by count_rent desc
"""
pd.read_sql(query,cursor).head()

Unnamed: 0,Id_Category,Name,count_rent
0,17,Unknown,75
1,6,Documentary,16
2,8,Family,11
3,12,Music,11
4,13,New,11


### 4.10 - Query 10: Categorías alquiladas por cliente<a name="q10"/>
***

In [98]:
query = """
select CUST.Id_Customer,
	   CUST.Name as Customer_name,
       CUST.Last_name,
       CUST_CAT.Id_Category,
       CUST_CAT.Name as Category_name,
       CUST_CAT.Count_rent
       from 

(select R.Customers_Id,
	   CAT.Id_Category,
       CAT.Name,
       count(R.Id_Rent) as Count_rent
       from rent as R

left join copies as COP
on COP.Id_Copy = R.Copy_Id

left join films as F
on COP.Films_Id = F.Id_Films

left join category as CAT
on CAT.Id_Category = F.Category_Id

group by R.Customers_Id, CAT.Id_Category
order by Count_rent desc, R.Customers_Id ) as CUST_CAT

left join customers as CUST
on CUST_CAT.Customers_Id = CUST.Id_Customer

"""
pd.read_sql(query,cursor).head()

Unnamed: 0,Id_Customer,Customer_name,Last_name,Id_Category,Category_name,Count_rent
0,19,Name_468,Last_name_468,17,Unknown,2
1,25,Name_246,Last_name_246,17,Unknown,2
2,30,Name_354,Last_name_354,6,Documentary,2
3,35,Name_551,Last_name_551,17,Unknown,2
4,45,Name_47,Last_name_47,1,Action,2
