# **Clean and Upload**

### 1. [Importación y conexión](#imp_con)

   - ##### 1.1 [Importación librerías](#importacion_lib)
   
   - ##### 1.2 [Conexión DB](#conexion)

### 2. [Limpieza CSV](#clean)

   - ##### 2.1 [Actor](#actor)
   
   - ##### 2.2 [Category](#category)
   
   - ##### 2.3 [Language](#language)
   
   - ##### 2.2 [Film](#film)
   
   - ##### 2.4 [Inventory](#inventory)
   
   - ##### 2.6 [Old HDD](#old_hdd)
   
   - ##### 2.7 [Rental](#rental)
 

## 1 - Importación y conexión <a name="imp_con"/>
***
***

### 1.1 - Importación de librerías <a name="importacion_lib"/>
***

In [1]:
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
import warnings
from password import *
warnings.filterwarnings('ignore')  
pd.set_option('display.max_columns', None) 

### 1.2 - Conexión DB <a name="conexion"/>
---

Tras examinar todos los archivos .CSV ubicados en la carpeta data. Se han evaluado las realaciones entre las distintas tablas, y se ha procedido a crear una base de datos (DB) con las siguientes relaciones siguiendo las siguientes pautas:
- Consideramos que una película puede tener uno o más idiomas (tanto original como el de la copia)
- Una película solo puede tener una categoría
- Una película puede tener muchas copias, pero una copia sólo puede estar en una tienda
- Un empleado sólo puede estar asociado a una tienda
- Un alquiler sólo puede ser creado por un empleado
- Crearemos una tabla de directores aunque esta esté vacía.


Muchos de las tablas que se han creado no tenemos datos para llenarlas. Pero partimos de la base que estamos creando una DB para un video club y que para el correcto desarrollo de su negocio, estas tablas serán cumplimentadas en un futuro. 

Con esto el esquema de la DB es el siguiente:

![schema](../images/SCHEMA.png)

Establecemos conexión con la DB

In [2]:
str_conn = f'mysql+pymysql://{usuario}:{password}@localhost:3306/Video_Club'
cursor = create_engine(str_conn)

## 2 - Limpieza CSV<a name="clean"/>
---
---

Procederemos a la limpieza de los distintos archivos CSV que tenemos, para luego proceder a incluir todos los datos que tengamos a la DB. Debido a las relaciones expuestas arriba dentro de la DB, tendremos que introducir primero los datos de aquellas tablas que no tengan Foreign Keys.

### 1 - Actor <a name="actor"/>
***

In [3]:
act = pd.read_csv('../data/raw/actor.csv')
act.head()

Unnamed: 0,actor_id,first_name,last_name,last_update
0,1,PENELOPE,GUINESS,2006-02-15 04:34:33
1,2,NICK,WAHLBERG,2006-02-15 04:34:33
2,3,ED,CHASE,2006-02-15 04:34:33
3,4,JENNIFER,DAVIS,2006-02-15 04:34:33
4,5,JOHNNY,LOLLOBRIGIDA,2006-02-15 04:34:33


In [4]:
# Tamaño de la tabla
act.shape

(200, 4)

In [5]:
# Revisamos duplicados en nombre y apellido
act[['first_name','last_name']].duplicated().sum()

1

In [6]:
# Eliminamos el registro duplicado, y corregimos índices
act_index = act[act[['first_name','last_name']].duplicated()].index
act = act.drop(index= act_index).reset_index(drop= True)
act['actor_id'] = range(1,act.shape[0]+1) # 

In [7]:
act.last_update.unique()  # Last_update no nos aporta información

array(['2006-02-15 04:34:33'], dtype=object)

In [8]:
act.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 199 entries, 0 to 198
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   actor_id     199 non-null    int64 
 1   first_name   199 non-null    object
 2   last_name    199 non-null    object
 3   last_update  199 non-null    object
dtypes: int64(1), object(3)
memory usage: 6.3+ KB


De la información anterior podemos hacer las siguientes transformaciones:
* <ins>**actor_id</ins>:** Lo pasamos a np.int16 para optimizar el uso de datos
* <ins>**first_name / last_name</ins>:** Aplicamos método Capitalize para un correcto formato
* <ins>**last_update</ins>:** La eliminamos no aporta información de utilidad y sólo tiene un valor único
* Renombramos los nombres de columnas para que coincidan con la DB

In [9]:
act.actor_id = act.actor_id.astype(np.int16)
act['first_name'] = act.first_name.str.capitalize()
act['last_name'] = act.last_name.str.capitalize()
act = act.drop(columns='last_update')
act.columns=['Id_Actors','Name','Last_name']

In [10]:
act.head()

Unnamed: 0,Id_Actors,Name,Last_name
0,1,Penelope,Guiness
1,2,Nick,Wahlberg
2,3,Ed,Chase
3,4,Jennifer,Davis
4,5,Johnny,Lollobrigida


Procedemos a actualizar la DB con los datos de la tabla Actors, y a guardar el CSV ya limpio

In [16]:
act.to_csv('../data/clean/actor_clean.csv',index=False)
cursor = create_engine(str_conn)
act.to_sql(name='Actors',
           con=cursor,
           if_exists='append',
           index=False);

### 2 - Category <a name="category"/> 
***

In [20]:
cat = pd.read_csv('../data/raw/category.csv')
cat.head(16)

Unnamed: 0,category_id,name,last_update
0,1,Action,2006-02-15 04:46:27
1,2,Animation,2006-02-15 04:46:27
2,3,Children,2006-02-15 04:46:27
3,4,Classics,2006-02-15 04:46:27
4,5,Comedy,2006-02-15 04:46:27
5,6,Documentary,2006-02-15 04:46:27
6,7,Drama,2006-02-15 04:46:27
7,8,Family,2006-02-15 04:46:27
8,9,Foreign,2006-02-15 04:46:27
9,10,Games,2006-02-15 04:46:27


In [18]:
cat.shape

(16, 3)

In [19]:
cat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   category_id  16 non-null     int64 
 1   name         16 non-null     object
 2   last_update  16 non-null     object
dtypes: int64(1), object(2)
memory usage: 512.0+ bytes


In [21]:
cat.last_update.unique()

array(['2006-02-15 04:46:27'], dtype=object)

De la información anterior podemos hacer las siguientes transformaciones:
* <ins>**last_update</ins>:** La eliminamos no aporta información de utilidad y sólo tiene un valor único
* Renombramos los nombres de columnas para que coincidan con la DB

In [22]:
cat = cat.drop(columns='last_update')
cat.columns = ['Id_Category','Name']

In [23]:
cat.head()

Unnamed: 0,Id_Category,Name
0,1,Action
1,2,Animation
2,3,Children
3,4,Classics
4,5,Comedy


Procedemos a actualizar la DB con los datos de la tabla Category, y a guardar el CSV ya limpio

In [26]:
cat.to_csv('../data/clean/category_clean.csv',index=False)
cat.to_sql(name='Category',
           con=cursor,
           if_exists='append',
           index=False);

### 3 - Language <a name="language"/> 
***

In [None]:
lan = pd.read_csv('../data/raw/language.csv')
lan.head(10)

In [None]:
lan.shape

In [None]:
lan.info()

In [None]:
lan.last_update.unique()

### 2 - Film <a name="film"/> 
***

In [None]:
film = pd.read_csv('../data/raw/film.csv')
film.head()

In [None]:
film.shape

In [None]:
film.info()

In [None]:
film.release_year.unique()

In [None]:
film.title.unique().size

### 4 - Inventory <a name="inventory"/> 
***

In [None]:
inv = pd.read_csv('../data/raw/inventory.csv')
inv.head()

In [None]:
inv.shape

In [None]:
inv.info()

In [None]:
inv.last_update.unique()

In [None]:
inv.query('film_id == 4')

### 5 - Language <a name="language"/> 
***

In [None]:
lan = pd.read_csv('../data/raw/language.csv')
lan.head(10)

In [None]:
lan.shape

In [None]:
lan.info()

In [None]:
lan.last_update.unique()

### 6 - Old HDD <a name="old_hdd"/> 
***

In [None]:
ohdd = pd.read_csv('../data/raw/old_HDD.csv')
ohdd.head()

In [None]:
ohdd.shape

In [None]:
ohdd.info()

In [None]:
ohdd['complet_name'] = ohdd.first_name + ' ' + ohdd.last_nameb3z

In [None]:
ohdd.complet_name.unique().size
ohdd.title.unique().size

### 7 - Rental <a name="rental"/> 
***

In [None]:
rent = pd.read_csv('../data/raw/rental.csv')
rent.head()

In [None]:
rent.shape

In [None]:
rent.info()

In [None]:
rent.inventory_id.unique().size

In [None]:
rent.customer_id.unique().size

In [None]:
rent.rental_date.max()

In [None]:
rent.rental_date.min()

In [None]:
3e