# PROYECTO SQL🐬
## LIMPIEZA DE DATOS


El primer paso será realizar la limpieza de los datos contenidos en un total de siete archivos '.csv' relativos a los registros recogidos por el gerente de un antiguo videoclub. 

A continuación, se recoge el índice de los pasos seguidos para la limpieza de cada archivo:

### **1. Limpieza del archivo 'actor.csv'**

Contiene el ID, nombres, apellidos y fecha de última actualización.

### **2. Limpieza del archivo 'category.csv'.**

Contiene el ID, 16 categorías y fecha de última actualización.

### **3. Limpieza del archivo 'film.csv'.**

Contiene el ID, título de la película, duración, descripción, año de lanzamiento, clasificación, características espeicales, ID del idioma, idioma original, duración del alquiler, tasa de alquiler, tasa por reposición y fecha de última actualización.

### **4. Limpieza del archivo 'inventary.csv'.**

Contiene el ID, el ID de la película, el ID de la tienda y fecha de última actualización.

### **5. Limpieza del archivo 'language.csv'.**

Contiene el ID, nombre del idioma y fecha de última actualización.

### **6. Limpieza del archivo 'old_HDD'.**

Contiene nombre y apellidos de actores y actrices, título de la película, año de lanzamiento y ID de la categoría.

### **7. Limpieza del archivo 'rental'.**

Contiene el ID, fecha y hora del alquiler y de la devolución, el ID del inventario, el ID del cliente, el ID del vendedor/a y la fecha de la última actualización.

 Comenzamos importando las librerías necesarias para realizar la limpieza:

In [1]:
import pandas as pd
pd.set_option('display.max_columns', None)
import numpy as np
import pylab as plt
import seaborn as sns

## 1. LIMPIEZA DEL ARCHIVO 'actor.csv':

+ Comprobación de nulos.
+ Comprobación de duplicados.
+ Unión de columna 'first_name' y 'last_name' en 'name'.
+ Comprobación y eliminación de columnas con valores idénticos.
+ Reseteo del ID.
+ Eliminación de fila con valores repetidos.

**CONTENIDO TRAS LA LIMPIEZA:**

Total = 199 personas.
- ID
- Nombre completo

In [2]:
act = pd.read_csv('../Data/actor.csv', encoding='latin1')   # Importamos el archivo 'actor.csv'
act.info(memory_usage = 'deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   actor_id     200 non-null    int64 
 1   first_name   200 non-null    object
 2   last_name    200 non-null    object
 3   last_update  200 non-null    object
dtypes: int64(1), object(3)
memory usage: 41.1 KB


In [3]:
act    # Exploramos las columnas y filas

Unnamed: 0,actor_id,first_name,last_name,last_update
0,1,PENELOPE,GUINESS,2006-02-15 04:34:33
1,2,NICK,WAHLBERG,2006-02-15 04:34:33
2,3,ED,CHASE,2006-02-15 04:34:33
3,4,JENNIFER,DAVIS,2006-02-15 04:34:33
4,5,JOHNNY,LOLLOBRIGIDA,2006-02-15 04:34:33
...,...,...,...,...
195,196,BELA,WALKEN,2006-02-15 04:34:33
196,197,REESE,WEST,2006-02-15 04:34:33
197,198,MARY,KEITEL,2006-02-15 04:34:33
198,199,JULIA,FAWCETT,2006-02-15 04:34:33


In [4]:
nan_cols = act.isna().sum()   # Comprobamos la cantidad de nulos por columna

nan_cols[nan_cols>0]   # En este caso, no existen nulos en el archivo 'actor'

Series([], dtype: int64)

In [5]:
act['last_update'].unique()  # Comprobamos si la columna last_update tiene valores idénticos en todas las filas

array(['2006-02-15 04:34:33'], dtype=object)

In [6]:
# Eliminamos la columna 'last_update'

act.drop(columns = ['last_update'], inplace=True)

In [7]:
# Unificamos el nombre y el apellido en una sola columna llamada 'name'

act['name'] = act['first_name'] + ' ' + act['last_name']
delet = ['first_name', 'last_name']
act.drop(columns = delet, inplace=True)

In [8]:
# Comprobamos si existen nombres duplicados

duplicated= act[act['name'].duplicated(keep=False)]
duplicated


Unnamed: 0,actor_id,name
100,101,SUSAN DAVIS
109,110,SUSAN DAVIS


In [9]:
act = act.drop(109)   # Eliminamos la fila con el índice 109

In [12]:
# Reseteamos el índice y el 'actor_id'

act.reset_index(drop=True, inplace=True)

act['actor_id'] = range(1, len(act) + 1)

In [None]:
# Exportamos el archivo
#act.to_csv('act_clean.csv', index=False)

### **DATAFRAME FINAL 'ACTOR':**

In [13]:
act

Unnamed: 0,actor_id,name
0,1,PENELOPE GUINESS
1,2,NICK WAHLBERG
2,3,ED CHASE
3,4,JENNIFER DAVIS
4,5,JOHNNY LOLLOBRIGIDA
...,...,...
194,195,BELA WALKEN
195,196,REESE WEST
196,197,MARY KEITEL
197,198,JULIA FAWCETT


# 2. LIMPIEZA DEL ARCHIVO 'category.csv'

+ Exploración de filas y columnas.
+ Eliminación de columna con valores idénticos.

**CONTENIDO TRAS LA LIMPIEZA:** 

Total = 16 categorías.

- ID
- Categoría

In [None]:
cat = pd.read_csv('../Data/category.csv', encoding='latin1')   # Cargamos el archivo
cat    # Exploramos los valores en columnas y filas

In [None]:
cat.last_update.unique()   # La columna 'last_update' contiene valores idénticos

In [None]:
cat.drop(columns = ['last_update'], inplace=True)    # Se procede a eliminarla

### **DATAFRAME FINAL 'CATEGORY':**

In [None]:
cat.head() 

In [None]:
# Exportamos el archivo 

#cat.to_csv('cat_clean.csv', index=False)

# 3. LIMPIEZA DEL ARCHIVO 'film.csv'


+ Exploración y limpieza por columnas.
+ Eliminación de columnas con valores únicos.
+ Eliminación de columna con valores nulos.
+ Creación de nuevas columnas y reestructuración.

**CONTENIDO TRAS LA LIMPIEZA:**

Total = 1000 películas.
- ID
- Título
- Sinopsis
- ID del idioma
- Duración (en minutos)
- Clasificación
- Escenas eliminadas: sí o no
- Detrás de escena: sí o no
- Comentarios: sí o no
- Trailer: sí o no
- Duración del alquiler (en días)
- Precio del alquiler
- Coste de reemplazo

In [None]:
film = pd.read_csv('../Data/film.csv', encoding='latin1')

In [None]:
film.info(memory_usage = 'deep')

In [None]:
film.head()

En una vista general, podemos observar que ciertas columnas podrían contener en todas sus filas valores únicos **('release_year', 'language_id','last_update')**. Vamos a comprobarlo:

In [None]:
film.release_year.unique()   # Valores únicos en la columna 'release_year' ----> Eliminamos

In [None]:
film.drop(columns = ['release_year'], inplace=True)  

In [None]:
film.last_update.unique()    # Valores únicos en la columna 'last_update' ----> Eliminamos

In [None]:
film.drop(columns = ['last_update'], inplace=True)

In [None]:
nan_cols = film.isna().sum()   # Comprobamos la cantidad de nulos por columna

nan_cols[nan_cols>0]           # Todos los valores de la columna 'original_language_id' son nulos ---> Eliminamos

In [None]:
film.drop(columns = ['original_language_id'], inplace=True)

In [None]:
len(film.title.unique())   # Comprobamos que no hay valores repetidos en los títulos

Limpieza y comprobación de columnas: **'description', 'rental_duration, 'rental_rate', 'length', 'replacement_cost', 'rating' y 'special_features'**. Comprobamos los valores únicos para ver si hay duplicados o valores erróneos y unificamos los valores de 'description' y 'special_features' para que sean todas minúsculas.

In [None]:
film.description.unique()       # Comprobación de valores únicos

In [None]:
film.description = film.description.str.lower() # Convertimos todas las strings en minúsculas 

In [None]:
film.rental_duration.unique()   # Comprobación de valores únicos

In [None]:
film.rental_rate.unique()       # Comprobación de valores únicos

In [None]:
film.length.unique()            # Comprobación de valores únicos

In [None]:
film.replacement_cost.unique()  # Comprobación de valores únicos

In [None]:
film.rating.unique()            # Comprobación de valores únicos

In [None]:
film.special_features.unique()  # Comprobación de valores únicos

Con los valores de la columna **'special_features'** vamos a crear funciones para dividir su contenido en nuevas columnas que devuelvan un booleano (1 si existe, 0 si no existe):
+ 'deleted_scenes'
+ 'behind_scenes'
+ 'trailers'
+ 'commentaries'

Posteriormente, eliminamos la columna **'special_features'**.

In [None]:
# Funciones:

def deleted(fila):
    
    if 'Deleted' in fila['special_features']:
        return 1
    else:
        return 0

    
def behind(fila):
    
    if 'Behind' in fila['special_features']:
        return 1
    else:
        return 0
    
def comment(fila):
    
    if 'Comm' in fila['special_features']:
        return 1
    else:
        return 0
    
def trailer(fila):
    if 'Trai' in fila ['special_features']:
        return 1
    else:
        return 0

In [None]:
# Creación de 4 nuevas columnas, aplicación de las funciones anteriores y eliminación de 'special_features':

film['deleted_scenes'] = film.apply(deleted, axis = 1)
film['behind_scenes'] = film.apply(behind, axis = 1)
film['commentaries'] = film.apply(comment, axis = 1)
film['trailers'] = film.apply(trailer, axis = 1)

film.drop(columns = ['special_features'], inplace=True)

**DATAFRAME FINAL 'FILM'** 

In [None]:
# Reordenamos las columnas:

nuevo_orden = ['film_id', 'language_id', 'title', 'description', 'length', 'rating', 'deleted_scenes', 'behind_scenes', 'commentaries', 'trailers', 'rental_duration', 'rental_rate', 'replacement_cost']
film = film.reindex(columns=nuevo_orden)
film.head() 

In [None]:
# Exportamos el archivo

#film.to_csv('film_clean.csv', index=False)

# 4. LIMPIEZA DEL ARCHIVO 'inventory.csv'

+ Exploración de filas y columnas.
+ Eliminación columna con valores idénticos.

**CONTENIDO TRAS LA LIMPIEZA:**

Total = 1000 registros
+ ID de la tabla
+ ID de la película
+ ID de la tienda


In [None]:
inv = pd.read_csv('../Data/inventory.csv', encoding='latin1')

In [None]:
inv

In [None]:
inv['last_update'].unique()

In [None]:
inv.drop(columns = ['last_update'], inplace = True)

**DATAFRAME FINAL 'INVENTORY':**

In [None]:
inv.head()

In [None]:
# Exportamos el archivo

#inv.to_csv('inv_clean.csv', index=False)

# 5. LIMPIEZA DEL ARCHIVO 'language.csv'

+ Exploración de filas y columnas.
+ Eliminación columna con valores idénticos.

**CONTENIDO TRAS LA LIMPIEZA:**

Total = 6 idiomas
+ ID del idioma
+ Idioma


In [None]:
lan = pd.read_csv('../Data/language.csv', encoding='latin1')

In [None]:
lan

In [None]:
lan.last_update.unique()

In [None]:
lan.drop(columns = ['last_update'], inplace = True)

**DATAFRAME FINAL 'LANGUAGE':**

In [None]:
lan

In [None]:
# Exportamos el archivo

#lan.to_csv('lan_clean.csv', index=False)

# 6. LIMPIEZA DEL ARCHIVO 'old_HDD.csv'

+ Exploración de filas y columnas.
+ Unión de 'first_name' y 'last_name' en nueva columna 'name'.
+ Eliminación columna con valores idénticos.

**CONTENIDO TRAS LA LIMPIEZA:**

Total = 1000 registros
+ Nombre del actor/actriz
+ Título de la película
+ ID categoría

In [None]:
old = pd.read_csv('../Data/old_HDD.csv', encoding='latin1')

In [None]:
old

In [None]:
# Unificamos el nombre y el apellido en una sola columna llamada 'name'

old['name'] = old['first_name'] + ' ' + old['last_name']
delet = ['first_name', 'last_name']
old.drop(columns = delet, inplace=True)

In [None]:
old.release_year.unique()      # Verificamos valores idénticos en la columna 'release_year'

In [None]:
old.drop(columns = ['release_year'], inplace=True)    # Eliminamos columna

**DATAFRAME FINAL 'OLD_HDD':**

In [None]:
# Reordenamos las columnas:

nuevo_orden = ['name', 'title', 'category_id']
old = old.reindex(columns=nuevo_orden)
old.head()

In [None]:
# Exportamos el archivo

#old.to_csv('old_clean.csv', index=False)

# 7. LIMPIEZA DEL ARCHIVO 'rental.csv'

+ Exploración de filas y columnas.
+ Reseteo del índice en 'rental_id'
+ Eliminación columna con valores idénticos
+ Conversión a datetime de las columnas 'rental_date' y 'return_date'
+ Nueva columna con los días de préstamo
+ Reordenación de las columnas

**CONTENIDO TRAS LA LIMPIEZA:**

Total = 1000 registros
+ ID
+ ID de inventario
+ ID de vendedor
+ ID de cliente
+ Fecha de alquiler
+ Fecha de retorno


In [11]:
rent = pd.read_csv('../Data/rental.csv', encoding='latin1')
rent

Unnamed: 0,rental_id,rental_date,inventory_id,customer_id,return_date,staff_id,last_update
0,1,2005-05-24 22:53:30,367,130,2005-05-26 22:04:30,1,2006-02-15 21:30:53
1,2,2005-05-24 22:54:33,1525,459,2005-05-28 19:40:33,1,2006-02-15 21:30:53
2,3,2005-05-24 23:03:39,1711,408,2005-06-01 22:12:39,1,2006-02-15 21:30:53
3,4,2005-05-24 23:04:41,2452,333,2005-06-03 01:43:41,2,2006-02-15 21:30:53
4,5,2005-05-24 23:05:21,2079,222,2005-06-02 04:33:21,1,2006-02-15 21:30:53
...,...,...,...,...,...,...,...
995,997,2005-05-31 00:08:25,4243,216,2005-06-02 00:17:25,2,2006-02-15 21:30:53
996,998,2005-05-31 00:16:57,3395,389,2005-06-01 22:41:57,1,2006-02-15 21:30:53
997,999,2005-05-31 00:25:10,4433,413,2005-06-03 06:05:10,2,2006-02-15 21:30:53
998,1000,2005-05-31 00:25:56,1774,332,2005-06-08 19:42:56,2,2006-02-15 21:30:53


In [None]:
rent.tail()     # Se observa que la secuencia en rental_id es incorrecta, faltan números

In [None]:
# Reseteamos el rango de números en la columna 'rental_id'

rent['rental_id'] = range(1, len(rent) + 1)

rent.tail()

In [None]:
rent.info(memory_usage = 'deep')

In [None]:
rent.last_update.unique()    # Comprobamos si la columna last_update tiene valores idénticos en todas las filas

In [None]:
rent.drop(columns = ['last_update'], inplace=True)    # Eliminamos la columna

In [None]:
# Vamos a convertir a tipo datetime las columnas de 'rental_date' y 'return_date'

rent['rental_date'] = rent['rental_date'].astype(dtype='datetime64[ns]')
rent['return_date'] = rent['return_date'].astype(dtype='datetime64[ns]')

In [None]:
# Añadimos una nueva columna con la diferencia entre el día del préstamo y la devolución

rent['days_rented'] = (rent['return_date'] - rent['rental_date']).dt.days


**.dt.days**

Cuando restas una Serie de datetime por otra, obtienes una nueva Serie que contiene objetos timedelta. 
Cada objeto timedelta representa la diferencia entre las fechas en días y horas. Para obtener solo la diferencia 
en días como un número entero, utilizamos el atributo .dt.days. Esto extrae el número de días de cada objeto 
timedelta y lo convierte en un valor entero

In [None]:
nuevo_orden = ['rental_id', 'inventory_id', 'staff_id', 'customer_id', 'rental_date', 'return_date', 'days_rented']
rent = rent.reindex(columns=nuevo_orden)

**DATAFRAME FINAL 'RENTAL':**

In [None]:
rent

In [None]:
# Exportamos el archivo

#rent.to_csv('rent_clean.csv', index=False)