# PROYECTO SQL🐬
## LIMPIEZA DE DATOS


El primer paso será realizar la limpieza de los datos contenidos en un total de siete archivos 'csv' relativos a los registros recogidos por el gerente de un antiguo videoclub. 
A continuación, se recoge el índice de los pasos seguidos para la limpieza de cada archivo:

**1. Limpieza del archivo relativo a los actores y actrices:**

**2. Limpieza del archivo relativo a las categorías:**

**3. Limpieza del archivo relativo a las películas:**

**4. Limpieza del archivo relativo al inventario.**






Comenzamos importando las librerías necesarias para realizar la limpieza:

In [1]:
import pandas as pd
pd.set_option('display.max_columns', None)
import numpy as np
import pylab as plt
import seaborn as sns

## 1. LIMPIEZA DEL ARCHIVO 'actor.csv':

+ Comprobación de nulos.
+ Comprobación de duplicados.
+ Unión de columna 'first_name' y 'last_name' en 'name'.
+ Comprobación y eliminación de columnas con valores idénticos.
+ Eliminación de fila con valores repetidos.

**CONTENIDO TRAS LA LIMPIEZA:**

Total = 199 personas.
- ID
- Nombre completo

In [2]:
act = pd.read_csv('../Data/actor.csv', encoding='latin1')   # Importamos el archivo 'actor.csv'
act.info(memory_usage = 'deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   actor_id     200 non-null    int64 
 1   first_name   200 non-null    object
 2   last_name    200 non-null    object
 3   last_update  200 non-null    object
dtypes: int64(1), object(3)
memory usage: 41.1 KB


In [3]:
act    # Exploramos las columnas y filas

Unnamed: 0,actor_id,first_name,last_name,last_update
0,1,PENELOPE,GUINESS,2006-02-15 04:34:33
1,2,NICK,WAHLBERG,2006-02-15 04:34:33
2,3,ED,CHASE,2006-02-15 04:34:33
3,4,JENNIFER,DAVIS,2006-02-15 04:34:33
4,5,JOHNNY,LOLLOBRIGIDA,2006-02-15 04:34:33
...,...,...,...,...
195,196,BELA,WALKEN,2006-02-15 04:34:33
196,197,REESE,WEST,2006-02-15 04:34:33
197,198,MARY,KEITEL,2006-02-15 04:34:33
198,199,JULIA,FAWCETT,2006-02-15 04:34:33


In [4]:
nan_cols = act.isna().sum()   # Comprobamos la cantidad de nulos por columna

nan_cols[nan_cols>0]   # En este caso, no existen nulos en el archivo 'actor'

Series([], dtype: int64)

In [5]:
act['last_update'].unique()  # Comprobamos si la columna last_update tiene valores idénticos en todas las filas

array(['2006-02-15 04:34:33'], dtype=object)

In [6]:
# Eliminamos la columna 'last_update'

act.drop(columns = ['last_update'], inplace=True)

In [7]:
# Unificamos el nombre y el apellido en una sola columna llamada 'name'

act['name'] = act['first_name'] + ' ' + act['last_name']
delet = ['first_name', 'last_name']
act.drop(columns = delet, inplace=True)

In [8]:
# Comprobamos si existen nombres duplicados

duplicated= act[act['name'].duplicated(keep=False)]
duplicated


Unnamed: 0,actor_id,name
100,101,SUSAN DAVIS
109,110,SUSAN DAVIS


In [9]:
act = act.drop(109)   # Eliminamos la fila con el índice 109

In [10]:
# Reseteamos el índice

act.reset_index(drop=True, inplace=True)


**DATAFRAME FINAL 'ACTOR':**

In [11]:
act

Unnamed: 0,actor_id,name
0,1,PENELOPE GUINESS
1,2,NICK WAHLBERG
2,3,ED CHASE
3,4,JENNIFER DAVIS
4,5,JOHNNY LOLLOBRIGIDA
...,...,...
194,196,BELA WALKEN
195,197,REESE WEST
196,198,MARY KEITEL
197,199,JULIA FAWCETT


# 2. LIMPIEZA DEL ARCHIVO 'category.csv'

+ Exploración de filas y columnas.
+ Eliminación de columna con valores idénticos.

**CONTENIDO TRAS LA LIMPIEZA:** 

Total = 16 categorías.

- ID
- Categoría

In [12]:
cat = pd.read_csv('../Data/category.csv', encoding='latin1')   # Cargamos el archivo
cat    # Exploramos los valores en columnas y filas

Unnamed: 0,category_id,name,last_update
0,1,Action,2006-02-15 04:46:27
1,2,Animation,2006-02-15 04:46:27
2,3,Children,2006-02-15 04:46:27
3,4,Classics,2006-02-15 04:46:27
4,5,Comedy,2006-02-15 04:46:27
5,6,Documentary,2006-02-15 04:46:27
6,7,Drama,2006-02-15 04:46:27
7,8,Family,2006-02-15 04:46:27
8,9,Foreign,2006-02-15 04:46:27
9,10,Games,2006-02-15 04:46:27


In [13]:
cat.last_update.unique()   # La columna 'last_update' contiene valores idénticos

array(['2006-02-15 04:46:27'], dtype=object)

In [14]:
cat.drop(columns = ['last_update'], inplace=True)    # Se procede a eliminarla

**DATAFRAME FINAL 'CATEGORY':**

In [15]:
cat.head() 

Unnamed: 0,category_id,name
0,1,Action
1,2,Animation
2,3,Children
3,4,Classics
4,5,Comedy


# 3. LIMPIEZA DEL ARCHIVO 'film.csv'


+ Exploración y limpieza por columnas.
+ Eliminación de columnas con valores únicos.
+ Eliminación de columna con valores nulos.
+ Creación de nuevas columnas y reestructuración.

**CONTENIDO TRAS LA LIMPIEZA:**

Total = 1000 películas.
- ID
- Título
- Sinopsis
- ID del idioma
- Duración (en minutos)
- Clasificación
- Escenas eliminadas: sí o no
- Detrás de escena: sí o no
- Comentarios: sí o no
- Trailer: sí o no
- Duración del alquiler (en días)
- Precio del alquiler
- Coste de reemplazo

In [16]:
film = pd.read_csv('../Data/film.csv', encoding='latin1')

In [17]:
film.info(memory_usage = 'deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   film_id               1000 non-null   int64  
 1   title                 1000 non-null   object 
 2   description           1000 non-null   object 
 3   release_year          1000 non-null   int64  
 4   language_id           1000 non-null   int64  
 5   original_language_id  0 non-null      float64
 6   rental_duration       1000 non-null   int64  
 7   rental_rate           1000 non-null   float64
 8   length                1000 non-null   int64  
 9   replacement_cost      1000 non-null   float64
 10  rating                1000 non-null   object 
 11  special_features      1000 non-null   object 
 12  last_update           1000 non-null   object 
dtypes: float64(3), int64(5), object(5)
memory usage: 495.3 KB


In [18]:
film.head()

Unnamed: 0,film_id,title,description,release_year,language_id,original_language_id,rental_duration,rental_rate,length,replacement_cost,rating,special_features,last_update
0,1,ACADEMY DINOSAUR,A Epic Drama of a Feminist And a Mad Scientist...,2006,1,,6,0.99,86,20.99,PG,"Deleted Scenes,Behind the Scenes",2006-02-15 05:03:42
1,2,ACE GOLDFINGER,A Astounding Epistle of a Database Administrat...,2006,1,,3,4.99,48,12.99,G,"Trailers,Deleted Scenes",2006-02-15 05:03:42
2,3,ADAPTATION HOLES,A Astounding Reflection of a Lumberjack And a ...,2006,1,,7,2.99,50,18.99,NC-17,"Trailers,Deleted Scenes",2006-02-15 05:03:42
3,4,AFFAIR PREJUDICE,A Fanciful Documentary of a Frisbee And a Lumb...,2006,1,,5,2.99,117,26.99,G,"Commentaries,Behind the Scenes",2006-02-15 05:03:42
4,5,AFRICAN EGG,A Fast-Paced Documentary of a Pastry Chef And ...,2006,1,,6,2.99,130,22.99,G,Deleted Scenes,2006-02-15 05:03:42


En una vista general, podemos observar que ciertas columnas podrían contener en todas sus filas valores únicos **('release_year', 'language_id','last_update')**. Vamos a comprobarlo:

In [19]:
film.release_year.unique()   # Valores únicos en la columna 'release_year' ----> Eliminamos

array([2006])

In [20]:
film.drop(columns = ['release_year'], inplace=True)  

In [21]:
film.last_update.unique()    # Valores únicos en la columna 'last_update' ----> Eliminamos

array(['2006-02-15 05:03:42'], dtype=object)

In [22]:
film.drop(columns = ['last_update'], inplace=True)

In [23]:
nan_cols = film.isna().sum()   # Comprobamos la cantidad de nulos por columna

nan_cols[nan_cols>0]           # Todos los valores de la columna 'original_language_id' son nulos ---> Eliminamos

original_language_id    1000
dtype: int64

In [24]:
film.drop(columns = ['original_language_id'], inplace=True)

In [25]:
len(film.title.unique())   # Comprobamos que no hay valores repetidos en los títulos

1000

Limpieza y comprobación de columnas: **'description', 'rental_duration, 'rental_rate', 'length', 'replacement_cost', 'rating' y 'special_features'**. Comprobamos los valores únicos para ver si hay duplicados o valores erróneos y unificamos los valores de 'description' y 'special_features' para que sean todas minúsculas.

In [26]:
film.description.unique()   

array(['A Epic Drama of a Feminist And a Mad Scientist who must Battle a Teacher in The Canadian Rockies',
       'A Astounding Epistle of a Database Administrator And a Explorer who must Find a Car in Ancient China',
       'A Astounding Reflection of a Lumberjack And a Car who must Sink a Lumberjack in A Baloon Factory',
       'A Fanciful Documentary of a Frisbee And a Lumberjack who must Chase a Monkey in A Shark Tank',
       'A Fast-Paced Documentary of a Pastry Chef And a Dentist who must Pursue a Forensic Psychologist in The Gulf of Mexico',
       'A Intrepid Panorama of a Robot And a Boy who must Escape a Sumo Wrestler in Ancient China',
       'A Touching Saga of a Hunter And a Butler who must Discover a Butler in A Jet Boat',
       'A Epic Tale of a Moose And a Girl who must Confront a Monkey in Ancient India',
       'A Thoughtful Panorama of a Database Administrator And a Mad Scientist who must Outgun a Mad Scientist in A Jet Boat',
       'A Action-Packed Tale of a Man 

In [27]:
film.description = film.description.str.lower() # Convertimos todas las strings en minúsculas 

In [28]:
film.rental_duration.unique()   # Comprobación de valores únicos

array([6, 3, 7, 5, 4])

In [29]:
film.rental_rate.unique()       # Comprobación de valores únicos

array([0.99, 4.99, 2.99])

In [30]:
film.length.unique()            # Comprobación de valores únicos

array([ 86,  48,  50, 117, 130, 169,  62,  54, 114,  63, 126, 136, 150,
        94,  46, 180,  82,  57, 113,  79, 129,  85,  92, 181,  74, 179,
        91, 168, 119, 153, 147, 127, 121,  68,  99, 148, 137, 170,  83,
       108, 118, 162, 182,  75, 173,  87,  65,  90, 122, 160,  89, 175,
       106,  73, 151, 100,  53,  77, 142,  93, 163, 103,  61,  71, 102,
        76,  98,  72, 176, 123,  56, 161,  60, 133, 125,  67,  52, 120,
       167,  70, 135, 112, 183, 110, 152,  51, 146,  66, 185, 124, 107,
       101, 132, 143, 165,  81, 164,  58,  95, 139,  55, 149, 109,  59,
       172, 115, 184, 166,  64, 104,  69,  84, 144,  88, 141,  47,  49,
       177, 154, 159, 178,  96, 116, 171, 140, 155, 158, 174, 138,  97,
       131, 156,  80, 145, 111, 128, 157,  78, 105, 134])

In [31]:
film.replacement_cost.unique()  # Comprobación de valores únicos

array([20.99, 12.99, 18.99, 26.99, 22.99, 17.99, 28.99, 15.99, 21.99,
       24.99, 16.99, 23.99, 10.99, 14.99, 27.99,  9.99, 19.99, 11.99,
       29.99, 25.99, 13.99])

In [32]:
film.rating.unique()            # Comprobación de valores únicos

array(['PG', 'G', 'NC-17', 'PG-13', 'R'], dtype=object)

In [33]:
film.special_features.unique()  # Comprobación de valores únicos

array(['Deleted Scenes,Behind the Scenes', 'Trailers,Deleted Scenes',
       'Commentaries,Behind the Scenes', 'Deleted Scenes', 'Trailers',
       'Commentaries,Deleted Scenes',
       'Trailers,Deleted Scenes,Behind the Scenes',
       'Trailers,Commentaries,Behind the Scenes', 'Trailers,Commentaries',
       'Trailers,Behind the Scenes',
       'Commentaries,Deleted Scenes,Behind the Scenes',
       'Trailers,Commentaries,Deleted Scenes',
       'Trailers,Commentaries,Deleted Scenes,Behind the Scenes',
       'Behind the Scenes', 'Commentaries'], dtype=object)

Con los valores de la columna **'special_features'** vamos a crear funciones para dividir su contenido en nuevas columnas que devuelvan un booleano (1 si existe, 0 si no existe):
+ 'deleted_scenes'
+ 'behind_scenes'
+ 'trailers'
+ 'commentaries'

Posteriormente, eliminamos la columna **'special_features'**.

In [34]:
# Funciones:

def deleted(fila):
    
    if 'Deleted' in fila['special_features']:
        return 1
    else:
        return 0

    
def behind(fila):
    
    if 'Behind' in fila['special_features']:
        return 1
    else:
        return 0
    
def comment(fila):
    
    if 'Comm' in fila['special_features']:
        return 1
    else:
        return 0
    
def trailer(fila):
    if 'Trai' in fila ['special_features']:
        return 1
    else:
        return 0

In [35]:
# Creación de 4 nuevas columnas, aplicación de las funciones anteriores y eliminación de 'special_features':

film['deleted_scenes'] = film.apply(deleted, axis = 1)
film['behind_scenes'] = film.apply(behind, axis = 1)
film['commentaries'] = film.apply(comment, axis = 1)
film['trailers'] = film.apply(trailer, axis = 1)

film.drop(columns = ['special_features'], inplace=True)

**DATAFRAME FINAL 'FILM'** 

In [36]:
# Reordenamos las columnas:

nuevo_orden = ['film_id', 'language_id', 'title', 'description', 'length', 'rating', 'deleted_scenes', 'behind_scenes', 'commentaries', 'trailers', 'rental_duration', 'rental_rate', 'replacement_cost']
film = film.reindex(columns=nuevo_orden)
film.head() 

Unnamed: 0,film_id,language_id,title,description,length,rating,deleted_scenes,behind_scenes,commentaries,trailers,rental_duration,rental_rate,replacement_cost
0,1,1,ACADEMY DINOSAUR,a epic drama of a feminist and a mad scientist...,86,PG,1,1,0,0,6,0.99,20.99
1,2,1,ACE GOLDFINGER,a astounding epistle of a database administrat...,48,G,1,0,0,1,3,4.99,12.99
2,3,1,ADAPTATION HOLES,a astounding reflection of a lumberjack and a ...,50,NC-17,1,0,0,1,7,2.99,18.99
3,4,1,AFFAIR PREJUDICE,a fanciful documentary of a frisbee and a lumb...,117,G,0,1,1,0,5,2.99,26.99
4,5,1,AFRICAN EGG,a fast-paced documentary of a pastry chef and ...,130,G,1,0,0,0,6,2.99,22.99


# 4. LIMPIEZA DEL ARCHIVO 'inventory.csv'

+ Exploración de filas y columnas.
+ Eliminación columna con valores idénticos.

**CONTENIDO TRAS LA LIMPIEZA:**

Total = 1000 registros
+ ID de la tabla
+ ID de la película
+ ID de la tienda


In [37]:
inv = pd.read_csv('../Data/inventory.csv', encoding='latin1')

In [38]:
inv

Unnamed: 0,inventory_id,film_id,store_id,last_update
0,1,1,1,2006-02-15 05:09:17
1,2,1,1,2006-02-15 05:09:17
2,3,1,1,2006-02-15 05:09:17
3,4,1,1,2006-02-15 05:09:17
4,5,1,2,2006-02-15 05:09:17
...,...,...,...,...
995,996,222,2,2006-02-15 05:09:17
996,997,222,2,2006-02-15 05:09:17
997,998,222,2,2006-02-15 05:09:17
998,999,223,2,2006-02-15 05:09:17


In [39]:
inv['last_update'].unique()

array(['2006-02-15 05:09:17'], dtype=object)

In [40]:
inv.drop(columns = ['last_update'], inplace = True)

**DATAFRAME FINAL 'INVENTORY':**

In [41]:
inv.head()

Unnamed: 0,inventory_id,film_id,store_id
0,1,1,1
1,2,1,1
2,3,1,1
3,4,1,1
4,5,1,2


# 5. LIMPIEZA DEL ARCHIVO 'language.csv'

+ Exploración de filas y columnas.
+ Eliminación columna con valores idénticos.

**CONTENIDO TRAS LA LIMPIEZA:**

Total = 6 idiomas
+ ID del idioma
+ Idioma


In [42]:
lan = pd.read_csv('../Data/language.csv', encoding='latin1')

In [53]:
lan

Unnamed: 0,language_id,name
0,1,English
1,2,Italian
2,3,Japanese
3,4,Mandarin
4,5,French
5,6,German


In [50]:
lan.last_update.unique()

array(['2006-02-15 05:02:19'], dtype=object)

In [51]:
lan.drop(columns = ['last_update'], inplace = True)

**DATAFRAME FINAL 'LANGUAGE':**

In [52]:
lan

Unnamed: 0,language_id,name
0,1,English
1,2,Italian
2,3,Japanese
3,4,Mandarin
4,5,French
5,6,German


# 6. LIMPIEZA DEL ARCHIVO 'old_HDD.csv'

+ Exploración de filas y columnas.
+ Unión de 'first_name' y 'last_name' en nueva columna 'name'.
+ Eliminación columna con valores idénticos.

**CONTENIDO TRAS LA LIMPIEZA:**

Total = 1000 registros
+ Nombre del actor/actriz
+ Título de la película
+ ID categoría

In [54]:
old = pd.read_csv('../Data/old_HDD.csv', encoding='latin1')

In [55]:
old

Unnamed: 0,first_name,last_name,title,release_year,category_id
0,PENELOPE,GUINESS,ACADEMY DINOSAUR,2006,6
1,PENELOPE,GUINESS,ANACONDA CONFESSIONS,2006,2
2,PENELOPE,GUINESS,ANGELS LIFE,2006,13
3,PENELOPE,GUINESS,BULWORTH COMMANDMENTS,2006,10
4,PENELOPE,GUINESS,CHEAPER CLYDE,2006,14
...,...,...,...,...,...
995,GOLDIE,BRODY,COMANCHEROS ENEMY,2006,3
996,GOLDIE,BRODY,DAISY MENAGERIE,2006,14
997,GOLDIE,BRODY,DESERT POSEIDON,2006,11
998,GOLDIE,BRODY,EVERYONE CRAFT,2006,9


In [57]:
# Unificamos el nombre y el apellido en una sola columna llamada 'name'

old['name'] = old['first_name'] + ' ' + old['last_name']
delet = ['first_name', 'last_name']
old.drop(columns = delet, inplace=True)

In [59]:
old.release_year.unique()      # Verificamos valores idénticos en la columna 'release_year'

array([2006])

In [72]:
old.drop(columns = ['release_year'], inplace=True)    # Eliminamos columna

**DATAFRAME FINAL 'OLD_HDD':**

In [74]:
# Reordenamos las columnas:

nuevo_orden = ['name', 'title', 'category_id']
old = old.reindex(columns=nuevo_orden)
old.head()

Unnamed: 0,name,title,category_id
0,PENELOPE GUINESS,ACADEMY DINOSAUR,6
1,PENELOPE GUINESS,ANACONDA CONFESSIONS,2
2,PENELOPE GUINESS,ANGELS LIFE,13
3,PENELOPE GUINESS,BULWORTH COMMANDMENTS,10
4,PENELOPE GUINESS,CHEAPER CLYDE,14


# 7. LIMPIEZA DEL ARCHIVO 'rental.csv'

+ Exploración de filas y columnas.
+ Reseteo del índice en 'rental_id'
+ Eliminación columna con valores idénticos.

**CONTENIDO TRAS LA LIMPIEZA:**

Total = 1001 registros
+ Nombre del actor/actriz
+ Título de la película
+ ID categoría

In [75]:
rent = pd.read_csv('../Data/rental.csv', encoding='latin1')

In [90]:
rent.tail()     # Se observa que la secuencia en rental_id es incorrecta, faltan números

Unnamed: 0,rental_id,rental_date,inventory_id,customer_id,return_date,staff_id,last_update
995,996,2005-05-31 00:08:25,4243,216,2005-06-02 00:17:25,2,2006-02-15 21:30:53
996,997,2005-05-31 00:16:57,3395,389,2005-06-01 22:41:57,1,2006-02-15 21:30:53
997,998,2005-05-31 00:25:10,4433,413,2005-06-03 06:05:10,2,2006-02-15 21:30:53
998,999,2005-05-31 00:25:56,1774,332,2005-06-08 19:42:56,2,2006-02-15 21:30:53
999,1000,2005-05-31 00:46:31,1498,64,2005-06-06 06:14:31,2,2006-02-15 21:30:53


In [89]:
# Reseteamos el rango de números en la columna 'rental_id'

rent['rental_id'] = range(1, len(rent) + 1)

rent.tail()

Unnamed: 0,rental_id,rental_date,inventory_id,customer_id,return_date,staff_id,last_update
995,996,2005-05-31 00:08:25,4243,216,2005-06-02 00:17:25,2,2006-02-15 21:30:53
996,997,2005-05-31 00:16:57,3395,389,2005-06-01 22:41:57,1,2006-02-15 21:30:53
997,998,2005-05-31 00:25:10,4433,413,2005-06-03 06:05:10,2,2006-02-15 21:30:53
998,999,2005-05-31 00:25:56,1774,332,2005-06-08 19:42:56,2,2006-02-15 21:30:53
999,1000,2005-05-31 00:46:31,1498,64,2005-06-06 06:14:31,2,2006-02-15 21:30:53


In [91]:
rent.inventory_id.unique()

array([ 367, 1525, 1711, 2452, 2079, 2792, 3995, 2346, 2580, 1824, 4443,
       1584, 2294, 2701, 3049,  389,  830, 3376, 1941, 3517,  146,  727,
       4441, 3273, 3961, 4371, 1225, 4068,  611, 3744, 4482, 3832, 1681,
       2613, 1286, 1308,  403, 2540, 4466, 2638, 1761,  380, 2578, 3098,
       1853, 3318, 2211, 1780, 2965, 1983, 1257, 4017, 1255, 2787, 1139,
       1352, 3938, 3050, 2884,  330, 4210,  261, 4008,   79, 3552, 1162,
        239, 4029, 3207, 2168, 2408, 2260,  517, 1744, 3393, 3021, 1303,
       4067, 3299, 2478, 2610, 1388,  466, 1829,  470, 2275, 1586, 2221,
       2181, 2984,  139,  775, 4360, 1675,  178, 3418, 1283, 2970,  535,
       2599,  617,  373, 3343, 4281,  794, 3627, 2833, 3289, 1044, 4108,
       3725, 2153, 2963, 4502,  749, 4453, 4278,  872, 1359,   37, 1053,
       2908, 1795,  212,  952, 2047, 2026, 4322, 4154, 3990,  815, 3367,
        399, 2272,  103, 2296, 2591, 4134,  327,  655,  811, 4407,  847,
       1689, 3905, 1431,  633, 4252, 1084,  909, 29