In [1]:
import pandas as pd
import numpy as np
import re
import warnings 
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
import matplotlib.pyplot as plt

In [2]:
actor= pd.read_csv('../csv/originales/actor.csv', encoding='iso-8859-1')

In [3]:
categ= pd.read_csv('../csv/originales/category.csv', encoding='iso-8859-1')

In [4]:
lang= pd.read_csv('../csv/originales/language.csv', encoding='iso-8859-1')

In [5]:
inven= pd.read_csv('../csv/originales/inventory.csv', encoding='iso-8859-1')

In [6]:
old= pd.read_csv('../csv/originales/old_HDD.csv', encoding='iso-8859-1')

In [7]:
rent= pd.read_csv('../csv/originales/rental.csv', encoding='iso-8859-1')

In [8]:
film= pd.read_csv('../csv/originales/film.csv', encoding='iso-8859-1')

**A lo largo de este proyecto vamos a limpiar estos csvs para poder realizar posteriormente una base de datos con ellos, relacionando todos los archivos entre ellos.**

# Actor CSV

**Lo primero que realizo es mirar el número de filas y columnas del archivo y que hay en cada una:**

In [9]:
actor.shape

(200, 4)

In [10]:
#pd.set_option('display.max_rows', None)
actor.head()

Unnamed: 0,actor_id,first_name,last_name,last_update
0,1,PENELOPE,GUINESS,2006-02-15 04:34:33
1,2,NICK,WAHLBERG,2006-02-15 04:34:33
2,3,ED,CHASE,2006-02-15 04:34:33
3,4,JENNIFER,DAVIS,2006-02-15 04:34:33
4,5,JOHNNY,LOLLOBRIGIDA,2006-02-15 04:34:33


**Se puede ver que la columna 'last_update' es identica para todas las filas,entonces se puede eliminar**

In [11]:
actor=actor.drop('last_update', axis=1)     #Elimino 'last_update'

In [12]:
actor.shape

(200, 3)

In [13]:
actor.info(memory_usage='deep')             #No hay nulos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   actor_id    200 non-null    int64 
 1   first_name  200 non-null    object
 2   last_name   200 non-null    object
dtypes: int64(1), object(2)
memory usage: 26.2 KB


In [14]:
actor.duplicated().any()

False

**No hay duplicados, porque estamos contando el ID al mirarlo.**

**Probamos sin ID:**

In [15]:
act_dup=actor[['first_name', 'last_name']]

In [16]:
act_dup[act_dup.duplicated()].index

Int64Index([109], dtype='int64')

In [17]:
act_dup[act_dup['first_name']=='SUSAN']

Unnamed: 0,first_name,last_name
100,SUSAN,DAVIS
109,SUSAN,DAVIS


**Se puede observar que 'Susan Davis' esta duplicada, entonces elimino esa fila:**

In [18]:
actor.drop(109, axis=0, inplace=True)

In [19]:
actor.shape

(199, 3)

**Reasigno los valores de 'actor_id' y reseteo el índice:**

In [20]:
actor['actor_id']=range(1, len(actor)+1)
actor.reset_index(drop=True, inplace=True)

In [21]:
#pd.set_option('display.max_rows', None)
actor.head(200)

Unnamed: 0,actor_id,first_name,last_name
0,1,PENELOPE,GUINESS
1,2,NICK,WAHLBERG
2,3,ED,CHASE
3,4,JENNIFER,DAVIS
4,5,JOHNNY,LOLLOBRIGIDA
...,...,...,...
194,195,BELA,WALKEN
195,196,REESE,WEST
196,197,MARY,KEITEL
197,198,JULIA,FAWCETT


In [22]:
actor.shape

(199, 3)

**Escribo todos los nombres en minúsculas para que sea más fácil en un futuro la búsqueda:**

In [23]:
actor.first_name=actor.first_name.str.lower()
actor.last_name=actor.last_name.str.lower()

**Creo una columna nueva con el nombre completo:**

In [24]:
actor['complete_name'] = actor['first_name'].astype(str) + '_' + actor['last_name'].astype(str)

In [25]:
actor.columns

Index(['actor_id', 'first_name', 'last_name', 'complete_name'], dtype='object')

In [26]:
actor=actor[['actor_id', 'complete_name','first_name', 'last_name']]

In [27]:
actor.head()

Unnamed: 0,actor_id,complete_name,first_name,last_name
0,1,penelope_guiness,penelope,guiness
1,2,nick_wahlberg,nick,wahlberg
2,3,ed_chase,ed,chase
3,4,jennifer_davis,jennifer,davis
4,5,johnny_lollobrigida,johnny,lollobrigida


# Category CSV

**Analizo el número de filas y columnas del archivo y que hay en cada una:**

In [28]:
categ.shape

(16, 3)

In [29]:
#pd.set_option('display.max_rows', None)
categ.head(16)

Unnamed: 0,category_id,name,last_update
0,1,Action,2006-02-15 04:46:27
1,2,Animation,2006-02-15 04:46:27
2,3,Children,2006-02-15 04:46:27
3,4,Classics,2006-02-15 04:46:27
4,5,Comedy,2006-02-15 04:46:27
5,6,Documentary,2006-02-15 04:46:27
6,7,Drama,2006-02-15 04:46:27
7,8,Family,2006-02-15 04:46:27
8,9,Foreign,2006-02-15 04:46:27
9,10,Games,2006-02-15 04:46:27


In [30]:
categ.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   category_id  16 non-null     int64 
 1   name         16 non-null     object
 2   last_update  16 non-null     object
dtypes: int64(1), object(2)
memory usage: 2.4 KB


**Veo en la query anterior que no hay nulos.**

In [31]:
categ.duplicated().any()

False

**Tampoco hay duplicados.**

In [32]:
categ=categ.drop('last_update', axis=1)

**Elimino la columna 'last_update' porque todas sus filas son idénticas**

In [33]:
categ.shape

(16, 2)

**Observo que ha sido eliminada la columna.**

**Renombro la columna 'name' porque en otras tablas hay columnas que también se llaman 'name' y tienen otro contenido distinto.**

In [34]:
categ.rename(columns={'name':'c_name'}, inplace=True)

**Transformo los valores de la columna 'c_name' en minúsculas:**

In [35]:
categ.c_name=categ.c_name.str.lower()

In [36]:
categ.head()

Unnamed: 0,category_id,c_name
0,1,action
1,2,animation
2,3,children
3,4,classics
4,5,comedy


# Language CSV

**Analizo el número de filas y columnas del archivo y que hay en cada una:**

In [37]:
lang.shape

(6, 3)

In [38]:
lang.head(6)

Unnamed: 0,language_id,name,last_update
0,1,English,2006-02-15 05:02:19
1,2,Italian,2006-02-15 05:02:19
2,3,Japanese,2006-02-15 05:02:19
3,4,Mandarin,2006-02-15 05:02:19
4,5,French,2006-02-15 05:02:19
5,6,German,2006-02-15 05:02:19


**Elimino también en esta tabla la columna 'last_update' porque son idénticas sus filas.**

In [39]:
lang=lang.drop('last_update', axis=1)

**Renombro la columna 'name' porque en otras tablas hay columnas que también se llaman 'name' y tienen otro contenido distinto.**

In [40]:
lang.rename(columns={'name':'l_name'}, inplace=True)

In [41]:
lang.l_name=lang.l_name.str.lower()

In [42]:
lang.head()

Unnamed: 0,language_id,l_name
0,1,english
1,2,italian
2,3,japanese
3,4,mandarin
4,5,french


In [43]:
lang.shape

(6, 2)

# Inventory CSV

**Analizo el número de filas y columnas del archivo y que hay en cada una:**

In [44]:
inven.shape

(1000, 4)

In [45]:
inven.head(1000)

Unnamed: 0,inventory_id,film_id,store_id,last_update
0,1,1,1,2006-02-15 05:09:17
1,2,1,1,2006-02-15 05:09:17
2,3,1,1,2006-02-15 05:09:17
3,4,1,1,2006-02-15 05:09:17
4,5,1,2,2006-02-15 05:09:17
...,...,...,...,...
995,996,222,2,2006-02-15 05:09:17
996,997,222,2,2006-02-15 05:09:17
997,998,222,2,2006-02-15 05:09:17
998,999,223,2,2006-02-15 05:09:17


**Elimino la columna 'last_update' porque todas sus filas son idénticas:**

In [46]:
inven=inven.drop('last_update', axis=1)

**Compruebo que ha sido eliminada la columna:**

In [47]:
inven.shape

(1000, 3)

# Old_HDD CSV

**Analizo el número de filas y columnas del archivo y que hay en cada una:**

In [48]:
old.shape

(1000, 5)

In [49]:
old.head()

Unnamed: 0,first_name,last_name,title,release_year,category_id
0,PENELOPE,GUINESS,ACADEMY DINOSAUR,2006,6
1,PENELOPE,GUINESS,ANACONDA CONFESSIONS,2006,2
2,PENELOPE,GUINESS,ANGELS LIFE,2006,13
3,PENELOPE,GUINESS,BULWORTH COMMANDMENTS,2006,10
4,PENELOPE,GUINESS,CHEAPER CLYDE,2006,14


**Observo a ver si hay duplicados:**

In [50]:
old.duplicated().any()

False

**No hay duplicados.**

**Reviso los valores únicos de cada columna (sustituyendo en la query siguiente 'release_year' por el nombre de cada columna):**

In [51]:
old.release_year.unique()                                                     

array([2006], dtype=int64)

**Elimino la columna release_year porque están rellenas todas las filas con el único valores idénticos(2006):**

In [52]:
old=old.drop('release_year', axis=1)

**Creo un índice para esta tabla porque todas las demás tienen y he decidido dejarlo:**

In [53]:
old['old_id']=range(1, len(old)+1)

**Convierto las columnas 'first_name', 'last_name' y 'title' en minúsculas:**

In [54]:
old.first_name=old.first_name.str.lower()

In [55]:
old.last_name=old.last_name.str.lower()

In [56]:
old.title=old.title.str.lower()

**Creo una columna nueva con el nombre completo:**

In [57]:
old['complete_name']=old.first_name+'_'+old.last_name

In [58]:
old.shape

(1000, 6)

In [59]:
old.columns

Index(['first_name', 'last_name', 'title', 'category_id', 'old_id',
       'complete_name'],
      dtype='object')

In [60]:
old=old[['complete_name','first_name', 'last_name', 'title', 'category_id', 'old_id']]

**Hago merge de la columna 'complete_name' para en Mysql poder hacer la relación.**

In [61]:
old = old.merge(actor[['complete_name', 'actor_id']], on='complete_name', how='left')

old.head()

Unnamed: 0,complete_name,first_name,last_name,title,category_id,old_id,actor_id
0,penelope_guiness,penelope,guiness,academy dinosaur,6,1,1
1,penelope_guiness,penelope,guiness,anaconda confessions,2,2,1
2,penelope_guiness,penelope,guiness,angels life,13,3,1
3,penelope_guiness,penelope,guiness,bulworth commandments,10,4,1
4,penelope_guiness,penelope,guiness,cheaper clyde,14,5,1


**Elimino las columnas 'complete_name', 'first_name' y 'last_name' porque si quiero esa información la podré obtener al relacionarlas con la tabla 'actor:'**

In [62]:
old=old.drop('complete_name', axis=1)
old=old.drop('first_name', axis=1)
old=old.drop('last_name',axis=1)

In [63]:
old.head()

Unnamed: 0,title,category_id,old_id,actor_id
0,academy dinosaur,6,1,1
1,anaconda confessions,2,2,1
2,angels life,13,3,1
3,bulworth commandments,10,4,1
4,cheaper clyde,14,5,1


# Rental CSV

**Analizo el número de filas y columnas del archivo y que hay en cada una:**

In [64]:
rent.shape

(1000, 7)

In [65]:
rent.head()

Unnamed: 0,rental_id,rental_date,inventory_id,customer_id,return_date,staff_id,last_update
0,1,2005-05-24 22:53:30,367,130,2005-05-26 22:04:30,1,2006-02-15 21:30:53
1,2,2005-05-24 22:54:33,1525,459,2005-05-28 19:40:33,1,2006-02-15 21:30:53
2,3,2005-05-24 23:03:39,1711,408,2005-06-01 22:12:39,1,2006-02-15 21:30:53
3,4,2005-05-24 23:04:41,2452,333,2005-06-03 01:43:41,2,2006-02-15 21:30:53
4,5,2005-05-24 23:05:21,2079,222,2005-06-02 04:33:21,1,2006-02-15 21:30:53


**Elimino la columna 'last_update' porque no aporta información relevante:**

In [66]:
rent=rent.drop('last_update', axis=1)

**Compruebo que ha sido eliminada la columna:**

In [67]:
rent.shape

(1000, 6)

**Reorganizo las columnas para dejar 'rental_date' y 'return_date' seguidas**

In [68]:
rent.columns

Index(['rental_id', 'rental_date', 'inventory_id', 'customer_id',
       'return_date', 'staff_id'],
      dtype='object')

In [69]:
rent=rent[['rental_id','inventory_id', 'customer_id','staff_id', 'rental_date', 'return_date']]

In [70]:
rent.head()

Unnamed: 0,rental_id,inventory_id,customer_id,staff_id,rental_date,return_date
0,1,367,130,1,2005-05-24 22:53:30,2005-05-26 22:04:30
1,2,1525,459,1,2005-05-24 22:54:33,2005-05-28 19:40:33
2,3,1711,408,1,2005-05-24 23:03:39,2005-06-01 22:12:39
3,4,2452,333,2,2005-05-24 23:04:41,2005-06-03 01:43:41
4,5,2079,222,1,2005-05-24 23:05:21,2005-06-02 04:33:21


**Miro los valores únicos de cada columna:**

In [71]:
#rent.return_date.unique()

**Todos los valores salen con sentido, con que ya doy por limpiada esta tabla.**

# Film CSV

**Analizo el número de filas y columnas del archivo y que hay en cada una:**

In [72]:
film.shape

(1000, 13)

In [73]:
film.head()

Unnamed: 0,film_id,title,description,release_year,language_id,original_language_id,rental_duration,rental_rate,length,replacement_cost,rating,special_features,last_update
0,1,ACADEMY DINOSAUR,A Epic Drama of a Feminist And a Mad Scientist...,2006,1,,6,0.99,86,20.99,PG,"Deleted Scenes,Behind the Scenes",2006-02-15 05:03:42
1,2,ACE GOLDFINGER,A Astounding Epistle of a Database Administrat...,2006,1,,3,4.99,48,12.99,G,"Trailers,Deleted Scenes",2006-02-15 05:03:42
2,3,ADAPTATION HOLES,A Astounding Reflection of a Lumberjack And a ...,2006,1,,7,2.99,50,18.99,NC-17,"Trailers,Deleted Scenes",2006-02-15 05:03:42
3,4,AFFAIR PREJUDICE,A Fanciful Documentary of a Frisbee And a Lumb...,2006,1,,5,2.99,117,26.99,G,"Commentaries,Behind the Scenes",2006-02-15 05:03:42
4,5,AFRICAN EGG,A Fast-Paced Documentary of a Pastry Chef And ...,2006,1,,6,2.99,130,22.99,G,Deleted Scenes,2006-02-15 05:03:42


**Elimino 'last_update' como en todas las demás tablas:**

In [74]:
film=film.drop('last_update', axis=1)

**Compruebo que ha sido eliminada:**

In [75]:
film.shape

(1000, 12)

**Reviso los nulos**

In [76]:
film.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   film_id               1000 non-null   int64  
 1   title                 1000 non-null   object 
 2   description           1000 non-null   object 
 3   release_year          1000 non-null   int64  
 4   language_id           1000 non-null   int64  
 5   original_language_id  0 non-null      float64
 6   rental_duration       1000 non-null   int64  
 7   rental_rate           1000 non-null   float64
 8   length                1000 non-null   int64  
 9   replacement_cost      1000 non-null   float64
 10  rating                1000 non-null   object 
 11  special_features      1000 non-null   object 
dtypes: float64(3), int64(5), object(4)
memory usage: 421.1 KB


**Elimino la columna 'original_language_id' porque todos sus valores son nulos:**

In [77]:
film=film.drop('original_language_id', axis=1)

**Compruebo que ha sido eliminada la columna:**

In [78]:
film.shape

(1000, 11)

**Miro si hay solo un valor único en una columna entera:**

In [79]:
film.release_year.unique()

array([2006], dtype=int64)

Elimino la columna 'release_year' porque hay un único valor único y es irrelevante la columna:

In [80]:
film=film.drop('release_year', axis=1)

In [81]:
film.language_id.unique()

array([1], dtype=int64)

**No elimino la columna 'language_id' aunque solo tenga un valor, porque me sirve para relacionarla con la tabla language y en un futuro puede que tengamos películas con más idiomas.**

In [82]:
film.head()

Unnamed: 0,film_id,title,description,language_id,rental_duration,rental_rate,length,replacement_cost,rating,special_features
0,1,ACADEMY DINOSAUR,A Epic Drama of a Feminist And a Mad Scientist...,1,6,0.99,86,20.99,PG,"Deleted Scenes,Behind the Scenes"
1,2,ACE GOLDFINGER,A Astounding Epistle of a Database Administrat...,1,3,4.99,48,12.99,G,"Trailers,Deleted Scenes"
2,3,ADAPTATION HOLES,A Astounding Reflection of a Lumberjack And a ...,1,7,2.99,50,18.99,NC-17,"Trailers,Deleted Scenes"
3,4,AFFAIR PREJUDICE,A Fanciful Documentary of a Frisbee And a Lumb...,1,5,2.99,117,26.99,G,"Commentaries,Behind the Scenes"
4,5,AFRICAN EGG,A Fast-Paced Documentary of a Pastry Chef And ...,1,6,2.99,130,22.99,G,Deleted Scenes


**Modifico la columna 'title' a minúsculas:**

In [83]:
film.title=film.title.str.lower()

**Observo lo valores únicos de la columna 'speacial_features':**

In [84]:
film.special_features.unique()

array(['Deleted Scenes,Behind the Scenes', 'Trailers,Deleted Scenes',
       'Commentaries,Behind the Scenes', 'Deleted Scenes', 'Trailers',
       'Commentaries,Deleted Scenes',
       'Trailers,Deleted Scenes,Behind the Scenes',
       'Trailers,Commentaries,Behind the Scenes', 'Trailers,Commentaries',
       'Trailers,Behind the Scenes',
       'Commentaries,Deleted Scenes,Behind the Scenes',
       'Trailers,Commentaries,Deleted Scenes',
       'Trailers,Commentaries,Deleted Scenes,Behind the Scenes',
       'Behind the Scenes', 'Commentaries'], dtype=object)

**Veo que siempre se repiten 4 tipos. Entonces decido crear 4 columnas booleanas de cada característica especial, ya que una fila puede tener varias características especiales.**

In [85]:
def trailers_nc(row):
    if 'Trailers' in row['special_features']:
        return 1
    else:
        return 0
film['trailers']=film.apply(trailers_nc, axis=1)

def commentaries_nc(row):
    if 'Commentaries' in row['special_features']:
        return 1
    else:
        return 0
film['commentaries']=film.apply(commentaries_nc, axis=1)

def deleted_sc(row):
    if 'Deleted Scenes' in row['special_features']:
        return 1
    else:
        return 0
film['deleted_scenes']=film.apply(deleted_sc, axis=1)

def behind_nc(row):
    if 'Behind the Scenes' in row['special_features']:
        return 1
    else:
        return 0
film['behind_the_scenes']=film.apply(behind_nc, axis=1)

**Elimino la columna 'special_features' porque ya esta esa info en las columnas booleanas que hemos creado:**

In [86]:
film=film.drop('special_features', axis=1)

**Paso a minúsculas las siguientes columnas para que sea más fácil manejarlas en un futuro:**

In [87]:
film.description=film.description.str.lower()

In [88]:
film.title=film.title.str.lower()

In [89]:
film.head()

Unnamed: 0,film_id,title,description,language_id,rental_duration,rental_rate,length,replacement_cost,rating,trailers,commentaries,deleted_scenes,behind_the_scenes
0,1,academy dinosaur,a epic drama of a feminist and a mad scientist...,1,6,0.99,86,20.99,PG,0,0,1,1
1,2,ace goldfinger,a astounding epistle of a database administrat...,1,3,4.99,48,12.99,G,1,0,1,0
2,3,adaptation holes,a astounding reflection of a lumberjack and a ...,1,7,2.99,50,18.99,NC-17,1,0,1,0
3,4,affair prejudice,a fanciful documentary of a frisbee and a lumb...,1,5,2.99,117,26.99,G,0,1,0,1
4,5,african egg,a fast-paced documentary of a pastry chef and ...,1,6,2.99,130,22.99,G,0,0,1,0


**Para relacionar film y old hago un merge en la tabla old**

In [90]:
old = old.merge(film[['title', 'film_id']], on='title', how='left')
old.head()

Unnamed: 0,title,category_id,old_id,actor_id,film_id
0,academy dinosaur,6,1,1,1
1,anaconda confessions,2,2,1,23
2,angels life,13,3,1,25
3,bulworth commandments,10,4,1,106
4,cheaper clyde,14,5,1,140


**Muevo la columna old_id a la primeraposición:**

In [91]:
old.columns

Index(['title', 'category_id', 'old_id', 'actor_id', 'film_id'], dtype='object')

In [92]:
old=old[['old_id', 'title', 'category_id', 'actor_id', 'film_id']]

# **Exportamos los CSV limpios a una carpeta nueva**

In [93]:
actor.to_csv('../csv/limpios/actor_limpio.csv', index=False)

In [94]:
categ.to_csv('../csv/limpios/category_limpio.csv', index=False)

In [95]:
lang.to_csv('../csv/limpios/language_limpio.csv', index=False)

In [96]:
inven.to_csv('../csv/limpios/inventory_limpio.csv', index=False)

In [97]:
old.to_csv('../csv/limpios/old_limpio.csv', index=False)

In [98]:
rent.to_csv('../csv/limpios/rental_limpio.csv', index=False)

In [99]:
film.to_csv('../csv/limpios/film_limpio.csv', index=False)