# Limpieza del *DataFrame*

🚨 A partir de este punto utilizaremos el *DataFrame* que hemos creado resultado del *inner join* que hicimos con el merge. 

Vamos a empezar con algunos cambios pequeños sobre nuestro *DataFrame*, estos son:

- La columna 'ID' y 'id_' contienen la misma información, son redundantes, por lo tanto eliminaremos una. 

- Los nombres de las columnas no son homogeneas, algunas están en mayúscula, otras tienen puntos en vez de espacios, por lo que vamos a cambiar el nombre de las columnas para que estén todas en minúsculas y sin espacios y puntos. 

- Los valores de algunas columnas (`marital`, `poutcome`) están en mayúsculas. Los pondremos todas en minúsculas. 

- Vamos a crear dos columnas nuevas con el mes y el año del día en el que el banco contacto con cada cliente en la campaña de marketing. 

- La columna de `education` tiene '.' en vez de espacios, los reemplazaremos para no tener los '.'. 



In [3]:
import pandas as pd
import numpy as np


# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

In [4]:
# vamos a recrear el dataframe que vimos en tema anterior para poder utilizarlo aqui.

# nuestros datos de marketing
df_mar = pd.read_csv("bank-additional.csv", index_col=0)

#nuestros datos del excel, que debemos concatenar.
df_2012 = pd.read_excel("customer-details.xlsx", sheet_name="2012", index_col = 0)
df_2013 = pd.read_excel("customer-details.xlsx", sheet_name="2013", index_col = 0)
df_2014 = pd.read_excel("customer-details.xlsx", sheet_name="2014", index_col = 0)

# concatenando datos del excel
df_concat0 = pd.concat([df_2012, df_2013, df_2014], axis=0, ignore_index = True)

#creando el mergeado_inner
mergeado_inner = df_concat0.merge(df_mar, left_on='ID', right_on = "id_")

In [5]:
# lo primero que vamos a hacer es un copia del DataFrame original usando el método '.copy()', este método funciona exactamente igual que el método '.copy()' que habíamos visto en listas, diccionarios, etc
df_final = mergeado_inner.copy()

# verificamos que tenemos el DataFrame correctamente
df_final.head()

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
0,161770.0,1.0,0.0,2012-04-04,29.0,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,85477.0,1.0,1.0,2012-12-30,7.0,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097
2,147233.0,1.0,1.0,2012-02-02,5.0,3f9f49b5-e410-4948-bf6e-f9244f04918b,37.0,services,MARRIED,high.school,0.0,1.0,0.0,telephone,226,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847,3f9f49b5-e410-4948-bf6e-f9244f04918b
3,121393.0,1.0,2.0,2012-12-21,29.0,9991fafb-4447-451a-8be2-b0df6098d13e,40.0,admin.,MARRIED,basic.6y,0.0,0.0,0.0,telephone,151,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,29-noviembre-2015,49.041,-70.308,9991fafb-4447-451a-8be2-b0df6098d13e
4,63164.0,1.0,2.0,2012-06-20,20.0,eca60b76-70b6-4077-80ba-bc52e8ebb0eb,56.0,services,MARRIED,high.school,0.0,0.0,1.0,telephone,307,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,29-enero-2017,38.033,-104.463,eca60b76-70b6-4077-80ba-bc52e8ebb0eb


## Eliminamos columnas que tienen información redundante. 

Para eso usaremos el método `.drop()`, que recordamos en la lección anterios en el jupyter de `EDA`. Recordemos que hace y cual es la sintaxis de este método. Este método nos permitía eliminar filas o columnas de nuestro *DataFrame*. Si sintaxis básica es:

```python
DataFrame.drop(labels=None, axis=0 , inplace=False, errors='raise')
```

Parámetros:

- `labels`: Especifica los nombres de las filas o columnas que se queremos eliminar. Puede ser un solo valor o una lista de valores.

- `axis`: Indica si se eliminarán filas (`axis=0`) o columnas (`axis=1`).

- `inplace` (opcional): Es un parámetro opcional que indica si se realizará la eliminación directamente en el DataFrame original (`inplace=True`) o si se creará un nuevo DataFrame con los cambios (`inplace=False`, valor por defecto).

- `errors` (opcional): Especifica cómo manejar errores cuando se pasan etiquetas que no están presentes en el DataFrame. Los valores posibles son: `'raise'` para generar un error, `'ignore'` para omitir las etiquetas y `'coerce'` para establecer los valores faltantes como NaN.


In [6]:
# vamos a quitar la columna "id_", por lo tanto en el parámetro 'axis' le daremos el valor de 1. 
# además como solo queremos quitar una columna le pasaremos el nombre de la columna sin más (en caso de que quisieramos quitar más columnas deberíamos pasar una lista con el nombre de todas las columnas)
df_final.drop("id_", axis = 1, inplace = True)

# comprobamos que la columna se ha eliminado correctamente
df_final.head(2)

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude
0,161770.0,1.0,0.0,2012-04-04,29.0,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233
1,85477.0,1.0,1.0,2012-12-30,7.0,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923


## Homogeneizamos el nombre de las columnas 

Para eso usaremos el método `.rename()` que hemos aprendido en esta lección. Recordad que para ello necesitamos un diccionario donde las *keys* son los nombres antiguos de las columnas y los *value* son los nombres nuevos de las columnas. En el ejemplo que hicimos antes lo hicimos a mano, y esto era aceptable porque solo queríamos cambiar el nombre de una columna, pero ahora lo queremos hacer de todas. ¿Vamos a construir el diccionario a mano? No! Vamos a hacer una *dict comprehension*


In [7]:
# vamos a iterar por todas las columnas del DataFrame y a cada una de ellas la pondremos en minúsula y le aplicaremos un replace para quitar los puntos. 
nuevas_columnas = {columna: columna.lower().replace(".", "") for columna in df_final.columns}

# comprobamos que hemos creado el diccionario correctamente
nuevas_columnas

{'Income': 'income',
 'Kidhome': 'kidhome',
 'Teenhome': 'teenhome',
 'Dt_Customer': 'dt_customer',
 'NumWebVisitsMonth': 'numwebvisitsmonth',
 'ID': 'id',
 'age': 'age',
 'job': 'job',
 'marital': 'marital',
 'education': 'education',
 'default': 'default',
 'housing': 'housing',
 'loan': 'loan',
 'contact': 'contact',
 'duration': 'duration',
 'campaign': 'campaign',
 'pdays': 'pdays',
 'previous': 'previous',
 'poutcome': 'poutcome',
 'emp.var.rate': 'empvarrate',
 'cons.price.idx': 'conspriceidx',
 'cons.conf.idx': 'consconfidx',
 'euribor3m': 'euribor3m',
 'nr.employed': 'nremployed',
 'y': 'y',
 'date': 'date',
 'latitude': 'latitude',
 'longitude': 'longitude'}

In [8]:
# una vez que tenemos el diccionario vamos a aplicar el método rename
df_final.rename(columns = nuevas_columnas, inplace = True)

# comprobamos que se han cambiado los nombres de las columnas
df_final.head()

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude
0,161770.0,1.0,0.0,2012-04-04,29.0,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233
1,85477.0,1.0,1.0,2012-12-30,7.0,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923
2,147233.0,1.0,1.0,2012-02-02,5.0,3f9f49b5-e410-4948-bf6e-f9244f04918b,37.0,services,MARRIED,high.school,0.0,1.0,0.0,telephone,226,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847
3,121393.0,1.0,2.0,2012-12-21,29.0,9991fafb-4447-451a-8be2-b0df6098d13e,40.0,admin.,MARRIED,basic.6y,0.0,0.0,0.0,telephone,151,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,29-noviembre-2015,49.041,-70.308
4,63164.0,1.0,2.0,2012-06-20,20.0,eca60b76-70b6-4077-80ba-bc52e8ebb0eb,56.0,services,MARRIED,high.school,0.0,0.0,1.0,telephone,307,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,29-enero-2017,38.033,-104.463


## Cambiamos los valores de las columnas a minúscula

Si recordamos de Python básico teníamos el método `.lower()` de los *strings* que nos permitía poner en minúscula todas sus letras. En Pandas vamos a tener el método `str.lower()` el cual se utiliza para convertir los valores de una columna de tipo string a minúsculas. 

Aquí tienes la sintaxis básica del método `str.lower()`:

```python
dataframe[columna].str.lower()
```

🚨 **NOTA** De la misma forma que hemos usado el método `str.lower()` para poner en minúsculas podremos usar otros métodos de los *strings* en Pandas siguiendo la misma sintaxis (por ejemplo `str.upper()`, `str.capitalize()`, `str.strip()`, etc.)

In [9]:
# aplicamos el método '.str.lower()' a la columna de 'marital' y vemos que lo hemos conseguido cambiar, pero este cambio no se ha aplicado en el DataFrame
# lo que vamos a hacer es sobreescribir el nombre de la columna 
df_final["marital"].str.lower()

0        married
1        married
2        married
3        married
4        married
          ...   
42995    married
42996    married
42997     single
42998    married
42999     single
Name: marital, Length: 43000, dtype: object

In [10]:
# sobreescribimos los valores de las columnas 
df_final["marital"] = df_final["marital"].str.lower()

# comprobamos si se han efectuado los cambios
df_final.head()

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude
0,161770.0,1.0,0.0,2012-04-04,29.0,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233
1,85477.0,1.0,1.0,2012-12-30,7.0,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high.school,,0.0,0.0,telephone,149,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923
2,147233.0,1.0,1.0,2012-02-02,5.0,3f9f49b5-e410-4948-bf6e-f9244f04918b,37.0,services,married,high.school,0.0,1.0,0.0,telephone,226,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847
3,121393.0,1.0,2.0,2012-12-21,29.0,9991fafb-4447-451a-8be2-b0df6098d13e,40.0,admin.,married,basic.6y,0.0,0.0,0.0,telephone,151,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,29-noviembre-2015,49.041,-70.308
4,63164.0,1.0,2.0,2012-06-20,20.0,eca60b76-70b6-4077-80ba-bc52e8ebb0eb,56.0,services,married,high.school,0.0,0.0,1.0,telephone,307,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,29-enero-2017,38.033,-104.463


In [11]:
# hacemos lo mismo para la columna 'poutcome'
df_final["poutcome"] = df_final["poutcome"].str.lower()

# comprobamos si se hicieron los cambios
df_final.head()

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude
0,161770.0,1.0,0.0,2012-04-04,29.0,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233
1,85477.0,1.0,1.0,2012-12-30,7.0,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high.school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923
2,147233.0,1.0,1.0,2012-02-02,5.0,3f9f49b5-e410-4948-bf6e-f9244f04918b,37.0,services,married,high.school,0.0,1.0,0.0,telephone,226,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847
3,121393.0,1.0,2.0,2012-12-21,29.0,9991fafb-4447-451a-8be2-b0df6098d13e,40.0,admin.,married,basic.6y,0.0,0.0,0.0,telephone,151,1,999,0,nonexistent,1.1,93994,-364,,5191,no,29-noviembre-2015,49.041,-70.308
4,63164.0,1.0,2.0,2012-06-20,20.0,eca60b76-70b6-4077-80ba-bc52e8ebb0eb,56.0,services,married,high.school,0.0,0.0,1.0,telephone,307,1,999,0,nonexistent,1.1,93994,-364,,5191,no,29-enero-2017,38.033,-104.463


## Creamos dos columnas nuevas con el año y el mes de la fecha en que se contactaron a los clientes en la campaña de marketing

En este caso, vamos a hacer una mención especial al método `str.split()`. Este método se utiliza para dividir una columna de texto en partes más pequeñas utilizando un delimitador específico (igual que hacíamos con los *strings* de Python). Crea una nueva columna de tipo lista donde cada elemento es una lista de las partes separadas del texto original.

Aquí tienes la sintaxis básica del método `str.split()`:

```python
dataframe[columna].str.split(pat=None, n=-1, expand=False)
```

Los parámetros son:

- `pat`: El patrón o delimitador utilizado para separar el texto. Puede ser una cadena de caracteres o una expresión regular. Si no se proporciona ningún valor, se utilizará un espacio en blanco como delimitador predeterminado.

- `n` (opcional): El número máximo de divisiones a realizar. Por defecto, se realizan todas las divisiones posibles.

- `expand` (opcional): Indica si se debe expandir la serie en un DataFrame resultante con cada parte separada en una columna diferente. Por defecto es `False`, lo que significa que se devuelve una serie de listas.

- `regex` (opcional): indica si el patrón utilizado para separar el texto debe ser interpretado como una expresión regular. Por defecto, regex se establece en False, lo que significa que el patrón se interpreta como una cadena de caracteres literal.

In [12]:
# en este caso vamos a separar la columna `date` por los '-'
# como vemos esto nos ha devuelto una nueva serie (columna) que contiene listas.
df_final["date"].str.split("-")

0             [2, agosto, 2019]
1        [14, septiembre, 2016]
2           [15, febrero, 2019]
3         [29, noviembre, 2015]
4             [29, enero, 2017]
                  ...          
42995       [13, octubre, 2015]
42996         [17, marzo, 2018]
42997    [15, septiembre, 2016]
42998    [23, septiembre, 2019]
42999      [6, noviembre, 2019]
Name: date, Length: 43000, dtype: object

In [13]:
# pero a nosotros lo que realmente nos interesa tener en una columna el mes y en otra el año, 
# para hacer eso utilizaremos el parámetro 'expand'
# fijaos como ahora ya no tenemos solo una columna, si no tres, donde en cada una de ellas tenemos un elemento resultado del split
df_final["date"].str.split("-", expand = True)

Unnamed: 0,0,1,2
0,2,agosto,2019
1,14,septiembre,2016
2,15,febrero,2019
3,29,noviembre,2015
4,29,enero,2017
...,...,...,...
42995,13,octubre,2015
42996,17,marzo,2018
42997,15,septiembre,2016
42998,23,septiembre,2019


In [14]:
# ya solo nos queda un detalle, y es que de las tres columnas solo nos interesan dos.
# para quedarnos con las dos columnas que queremos usaremos el método 'get()' indicando el nombre de las columnas que nos interesan 
# además recordad que tendremos que crear las dos columnas nuevas
df_final[["contact_month", "contact_year"]] = df_final["date"].str.split("-", expand = True).get([1,2])

# comprobamos que se han creado correctamente las columnas
df_final.head(2)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
0,161770.0,1.0,0.0,2012-04-04,29.0,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019
1,85477.0,1.0,1.0,2012-12-30,7.0,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high.school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,septiembre,2016


## Reemplazamos los '.' por espacios en la columna `education`

En este caso lo que queremos hacer es un reemplazo de los '.' por espacios en una columna que es de tipo *string*, por lo tanto, como hasta ahora usaremos el método `str.replace` de Pandas. Este método se utiliza para reemplazar ocurrencias de una subcadena en una columna de tipo string por otra subcadena especificada.

Aquí tienes la sintaxis básica del método `str.replace()`:

```python
dataframe[columna].str.replace(pat, repl, n=-1, case=True, regex=False)
```

Sus parámetros son:

- `pat`: La subcadena a buscar y reemplazar.

- `repl`: La subcadena que se utilizará como reemplazo.

- `n` (opcional): El número máximo de ocurrencias a reemplazar. Por defecto, se reemplazan todas las ocurrencias.

- `case` (opcional): Indica si la búsqueda y el reemplazo deben ser sensibles a mayúsculas y minúsculas. Por defecto, es `True`.

- `regex` (opcional): Indica si el patrón debe ser interpretado como una expresión regular. Por defecto, es `False`.


In [None]:
# en este caso vamos ha reemplazar los '.' de la columna 'education' por espacios
# vamos a almacenar los cambios de esta columna en la misma columna, vamos a sobreescribir sus valores
df_final["education"] = df_final["education"].str.replace(".", " ")

# chequeamos que el cambio se hizo correctamente
df_final.head()

In [16]:
# guardemos estos resultados para la siguiente clase!

# Guarda el DataFrame como un archivo CSV
df_final.to_csv("df_final_limpieza.csv", index=False)