# Otros métodos de limpieza

- `.map()`:  Se utiliza para aplicar una transformación o reemplazo a cada elemento de una Serie, y devuelve una nueva Serie con los valores transformados o reemplazados.

- `.replace()`: Se utiliza para reemplazar valores en un DataFrame o Serie con otros valores especificados.


In [1]:
# pero antes....librerias!!!
# nuestras librerias a utilizar
import pandas as pd
import numpy as np


# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

In [3]:
# y nuestros datos anteriores....
# traemos los datos que guardamos en el tema anterior.

df = pd.read_csv("bank-additional_full_apply.csv")

In [4]:
# lo primero que vamos a hacer es crear un diccionario donde:
# las claves sean los valores que tenemos en la columna sobre la que queremos aplicar el map
# los valores del diccionario serán los valores nuevos que queremos tener en la columna
# En nuestro caso queremos reemplazar los 0 por No y los 1 por Si

diccionario_mapa = {0: "No", 1: "Si"}

In [5]:
# una vez creado el diccionario, vamos a aplicar el map a la columna de 'loan'
# en este caso vamos a sobreescribir los valores de la columna

df["loan"] = df["loan"].map(diccionario_mapa)

# vemos el DataFrame y veremos que ahora la columna de 'loan' ya no tiene 1 y 0, ahora tiene Si y No. 
df.sample(6)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year,age_cat,hijos_totales
12841,15537.0,0.0,1.0,2012-06-14,28.0,7b9e2f08-275f-4cd3-b493-6ccb06098cd9,,entrepreneur,married,professional course,0.0,0.0,No,cellular,58,1,999,0,nonexistent,1.4,93.918,-42.7,4.962,52281,no,13-enero-2016,38.161,-74.038,enero,2016.0,Adultos mayores,1.0 hijos
42731,97044.0,2.0,1.0,2014-09-06,13.0,ac3634b1-8eb8-496c-8e2e-20984c497997,23.0,admin.,single,university degree,0.0,1.0,No,cellular,90,2,999,0,nonexistent,-1.8,92.843,-50.0,1.757,50991,no,29-abril-2015,29.106,-96.661,abril,2015.0,Jóvenes adultos,3.0 hijos
14304,32181.0,1.0,0.0,2012-11-25,8.0,91e60991-efbd-4eda-bd3d-467a77c95f90,38.0,blue-collar,single,basic 9y,,1.0,No,cellular,72,3,999,0,nonexistent,1.4,93.918,-42.7,,52281,no,12-abril-2016,28.233,-84.113,abril,2016.0,Adultos jóvenes,1.0 hijos
38135,24517.0,2.0,0.0,2014-08-28,29.0,4b7a7f55-589a-42fc-b8b0-0849c2151da8,35.0,admin.,married,university degree,0.0,1.0,No,cellular,86,1,999,1,failure,-3.4,92.431,-26.9,0.74,50175,no,27-octubre-2018,48.843,-67.934,octubre,2018.0,Adultos jóvenes,2.0 hijos
1676,155713.0,2.0,1.0,2012-04-12,30.0,33091600-bd55-4002-95d7-4483d15e79a3,39.0,admin.,married,basic 9y,0.0,1.0,No,telephone,150,2,999,0,nonexistent,1.1,93.994,-36.4,4.855,5191,no,28-diciembre-2019,44.801,-94.423,diciembre,2019.0,Adultos jóvenes,3.0 hijos
7685,97292.0,1.0,0.0,2012-01-29,14.0,cb10125e-ccc0-44e5-bd83-b2e04c300229,46.0,technician,married,professional course,0.0,0.0,Si,telephone,63,1,999,0,nonexistent,1.4,94.465,-41.8,4.865,52281,no,6-febrero-2016,45.124,-112.851,febrero,2016.0,Mediana edad,1.0 hijos


In [6]:
# chequeamos los valores únicos para la columna de loan 
df["loan"].unique()

array(['No', 'Si', nan], dtype=object)

In [7]:
# hacemos lo mismo para la columna de 'housing' y 'default', para la cual nos vale el mismo diccionario que hemos creado antes. 
df["housing"] = df["housing"].map(diccionario_mapa)
df["default"] = df["default"].map(diccionario_mapa)


In [8]:
# vemos cuáles son sus valores únicos de la columna 'housing'
df["housing"].unique()

array(['No', 'Si', nan], dtype=object)

In [9]:
# vemos cuáles son sus valores únicos de la columna 'housing'
df["default"].unique()

array(['No', nan, 'Si'], dtype=object)

## `.replace()`


El método `replace()` se utiliza para reemplazar valores en un *DataFrame* o una *Serie* con otros valores específicos que proporcionamos. Puedes utilizar este método para realizar cambios en los datos de manera eficiente y fácil.

La sintaxis básica del `replace()` en Pandas es la siguiente:

```python
DataFrame.replace(to_replace=None, value=None, inplace=False, limit=None, regex=False, method='pad')
```


In [10]:
df.head(1)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year,age_cat,hijos_totales
0,161770.0,1.0,0.0,2012-04-04,29.0,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,No,No,No,telephone,261,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0,Adultos mayores,1.0 hijos


In [11]:
# aplicamos el método '.replace()' sobre la columna 'pdays' para reemplazar los valores 999 por nulos de numpy (np.nan)
df["pdays"] = df["pdays"].replace(999, np.nan)

# comprobamos que no tenemos valores de 999 en la columna 'pdays' . Perfecto! No nos sale ninguno
df[df["pdays"] == 999]

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year,age_cat,hijos_totales


In [12]:
# guardamos el csv para usarlo en la lección de mañana
df.to_csv("bank-additional_clean.csv")