# Introducción al preprocesado y limpieza de datos

<img alt="Colaboratory logo" src="limpieza.jpg" height = "600" width = "600">

<br><br>Es una técnica que transforma los datos sin procesar en un formato comprensible. Los datos del mundo real (datos sin procesar) siempre están incompletos y esos datos no se pueden enviar a través de modelos, ya que causarían ciertos errores. Es por eso que necesitamos preprocesar los datos antes de enviarlos a través de un modelo, pero antes de ello veremos algunas funciones que serán útiles para el procesado de datos básico.

La limpieza de datos o `Data Cleaning` abarca un sin número de posbilidades para limpiar la data, ya que esta depende de las características del propio dataset, en el cual podremos encontrar diferentes maneras de limpiar dicha data, que al final estarán ligadas inclusive a las metodologías propias del programador, entre ellas podremos encontrar las siguientes maneras de hacerlo:

- Renombrar columnas (pd.rename)
- Casteo correcto de los datos (astype)
- Aplicar funciones a diferentes columnas (apply, agg)
- Eliminar variables irrelevantes o que no aportan información al dataset (drop)
- Identificar valores nulos (isnull, isna)
- Eliminar o tratar valores nulos (dropna)
- Estandarizar variables numéricas
- Estandarizar variables categóricas


# Método concat()

El método concat nos permite unir tablas mediante filas o columnas, esto se especifíca mediante el parametro axis.

- Axis = 0 ---> por por filas
- Axis = 1 ---> por por columnas

```Python
import pandas as pd

pd.concat([dataframe_1, datafrme_2, ...], axis = 0) # por filas
pd.concat([dataframe_1, datafrme_2, ...], axis = 1) # por columnas


```

<img src = "concat.png" height = "1000" width = "1000">

In [1]:
import pandas as pd
import numpy as np

In [28]:
df_enero = pd.read_excel(r"C:\Users\David.Piedrahita\OneDrive - Idata\Datos\grupo_02_DS_NB\datasets\Tasa_de_Cambio_Representativa_del_Mercado-_TRM.xlsx", 
                         sheet_name = "Enero", 
                         header = 0)

df_febrero = pd.read_excel(r"C:\Users\David.Piedrahita\OneDrive - Idata\Datos\grupo_02_DS_NB\datasets\Tasa_de_Cambio_Representativa_del_Mercado-_TRM.xlsx", 
                         sheet_name = "Febrero", 
                         header = 0)

In [35]:
df = pd.concat([df_enero, df_febrero], axis = 1)

In [36]:
df.head()

Unnamed: 0,VALOR,UNIDAD,VIGENCIADESDE,VIGENCIAHASTA,VALOR.1,UNIDAD.1,VIGENCIADESDE.1,VIGENCIAHASTA.1
0,3258.84,COP,2020-01-03,2020-01-03,3423.24,COP,2020-02-01,2020-02-03
1,3262.05,COP,2020-01-04,2020-01-07,3401.56,COP,2020-02-04,2020-02-04
2,3264.26,COP,2020-01-08,2020-01-08,3368.87,COP,2020-02-05,2020-02-05
3,3254.42,COP,2020-01-09,2020-01-09,3355.44,COP,2020-02-06,2020-02-06
4,3253.89,COP,2020-01-10,2020-01-10,3378.43,COP,2020-02-07,2020-02-07


In [40]:
df_2 = pd.concat([df_enero, df_febrero], axis = 0)
df_2 = df_2.iloc[0:5,:]
df_2

Unnamed: 0,VALOR,UNIDAD,VIGENCIADESDE,VIGENCIAHASTA
0,3258.84,COP,2020-01-03,2020-01-03
1,3262.05,COP,2020-01-04,2020-01-07
2,3264.26,COP,2020-01-08,2020-01-08
3,3254.42,COP,2020-01-09,2020-01-09
4,3253.89,COP,2020-01-10,2020-01-10


In [46]:
df_3 = df_2.copy()
df_3["index"] = [12,34,3421,435,444]
df_3 = df_3.set_index("index")
df_3

Unnamed: 0_level_0,VALOR,UNIDAD,VIGENCIADESDE,VIGENCIAHASTA
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
12,3258.84,COP,2020-01-03,2020-01-03
34,3262.05,COP,2020-01-04,2020-01-07
3421,3264.26,COP,2020-01-08,2020-01-08
435,3254.42,COP,2020-01-09,2020-01-09
444,3253.89,COP,2020-01-10,2020-01-10


In [48]:
pd.concat([df_2, df_3], axis = 1)

Unnamed: 0,VALOR,UNIDAD,VIGENCIADESDE,VIGENCIAHASTA,VALOR.1,UNIDAD.1,VIGENCIADESDE.1,VIGENCIAHASTA.1
0,3258.84,COP,2020-01-03,2020-01-03,,,NaT,NaT
1,3262.05,COP,2020-01-04,2020-01-07,,,NaT,NaT
2,3264.26,COP,2020-01-08,2020-01-08,,,NaT,NaT
3,3254.42,COP,2020-01-09,2020-01-09,,,NaT,NaT
4,3253.89,COP,2020-01-10,2020-01-10,,,NaT,NaT
12,,,NaT,NaT,3258.84,COP,2020-01-03,2020-01-03
34,,,NaT,NaT,3262.05,COP,2020-01-04,2020-01-07
435,,,NaT,NaT,3254.42,COP,2020-01-09,2020-01-09
444,,,NaT,NaT,3253.89,COP,2020-01-10,2020-01-10
3421,,,NaT,NaT,3264.26,COP,2020-01-08,2020-01-08


In [49]:
df_3.reset_index(drop = True, inplace = True)
pd.concat([df_2, df_3], axis = 1)

Unnamed: 0,VALOR,UNIDAD,VIGENCIADESDE,VIGENCIAHASTA,VALOR.1,UNIDAD.1,VIGENCIADESDE.1,VIGENCIAHASTA.1
0,3258.84,COP,2020-01-03,2020-01-03,3258.84,COP,2020-01-03,2020-01-03
1,3262.05,COP,2020-01-04,2020-01-07,3262.05,COP,2020-01-04,2020-01-07
2,3264.26,COP,2020-01-08,2020-01-08,3264.26,COP,2020-01-08,2020-01-08
3,3254.42,COP,2020-01-09,2020-01-09,3254.42,COP,2020-01-09,2020-01-09
4,3253.89,COP,2020-01-10,2020-01-10,3253.89,COP,2020-01-10,2020-01-10


# Groupby

El `groupby` en python permite agrupar datos a los cuales se les aplicará una determinada función o cálculo como vemos a continuación:

<img alt="Colaboratory logo" src="groupby.png" height = "950" width = "950">

In [51]:
df_fuel_consumption = pd.read_csv("./datasets/FuelConsumption.csv")
df_fuel_consumption.head()

Unnamed: 0,MODELYEAR,MAKE,MODEL,VEHICLECLASS,ENGINESIZE,CYLINDERS,TRANSMISSION,FUELTYPE,FUELCONSUMPTION_CITY,FUELCONSUMPTION_HWY,FUELCONSUMPTION_COMB,FUELCONSUMPTION_COMB_MPG,CO2EMISSIONS
0,2014,ACURA,ILX,COMPACT,2.0,4,AS5,Z,9.9,6.7,8.5,33,196
1,2014,ACURA,ILX,COMPACT,2.4,4,M6,Z,11.2,7.7,9.6,29,221
2,2014,ACURA,ILX HYBRID,COMPACT,1.5,4,AV7,Z,6.0,5.8,5.9,48,136
3,2014,ACURA,MDX 4WD,SUV - SMALL,3.5,6,AS6,Z,12.7,9.1,11.1,25,255
4,2014,ACURA,RDX AWD,SUV - SMALL,3.5,6,AS6,Z,12.1,8.7,10.6,27,244


In [58]:
df_fuel_consumption.groupby(["MODELYEAR", "MAKE", "VEHICLECLASS"])[["CO2EMISSIONS"]].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,CO2EMISSIONS
MODELYEAR,MAKE,VEHICLECLASS,Unnamed: 3_level_1
2014,ACURA,COMPACT,204.833333
2014,ACURA,MID-SIZE,246.000000
2014,ACURA,SUV - SMALL,249.500000
2014,ASTON MARTIN,MINICOMPACT,359.000000
2014,ASTON MARTIN,SUBCOMPACT,359.000000
2014,...,...,...
2014,VOLKSWAGEN,SUV - STANDARD,281.000000
2014,VOLVO,COMPACT,239.666667
2014,VOLVO,MID-SIZE,249.500000
2014,VOLVO,SUV - SMALL,264.800000


In [59]:
df_fuel_consumption.groupby(["MODELYEAR", "MAKE", "VEHICLECLASS"])[["CO2EMISSIONS"]].mean().reset_index()

Unnamed: 0,MODELYEAR,MAKE,VEHICLECLASS,CO2EMISSIONS
0,2014,ACURA,COMPACT,204.833333
1,2014,ACURA,MID-SIZE,246.000000
2,2014,ACURA,SUV - SMALL,249.500000
3,2014,ASTON MARTIN,MINICOMPACT,359.000000
4,2014,ASTON MARTIN,SUBCOMPACT,359.000000
...,...,...,...,...
182,2014,VOLKSWAGEN,SUV - STANDARD,281.000000
183,2014,VOLVO,COMPACT,239.666667
184,2014,VOLVO,MID-SIZE,249.500000
185,2014,VOLVO,SUV - SMALL,264.800000


## Aggregation

Los métodos de agregación son útilies cuando se quiere aplicar varios cálculos al mismo tiempo, normalmente son bastante utilizados cuando se realiza un groupby

In [63]:
df_fuel_consumption["ENGINESIZE"].mean()
df_fuel_consumption["ENGINESIZE"].median()
df_fuel_consumption["ENGINESIZE"].min()
df_fuel_consumption["ENGINESIZE"].max()

# pd.DataFrame({
#     "ENGINESIZE_mean": ....,
#     "ENGINESIZE_min"
# })

8.4

In [86]:
df_fuel_consumption.agg({"ENGINESIZE": ["mean", "median", min, np.max]})

Unnamed: 0,ENGINESIZE
mean,3.346298
median,3.4
min,1.0
amax,8.4


In [83]:
df_describe = df_fuel_consumption.describe().T
df_describe[["min", "mean", "max"]].T["ENGINESIZE"]

min     1.000000
mean    3.346298
max     8.400000
Name: ENGINESIZE, dtype: float64

## Aggregation con groupby

Las funciones de agregación se pueden combinar con el groupby de la siguiente forma

In [92]:
df_fuel_consumption.groupby(["MODELYEAR", "MAKE", "VEHICLECLASS"])\
                   .agg({"CO2EMISSIONS": ["min", "max", "std"],
                         "FUELCONSUMPTION_CITY": ["min", "max", "std"]})

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,CO2EMISSIONS,CO2EMISSIONS,CO2EMISSIONS,FUELCONSUMPTION_CITY,FUELCONSUMPTION_CITY,FUELCONSUMPTION_CITY
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,min,max,std,min,max,std
MODELYEAR,MAKE,VEHICLECLASS,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
2014,ACURA,COMPACT,136,239,36.613750,6.0,12.1,2.167641
2014,ACURA,MID-SIZE,230,267,18.018509,11.8,13.4,0.763217
2014,ACURA,SUV - SMALL,244,255,7.778175,12.1,12.7,0.424264
2014,ASTON MARTIN,MINICOMPACT,359,359,0.000000,18.0,18.0,0.000000
2014,ASTON MARTIN,SUBCOMPACT,359,359,,18.0,18.0,
2014,...,...,...,...,...,...,...,...
2014,VOLKSWAGEN,SUV - STANDARD,281,281,0.000000,12.3,13.8,1.060660
2014,VOLVO,COMPACT,223,264,21.548395,11.3,13.2,1.021437
2014,VOLVO,MID-SIZE,235,264,20.506097,11.9,13.2,0.919239
2014,VOLVO,SUV - SMALL,258,271,6.058052,12.9,13.4,0.228035


# Valores nulos

Uno de los problemas más habituales con el que podemos encontrarnos a la hora de trabajar con un conjunto de datos es la existencia de registros con valores nulos. Pudiendo ser necesario imputar un valor a estos registros para poder usarlos en un posterior análisis.

Existen muchas formas de hacerlo, a continuación veremos algunos método básicos

In [93]:
df_cotton = pd.read_excel("./datasets/Data DS Cotton Plus.xlsx", sheet_name = "BD", thousands = ".")
df_cotton.head()

Unnamed: 0,Cedula,Nombre Completo,Segmento,Compro 2019?,Compro 2020?,Monto Comprado 2019?,Nro Transacciones 2019,Monto Comprado 2020,Nro Transacciones 2020,Tipo de Contacto,...,TelefonoOficina,Telefono Casa,Monto - MARCA COTTON- B/quilla.,Monto - Brand Store Cucuta,Monto - MARCA COTTON- Bucaramanga,Monto - MARCA COTTON- Manizales,Monto - MARCA COTTON- Pereira,Monto - MARCA COTTON- Cartagena,Monto - MARCA COTTON- Pasto,Monto - MARCA COTTON- Cable Plaza
0,1,Nombre Cliente 1,Aficionados,Si,No,264800,2,0,0,11001,...,,,0,0,0,0,0,0,0,0
1,2,Nombre Cliente 2,Esporádicos,Si,No,179900,1,0,0,11001,...,,,179900,0,0,0,0,0,0,0
2,3,Nombre Cliente 3,Aficionados,Si,No,189800,2,0,0,11101,...,,,451200,0,0,0,0,0,0,0
3,4,Nombre Cliente 4,Aficionados,Si,No,65900,1,0,0,11001,...,,,0,0,0,0,0,0,0,1859600
4,5,Nombre Cliente 5,Aficionados,Si,No,238800,2,0,0,11101,...,,,0,0,0,0,0,0,0,0


## Isnull() e Isna()

In [97]:
df_cotton.shape

(9976, 40)

In [95]:
df_cotton.isnull().sum() # NaN, Null

Cedula                                                                 0
Nombre Completo                                                        0
Segmento                                                               0
Compro 2019?                                                           0
Compro 2020?                                                           0
Monto Comprado 2019?                                                   0
Nro Transacciones 2019                                                 0
Monto Comprado 2020                                                    0
Nro Transacciones 2020                                                 0
Tipo de Contacto                                                       0
Es Contactable                                                         0
Ciudad de Residencia                                                   0
Mail                                                                9976
Direccion                                          

In [96]:
df_cotton.isna().sum() # NA

Cedula                                                                 0
Nombre Completo                                                        0
Segmento                                                               0
Compro 2019?                                                           0
Compro 2020?                                                           0
Monto Comprado 2019?                                                   0
Nro Transacciones 2019                                                 0
Monto Comprado 2020                                                    0
Nro Transacciones 2020                                                 0
Tipo de Contacto                                                       0
Es Contactable                                                         0
Ciudad de Residencia                                                   0
Mail                                                                9976
Direccion                                          

## Reemplzar valores nulos con fillna()

Una de las formas mas efectivas de eliminar datos nulos es reemplazandolos por un calculo matemático o por el comportamiento de los datos

- Especificar el valor exacto
- Especificar un calculo estadistico
- Utilizar bfill o ffill

<img alt="Colaboratory logo" src="fillna.png" height = "550" width = "550">

In [104]:
df_house = pd.read_csv("./datasets/Bengaluru_House_Data.csv")
df_house.head(2)

Unnamed: 0,area_type,availability,location,size,society,total_sqft,bath,balcony,price
0,Super built-up Area,19-Dec,Electronic City Phase II,2 BHK,Coomee,1056,2.0,1.0,39.07
1,Plot Area,Ready To Move,Chikka Tirupathi,4 Bedroom,Theanmp,2600,5.0,3.0,120.0


In [101]:
df_house.isnull().sum()

area_type          0
availability       0
location           1
size              16
society         5502
total_sqft         0
bath              73
balcony          609
price              0
dtype: int64

In [109]:
df_house["bath"] = df_house["bath"].fillna(np.mean)

In [110]:
df_house.isnull().sum()

area_type          0
availability       0
location           1
size              16
society         5502
total_sqft         0
bath               0
balcony          609
price              0
dtype: int64

In [111]:
df_house["size"] = df_house["size"].fillna(method = "bfill")

In [112]:
df_house.isnull().sum()

area_type          0
availability       0
location           1
size               0
society         5502
total_sqft         0
bath               0
balcony          609
price              0
dtype: int64

In [113]:
df_house["location"] = df_house["location"].fillna(method = "ffill")

In [114]:
df_house.isnull().sum()

area_type          0
availability       0
location           0
size               0
society         5502
total_sqft         0
bath               0
balcony          609
price              0
dtype: int64

## Eliminar filas con datos nulos

Una de las formas en las que podemos eliminar datos nulos es eliminando directamente todos las filas que contengan datos nulos

<img alt="Colaboratory logo" src="dropna.png" height = "550" width = "550">

In [115]:
df_house.shape

(13320, 9)

In [3]:
df_house = pd.read_csv("./datasets/Bengaluru_House_Data.csv")

In [9]:
df_house["society"].value_counts()

GrrvaGr    80
PrarePa    71
Sryalan    59
Prtates    58
GMown E    56
           ..
SLnorMa     1
Heatee      1
Nihtsur     1
TGjraVa     1
RSntsAp     1
Name: society, Length: 2592, dtype: int64

In [8]:
df_house.isnull().sum()

area_type       0
availability    0
location        0
size            0
society         0
total_sqft      0
bath            0
balcony         0
price           0
dtype: int64

In [6]:
df_house.dropna(inplace = True)

In [7]:
df_house.shape

(7496, 9)

In [11]:
df_house["society"] = df_house["society"].astype(str)

In [12]:
df_house

Unnamed: 0,area_type,availability,location,size,society,total_sqft,bath,balcony,price
0,Super built-up Area,19-Dec,Electronic City Phase II,2 BHK,Coomee,1056,2.0,1.0,39.07
1,Plot Area,Ready To Move,Chikka Tirupathi,4 Bedroom,Theanmp,2600,5.0,3.0,120.00
3,Super built-up Area,Ready To Move,Lingadheeranahalli,3 BHK,Soiewre,1521,3.0,1.0,95.00
5,Super built-up Area,Ready To Move,Whitefield,2 BHK,DuenaTa,1170,2.0,1.0,38.00
11,Plot Area,Ready To Move,Whitefield,4 Bedroom,Prrry M,2785,5.0,3.0,295.00
...,...,...,...,...,...,...,...,...,...
13313,Super built-up Area,Ready To Move,Uttarahalli,3 BHK,Aklia R,1345,2.0,1.0,57.00
13314,Super built-up Area,Ready To Move,Green Glen Layout,3 BHK,SoosePr,1715,3.0,3.0,112.00
13315,Built-up Area,Ready To Move,Whitefield,5 Bedroom,ArsiaEx,3453,4.0,0.0,231.00
13317,Built-up Area,Ready To Move,Raja Rajeshwari Nagar,2 BHK,Mahla T,1141,2.0,1.0,60.00


In [13]:
df_house.isnull().sum()

area_type       0
availability    0
location        0
size            0
society         0
total_sqft      0
bath            0
balcony         0
price           0
dtype: int64

In [148]:
df_house["society"] = df_house["society"].apply(lambda x: np.nan if x == "nan" else x)

## Método Replace

In [143]:
df_house["society"] = df_house["society"].replace("nan", np.nan)

In [149]:
df_house.isnull().sum()

area_type          0
availability       0
location           1
size              16
society         5502
total_sqft         0
bath              73
balcony          609
price              0
dtype: int64