# **Bootcamp Ciencia de Datos e Inteligencia Artificial**
# **Módulo 2. Análisis de datos**
## **Semana 6. Limpieza de datos**

Hola, anteriormente, descubriste en qué consiste el Análisis Exploratorio de Datos; ahora, es momento de revisar los pasos necesarios para el análisis de los dataset que trabajes. En esta semana aprenderás a ejecutar una limpieza de datos.


> Antes de iniciar te pido por favor que hagas una copia del presente colab para que puedas practicar por tu cuenta y resolver todos los ejercicios que aparezcan a lo largo del contenido y tu reto semanal. Recuerda que esta función la puedes hacer dando clic en "Archivo" y después en "Guardar una copia en Drive".



> Todos los ejercicios aparecerán con el título **Ponte a prueba**.



Si tienes dudas consulta con tu coach o tutor@.

¡Comencemos!

#Limpieza de datos

La limpieza de datos es uno de los pasos más importantes al momento de manipular datos, puesto que ayuda a identificar los datos atípicos, incorrectos o duplicados que pueden afectar al momento de aplicar modelos y provocar resultados erróneos. Además, otorgan mayor seguridad sobre la fiabilidad de los datos.

Para realizar este proceso no existe una metodología específica, pues depende del conjunto de datos a trabajar. Cada uno es distinto, por ello, requiere un tratamiento particular.

Después de hacer todo el proceso, se decide si estos datos se modifican, se sustituyen o son datos inútiles.

En algunos casos, la cantidad de datos a analizar es grande, por tanto, se toma una fracción de los datos observables. A este conjunto se le llama **muestra** y representa una versión pequeña del universo de datos que analizarás. Así, utillizar un conjunto más pequeño favorece la obtención rápida de conjeturas y la generación de nuevas reglas.


## Valores Faltantes (missings)

En una limpieza de datos lo primero que debemos considerar son los valores faltantes (o _missings_) que son aquellos no almacenados o recopilados para observar la variable en cuestión.

Ejemplo de esto lo vemos cundo analizamos una encuesta, en la que el entrevistado prefirió omitir una o varias respuestas a ciertas preguntas o cuando al revisar el comportmineto de salidas y entradas de un inventario, nadie tiene registros de alguna característica, por lo que dejaron algún registro «en blanco».

Esto provoca conclusiones poco acertadas; por ello, se define el porcentaje máximo de omisiones aceptadas. Para hacerlo, una de las técnicas es mediante la **imputación de datos**.



La **imputación** se refiere a sustituir o reemplazar estos datos faltantes con base en valores observados en la **muestra**. Su propósito es mostrar información sumamente verídica y sustentada. Asimismo, la **imputación** es un método sumamente útil para tratar los datos faltantes, pues no ocurre una pérdida de eficiencia considerable en comparación con otros métodos y además existe mayor variabilidad, es decir, una mayor representación de los datos.

Un criterio para utilizarla son las pruebas de **normalidad**, pues a partir de los resultados se selecciona un método para trabajar. Existen diferentes métodos de imputación, entre los cuales se encuentran los siguientes:

- `**Imputación por la media**: se basa en la sustitución de los datos por la media de la muestra observada; en otras palabras, si existe un valor faltante se reemplaza con la **media de la muestra** (recuerda que la media es el nombre correcto del promedio). Se utiliza porque los parámetros son valores esperados en una muestra observada al azar y por la facilidad del método.

- `**Imputación por moda**: en este, los valores se cambian por la moda de la muestra observada, es decir, con aquel que más veces se repitió en la muestra.

- `**Imputación por mediana**: la mediana se utiliza cuando se observan valores extremos en la muestra, dicho de otro modo, los faltantes se sustituyen por el valor que está justo en medio de los datos organizados de menor a mayor.

## Valores atípicos (outliers)
Los datos atípicos pueden distorsionar las observaciones de la muestra, pues tienden a ser muy grandes o muy pequeños; sin embargo, eliminarlos no es la solución, ya que representan escenarios no considerados o cuyos datos no se aprecian. Estos surgen por errores al momento de recopilar la información, por escenarios excepcionales, porque existen valores extremos, entre varias razones.

Observa un ejemplo para comprender mejor el tema:

Una persona tiene siete libros de cocina con las siguientes cantidades de páginas:
$$
214, 203, 197, 934, 189, 221, 202.
$$

La media de este conjunto es de 308.57 páginas por libro, pero la mayoría de los libros ronda las 200 páginas, a excepción de uno, que tiene 934 páginas, por ello, afecta la información y se denomina **dato atípico** o **outlier**.

Lo mismo ocurriría si uno de los libros tuviese pocas páginas, dado ya que alteraría los datos estadísticos.

No obstante lo anterior, la solución no radica en eliminar el dato.


#### Reflexiona
¿En qué casos se muestran casos atípicos?

Ejemplos:
- Metros en salto de altura de alumnos de secundaria; algunos sobresalen a la media.
- Pares de zapatos de un grupo de amigos; una persona amante del calzado tendría colección completa, mientras que el resto tiene los suficientes para sus actividades.
- Cantidad de pasas en distintos panqués; ciertos panes parecen no tenerlas y sencillamente se alude a la buena o mala suerte.

Si se trata de valores extremos, estos se suplen con los más cercanos a los extremos (así, **Python** define los valores y si alguno se encuentra más allá de dicho rango, entonces se sustituirá por dicho dato máximo o mínimo), por valores nulos (no es lo mismo la inexistencia de un valor a uno nulo). También se emplean métodos estadísticos, como las pruebas de hipótesis, las cuales varían según las hipótesis analizadas.

Luego de comprender estos conceptos, realizarás una limpieza de datos para eliminar el posible ruido y garantizar los mejores resultados en el modelo.

In [2]:
#importamos las librerias necesarias
import pandas as pd
import warnings
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from  functools import reduce
warnings.filterwarnings("ignore")
pd.set_option("display.max_columns",200)

Para este momento, ya conoces las funciones de `pandas`, `matplotlib`, `seaborn` y `numpy`.
`warnings`, pues evitan la aparición de «advertencias» de menor utilidad (por ejemplo, notificar una actualización disponible).
Así también, `funtool`, especificamente `reduce`, genera una secuencia de operaciones dada una lista.

Estos nuevos conceptos se aplicarán en un ejemplo. Para ello, usarás el conjunto de datos llamado `dataset_house_prices.csv`. De esta manera, es necesario conectar **Google Collab** con **Google Drive**.

Este dataset lo puedes encontrar en el siguiente enlace: https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques/data



In [None]:
#from google.colab import drive
#drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


#Diccionario de datos

El conjunto de datos `dataset_house_prices.csv` presentará el siguiente desafío:

##El problema

En análisis exploratorio tiene el objetivo de entender el significado y la relevancia de cada variable con respecto al problema. A partir de este se determinan las acciones para cada variable. En este caso, delimitan:

- La relevancia de la variable en la compra de una casa.
- La importancia de la variable.
- Solapamiento con otras variables.
- Variable objetivo, o sea, el valor que se busca predecir (variable dependiente, $y$): `SalePrice`.

Recuerda que cuando se habla de variables se hace referencia a las columnas del conjunto de datos.

Las otras variables que aparecen en `dataset_house_prices.csv` (y sus significados) son las siguientes:
- `MSSubClass`: clase de construcción
- `MSZoning`: clasificación de la zona
- `LotFrontage`: pies lineales de calle de la parcela
- `LotArea`: tamaño de la parcela en pies cuadrados
- `Street`: tipo de acceso por carretera
- `Alley`: tipo de acceso al callejón
- `LotShape`: forma de la parcela
- `LandContour`: planitud de la parcela
- `Utilities`: servicios públicos disponibles
- `LotConfig`: configuración de parcela
- `LandSlope`: pendiente de la parcela
- `Neighborhood`: ubicación física dentro de los límites de la ciudad de Ames
- `Condition1`: proximidad a la carretera principal o al ferrocarril
- `Condition2`: proximidad a la carretera principal o al ferrocarril (si hay un segundo)
- `BldgType`: tipo de vivienda
- `HouseStyle`: estilo de vivienda
- `OverallQual`: calidad general del material y del acabado
- `OverallCond`: condición general
- `YearBuilt`: fecha original de construcción
- `YearRemodAdd`: fecha de remodelación
- `RoofStyle`: tipo de cubierta
- `RoofMatl`: material del techo
- `Exterior1st`: revestimiento exterior de la casa
- `Exterior2nd`: revestimiento exterior de la casa (si hay más de un material)
- `MasVnrType`: tipo de revestimiento de mampostería
- `MasVnrArea`: área de revestimiento de mampostería en pies cuadrados
- `ExterQual`: calidad del material exterior
- `ExterCond`: estado del material en el exterior
- `Foundation`: tipo de cimentación
- `BsmtQual`: altura del sótano
- `BsmtCond`: estado general del sótano
- `BsmtExposure`: paredes del sótano a nivel de calle o de jardín
- `BsmtFinType1`: calidad del área acabada del sótano
- `BsmtFinSF1`: pies cuadrados de la superficie acabada tipo 1
- `BsmtFinType2`: calidad de la segunda superficie acabada (si existe)
- `BsmtFinSF2`: pies cuadrados de la superficie acabada tipo 2
- `BsmtUnfSF`: pies cuadrados del área sin terminar del sótano
- `TotalBsmtSF`: pies cuadrados totales del sótano
- `Heating`: tipo de calefacción
- `HeatingQC`: calidad y estado de la calefacción
- `CentralAir`: aire acondicionado central
- `Electrical`: sistema eléctrico
- `1erFlrSF`: área en pies cuadrados de la primera planta (o planta baja)
- `2ndFlrSF`: área en pies cuadrados de la segunda planta
- `LowQualFinSF`: pies cuadrados acabados de baja calidad (todos los pisos)
- `GrLivArea`: superficie habitable por encima del nivel del suelo en pies cuadrados
- `BsmtFullBath`: cuartos de baño completos en el sótano
- `BsmtHalfBath`: medio baño del sótano
- `FullBath`: baños completos sobre el nivel del suelo
- `HalfBath`: medios baños sobre el nivel del suelo
- `Bedroom`: número de dormitorios por encima del nivel del sótano
- `Kitchen`: número de cocinas
- `KitchenQual`: calidad de la cocina
- `TotRmsAbvGrd`: total de habitaciones por encima del nivel del suelo (no incluye baños)
- `Functional`: valoración de la funcionalidad de la vivienda
- `Fireplaces`: número de chimeneas
- `FireplaceQu`: calidad de la chimenea
- `GarageType`: ubicación del garaje
- `GarageYrBlt`: año de construcción del garaje
- `GarageFinish`: acabado interior del garaje
- `GarageCars`: tamaño del garaje en capacidad de coches
- `GarageArea`: tamaño del garaje en pies cuadrados
- `GarageQual`: calidad de garaje
- `GarageCond`: condición de garaje
- `PavedDrive`: calzada asfaltada
- `WoodDeckSF`: área de plataforma de madera en pies cuadrados
- `OpenPorchSF`: área de porche abierto en pies cuadrados
- `EnclosedPorch`: área de porche cerrada en pies cuadrados
- `3SsnPorch`: área de porche de tres estaciones en pies cuadrados
- `ScreenPorch`: superficie acristalada del porche en pies cuadrados
- `PoolArea`: área de la piscina en pies cuadrados
- `PoolQC`: calidad de la piscina
- `Fence`: calidad de la valla
- `MiscFeature`: característica misceláneas no cubiertas en otras categorías
- `MiscVal`: valor en dólares de la característica miscelánea
- `MoSold`: mes de venta
- `YrSold`: año de venta
- `SaleType`: tipo de venta
- `SaleCondition`: condiciones de venta

In [4]:
df=pd.read_csv(r"C:\Users\Equipo 1\Downloads\datasets\train.csv")
df

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,LotConfig,LandSlope,Neighborhood,Condition1,Condition2,BldgType,HouseStyle,OverallQual,OverallCond,YearBuilt,YearRemodAdd,RoofStyle,RoofMatl,Exterior1st,Exterior2nd,MasVnrType,MasVnrArea,ExterQual,ExterCond,Foundation,BsmtQual,BsmtCond,BsmtExposure,BsmtFinType1,BsmtFinSF1,BsmtFinType2,BsmtFinSF2,BsmtUnfSF,TotalBsmtSF,Heating,HeatingQC,CentralAir,Electrical,1stFlrSF,2ndFlrSF,LowQualFinSF,GrLivArea,BsmtFullBath,BsmtHalfBath,FullBath,HalfBath,BedroomAbvGr,KitchenAbvGr,KitchenQual,TotRmsAbvGrd,Functional,Fireplaces,FireplaceQu,GarageType,GarageYrBlt,GarageFinish,GarageCars,GarageArea,GarageQual,GarageCond,PavedDrive,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,Inside,Gtl,CollgCr,Norm,Norm,1Fam,2Story,7,5,2003,2003,Gable,CompShg,VinylSd,VinylSd,BrkFace,196.0,Gd,TA,PConc,Gd,TA,No,GLQ,706,Unf,0,150,856,GasA,Ex,Y,SBrkr,856,854,0,1710,1,0,2,1,3,1,Gd,8,Typ,0,,Attchd,2003.0,RFn,2,548,TA,TA,Y,0,61,0,0,0,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,FR2,Gtl,Veenker,Feedr,Norm,1Fam,1Story,6,8,1976,1976,Gable,CompShg,MetalSd,MetalSd,,0.0,TA,TA,CBlock,Gd,TA,Gd,ALQ,978,Unf,0,284,1262,GasA,Ex,Y,SBrkr,1262,0,0,1262,0,1,2,0,3,1,TA,6,Typ,1,TA,Attchd,1976.0,RFn,2,460,TA,TA,Y,298,0,0,0,0,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,Inside,Gtl,CollgCr,Norm,Norm,1Fam,2Story,7,5,2001,2002,Gable,CompShg,VinylSd,VinylSd,BrkFace,162.0,Gd,TA,PConc,Gd,TA,Mn,GLQ,486,Unf,0,434,920,GasA,Ex,Y,SBrkr,920,866,0,1786,1,0,2,1,3,1,Gd,6,Typ,1,TA,Attchd,2001.0,RFn,2,608,TA,TA,Y,0,42,0,0,0,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,Corner,Gtl,Crawfor,Norm,Norm,1Fam,2Story,7,5,1915,1970,Gable,CompShg,Wd Sdng,Wd Shng,,0.0,TA,TA,BrkTil,TA,Gd,No,ALQ,216,Unf,0,540,756,GasA,Gd,Y,SBrkr,961,756,0,1717,1,0,1,0,3,1,Gd,7,Typ,1,Gd,Detchd,1998.0,Unf,3,642,TA,TA,Y,0,35,272,0,0,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,FR2,Gtl,NoRidge,Norm,Norm,1Fam,2Story,8,5,2000,2000,Gable,CompShg,VinylSd,VinylSd,BrkFace,350.0,Gd,TA,PConc,Gd,TA,Av,GLQ,655,Unf,0,490,1145,GasA,Ex,Y,SBrkr,1145,1053,0,2198,1,0,2,1,4,1,Gd,9,Typ,1,TA,Attchd,2000.0,RFn,3,836,TA,TA,Y,192,84,0,0,0,0,,,,0,12,2008,WD,Normal,250000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1455,1456,60,RL,62.0,7917,Pave,,Reg,Lvl,AllPub,Inside,Gtl,Gilbert,Norm,Norm,1Fam,2Story,6,5,1999,2000,Gable,CompShg,VinylSd,VinylSd,,0.0,TA,TA,PConc,Gd,TA,No,Unf,0,Unf,0,953,953,GasA,Ex,Y,SBrkr,953,694,0,1647,0,0,2,1,3,1,TA,7,Typ,1,TA,Attchd,1999.0,RFn,2,460,TA,TA,Y,0,40,0,0,0,0,,,,0,8,2007,WD,Normal,175000
1456,1457,20,RL,85.0,13175,Pave,,Reg,Lvl,AllPub,Inside,Gtl,NWAmes,Norm,Norm,1Fam,1Story,6,6,1978,1988,Gable,CompShg,Plywood,Plywood,Stone,119.0,TA,TA,CBlock,Gd,TA,No,ALQ,790,Rec,163,589,1542,GasA,TA,Y,SBrkr,2073,0,0,2073,1,0,2,0,3,1,TA,7,Min1,2,TA,Attchd,1978.0,Unf,2,500,TA,TA,Y,349,0,0,0,0,0,,MnPrv,,0,2,2010,WD,Normal,210000
1457,1458,70,RL,66.0,9042,Pave,,Reg,Lvl,AllPub,Inside,Gtl,Crawfor,Norm,Norm,1Fam,2Story,7,9,1941,2006,Gable,CompShg,CemntBd,CmentBd,,0.0,Ex,Gd,Stone,TA,Gd,No,GLQ,275,Unf,0,877,1152,GasA,Ex,Y,SBrkr,1188,1152,0,2340,0,0,2,0,4,1,Gd,9,Typ,2,Gd,Attchd,1941.0,RFn,1,252,TA,TA,Y,0,60,0,0,0,0,,GdPrv,Shed,2500,5,2010,WD,Normal,266500
1458,1459,20,RL,68.0,9717,Pave,,Reg,Lvl,AllPub,Inside,Gtl,NAmes,Norm,Norm,1Fam,1Story,5,6,1950,1996,Hip,CompShg,MetalSd,MetalSd,,0.0,TA,TA,CBlock,TA,TA,Mn,GLQ,49,Rec,1029,0,1078,GasA,Gd,Y,FuseA,1078,0,0,1078,1,0,1,0,2,1,Gd,5,Typ,0,,Attchd,1950.0,Unf,1,240,TA,TA,Y,366,0,112,0,0,0,,,,0,4,2010,WD,Normal,142125


:El siguiente código se utiliza para identificar los tres tipos distintos de variables:
- Variable objetivo (el cual tendrá el texto `tgt` antes del nombre de la columna).
- Variables discretas (denominadas como `v_` antes del nombre de las columnas).
- Variables continuas (identificadas como `c_` antes del nombre de las columnas).

In [5]:
#Categorizamos nuestras variables.

def rename_cols(df,cols,prefix):
    new_feats=[prefix+col for col in cols]
    df=df.rename(columns=dict(zip(cols,new_feats)))
    return df


v_feats=["MSSubClass","MSZoning","Street","Alley","LotShape","LandContour","Utilities","LotConfig","LandSlope",
         "Neighborhood","Condition1","Condition2","BldgType","HouseStyle","OverallQual","OverallCond",
        "YearBuilt","YearRemodAdd","RoofStyle","RoofMatl","Exterior1st","Exterior2nd","MasVnrType","ExterQual",
        "ExterCond","Foundation","BsmtQual","BsmtCond","BsmtExposure","BsmtFinType1","BsmtFinType2",
        "Heating","HeatingQC","CentralAir","Electrical","LowQualFinSF","BsmtHalfBath","FullBath","KitchenAbvGr","KitchenQual","TotRmsAbvGrd","Functional","Fireplaces","FireplaceQu",
        "GarageType","GarageYrBlt","GarageFinish","GarageQual","GarageCond","PavedDrive","PoolQC","Fence",
        "MiscFeature","MoSold","YrSold","SaleType","SaleCondition"]
c_feats=["LotFrontage","LotArea","MasVnrArea","BsmtFinSF1","BsmtFinSF2","BsmtUnfSF","TotalBsmtSF","1stFlrSF",
        "2ndFlrSF","GrLivArea","GarageArea","WoodDeckSF","OpenPorchSF","EnclosedPorch","3SsnPorch","ScreenPorch",
        "PoolArea","MiscVal","BedroomAbvGr","HalfBath","GarageCars","BsmtFullBath"]
tgt=["SalePrice"]

df=rename_cols(df,v_feats,"v_")
df=rename_cols(df,c_feats,"c_")
df=rename_cols(df,tgt,"tgt_")

Aquí se observa la información de las variable continuas, nombradas en el paso anterior con una `c_` inicial y la función `filter` toma aquellas columnas que inician precisamente con `c_`.

Este paso es para ver que las variables continuas tienen **números flotantes** (lo vimos en el primer módulo), si alguno no es `int64` lo transformaremos.

In [6]:
df.filter(like='c_').info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 22 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   c_LotFrontage    1201 non-null   float64
 1   c_LotArea        1460 non-null   int64  
 2   c_MasVnrArea     1452 non-null   float64
 3   c_BsmtFinSF1     1460 non-null   int64  
 4   c_BsmtFinSF2     1460 non-null   int64  
 5   c_BsmtUnfSF      1460 non-null   int64  
 6   c_TotalBsmtSF    1460 non-null   int64  
 7   c_1stFlrSF       1460 non-null   int64  
 8   c_2ndFlrSF       1460 non-null   int64  
 9   c_GrLivArea      1460 non-null   int64  
 10  c_BsmtFullBath   1460 non-null   int64  
 11  c_HalfBath       1460 non-null   int64  
 12  c_BedroomAbvGr   1460 non-null   int64  
 13  c_GarageCars     1460 non-null   int64  
 14  c_GarageArea     1460 non-null   int64  
 15  c_WoodDeckSF     1460 non-null   int64  
 16  c_OpenPorchSF    1460 non-null   int64  
 17  c_EnclosedPorc

En el resutado del código anterior se aprecia que dos variables no son `int64`; entonces, se transformarán con `astype('int64')`.

In [14]:
# Comprobamos la completitud de nuestro conjunto de datos.
completitud = pd.DataFrame(df.isnull().sum())
completitud.reset_index(inplace = True)
completitud = completitud.rename(columns = {"index":"columna",0:"total"})
completitud["completitud"] = (1 - completitud["total"] / df.shape[0]) * 100
completitud = completitud.sort_values(by = "completitud", ascending = True)
completitud.reset_index(drop = True, inplace = True)
completitud

Unnamed: 0,columna,total,completitud
0,c_LotFrontage,259,82.260274
1,v_GarageType,81,94.452055
2,v_GarageYrBlt,81,94.452055
3,v_GarageFinish,81,94.452055
4,v_GarageQual,81,94.452055
...,...,...,...
70,c_BsmtUnfSF,0,100.000000
71,c_TotalBsmtSF,0,100.000000
72,v_SaleCondition,0,100.000000
73,v_OverallCond,0,100.000000


En este punto es importante identificar las variables cuyo porcentaje de completitud es menor a 80%. No es recomendable realizar imputación de valores para estas columnas, pues afectan de manera significativa la distribción de datos, además (al carecer mucha información) no son útiles para el modelo.

El siguiente código se utiliza para identificar las columnas con una **completitud** menor a 80%, las cuales se pondrán en una **lista** llamada `null_cols`.

In [11]:
null_cols=list(completitud[completitud["completitud"]<80]["columna"].values)
null_cols

['v_PoolQC',
 'v_MiscFeature',
 'v_Alley',
 'v_Fence',
 'v_MasVnrType',
 'v_FireplaceQu']

Ahora, borra esas columnas que están en `null_cols` con la función `drop`.

Observa bien cómo después del nombre del conjunto de datos (llamado `df`) se coloca `.drop(columns= lista_de_columnas_a_borrar`).

In [13]:
df=df.drop(columns=null_cols)

KeyError: "['v_PoolQC', 'v_MiscFeature', 'v_Alley', 'v_Fence', 'v_MasVnrType', 'v_FireplaceQu'] not found in axis"

In [None]:
#Aseguramos que no tenemos variables con >80% de completitud
completitud = pd.DataFrame(df.isnull().sum())
completitud.reset_index(inplace = True)
completitud = completitud.rename(columns = {"index":"columna",0:"total"})
completitud["completitud"] = (1 - completitud["total"] / df.shape[0]) * 100
completitud = completitud.sort_values(by = "completitud", ascending = True)
completitud.reset_index(drop = True, inplace = True)
completitud

Unnamed: 0,columna,total,completitud
0,c_LotFrontage,259,82.260274
1,v_GarageType,81,94.452055
2,v_GarageYrBlt,81,94.452055
3,v_GarageFinish,81,94.452055
4,v_GarageQual,81,94.452055
...,...,...,...
71,c_BsmtUnfSF,0,100.000000
72,v_SaleCondition,0,100.000000
73,v_Heating,0,100.000000
74,v_OverallCond,0,100.000000


##### Imputación

En este apartado introducirás la librería `Scikit-learn`, una de las más utilizadas para la ciencia de datos. Creada por David Cournapeau como un proyecto de _Google summer of code_, su objetivo principal es desarrollar algoritmos predictivos y constituye un recurso libre para **Python**.

Ahora, ejecutarás una función para **imputar** los valores faltantes mediante el valor más frecuente.

In [None]:
#Imputación de valores faltantes
from sklearn.impute import SimpleImputer

In [None]:
imputar=list(completitud[completitud["completitud"]!= 100]["columna"].values)
#Se va a crear una nueva lista en donde las columnas NO son igual a 100
imputar

['c_LotFrontage',
 'v_GarageType',
 'v_GarageYrBlt',
 'v_GarageFinish',
 'v_GarageQual',
 'v_GarageCond',
 'v_BsmtFinType2',
 'v_BsmtExposure',
 'v_BsmtCond',
 'v_BsmtQual',
 'v_BsmtFinType1',
 'v_MasVnrType',
 'c_MasVnrArea',
 'v_Electrical']

In [None]:
imp=SimpleImputer(missing_values=np.nan,strategy="most_frequent")
#Pasando el tipo de datos que queremos que impute

imp.fit(df[imputar])

In [None]:
df.columns

Index(['Id', 'v_MSSubClass', 'v_MSZoning', 'c_LotFrontage', 'c_LotArea',
       'v_Street', 'v_LotShape', 'v_LandContour', 'v_Utilities', 'v_LotConfig',
       'v_LandSlope', 'v_Neighborhood', 'v_Condition1', 'v_Condition2',
       'v_BldgType', 'v_HouseStyle', 'v_OverallQual', 'v_OverallCond',
       'v_YearBuilt', 'v_YearRemodAdd', 'v_RoofStyle', 'v_RoofMatl',
       'v_Exterior1st', 'v_Exterior2nd', 'v_MasVnrType', 'c_MasVnrArea',
       'v_ExterQual', 'v_ExterCond', 'v_Foundation', 'v_BsmtQual',
       'v_BsmtCond', 'v_BsmtExposure', 'v_BsmtFinType1', 'c_BsmtFinSF1',
       'v_BsmtFinType2', 'c_BsmtFinSF2', 'c_BsmtUnfSF', 'c_TotalBsmtSF',
       'v_Heating', 'v_HeatingQC', 'v_CentralAir', 'v_Electrical',
       'c_1stFlrSF', 'c_2ndFlrSF', 'v_LowQualFinSF', 'c_GrLivArea',
       'c_BsmtFullBath', 'v_BsmtHalfBath', 'v_FullBath', 'c_HalfBath',
       'c_BedroomAbvGr', 'v_KitchenAbvGr', 'v_KitchenQual', 'v_TotRmsAbvGrd',
       'v_Functional', 'v_Fireplaces', 'v_GarageType', 'v_GarageY

In [None]:
df[imputar]=imp.transform(df[imputar])

In [None]:
#Aseguramos que no tenemos variables con valores faltantes
completitud = pd.DataFrame(df.isnull().sum())
completitud.reset_index(inplace = True)
completitud = completitud.rename(columns = {"index":"columna",0:"total"})
completitud["completitud"] = (1 - completitud["total"] / df.shape[0]) * 100
completitud = completitud.sort_values(by = "completitud", ascending = True)
completitud.reset_index(drop = True, inplace = True)
completitud

Unnamed: 0,columna,total,completitud
0,Id,0,100.0
1,v_Functional,0,100.0
2,v_TotRmsAbvGrd,0,100.0
3,v_KitchenQual,0,100.0
4,v_KitchenAbvGr,0,100.0
...,...,...,...
71,v_Exterior1st,0,100.0
72,v_RoofMatl,0,100.0
73,v_RoofStyle,0,100.0
74,v_ExterCond,0,100.0


Con esto se comprueba que no existen más valores nulos y se realizó una imputación con la media para los casos de registros faltantes.

In [None]:
# Convertimos un tipo de dato de la columna a otro tipo de dato
df['c_LotFrontage'] = df['c_LotFrontage'].astype('int64')

In [None]:
# Convertimos un tipo de dato de la columna a otro tipo de dato
df['c_MasVnrArea'] = df['c_MasVnrArea'].astype('int64')

##### Ponte a prueba

Imagina que eres un científico de datos contratado en una tienda de tecnología para realizar un análisis de ventas. Para esto recibes el siguiente conjunto de datos con las siguientes descripciones:

https://drive.google.com/file/d/1iPeVYIYDfoTJbQaP_rTADVzL9WqX1H5_/view?usp=sharing

**Conjunto de datos**: Ventas de productos electrónicos.

**Descripción del dataset**: El conjunto de datos contiene información sobre las ventas de productos electrónicos en una tienda en línea durante el último año. Las columnas incluyen:

- ID_Producto: Identificador único del producto.
- Nombre_Producto: Nombre del producto.
- Categoria: Categoría del producto (por ejemplo, "Smartphone", "Laptop", "Accesorios").
- Precio: Precio del producto.
- Unidades_Vendidas: Número de unidades vendidas.
- Valoraciones: Número de valoraciones del producto en la tienda.
Promedio_Valoracion: Promedio de valoración del producto (en una escala del 1 al 5).
- Stock: Número de unidades en stock.
- Descuentos: Descuentos aplicados al producto.

La persona que te suministró el conjunto de datos menciona que hay valores faltantes en la información. Por tanto, esta será tu primera tarea.

Realiza los siguientes puntos:

1. Carga el conjunto de datos proporcionado.
2. Identifica las columnas que tienen valores faltantes y muestra el porcentaje de valores faltantes para cada una.

**Pista:** Puedes utilizar el código usado en el notebook en la sección 'Valores faltantes (missings)', así como la función SimpleImputer de sklearn.

3. Realiza la imputación de datos para la columna 'Precio' utilizando el método de imputación por la media. Haz la imputación para cada categoría por separado.

En este apartado descubrirás cómo manejar los valores atípicos. Estos escapan del concentrado de la distribución de la variable; así, debido al modelo se puede ocasionar una mala interpretación de los datos.

Una regla de uso común dicta que un punto de datos es un valor atípico si es más de 1.5 IQR por encima del tercer cuartil o por debajo del primer cuartil. Dicho de otra manera, los valores atípicos bajos están debajo Q1-1.5 IQR  y los valores atípicos altos se encuentran por encima Q3+1.5 IQR.

##### Identificación de valores atípicos (outliers)

In [None]:
col='c_LotFrontage'
q1 = df[col].quantile(.25)
q3 = df[col].quantile(.75)
iqr = q3 - q1

ub = q3 + 1.5 * iqr
lb = q1 - 1.5 * iqr

In [None]:
ub

107.5

In [None]:
lb

31.5

In [None]:
n_iqr=df[(df[col] <= lb) | (df[col] >= ub)][col].shape[0]
n_iqr

106

In [None]:
106/1460

0.07260273972602739

In [None]:
def outliers(df, columnas) :
  # Creamos un DataFrame vacío para almacenar los resultados
  resultados = pd.DataFrame()
  # Creamos listas vacías para almacenar el número de valores atípicos por método
  total = []
  total_per = []
  total_z = []
  # Creamos una lista vacía para almacenar los índices de los valores atípicos
  indices = []

  # Iteramos sobre cada columna especificada en la lista "columnas"
  for col in columnas :
    # Calculamos los cuartiles, el rango intercuartílico y los límites inferior y superior para el método de IQR
    q1 = df[col].quantile(.25)
    q3 = df[col].quantile(.75)
    iqr = q3 - q1
    inf = q1 - 1.5 * (iqr)
    sup = q3 + 1.5 * (iqr)

    # Contamos el número de valores atípicos y almacenamos los índices correspondientes para el método de IQR
    num_outliers = df[ (df[col] < inf)  | (df[col] > sup) ].shape[0]
    total.append(num_outliers)
    indices_iqr = list(df[ (df[col] < inf)  | (df[col] > sup) ].index)

    # Determinamos los percentiles y contamos el número de valores atípicos para el método de percentiles
    INF_pe = np.percentile(df[col].dropna(), 5)
    SUP_pe = np.percentile(df[col].dropna(), 95)
    num_outliers_per = df[ (df[col] < INF_pe)  | (df[col] > SUP_pe) ].shape[0]
    total_per.append(num_outliers_per)
    indices_per = list(df[ (df[col] < INF_pe)  | (df[col] > SUP_pe)].index)

    # Obtenemos todos los percentiles y el máximo
    percentil_100 = [x / 100 for x in range(100)]
    distribucion = df[col].describe(percentil_100).iloc[4:]

    # Calculamos el cambio promedio entre nuestros percentiles
    cambios_percentil = df[col].describe(percentil_100).iloc[4:].diff()
    cambio_promedio = df[col].describe(percentil_100).iloc[4:].diff().mean()

    # Determinamos la banda superior para el método de cambio promedio
    if cambios_percentil["max"] > cambio_promedio :
      banda_superior = distribucion["max"] - cambio_promedio
      if banda_superior < distribucion["99%"] :
        banda_superior = distribucion["99%"]
    else :
      banda_superior = distribucion["max"]

    # Para demostrar si el minimo es valor atipico
    if cambios_percentil["1%"] > cambio_promedio :
      banda_inferior = distribucion["0%"] + cambio_promedio
      if banda_inferior > distribucion["1%"] :
        banda_inferior = distribucion["1%"]
    else:
      banda_inferior = distribucion["0%"]

    num_total_z = df[ (df[col] < banda_inferior)  | (df[col] > banda_superior)].shape[0]
    total_z.append(num_total_z)
    indices_z = list(df[ (df[col] < banda_inferior)  | (df[col] > banda_superior)].index)

    indices.append(auxiliar_atipicos(indices_iqr, indices_per, indices_z))
  # END FOR

  # Ya salimos del FOR
  resultados["columna"] = columnas
  resultados["outliers IQR"] = total
  resultados["outliers Percentil"] = total_per
  resultados["outliers cambio promedio"] = total_z
  resultados["outliers IQR %"] = round( (resultados["outliers IQR"] / df.shape[0])*100 , 2)
  resultados["outliers Percentil %"] = round( (resultados["outliers Percentil"] / df.shape[0])*100 , 2)
  resultados["outliers cambio promedio %"] = round( (resultados["outliers cambio promedio"] / df.shape[0])*100 , 2)
  resultados["indices"] = indices
  resultados["outliers total"] = resultados["indices"].map(lambda x:len(x))
  resultados["% outliers total"] = round((resultados["outliers total"] / df.shape[0]) * 100, 2)
  return resultados

# Definimos una función llamada "auxiliar_atipicos" que toma tres argumentos: "lista_iqr", "lista_per" y "lista_z".
def auxiliar_atipicos(lista_iqr, lista_per, lista_z) :

  # Convertimos las tres listas en conjuntos para usar el método "intersection"
  lista_iqr = set(lista_iqr)
  lista_per = set(lista_per)
  lista_z = set(lista_z)

  # Obtenemos las intersecciones entre los conjuntos
  lista_iqr2 = lista_iqr.intersection(lista_per)
  lista_per2 = lista_per.intersection(lista_z)
  lista_z2 = lista_iqr.intersection(lista_z)

  # Unimos todas las intersecciones y las convertimos de vuelta en una lista
  indices_atipicos = list( set( list(lista_iqr2) + list(lista_per2) + list(lista_z2)) )

  # Devolvemos la lista de índices atípicos
  return indices_atipicos

In [None]:
outliers=OUTLIERS(df,list(df.filter(like="c_")))
outliers

0%        NaN
1%       0.00
2%       3.00
3%       6.00
4%       4.00
        ...  
96%      3.00
97%      7.00
98%      6.82
99%     16.59
max    175.59
Name: c_LotFrontage, Length: 101, dtype: float64
0%           NaN
1%        380.00
2%        444.74
3%        397.26
4%        573.04
         ...    
96%      1456.45
97%      2714.20
98%      3679.82
99%     12316.02
max    177677.36
Name: c_LotArea, Length: 101, dtype: float64
0%        NaN
1%       0.00
2%       0.00
3%       0.00
4%       0.00
        ...  
96%     31.40
97%     86.29
98%     77.13
99%    140.46
max    808.72
Name: c_MasVnrArea, Length: 101, dtype: float64
0%         NaN
1%        0.00
2%        0.00
3%        0.00
4%        0.00
        ...   
96%      35.00
97%      66.99
98%      66.65
99%     129.77
max    4071.59
Name: c_BsmtFinSF1, Length: 101, dtype: float64
0%        NaN
1%       0.00
2%       0.00
3%       0.00
4%       0.00
        ...  
96%     83.44
97%     66.59
98%    111.89
99%    172.26
max    643

Unnamed: 0,features,n_outliers_IQR,n_outliers_Percentil,n_outliers_Mean_Change,n_outliers_IQR_%,n_outliers_Percentil_%,n_outliers_Mean_Change_%,total_outliers,%_outliers,indices
0,c_LotFrontage,106,145,2,7.26,9.93,0.14,106,7.26,"[1029, 523, 1038, 1039, 25, 35, 36, 1061, 41, ..."
1,c_LotArea,69,146,1,4.73,10.0,0.07,69,4.73,"[384, 769, 1409, 260, 1287, 523, 271, 1039, 52..."
2,c_MasVnrArea,98,70,1,6.71,4.79,0.07,70,4.79,"[640, 769, 898, 517, 1287, 1289, 1417, 523, 52..."
3,c_BsmtFinSF1,7,71,1,0.48,4.86,0.07,7,0.48,"[898, 70, 523, 178, 1298, 53, 1182]"
4,c_BsmtFinSF2,167,73,1,11.44,5.0,0.07,73,5.0,"[1024, 1025, 1152, 260, 263, 649, 1418, 271, 1..."
5,c_BsmtUnfSF,29,72,1,1.99,4.93,0.07,29,1.99,"[768, 774, 137, 1166, 22, 278, 1046, 798, 928,..."
6,c_TotalBsmtSF,61,145,1,4.18,9.93,0.07,61,4.18,"[897, 898, 259, 1412, 646, 392, 520, 778, 523,..."
7,c_1stFlrSF,20,146,3,1.37,10.0,0.21,22,1.51,"[1024, 898, 523, 529, 1298, 1044, 533, 1182, 1..."
8,c_2ndFlrSF,2,73,1,0.14,5.0,0.07,2,0.14,"[691, 1182]"
9,c_GrLivArea,31,141,2,2.12,9.66,0.14,32,2.19,"[1024, 769, 1031, 523, 1169, 1298, 1173, 1046,..."


In [None]:
indices=list(outliers["indices"].values)
indices=list(set(reduce(lambda x,y: x+y, indices)))
len(indices)

582

In [None]:
len(indices)/df.shape[0]

0.39863013698630134

In [None]:
df=df[~df.index.isin(indices)].reset_index(drop=True)

In [None]:
df.head()

Unnamed: 0,Id,v_MSSubClass,v_MSZoning,c_LotFrontage,c_LotArea,v_Street,v_LotShape,v_LandContour,v_Utilities,v_LotConfig,v_LandSlope,v_Neighborhood,v_Condition1,v_Condition2,v_BldgType,v_HouseStyle,v_OverallQual,v_OverallCond,v_YearBuilt,v_YearRemodAdd,v_RoofStyle,v_RoofMatl,v_Exterior1st,v_Exterior2nd,v_MasVnrType,c_MasVnrArea,v_ExterQual,v_ExterCond,v_Foundation,v_BsmtQual,v_BsmtCond,v_BsmtExposure,v_BsmtFinType1,c_BsmtFinSF1,v_BsmtFinType2,c_BsmtFinSF2,c_BsmtUnfSF,c_TotalBsmtSF,v_Heating,v_HeatingQC,v_CentralAir,v_Electrical,c_1stFlrSF,c_2ndFlrSF,v_LowQualFinSF,c_GrLivArea,c_BsmtFullBath,v_BsmtHalfBath,v_FullBath,c_HalfBath,c_BedroomAbvGr,v_KitchenAbvGr,v_KitchenQual,v_TotRmsAbvGrd,v_Functional,v_Fireplaces,v_GarageType,v_GarageYrBlt,v_GarageFinish,c_GarageCars,c_GarageArea,v_GarageQual,v_GarageCond,v_PavedDrive,c_WoodDeckSF,c_OpenPorchSF,c_EnclosedPorch,c_3SsnPorch,c_ScreenPorch,c_PoolArea,c_MiscVal,v_MoSold,v_YrSold,v_SaleType,v_SaleCondition,tgt_SalePrice
0,1,60,RL,65,8450,Pave,Reg,Lvl,AllPub,Inside,Gtl,CollgCr,Norm,Norm,1Fam,2Story,7,5,2003,2003,Gable,CompShg,VinylSd,VinylSd,BrkFace,196,Gd,TA,PConc,Gd,TA,No,GLQ,706,Unf,0,150,856,GasA,Ex,Y,SBrkr,856,854,0,1710,1,0,2,1,3,1,Gd,8,Typ,0,Attchd,2003.0,RFn,2,548,TA,TA,Y,0,61,0,0,0,0,0,2,2008,WD,Normal,208500
1,2,20,RL,80,9600,Pave,Reg,Lvl,AllPub,FR2,Gtl,Veenker,Feedr,Norm,1Fam,1Story,6,8,1976,1976,Gable,CompShg,MetalSd,MetalSd,,0,TA,TA,CBlock,Gd,TA,Gd,ALQ,978,Unf,0,284,1262,GasA,Ex,Y,SBrkr,1262,0,0,1262,0,1,2,0,3,1,TA,6,Typ,1,Attchd,1976.0,RFn,2,460,TA,TA,Y,298,0,0,0,0,0,0,5,2007,WD,Normal,181500
2,3,60,RL,68,11250,Pave,IR1,Lvl,AllPub,Inside,Gtl,CollgCr,Norm,Norm,1Fam,2Story,7,5,2001,2002,Gable,CompShg,VinylSd,VinylSd,BrkFace,162,Gd,TA,PConc,Gd,TA,Mn,GLQ,486,Unf,0,434,920,GasA,Ex,Y,SBrkr,920,866,0,1786,1,0,2,1,3,1,Gd,6,Typ,1,Attchd,2001.0,RFn,2,608,TA,TA,Y,0,42,0,0,0,0,0,9,2008,WD,Normal,223500
3,5,60,RL,84,14260,Pave,IR1,Lvl,AllPub,FR2,Gtl,NoRidge,Norm,Norm,1Fam,2Story,8,5,2000,2000,Gable,CompShg,VinylSd,VinylSd,BrkFace,350,Gd,TA,PConc,Gd,TA,Av,GLQ,655,Unf,0,490,1145,GasA,Ex,Y,SBrkr,1145,1053,0,2198,1,0,2,1,4,1,Gd,9,Typ,1,Attchd,2000.0,RFn,3,836,TA,TA,Y,192,84,0,0,0,0,0,12,2008,WD,Normal,250000
4,7,20,RL,75,10084,Pave,Reg,Lvl,AllPub,Inside,Gtl,Somerst,Norm,Norm,1Fam,1Story,8,5,2004,2005,Gable,CompShg,VinylSd,VinylSd,Stone,186,Gd,TA,PConc,Ex,TA,Av,GLQ,1369,Unf,0,317,1686,GasA,Ex,Y,SBrkr,1694,0,0,1694,1,0,2,0,3,1,Gd,7,Typ,1,Attchd,2004.0,RFn,2,636,TA,TA,Y,255,57,0,0,0,0,0,8,2007,WD,Normal,307000


Con todo lo anterior, limpiaste el conjunto de datos al eliminar los valores faltantes y utilizando técnicas para imputar. Además de eliminar valores atípicos, evitas cualquier posible ruido que estos factores pudiesen generar, para acercarte así a la creación de un modelo.

## Reto de la semana

Descarga el siguiente estudio sobre algunos pingüinos:

https://drive.google.com/file/d/1u-pbmc8bNjIRsgDwz3Bmr0DnbXRxHRiz/view?usp=sharing

Indica los valores mínimos y máximos aceptables para las columnas `Culmen Length (mm)`, `Culmen Depth (mm)` y `Flipper Length (mm)` e identifica los _outliers_.

Recuerda que es importante calcular los Cuantiles 1 y 3, así como el rango intecuantílico («IQR»).

## Mis próximos pasos

¡Felicidades!
Vas por la mitad del módulo. Mantén el ritmo y recuerda que si surgen dudas puedes externarlas a tu coach o tutor@ durante las clases, ya que su guía te facilitará la comprensión de todos los contenidos de tu "Colab".

# Ejercicio Beers

In [17]:
#1.Importaciones de bibliotecas
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [22]:
df_beer=pd.read_csv(r"C:\Users\Equipo 1\Downloads\datasets\beers.csv", decimal=",")
df_beer

Unnamed: 0,Nombre,Precio($),Calorias,%Content-Alcohol
0,Montaña de Enfrente,624,159.0,5.2
1,Cima Brillante,479,160.0,5.0
2,Cascada del Bosque,596,160.0,4.9
3,Montaña de Enfrente,47,162.0,4.9
4,Río Cervézano,411,157.0,5.5
...,...,...,...,...
65,Cascada del Bosque,275,72.0,0.0
66,Nube Oscura,39,70.0,0.0
67,Sol Dorado,542,71.0,0.0
68,Cima Brillante,563,96.0,0.0


In [23]:
#Ejercicio beer
df_beer.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70 entries, 0 to 69
Data columns (total 4 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Nombre            70 non-null     object 
 1   Precio($)         67 non-null     object 
 2   Calorias          67 non-null     float64
 3   %Content-Alcohol  69 non-null     float64
dtypes: float64(2), object(2)
memory usage: 2.3+ KB


In [24]:
df_beer.describe()

Unnamed: 0,Calorias,%Content-Alcohol
count,67.0,69.0
mean,140.761194,4.349275
std,30.853559,1.661114
min,58.0,0.0
25%,138.5,4.4
50%,148.0,4.9
75%,159.0,5.1
max,201.0,6.0


In [27]:
df_pruebas = df_beer.sample(30) #Para pedir datos al azar y observar valores
df_pruebas

Unnamed: 0,Nombre,Precio($),Calorias,%Content-Alcohol
8,Montaña de Enfrente,6,162.0,5.4
66,Nube Oscura,39,70.0,0.0
40,Cima Brillante,282,145.0,4.5
64,Sol Dorado,299,60.0,0.0
0,Montaña de Enfrente,624,159.0,5.2
23,Montaña de Enfrente,647,177.0,5.6
49,Sol Dorado,402,137.0,4.6
19,Cascada del Bosque,584,170.0,5.3
63,Montaña de Enfrente,36,82.0,0.0
34,Nube Oscura,552,160.0,4.8


In [30]:
(1 - (df_beer.isnull().sum())/df_beer.shape[0]) * 100

Nombre              100.000000
Precio($)            95.714286
Calorias             95.714286
%Content-Alcohol     98.571429
dtype: float64

In [31]:
# convertir a int los valores  de la columna content-alcohol
df_beer['Precio($)'] = df_beer['Precio($)'].str.replace(',' , '.')
df_beer['Precio($)']



0     6.24
1     4.79
2     5.96
3      4.7
4     4.11
      ... 
65    2.75
66     3.9
67    5.42
68    5.63
69    5.84
Name: Precio($), Length: 70, dtype: object

In [38]:
#Rellenar los valores nulos
df_beer['Precio($)'] = df_beer['Precio($)'].fillna(5)
#Rellenar con promedio
promedio = df_beer['Calorias'].mean()
df_beer['Calorias'] = df_beer['Calorias'].fillna(promedio)
#Relleno con mediana para Sol Dorado
df_beer['%Content-Alcohol'] = df_beer['%Content-Alcohol'].fillna(df_beer['%Content-Alcohol'].median())



df_beer.loc[[15, 35, 57, 43, 13, 39]]
#df_beer.iloc[39,2] = 1000

Unnamed: 0,Nombre,Precio($),Calorias,%Content-Alcohol
15,Nube Oscura,5.0,170.0,5.9
35,Nube Oscura,5.0,160.0,5.0
57,Río Cervézano,5.0,110.0,4.2
43,Sol Dorado,4.02,148.0,4.9
13,Montaña de Enfrente,5.96,140.761194,5.0
39,Cima Brillante,7.8,140.761194,4.1


In [42]:
df_beer.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70 entries, 0 to 69
Data columns (total 4 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Nombre            70 non-null     object 
 1   Precio($)         70 non-null     object 
 2   Calorias          70 non-null     float64
 3   %Content-Alcohol  70 non-null     float64
dtypes: float64(2), object(2)
memory usage: 2.3+ KB


In [None]:
#Librería de imputación
from sklearn.impute from SimpleImputer
#import 
