# Limpieza de datos

# 1. El problema
Se desea clasificar si una persona tiene obesidad según sus hábitos alimenticios y nivel de actividad física.

# 2. El set de datos

Los datos consisten en la estimación de los niveles de obesidad en personas de los países de México, Perú y Colombia, con edades entre 14 y 61 años, y con diversos hábitos alimenticios y condiciones físicas. Los datos fueron recolectados mediante una plataforma web con una encuesta en la que usuarios anónimos respondieron cada pregunta. Luego, la información fue procesada, obteniendo 17 atributos y 2111 registros.

Los atributos relacionados con los hábitos alimenticios son:
-   Consumo frecuente de alimentos con alto contenido calórico (FAVC).
-   Frecuencia de consumo de verduras (FCVC).
-   Número de comidas principales (NCP).
-	Consumo de alimentos entre comidas (CAEC).
-	Consumo diario de agua (CH20).
-	Consumo de alcohol (CALC).

Los atributos relacionados con la condición física son:
-	Monitoreo del consumo de calorías (SCC).
-	Frecuencia de actividad física (FAF).
-	Tiempo de uso de dispositivos tecnológicos (TUE).
-	Medio de transporte utilizado (MTRANS).

Variables obtenidas:
-	Género.
-	Edad.
-	Estatura.
-	Peso.

Los valores de NObesity son:
-	Bajo peso: Menos de 18.5
-	Normal: 18.5 a 24.9
-	Sobrepeso: 25.0 a 29.9
-	Obesidad I: 30.0 a 34.9
-	Obesidad II: 35.0 a 39.9
-	Obesidad III: Mayor a 40

Los datos contienen valores numéricos y continuos, por lo que pueden utilizarse para análisis basados en algoritmos de clasificación, predicción, segmentación y asociación. Los datos están disponibles en formato CSV.

# 3. Una primera mirada al dataset

In [19]:
# Importar librerías
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [20]:
# Lectura
ruta = './datasets/ObesityDataSet.csv'
data = pd.read_csv(ruta)

In [21]:
print(data.shape)
data.head()

(2111, 17)


Unnamed: 0,Gender,Age,Height,Weight,family_history_with_overweight,FAVC,FCVC,NCP,CAEC,SMOKE,CH2O,SCC,FAF,TUE,CALC,MTRANS,NObeyesdad
0,Female,21.0,1.62,64.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,0.0,1.0,no,Public_Transportation,Normal_Weight
1,Female,21.0,1.52,56.0,yes,no,3.0,3.0,Sometimes,yes,3.0,yes,3.0,0.0,Sometimes,Public_Transportation,Normal_Weight
2,Male,23.0,1.8,77.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,2.0,1.0,Frequently,Public_Transportation,Normal_Weight
3,Male,27.0,1.8,87.0,no,no,3.0,3.0,Sometimes,no,2.0,no,2.0,0.0,Frequently,Walking,Overweight_Level_I
4,Male,22.0,1.78,89.8,no,no,2.0,1.0,Sometimes,no,2.0,no,0.0,0.0,Sometimes,Public_Transportation,Overweight_Level_II


In [22]:
# Veamos las variables categóricas y las numéricas
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2111 entries, 0 to 2110
Data columns (total 17 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Gender                          2111 non-null   object 
 1   Age                             2111 non-null   float64
 2   Height                          2111 non-null   float64
 3   Weight                          2111 non-null   float64
 4   family_history_with_overweight  2111 non-null   object 
 5   FAVC                            2111 non-null   object 
 6   FCVC                            2111 non-null   float64
 7   NCP                             2111 non-null   float64
 8   CAEC                            2111 non-null   object 
 9   SMOKE                           2111 non-null   object 
 10  CH2O                            2111 non-null   float64
 11  SCC                             2111 non-null   object 
 12  FAF                             21

# 4 Limpieza 

Realizamos el proceso de limpieza teniendo en cuenta las situaciones comunes:

1. Datos faltantes en algunas celdas.
2. Columnas irrelevantes (Que no responden al problema que queremos resolver).
3. Registros (filas) repetidos.
4. Valores extremos (*outliers*) en el caso de variables numéricas. Se deben analizar en detalle pues no necesariamente la solución es eliminarlos.
5. Errores tipográficos en el caso de las variables categóricas.

Al final de este proceso de limpieza deberíamos tener un set de datos **íntegros**, listo para la fase de Análisis Exploratio.

## 4.1 Datos faltantes

En el caso del dataset analizado, no tenemos datos faltantes.

In [24]:
data.isna().sum()

Gender                            0
Age                               0
Height                            0
Weight                            0
family_history_with_overweight    0
FAVC                              0
FCVC                              0
NCP                               0
CAEC                              0
SMOKE                             0
CH2O                              0
SCC                               0
FAF                               0
TUE                               0
CALC                              0
MTRANS                            0
NObeyesdad                        0
dtype: int64

En caso de tener pocos usaríamos:

In [23]:
data.dropna(inplace=True)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2111 entries, 0 to 2110
Data columns (total 17 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Gender                          2111 non-null   object 
 1   Age                             2111 non-null   float64
 2   Height                          2111 non-null   float64
 3   Weight                          2111 non-null   float64
 4   family_history_with_overweight  2111 non-null   object 
 5   FAVC                            2111 non-null   object 
 6   FCVC                            2111 non-null   float64
 7   NCP                             2111 non-null   float64
 8   CAEC                            2111 non-null   object 
 9   SMOKE                           2111 non-null   object 
 10  CH2O                            2111 non-null   float64
 11  SCC                             2111 non-null   object 
 12  FAF                             21

## 4.2 Columnas irrelevantes

Una columna irrelevante puede ser:

- Una columna que no contiene información relevante para el problema que queremos resolver. Por ejemplo en este caso podríia ser una columna que no guarde relación con la posible nivel de obesidad de una persona.
- Una columna categórica pero son un solo nivel. Por ejemplo si en la columna 'Gender' solo tuviésemos 'male'.
- Una columna numérica pero con un solo valor. Por ejemplo si en la columna 'Age' todos los valores fueran iguales a 50.
- Columnas con información redundante. Por ejemplo si además de las columnas