# MAESTRÍA EN INTELIGENCIA ARTIFICIAL APLICADA
## Curso: TC4029 - Ciencia y analítica de datos
Tecnológico de Monterrey
Prof Gretell Barceló Alonso
### Semana 5 Preprocesamiento de datos
- **NOMBRE**: ------------------------
- **MATRÍCULA**: ---------------------

### 1. Cargar los datos
Para trabajar con los datos en Google Colab, primero necesitas subir el archivo `responses.csv`. Puedes hacerlo usando el ícono de carpeta a la izquierda. Luego selecciona **Upload** y sube el archivo desde tu computadora.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

# Cargar el archivo una vez subido en Colab
response_df = pd.read_csv('responses.csv')
response_df.head()

### 2. Determina cuántas variables numéricas y cuántas de texto posee el conjunto de datos
Con el método `info()` se puede determinar esta información.

In [None]:
response_df.info()

### 3. Estadísticas descriptivas separadas por tipo de datos
Utiliza el método `describe()` del dataframe, para obtener el resumen de las estadísticas descriptivas por tipo de datos.

In [None]:
response_df.describe()

In [None]:
response_df.describe(include=['O'])

### 4. Clasifica la variable Weight según su escala de medición
En función de la escala de la variable `Weight`, elige el gráfico adecuado (histograma / barras) y justifica tu elección.

In [None]:
plt.figure(figsize=(8,6))
sns.histplot(response_df['Weight'].dropna(), kde=True)
plt.title('Distribución de la variable Weight')
plt.show()

### 5. Clasifica la distribución del peso según su asimetría
Utiliza la función `skew` de la librería `scipy.stats` para calcular la asimetría de la variable `Weight` y clasifica la distribución.

In [None]:
from scipy.stats import skew
weight_skewness = skew(response_df['Weight'].dropna())
print(f'El valor de la asimetría es: {weight_skewness}')
if weight_skewness > 0:
    print('La distribución está sesgada a la derecha.')
elif weight_skewness < 0:
    print('La distribución está sesgada a la izquierda.')
else:
    print('La distribución es simétrica.')

### 6. ¿Cuántos valores faltantes tiene la variable Weight? ¿Qué porcentaje representan?
Obtén el número de valores faltantes de la variable `Weight` y calcula el porcentaje que representan del total de la columna.

In [None]:
missing_values = response_df['Weight'].isnull().sum()
total_values = len(response_df['Weight'])
missing_percentage = (missing_values / total_values) * 100
print(f'Valores faltantes: {missing_values} ({missing_percentage:.2f}%)')

### 7. Dependencia de los valores faltantes de Weight
Analiza si los valores faltantes de la variable `Weight` tienen relación con otras variables, como `Age`, `Number of siblings`, `Gender`, y `Education`.

In [None]:
with_missing_weight = response_df[response_df['Weight'].isnull()]
without_missing_weight = response_df[response_df['Weight'].notnull()]
from scipy.stats import ttest_ind
stat, p_value = ttest_ind(with_missing_weight['Age'].dropna(), without_missing_weight['Age'].dropna())
print(f'p-valor de la prueba t: {p_value}')
if p_value < 0.05:
    print('Hay una diferencia significativa en la edad entre los grupos con y sin valores faltantes en Weight.')
else:
    print('No hay una diferencia significativa en la edad entre los grupos.')

### 8. Imputación de valores faltantes
Utiliza una medida de tendencia central para imputar los valores faltantes de `Weight`. ¿Cuál es recomendable y por qué?

In [None]:
median_weight = response_df['Weight'].median()
response_df['Weight'].fillna(median_weight, inplace=True)
print(f'Se han imputado los valores faltantes de Weight con la mediana: {median_weight}')

### 9. Valores atípicos de la variable Weight
Confirma si existen valores atípicos en la variable `Weight` utilizando un gráfico de boxplot. Luego, almacénalos en un dataframe independiente y elimínalos del conjunto original.

In [None]:
plt.figure(figsize=(8,6))
sns.boxplot(data=response_df, x='Weight')
plt.title('Boxplot de la variable Weight')
plt.show()

### 10. Visualizar la distribución del BMI según las variables categóricas

In [None]:
# Calcular el BMI (Weight en kg, Height en metros)
response_df['Height_m'] = response_df['Height'] / 100
response_df['BMI'] = response_df['Weight'] / response_df['Height_m']**2
categorical_vars = ['Gender', 'Education']
plt.figure(figsize=(15, 8))
for i, var in enumerate(categorical_vars, 1):
    plt.subplot(1, 2, i)
    sns.boxplot(x=var, y='BMI', data=response_df)
    plt.title(f'Boxplot del BMI por {var}')
plt.tight_layout()
plt.show()