# Análisis Exploratorio de Datos (EDA) - Costos de Seguros Médicos

Este notebook realiza un análisis exploratorio completo sobre el dataset de costos de seguros médicos.

## 1. Importar librerías necesarias

Importamos las librerías principales para análisis y visualización de datos.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración de estilos para gráficos
sns.set(style="whitegrid")
%matplotlib inline

## 2. Carga e inspección inicial de los datos

Cargamos el archivo CSV y mostramos las primeras filas para una vista preliminar.

In [None]:
# Cargar el dataset
df = pd.read_csv("../data/raw/medical_insurance_cost.csv", sep=';')

# Mostrar las primeras filas
df.head()

## 3. Tamaño y estructura del dataset

Mostramos el número de filas y columnas, y la estructura general del DataFrame.

In [None]:
# Tamaño del dataset
print(f"Número de filas: {df.shape[0]}")
print(f"Número de columnas: {df.shape[1]}")

# Estructura general
df.info()

## 4. Tipos de datos y valores nulos

Revisamos los tipos de datos de cada columna y verificamos la existencia de valores nulos o faltantes.

In [None]:
# Tipos de datos
print(df.dtypes)

# Valores nulos por columna
print("\nValores nulos por columna:")
print(df.isnull().sum())

## 5. Estadísticas descriptivas

Obtenemos estadísticas descriptivas de las variables numéricas.

In [None]:
# Estadísticas descriptivas
df.describe().T

## 6. Distribución de variables numéricas

Visualizamos la distribución de las variables numéricas usando histogramas y boxplots.

In [None]:
# Seleccionar variables numéricas
num_cols = df.select_dtypes(include=np.number).columns

# Histogramas
df[num_cols].hist(figsize=(12, 8), bins=20)
plt.suptitle("Histogramas de variables numéricas")
plt.show()

# Boxplots
plt.figure(figsize=(12, 6))
for i, col in enumerate(num_cols):
    plt.subplot(1, len(num_cols), i+1)
    sns.boxplot(y=df[col])
    plt.title(col)
plt.tight_layout()
plt.show()

## 7. Distribución de variables categóricas

Visualizamos la frecuencia de las variables categóricas usando gráficos de barras.

In [None]:
# Seleccionar variables categóricas
cat_cols = df.select_dtypes(include='object').columns

# Gráficos de barras para cada variable categórica
plt.figure(figsize=(15, 4))
for i, col in enumerate(cat_cols):
    plt.subplot(1, len(cat_cols), i+1)
    sns.countplot(x=df[col])
    plt.title(col)
    plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## 8. Correlación entre variables

Calculamos y visualizamos la matriz de correlación entre variables numéricas.

In [None]:
# Matriz de correlación
corr = df[num_cols].corr()

# Mapa de calor de la matriz de correlación
plt.figure(figsize=(8, 6))
sns.heatmap(corr, annot=True, cmap='coolwarm', fmt=".2f")
plt.title("Matriz de correlación")
plt.show()

## 9. Visualización de relaciones entre variables

Realizamos gráficos de dispersión y pairplots para explorar relaciones entre variables relevantes.

In [None]:
# Gráfico de dispersión entre 'charges' y otras variables numéricas
for col in num_cols:
    if col != 'charges':
        plt.figure(figsize=(6, 4))
        sns.scatterplot(x=df[col], y=df['charges'])
        plt.title(f'Relación entre {col} y charges')
        plt.xlabel(col)
        plt.ylabel('charges')
        plt.show()

# Pairplot de variables numéricas
sns.pairplot(df[num_cols])
plt.suptitle("Pairplot de variables numéricas", y=1.02)
plt.show()