### Exploración con Pandas
#### Herramientas para exploración y análisis estadístico

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# describe()

# Creamos un DataFrame simulado con datos de pacientes
data = {
    'Edad': [25, 32, 47, 51, 38, 29, 45, 60, np.nan, 120,
             34, 41, 36, 28, 50, 39, 42, 33, 27, 31, 48, 55,
             34, 34, 45, 45, 45],
    'Peso': [70, 80, 65, 90, 75, 85, 60, 95, 88, np.nan,
             72, 78, 69, 66, 82, 74, 77, 68, 71, 73, 76, 79,
             70, 70, 85, 85, 85],
    'Presion': [120, 130, 110, 140, 135, 125, 115, 150, 145, 130,
                122, 128, 118, 126, 132, 124, 129, 121, 119, 123, 127, 131,
                130, 130, 130, 130, 130],
    'Sexo': ['F', 'M', 'F', 'M', 'F', 'M', 'F', 'M', 'F', 'M',
             'F', 'M', 'F', 'M', 'F', 'M', 'F', 'M', 'F', 'M', 'F', 'M',
             'F', 'F', 'M', 'M', 'M']
}

df = pd.DataFrame(data)
df.head()  # Mostramos las primeras filas del DataFrame


In [None]:
# Aplicamos .describe()
print(df.describe())

In [None]:
# info()
# Mostramos información del DataFrame
print(df.info())

In [None]:
# value_counts()
# Contamos la frecuencia de cada valor en la columna 'Edad'
print(df['Edad'].value_counts(dropna=False))


In [None]:
# groupby().agg()
# Agrupamos por 'Sexo' y calculamos estadísticas agregadas para 'Edad' y 'Peso'
grouped_stats = df.groupby('Sexo').agg({
    'Edad': ['count', 'mean', 'median', 'std'],  # Estadísticas para Edad
    'Peso': ['mean', 'median', 'std'],   # Estadísticas para Peso
    'Presion': ['mean', 'median', 'count'] # Estadísticas para Presión
})
print(grouped_stats)

##### Boxplot por sexo

In [None]:
# Boxplot de Edad por Sexo
sns.boxplot(x='Sexo', y='Edad', data=df)
plt.title('Distribución de Edad por Sexo')
plt.show()

# Boxplot de Peso por Sexo
sns.boxplot(x='Sexo', y='Peso', data=df)
plt.title('Distribución de Peso por Sexo')
plt.show()

# Boxplot de Presión por Sexo
sns.boxplot(x='Sexo', y='Presion', data=df)
plt.title('Distribución de Presión por Sexo')
plt.show()


#### Medidas descriptivas

In [None]:
# Estadísticas específicas para la columna 'Edad'
print("Resumen de Edad:")
print(f"Media: {df['Edad'].mean():.2f}")
print(f"Mediana: {df['Edad'].median()}")
print(f"Moda: {df['Edad'].mode().tolist()}")
print(f"Desviación estándar: {df['Edad'].std():.2f}")


### Medidas de posición

#### Mínimo y Máximo

In [None]:
# Mínimo y máximo para edad
print(f"Mínimo: {df['Edad'].min()}")
print(f"Máximo: {df['Edad'].max()}")
# Eliminamos NaN para análisis
edad_limpia = df['Edad'].dropna()

# Cuartiles
q1 = edad_limpia.quantile(0.25)
q2 = edad_limpia.quantile(0.50)
q3 = edad_limpia.quantile(0.75)

print("\nCuartiles de Edad:")
print(f"Q1: {q1}")
print(f"Q2 (Mediana): {q2}")
print(f"Q3: {q3}")

# Rango amplitud total
rango = edad_limpia.max() - edad_limpia.min()
print(f"\nRango de Edad: {rango}")

# Rango intercuartílico
# El IQR representa el ancho del rango donde se encuentra el 50% central de los datos. 
# Es decir, mide la distancia entre el valor que deja por debajo al 25% de los datos (Q1) 
# y el que deja por debajo al 75% (Q3): IQR = Q3 - Q1
iqr = q3 - q1
print(f"Rango Intercuartílico (IQR): {iqr}")


#### Histograma + Media, Mediana y Moda (Edad)

In [None]:
#### Histograma + Media, Mediana y Moda (Edad)
# Eliminamos NaN para análisis
edad_limpia = df['Edad'].dropna()

# Calculamos medidas
media = edad_limpia.mean()
mediana = edad_limpia.median()
moda = edad_limpia.mode().iloc[0]

# Histograma + líneas
plt.figure(figsize=(8, 5))
sns.histplot(edad_limpia, bins=10, kde=True, color='skyblue')

# Líneas verticales
plt.axvline(media, color='red', linestyle='--', label=f'Media: {media:.2f}')
plt.axvline(mediana, color='blue', linestyle='--', label=f'Mediana: {mediana}')
plt.axvline(moda, color='green', linestyle='--', label=f'Moda: {moda}')

plt.title('Histograma de Edad con Media, Mediana y Moda')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.legend()
plt.tight_layout()
plt.show()

#### Agregar cuartiles al histograma

In [None]:
# Histograma con KDE
plt.figure(figsize=(8, 5))
sns.histplot(edad_limpia, bins=10, kde=True, color='lightblue')

# Líneas verticales
plt.axvline(q1, color='orange', linestyle='--', label=f'Q1: {q1:.1f}')
plt.axvline(q2, color='blue', linestyle='--', label=f'Q2 (Mediana): {q2:.1f}')
plt.axvline(q3, color='green', linestyle='--', label=f'Q3: {q3:.1f}')

plt.title('Histograma de Edad con Cuartiles')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.legend()
plt.tight_layout()
plt.show()


In [None]:
edad = df['Edad'].dropna()

minimo = edad.min()       # Q0
q1 = edad.quantile(0.25)  # Q1
q2 = edad.quantile(0.50)  # Q2 (mediana)
q3 = edad.quantile(0.75)  # Q3
maximo = edad.max()       # Q4

print(f"Q0 (mínimo): {minimo}")
print(f"Q1 (25%): {q1}")
print(f"Q2 (mediana): {q2}")
print(f"Q3 (75%): {q3}")
print(f"Q4 (máximo): {maximo}")

#### Analizar outliers

In [None]:
edad = df['Edad'].dropna()

# Calcular cuartiles e IQR
q1 = edad.quantile(0.25)
q2 = edad.quantile(0.50)  # Mediana
q3 = edad.quantile(0.75)
iqr = q3 - q1

# Crear boxplot
plt.figure(figsize=(8, 5))
sns.boxplot(x=edad, color='lightgreen')

# Anotaciones
plt.axvline(q1, color='orange', linestyle='--', label=f'Q1 (25%): {q1:.1f}')
plt.axvline(q2, color='blue', linestyle='--', label=f'Q2 (Mediana): {q2:.1f}')
plt.axvline(q3, color='green', linestyle='--', label=f'Q3 (75%): {q3:.1f}')
plt.text(q2, 0.05, 'Mediana', color='blue', ha='center', va='bottom')
plt.text(q1, 0.05, 'Q1', color='orange', ha='center', va='bottom')
plt.text(q3, 0.05, 'Q3', color='green', ha='center', va='bottom')

# Título y leyenda
plt.title('Boxplot de Edad con Cuartiles e IQR')
plt.xlabel('Edad')
plt.yticks([])
plt.legend()
plt.tight_layout()
plt.show()

In [None]:
# Analizar outliers usando bigotes
edad = df['Edad'].dropna()
q1 = edad.quantile(0.25)
q3 = edad.quantile(0.75)
iqr = q3 - q1

# Límites para los bigotes
lim_inf = q1 - 1.5 * iqr
lim_sup = q3 + 1.5 * iqr
print(f"Límite inferior para bigote: {lim_inf}")
print(f"Límite superior para bigote: {lim_sup}")

# Valores dentro del rango
valores_validos = edad[(edad >= lim_inf) & (edad <= lim_sup)]

# Extremos de los bigotes
bigote_izq = valores_validos.min()
bigote_der = valores_validos.max()

print(f"Bigote izquierdo: {bigote_izq}")
print(f"Bigote derecho: {bigote_der}")