# Introducción a Estadística con Python

## Objetivos
- Familiarizarse con pandas, numpy y scipy
- Cargar y explorar datasets
- Realizar análisis descriptivo básico
- Crear visualizaciones iniciales

---

## 1. Importar Librerías Necesarias

In [None]:
# Librerías básicas
import pandas as pd
import numpy as np

# Estadística
from scipy import stats

# Visualización
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración de visualización
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

# Configuración de pandas para mostrar más filas/columnas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("✓ Librerías importadas correctamente")

## 2. Cargar Dataset de Ejemplo

Trabajaremos con datos de satisfacción de clientes de una organización sin fines de lucro.

In [None]:
# Cargar datos
# Ajusta la ruta según la ubicación de tu archivo
df = pd.read_csv('../datos/ejemplo_satisfaccion_clientes.csv')

print(f"Dataset cargado: {df.shape[0]} filas, {df.shape[1]} columnas")
df.head()

## 3. Exploración Inicial del Dataset

In [None]:
# Información general del dataset
df.info()

In [None]:
# Resumen estadístico de variables numéricas
df.describe()

In [None]:
# Verificar valores faltantes
print("Valores faltantes por columna:")
print(df.isnull().sum())

# Porcentaje de valores faltantes
porcentaje_faltantes = (df.isnull().sum() / len(df)) * 100
print("\nPorcentaje de valores faltantes:")
print(porcentaje_faltantes[porcentaje_faltantes > 0])

## 4. Análisis de Variables Categóricas

In [None]:
# Distribución por área
print("Distribución por Área:")
print(df['area'].value_counts())
print("\nPorcentaje:")
print(df['area'].value_counts(normalize=True) * 100)

In [None]:
# Gráfico de barras de distribución por área
plt.figure(figsize=(10, 6))
df['area'].value_counts().plot(kind='bar', color='steelblue', edgecolor='black')
plt.title('Distribución de Beneficiarios por Área', fontsize=16, fontweight='bold')
plt.xlabel('Área', fontsize=12)
plt.ylabel('Cantidad de Beneficiarios', fontsize=12)
plt.xticks(rotation=0)
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# Distribución por género
print("Distribución por Género:")
print(df['genero'].value_counts())

# Gráfico de pie
plt.figure(figsize=(8, 8))
df['genero'].value_counts().plot(kind='pie', autopct='%1.1f%%', startangle=90, colors=['#66b3ff','#ff9999','#99ff99'])
plt.title('Distribución por Género', fontsize=16, fontweight='bold')
plt.ylabel('')
plt.tight_layout()
plt.show()

## 5. Análisis de Variables Numéricas

In [None]:
# Histogramas de variables clave
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# Satisfacción
axes[0, 0].hist(df['satisfaccion'], bins=10, color='skyblue', edgecolor='black')
axes[0, 0].set_title('Distribución de Satisfacción', fontweight='bold')
axes[0, 0].set_xlabel('Satisfacción (1-10)')
axes[0, 0].set_ylabel('Frecuencia')
axes[0, 0].grid(alpha=0.3)

# Edad
axes[0, 1].hist(df['edad'], bins=15, color='lightcoral', edgecolor='black')
axes[0, 1].set_title('Distribución de Edad', fontweight='bold')
axes[0, 1].set_xlabel('Edad (años)')
axes[0, 1].set_ylabel('Frecuencia')
axes[0, 1].grid(alpha=0.3)

# Calidad de atención
axes[1, 0].hist(df['calidad_atencion'], bins=10, color='lightgreen', edgecolor='black')
axes[1, 0].set_title('Distribución de Calidad de Atención', fontweight='bold')
axes[1, 0].set_xlabel('Calidad (1-10)')
axes[1, 0].set_ylabel('Frecuencia')
axes[1, 0].grid(alpha=0.3)

# Tiempo de espera
axes[1, 1].hist(df['tiempo_espera'], bins=15, color='gold', edgecolor='black')
axes[1, 1].set_title('Distribución de Tiempo de Espera', fontweight='bold')
axes[1, 1].set_xlabel('Tiempo (minutos)')
axes[1, 1].set_ylabel('Frecuencia')
axes[1, 1].grid(alpha=0.3)

plt.tight_layout()
plt.show()

## 6. Boxplots para Detectar Outliers

In [None]:
# Boxplots de variables clave
fig, axes = plt.subplots(1, 3, figsize=(15, 5))

axes[0].boxplot(df['satisfaccion'], vert=True)
axes[0].set_title('Satisfacción', fontweight='bold')
axes[0].set_ylabel('Escala 1-10')
axes[0].grid(alpha=0.3)

axes[1].boxplot(df['calidad_atencion'], vert=True)
axes[1].set_title('Calidad de Atención', fontweight='bold')
axes[1].set_ylabel('Escala 1-10')
axes[1].grid(alpha=0.3)

axes[2].boxplot(df['tiempo_espera'], vert=True)
axes[2].set_title('Tiempo de Espera', fontweight='bold')
axes[2].set_ylabel('Minutos')
axes[2].grid(alpha=0.3)

plt.tight_layout()
plt.show()

## 7. Análisis por Grupos

In [None]:
# Satisfacción promedio por área
satisfaccion_por_area = df.groupby('area')['satisfaccion'].agg(['mean', 'median', 'std', 'count'])
satisfaccion_por_area.columns = ['Media', 'Mediana', 'Desv. Estándar', 'N']
print("Satisfacción por Área:")
print(satisfaccion_por_area)

In [None]:
# Gráfico de barras con error bars
plt.figure(figsize=(10, 6))
satisfaccion_por_area['Media'].plot(kind='bar', color='teal', edgecolor='black', 
                                      yerr=satisfaccion_por_area['Desv. Estándar'], 
                                      capsize=5)
plt.title('Satisfacción Promedio por Área (con Desviación Estándar)', fontsize=14, fontweight='bold')
plt.xlabel('Área', fontsize=12)
plt.ylabel('Satisfacción Media', fontsize=12)
plt.xticks(rotation=0)
plt.ylim(0, 10)
plt.axhline(y=df['satisfaccion'].mean(), color='red', linestyle='--', label='Media General')
plt.legend()
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# Boxplot comparativo por área
plt.figure(figsize=(12, 6))
df.boxplot(column='satisfaccion', by='area', grid=False, patch_artist=True)
plt.title('Distribución de Satisfacción por Área', fontsize=14, fontweight='bold')
plt.suptitle('')  # Eliminar título automático
plt.xlabel('Área', fontsize=12)
plt.ylabel('Satisfacción (1-10)', fontsize=12)
plt.tight_layout()
plt.show()

## 8. Matriz de Correlación

In [None]:
# Seleccionar solo columnas numéricas
columnas_numericas = ['edad', 'tiempo_servicio', 'satisfaccion', 'calidad_atencion', 'tiempo_espera']
df_numerico = df[columnas_numericas]

# Calcular matriz de correlación
correlacion = df_numerico.corr()

print("Matriz de Correlación:")
print(correlacion)

In [None]:
# Heatmap de correlación
plt.figure(figsize=(10, 8))
sns.heatmap(correlacion, annot=True, cmap='coolwarm', center=0, 
            square=True, linewidths=1, cbar_kws={"shrink": 0.8},
            fmt='.2f', vmin=-1, vmax=1)
plt.title('Matriz de Correlación - Variables Numéricas', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

## 9. Insights Preliminares

Basado en el análisis exploratorio, podemos observar:

### Observaciones:
- **Distribución de satisfacción:** [Describir si es simétrica, sesgada, etc.]
- **Diferencias por área:** [Indicar si se observan diferencias notables]
- **Correlaciones:** [Mencionar variables con correlación fuerte]
- **Outliers:** [Indicar si se detectaron valores atípicos]

### Próximos pasos:
1. Realizar pruebas de hipótesis para confirmar diferencias entre áreas
2. Analizar en profundidad las variables con alta correlación
3. Investigar outliers identificados


## 10. Ejercicios Propuestos

1. **Análisis por género:** Compara la satisfacción promedio entre géneros
2. **Segmentación por edad:** Crea grupos de edad (jóvenes, adultos, mayores) y analiza diferencias
3. **Tiempo de servicio:** ¿Existe relación entre tiempo usando el servicio y satisfacción?
4. **Combinaciones:** Analiza satisfacción por área Y género simultáneamente


In [None]:
# Espacio para tus ejercicios


---

## Resumen

En este notebook aprendiste a:
- ✓ Cargar y explorar datasets con pandas
- ✓ Analizar variables categóricas y numéricas
- ✓ Crear visualizaciones descriptivas
- ✓ Calcular correlaciones entre variables
- ✓ Identificar outliers con boxplots

**Siguiente notebook:** Medidas de Tendencia Central y Dispersión
