# Hoja de Práctica de EDA con NumPy
Esta hoja contiene ejercicios de análisis exploratorio de datos usando solo NumPy.

In [2]:
import numpy as np
# np.set_printoptions(precision=2, suppress=True)

## Ejercicio 1 — Exploración básica de datos
Simula las ventas mensuales (12 meses, 4 regiones) y realiza exploración básica.

In [3]:
ventas = np.random.randint(1000, 5000, size=(12, 4))
print('Primeras filas:\n', ventas[:5])
print('Media total:', np.mean(ventas))
print('Mínimo:', np.min(ventas))
print('Máximo:', np.max(ventas))
print('Desviación estándar:', np.std(ventas))
media_region = np.mean(ventas, axis=0)
media_mes = np.mean(ventas, axis=1)
print('Media por región:', media_region)
print('Media por mes:', media_mes)
print('Región con mayor promedio:', np.argmax(media_region))

Primeras filas:
 [[1455 3826 4842 3930]
 [4286 4380 1392 4357]
 [3758 4988 2136 3811]
 [4781 4311 1087 1633]
 [3504 1478 3488 2191]]
Media total: 3197.0
Mínimo: 1087
Máximo: 4988
Desviación estándar: 1150.3928495663267
Media por región: [3275.75       3055.83333333 3145.58333333 3310.83333333]
Media por mes: [3513.25 3603.75 3673.25 2953.   2665.25 3294.5  2877.75 2204.25 3167.75
 3016.   4398.   2997.25]
Región con mayor promedio: 3


## Ejercicio 2 — Limpieza de datos
Introduce algunos valores faltantes y reemplázalos por la media de la columna.

In [None]:
ventas = ventas.astype(float)
ventas[2, 1] = np.nan
ventas[5, 3] = np.nan
faltantes = np.isnan(ventas)
print('Cantidad de valores NaN:', np.sum(faltantes))
media_col = np.nanmean(ventas, axis=0)
for i in range(ventas.shape[1]):
    ventas[np.isnan(ventas[:, i]), i] = media_col[i]
print('NaN restantes:', np.sum(np.isnan(ventas)))

## Ejercicio 3 — Distribución de valores
Analiza una distribución de edades de clientes y detecta outliers.

In [None]:
edades = np.random.normal(35, 10, size=1000)
media = np.mean(edades)
mediana = np.median(edades)
std = np.std(edades)
print(f'Media={media:.2f}, Mediana={mediana:.2f}, STD={std:.2f}')
en_rango = np.sum((edades >= 20) & (edades <= 40))
print('Clientes entre 20 y 40 años:', en_rango)
cuentas, bins = np.histogram(edades, bins=np.arange(0, 81, 10))
print('Intervalos:', bins)
print('Frecuencias:', cuentas)
outliers = edades[(edades < media - 3*std) | (edades > media + 3*std)]
print('Cantidad de outliers:', len(outliers))

## Ejercicio 4 — Correlaciones simples
Genera dos variables relacionadas: horas de estudio y calificaciones, y calcula correlación y covarianza.

In [None]:
horas = np.random.normal(5, 2, size=100)
calificaciones = 50 + horas * 8 + np.random.normal(0, 5, size=100)
corr = np.corrcoef(horas, calificaciones)[0, 1]
cov = np.cov(horas, calificaciones)[0, 1]
print(f'Correlación: {corr:.2f}, Covarianza: {cov:.2f}')
if corr > 0.7:
    print('→ Fuerte correlación positiva.')
elif corr > 0.3:
    print('→ Correlación moderada.')
else:
    print('→ Correlación débil o nula.')

## Ejercicio 5 — Mini proyecto EDA NumPy
Crea un dataset simulado y realiza análisis completo de estadísticas y correlaciones.

In [None]:
data = np.column_stack([
    np.random.randint(18, 61, size=100),       # Edad
    np.random.randint(1000, 8001, size=100),   # Ingreso
    np.random.randint(20, 61, size=100),       # Horas trabajadas
    np.random.randint(0, 4, size=100),         # Nivel educativo
    np.random.randint(0, 41, size=100)         # Años experiencia
])
print('Shape:', data.shape)
print('Media por columna:', np.mean(data, axis=0))
print('Desviación estándar:', np.std(data, axis=0))
print('Mínimos:', np.min(data, axis=0))
print('Máximos:', np.max(data, axis=0))
edad = data[:, 0]
ingreso = data[:, 1]
out_edad = edad[(edad < np.mean(edad) - 2*np.std(edad)) | (edad > np.mean(edad) + 2*np.std(edad))]
out_ingreso = ingreso[(ingreso < np.mean(ingreso) - 2*np.std(ingreso)) | (ingreso > np.mean(ingreso) + 2*np.std(ingreso))]
print('Outliers en edad:', len(out_edad))
print('Outliers en ingreso:', len(out_ingreso))
corr_matrix = np.corrcoef(data, rowvar=False)
print('Matriz de correlaciones:\n', np.round(corr_matrix, 2))