In [None]:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Generación de datos simulados
np.random.seed(42)
n = 200
edad = np.random.normal(30, 10, n).astype(int)
ingresos = (edad * 1000 + np.random.normal(0, 5000, n)).astype(int)
satisfaccion = np.clip((edad * 0.1 + ingresos / 10000 + np.random.normal(5, 1, n)), 1, 10)

# Crear DataFrame
df = pd.DataFrame({
    'Edad': edad,
    'Ingresos': ingresos,
    'Satisfaccion': satisfaccion
})

# Estadística descriptiva
descriptiva = df.describe()
print("Estadística descriptiva:\n", descriptiva)

# Moda
moda = df.mode().iloc[0]
print("\nModa:\n", moda)

# Varianza y desviación estándar
varianzas = df.var()
desviaciones = df.std()
print("\nVarianza:\n", varianzas)
print("\nDesviación estándar:\n", desviaciones)

# Correlación
correlaciones = df.corr()
print("\nCorrelaciones:\n", correlaciones)

# Regresión lineal: Ingresos vs Edad
X = df[['Edad']]
y = df['Ingresos']
modelo = LinearRegression()
modelo.fit(X, y)
y_pred = modelo.predict(X)
mse = mean_squared_error(y, y_pred)
r2 = r2_score(y, y_pred)

print("\nMSE:", mse)
print("R²:", r2)

# Visualizaciones
plt.style.use('ggplot')

# Histograma de edad
plt.figure(figsize=(8, 4))
plt.hist(df['Edad'], bins=20, edgecolor='black', alpha=0.7)
plt.title('Distribución de Edad')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.tight_layout()
plt.show()

# Diagrama de dispersión: Edad vs Ingresos
plt.figure(figsize=(8, 5))
plt.scatter(df['Edad'], df['Ingresos'], label='Datos')
plt.plot(df['Edad'], y_pred, color='red', label='Regresión lineal')
plt.title('Edad vs Ingresos')
plt.xlabel('Edad')
plt.ylabel('Ingresos')
plt.legend()
plt.tight_layout()
plt.show()

# Mapa de calor de correlación
plt.figure(figsize=(6, 4))
cax = plt.matshow(correlaciones, cmap='coolwarm')
plt.colorbar(cax)
plt.xticks(range(len(correlaciones.columns)), correlaciones.columns, rotation=45)
plt.yticks(range(len(correlaciones.columns)), correlaciones.columns)
plt.title('Matriz de Correlación')
plt.tight_layout()
plt.show()
