<a href="https://colab.research.google.com/github/apchavezr/VISUALIZACION_DATOS_TOMA-DECISIONES/blob/main/exploracion_visual_edad_ingresos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exploración visual: Edad vs Ingresos mensuales

Este ejemplo muestra cómo construir un gráfico de dispersión en Python para investigar la posible relación entre dos variables continuas: **edad** e **ingresos mensuales**.
Se utilizan las bibliotecas `matplotlib` y `seaborn` para visualizar patrones, agrupamientos y posibles valores atípicos.



In [None]:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Simular un conjunto de datos con dos variables continuas
np.random.seed(123)
n = 150
edad = np.random.normal(40, 12, n).clip(18, 70)  # Edad entre 18 y 70
ingresos = 1000 + edad * 55 + np.random.normal(0, 1000, n)  # Ingresos dependientes de edad con ruido

# Crear DataFrame
df = pd.DataFrame({
    'Edad': edad,
    'Ingresos mensuales': ingresos
})

# Visualización con análisis exploratorio
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x='Edad', y='Ingresos mensuales', s=70, alpha=0.7, color='darkgreen')

# Añadir línea de tendencia
sns.regplot(data=df, x='Edad', y='Ingresos mensuales', scatter=False, color='red', label='Tendencia lineal')

# Personalización del gráfico
plt.title('Exploración visual: Edad vs Ingresos mensuales')
plt.xlabel('Edad (años)')
plt.ylabel('Ingresos mensuales (COP)')
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()


## Reflexión
✅ **¿Qué tan dispersos están los puntos alrededor de la línea de tendencia?**
>La dispersión de los puntos es moderada. Aunque la mayoría de las observaciones siguen la dirección general de la línea de tendencia, existe una variabilidad considerable alrededor de la misma. Esto indica que, si bien hay una relación lineal, también hay otros factores (representados aquí como ruido aleatorio) que afectan los ingresos, haciendo que la correlación no sea perfecta.

✅ **¿Se observan agrupamientos o segmentos dentro del conjunto de datos?**
>Sí, se pueden identificar agrupamientos visuales. Hay una concentración de puntos en el rango de edad entre 30 y 50 años, lo cual puede sugerir la existencia de una subpoblación o grupo etario económicamente más activo. Esto refleja comportamientos frecuentes en muchos contextos reales, donde la población laboralmente activa suele estar en esos rangos y, por tanto, muestra mayor variación y concentración en ingresos.

✅ **¿Hay algún valor atípico que se aleje del patrón general?**
>Sí, se pueden detectar algunos valores atípicos. Por ejemplo, hay observaciones que muestran ingresos considerablemente más altos o más bajos que lo esperado para una edad determinada. Estos puntos, que se encuentran alejados de la línea de tendencia y de las zonas más densamente pobladas del gráfico, pueden representar casos inusuales, errores de captura o condiciones particulares que justifican una revisión detallada.

# Conclusión
Este tipo de análisis visual con gráficos de dispersión permite una comprensión intuitiva y preliminar de las relaciones entre variables. Es especialmente útil antes de aplicar métodos estadísticos o algoritmos de machine learning, ya que ayuda a detectar estructuras ocultas, problemas de calidad de los datos y posibles segmentaciones relevantes.