# Ejercicios de histogramas y boxplots (Core)

Análisis de Distribución y Desviaciones Usando Histogramas y Boxplots

    Objetivo

El objetivo de esta actividad es desarrollar habilidades avanzadas en la visualización de datos utilizando histogramas y boxplots. Usaremos un dataset interesante de Kaggle para explorar la distribución de los datos y detectar cualquier valor atípico. Esta actividad te ayudará a entender mejor la distribución de los datos y cómo los valores atípicos pueden afectar tu análisis.



    Descripción del Ejercicio

En esta actividad, utilizaremos el dataset «World Happiness Report» de Kaggle, que contiene información sobre la felicidad en diferentes países del mundo. Este dataset incluye variables como el puntaje de felicidad, el PIB per cápita, la expectativa de vida saludable, la libertad, la generosidad, entre otras.

Puedes descargar el dataset desde el siguiente enlace: World Happiness Report.

# Cargar y Explorar los Datos:
Descarga el dataset y cárgalo en un DataFrame de Pandas.
Realiza una exploración inicial de los datos para entender las variables disponibles.

In [5]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
df = pd.read_csv('../data/2019.csv') 

df.head(5)

In [None]:
df.info()

In [None]:
df.describe()

# Crear Histogramas:
* Crea histogramas para las variables Score, GDP per capita, Healthy life expectancy y Freedom to make life choices.
* Personaliza los histogramas con colores, bordes y ajustes de transparencia.

In [None]:
# Histograma de Score
plt.figure(figsize=(10, 6))
plt.hist(df['Score'], bins=10, color='skyblue', edgecolor='black')
plt.title('Distribución de Score')
plt.xlabel('Score')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Histograma de GDP per capita
plt.figure(figsize=(10, 6))
plt.hist(df['GDP per capita'], bins=10, color='blue', edgecolor='black')
plt.title('Distribucion de GDP per capita')
plt.xlabel('GPD per capita')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Histograma de Healthy life expectancy
plt.figure(figsize=(10, 6))
plt.hist(df['Healthy life expectancy'], bins=10, color='orange', edgecolor='black')
plt.title('Distribucion de Healthy life expectancy')
plt.xlabel('GPD')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Histograma de GDP per Freedom to make life choices
plt.figure(figsize=(10, 6))
plt.hist(df['Freedom to make life choices'], bins=10, color='green', edgecolor='black')
plt.title('Distribucion de Freedom to make life choices')
plt.xlabel('Freedom to make life choices')
plt.ylabel('Frecuencia')
plt.show()

# Crear Boxplots:
- Crea boxplots para las mismas variables para visualizar la mediana, el rango intercuartil y los valores atípicos.
- Personaliza los boxplots con diferentes colores y estilos.

In [None]:
# Boxplot para hacer una comparacion entre las columnas en cuestion
grupo = ['Score', 'GDP per capita', 'Healthy life expectancy', 'Freedom to make life choices']  # Cambia a tus columnas

# Crear boxplot
plt.figure(figsize=(12, 6))
plt.boxplot([df[col] for col in grupo], labels=grupo)
plt.title('Boxplot de Score y otras columnas')
plt.ylabel('Valores')
plt.grid(True)
plt.show()


# Análisis Combinado:
Combina los histogramas y los boxplots en una sola figura para cada variable.
Interpreta los resultados y escribe un análisis sobre la distribución de cada variable y la presencia de valores atípicos.


In [None]:
# Lista de variables a analizar
variables = ['Score', 'GDP per capita', 'Healthy life expectancy', 'Freedom to make life choices']  # Cambia a tus columnas

# Crear gráficos para cada variable
for variable in variables:
    plt.figure(figsize=(12, 6))
    
    # Crear el histograma
    plt.subplot(1, 2, 1)
    sns.histplot(df[variable], bins=30, kde=True)
    plt.title(f'Histograma de {variable}')
    plt.xlabel(variable)
    plt.ylabel('Frecuencia')

    # Crear el boxplot
    plt.subplot(1, 2, 2)
    sns.boxplot(x=df[variable])
    plt.title(f'Boxplot de {variable}')
    plt.ylabel(variable)

    plt.tight_layout()
    plt.show()
    

obs: No me sale combinar los graficos, solo puedo hacerlo uno al lado del otro

# Analisis e Interpretacion de Datos

Distribucion de Score
- Para la columna variable se observa una mayor concentracion de datos entre el puntaje 4 y 6
- La mayor concentracion se encuentra sobre el puntaje 5,3

Distribucion de GDP per capita
- El histograma muestra una distribucion sesgada a la derecha lo cual indica que la mayoria de los paises tiene un gdp per capita
mayor a 1
- El boxplot nos indica una alta dispersion de datos pero casi sin valores anomalos

Distribucion de Healthy life expectancy
- En el histograma de esta variable podemos notar una distribucion muy sesgada a la derecha lo cual nos dice que la expectativa de vida saludable en 
la mayoria de los paises es alta
- El boxplot nos reafirma la concentracion de datos hacia el punto maximo y un promedio tambien muy cercano al valor mas alto

Distribucion de Freedom to make life choicese
- Tambien podemos observar una distribucion concentrada a la derecha en el histograma, esto indica que la mayoria de los paises tienen un alto indice
de libertad en tomas de desiciones
- El boxplot muestra una gran dispersion de datos pero la mayor concentracion se encuentra entre el 0.3 y el 0.5