In [1]:
# importamos las librerías que necesitamos

from src import soporte_correlacion as sp_corr

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Visualización
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

# Evaluar linealidad de las relaciones entre las variables
# ------------------------------------------------------------------------------
from scipy.stats import shapiro, kstest

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Gestión de los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

## Pair Estadística Descriptiva II
Ejercicios estadística descriptiva
En este caso usaremos el mismo DataFrame que hemos estado usando en los últimos ejercicios. EImagina que eres un analista de datos que trabaja para una organización internacional enfocada en el desarrollo y el bienestar de los países. Tu objetivo es realizar un primer análisis descriptivo, centrándote en:

Cómo se distribuyen algunas variables categóricas entre los países (continente, idioma, etc.).

Qué relaciones básicas podemos ver entre esas categorías.

Y, al final, explorar una correlación numérica concreta relacionada con el desarrollo (fertilidad y esperanza de vida).

In [2]:
df = pd.read_csv("world_data_full_apply_nulos.csv", index_col=0)

df.head(3)

Unnamed: 0,country,density,abbreviation,agricultural_land,land_area,armed_forces_size,birth_rate,calling_code,capital/major_city,co2-emissions,cpi,cpi_change,currency-code,fertility_rate,forested_area,gasoline_price,gdp,gross_primary_education_enrollment,gross_tertiary_education_enrollment,infant_mortality,largest_city,life_expectancy,maternal_mortality_ratio,minimum_wage,official_language,out_of_pocket_health_expenditure,physicians_per_thousand,population,population_labor_force_participation,tax_revenue,total_tax_rate,unemployment_rate,urban_population,latitude,longitude,continent
0,Afghanistan,60.0,AF,58.1,652.23,323.0,32.49,93.0,Kabul,8.672,149.9,2.3,AFN,4.47,2.1,0.7,19101350000.0,104.0,9.7,47.9,Kabul,64.5,638.0,0.43,Pashto,78.4,0.28,,48.9,9.3,71.4,11.12,,33.93911,67.709953,Asia
1,Albania,105.0,AL,43.1,28.748,9.0,11.78,355.0,Tirana,4.536,119.05,1.4,ALL,1.62,28.1,1.36,15278080000.0,107.0,55.0,7.8,Tirana,78.5,15.0,1.12,Albanian,56.9,1.2,,55.7,18.6,36.6,12.33,,41.153332,20.168331,Europe
2,Algeria,18.0,DZ,17.4,,317.0,24.28,213.0,Algiers,150.006,151.36,2.0,DZD,3.02,0.8,0.28,169988200000.0,109.9,51.4,20.1,Algiers,76.7,112.0,0.95,Arabic,28.1,1.72,,41.2,37.2,66.1,11.7,,28.033886,1.659626,Africa


In [None]:
1. Distribución de países por continente (variable categórica)

Variable categórica: continent

In [None]:

Calcula la tabla de frecuencias de continent:

Frecuencia absoluta (número de países por continente).

Frecuencia relativa o porcentaje sobre el total.

In [6]:
df["continent"].value_counts(dropna=False)

continent
Africa             53
Europe             47
Asia               45
Central America    20
Oceania            14
South America      13
North America       2
NaN                 1
Name: count, dtype: int64

In [None]:
df["continent"].value_counts(normalize=True, dropna=False)*100

continent
Africa             27.179487
Europe             24.102564
Asia               23.076923
Central America    10.256410
Oceania             7.179487
South America       6.666667
North America       1.025641
NaN                 0.512821
Name: proportion, dtype: float64

In [None]:

# Interpreta:

# ¿Qué continente tiene más países en el dataset?  AFRICA

# ¿Qué continentes están menos representados? NORTE AMERICA   

# Desde el punto de vista de un analista, ¿por qué es importante conocer esta distribución antes de comparar indicadores entre continentes?


# Desde el punto de vista de un analista, conocer la distribución (ya sea de población, tamaño de muestra, número de países, PIB, etc.) antes de comparar indicadores entre continentes es crucial por varias razones:

# ⭐ 1. Para evitar comparaciones sesgadas

# Si los continentes tienen tamaños, poblaciones o estructuras muy distintas, comparar promedios sin ajustar puede llevar a conclusiones erróneas.
# Ejemplo: comparar PIB total entre continentes sin considerar población o número de países distorsiona la realidad.

# ⭐ 2. Para elegir el tipo correcto de indicador

# Dependiendo de la distribución, puede ser más adecuado usar:

# promedios ponderados,

# medianas,

# tasas por habitante,

# rangos o percentiles.
# Sin entender la distribución, se corre el riesgo de usar métricas inapropiadas.

# ⭐ 3. Para interpretar correctamente las diferencias

# Una diferencia entre continentes puede deberse:

# al peso relativo de algunos países grandes,

# a extremos (outliers),

# a una alta dispersión interna,
# no necesariamente a un patrón real del continente.

# ⭐ 4. Para asegurar comparaciones justas y homogéneas

# Conocer la distribución permite:

# verificar que las unidades comparables tienen características similares,

# segmentar adecuadamente (por desarrollo, tamaño, estructura económica),

# evitar comparar grupos que no son equivalentes.

# ⭐ 5. Para tomar decisiones basadas en datos confiables

# Una comparación sin conocer la distribución puede guiar decisiones y recomendaciones equivocadas.
# Comprenderla asegura que el análisis sea riguroso, transparente y defendible.

In [None]:
# 2. Idioma oficial: ¿qué idiomas son más frecuentes?

# Variable categórica: official_language

# Calcula la frecuencia absoluta y relativa de official_language.

# Identifica:

# Los 5 idiomas oficiales más frecuentes. 

# [English              31
# French               25
# Spanish              19
# Arabic               18
# Portuguese            7]

# Interpreta:

# ¿Hay algún idioma claramente dominante? NO

# ¿Qué implicaciones podría tener esto a la hora de diseñar encuestas, campañas o informes internacionales?  Se debería de considerar los 3/4 idiomas más predominantes para así llegar al 50% de la población

# (Si hay demasiadas categorías, puedes usar algo como value_counts().head(10) para ver solo las más frecuentes.)

In [10]:
df["official_language"].value_counts(dropna=False)

official_language
English              31
French               25
Spanish              19
Arabic               18
Portuguese            7
                     ..
Tuvaluan Language     1
Ukrainian             1
Uzbek                 1
Vietnamese            1
Shona                 1
Name: count, Length: 77, dtype: int64

In [7]:
df["official_language"].value_counts(normalize=True, dropna=False)*100

official_language
English              15.897436
French               12.820513
Spanish               9.743590
Arabic                9.230769
Portuguese            3.589744
                       ...    
Tuvaluan Language     0.512821
Ukrainian             0.512821
Uzbek                 0.512821
Vietnamese            0.512821
Shona                 0.512821
Name: proportion, Length: 77, dtype: float64

In [14]:
tabla_lenguas_continente = pd.crosstab(index=df['continent'],columns=df['official_language'])[["English", "French", "Spanish", "Arabic", "Portuguese"]]

tabla_lenguas_continente

official_language,English,French,Spanish,Arabic,Portuguese
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Africa,12,19,1,7,4
Asia,1,0,0,11,1
Central America,9,1,8,0,0
Europe,1,3,1,0,1
North America,0,1,0,0,0
Oceania,6,1,0,0,0
South America,2,0,9,0,1


In [None]:
3. Continente vs. nivel de ingresos

En esta base de datos tenemos gdp (Producto Interno Bruto per cápita aproximado). Crea primero una variable categórica derivada a partir de gdp, por ejemplo:

bajo: países con gdp por debajo del percentil 33.

medio: entre los percentiles 33 y 66.

alto: por encima del percentil 66.

Puedes llamarla, por ejemplo, gdp_level.

Crea la nueva columna gdp_level en el DataFrame.

Construye una tabla de contingencia entre:

Filas: continent

Columnas: gdp_level

Normaliza la tabla por filas (porcentaje dentro de cada continente).

Interpreta:

¿Qué continentes concentran más países en el grupo de gdp alto?

¿Hay algún continente donde predominen claramente los países de gdp bajo?

¿Qué conclusiones preliminares (no definitivas) podrías extraer sobre la distribución de riqueza por continente?