In [1]:
# importamos las librerías que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Visualización
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

# Evaluar linealidad de las relaciones entre las variables
# y la distribución de las variables
# ------------------------------------------------------------------------------
#import scipy.stats as stats
import scipy.stats as stats
from scipy.stats import shapiro, poisson, chisquare, expon, kstest


# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Gestión de los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

In [2]:
df = pd.read_csv("world_data_full_apply_nulos.csv", index_col=0) 

df.sample(2)

Unnamed: 0,country,density,abbreviation,agricultural_land,land_area,armed_forces_size,birth_rate,calling_code,capital/major_city,co2-emissions,cpi,cpi_change,currency-code,fertility_rate,forested_area,gasoline_price,gdp,gross_primary_education_enrollment,gross_tertiary_education_enrollment,infant_mortality,largest_city,life_expectancy,maternal_mortality_ratio,minimum_wage,official_language,out_of_pocket_health_expenditure,physicians_per_thousand,population,population_labor_force_participation,tax_revenue,total_tax_rate,unemployment_rate,urban_population,latitude,longitude,continent
182,Uganda,229.0,UG,71.9,241.038,46.0,38.14,256.0,Kampala,5.68,173.87,2.9,UGX,4.96,9.7,0.94,34387230000.0,102.7,4.8,33.8,Buganda,63.0,375.0,0.01,Swahili,40.5,0.17,,70.3,11.7,33.7,1.84,,1.373333,32.290275,Africa
25,Bulgaria,64.0,BG,46.3,110.879,31.0,8.9,359.0,Sofia,41.708,114.42,3.1,BGN,1.56,35.4,1.11,86000000000.0,89.3,71.0,5.9,Sofia,74.9,10.0,1.57,Bulgarian,47.7,4.03,,55.4,20.2,28.3,4.34,,42.733883,25.48583,Europe


In [3]:
df.columns

Index(['country', 'density', 'abbreviation', 'agricultural_land', 'land_area',
       'armed_forces_size', 'birth_rate', 'calling_code', 'capital/major_city',
       'co2-emissions', 'cpi', 'cpi_change', 'currency-code', 'fertility_rate',
       'forested_area', 'gasoline_price', 'gdp',
       'gross_primary_education_enrollment',
       'gross_tertiary_education_enrollment', 'infant_mortality',
       'largest_city', 'life_expectancy', 'maternal_mortality_ratio',
       'minimum_wage', 'official_language', 'out_of_pocket_health_expenditure',
       'physicians_per_thousand', 'population',
       'population_labor_force_participation', 'tax_revenue', 'total_tax_rate',
       'unemployment_rate', 'urban_population', 'latitude', 'longitude',
       'continent'],
      dtype='object')


* 'country': 'país'
* 'density': 'densidad'
* 'abbreviation': 'abreviatura'
* 'agricultural_land': 'tierra agrícola'
* 'land_area': 'área terrestre'
* 'armed_forces_size': 'tamaño de las fuerzas armadas'
* 'birth_rate': 'tasa de natalidad'
* 'calling_code': 'código de llamada'
* 'capital/major_city': 'capital/ciudad principal'
* 'co2-emissions': 'emisiones de CO2'
* 'cpi': 'IPC (Índice de Precios al Consumidor)'
* 'cpi_change': 'cambio del IPC'
* 'currency-code': 'código de moneda'
* 'fertility_rate': 'tasa de fertilidad'
* 'forested_area': 'área forestal'
* 'gasoline_price': 'precio de la gasolina'
* 'gdp': 'PIB (Producto Interno Bruto)'
* 'gross_primary_education_enrollment': 'tasa bruta de matriculación en educación primaria'
* 'gross_tertiary_education_enrollment': 'tasa bruta de matriculación en educación terciaria'
* 'infant_mortality': 'mortalidad infantil'
* 'largest_city': 'ciudad más grande'
* 'life_expectancy': 'esperanza de vida'
* 'maternal_mortality_ratio': 'tasa de mortalidad materna'
* 'minimum_wage': 'salario mínimo'
* 'official_language': 'idioma oficial'
* 'out_of_pocket_health_expenditure': 'gasto sanitario de bolsillo'
* 'physicians_per_thousand': 'médicos por cada mil habitantes'
* 'population': 'población'
* 'population_labor_force_participation': 'participación de la población en la fuerza laboral'
* 'tax_revenue': 'ingresos fiscales'
* 'total_tax_rate': 'tasa impositiva total'
* 'unemployment_rate': 'tasa de desempleo'
* 'urban_population': 'población urbana'
* 'latitude': 'latitud'
* 'longitude': 'longitud'
* 'continent': 'continente'


1. Ejercicios intervalo de confianza. Al igual que en el caso del ejercicio de la clase, piensa un motivo por el que sería interesante calcular estos intervalos de confianza para la extracción de insights.

a. Intervalo de Confianza para la Esperanza de Vida Contexto: Trabajas en una organización de salud global y deseas estimar el intervalo de confianza al 95% para la esperanza de vida promedio de cada continente. Nota: Cuidado porque puede que os salgan algunos nulos, genera un código para que no salgan nulos en los intervalos de confianza.

b. Intervalo de Confianza para el PIB Contexto: Eres una economista y quieres calcular el intervalo de confianza al 90% para el Producto Interno Bruto (PIB) de los continentes.

In [4]:
df["continent"].unique()

array(['Asia', 'Europe', 'Africa', 'Central America', 'South America',
       'Oceania', 'North America', nan], dtype=object)

In [5]:
df["life_expectancy"].unique()

array([64.5, 78.5, 76.7,  nan, 60.8, 76.9, 76.5, 74.9, 82.7, 81.6, 72.9,
       73.8, 77.2, 72.3, 79.1, 74.2, 74.5, 61.5, 71.5, 71.2, 77.3, 69.3,
       75.7, 61.2, 57.4, 72.8, 69.6, 58.9, 81.9, 52.8, 54. , 80. , 77. ,
       77.1, 64.1, 64.3, 80.1, 78.1, 78.7, 80.8, 79. , 60.4, 81. , 66.6,
       76.6, 73.9, 76.8, 71.8, 73.1, 58.4, 65.9, 78.2, 66.2, 67.3, 81.7,
       82.5, 61.7, 73.6, 80.9, 63.8, 81.3, 72.4, 74.1, 58. , 69.8, 63.7,
       75.1, 75.8, 69.4, 70.5, 82.3, 82.8, 82.9, 74.4, 84.2, 73.2, 66.3,
       68.1, 75.4, 71.4, 67.6, 74.7, 78.9, 53.7, 72.7, 83. , 82.1, 66.7,
       76. , 78.6, 65.2, 64.7, 75. , 67.8, 69.7, 60.2, 66.9, 63.4, 81.8,
       74.3, 62. , 54.3, 72.1, 77.6, 67.1, 69.1, 78.3, 71.1, 68.7, 71.3,
       76.1, 85.4, 70.2, 67.7, 75.5, 83.1, 57.1, 63.9, 82.6, 57.6, 83.3,
       65.1, 71.6, 83.6, 70.9, 65. , 70.8, 73.4, 77.4, 63. , 77.8, 70.3,
       75.3, 66.1, 63.5])

In [6]:
df_life_expectancy = df.groupby("continent")["life_expectancy"].mean().reset_index()
df_life_expectancy

Unnamed: 0,continent,life_expectancy
0,Africa,63.725
1,Asia,73.781818
2,Central America,74.69
3,Europe,79.202326
4,North America,80.2
5,Oceania,71.125
6,South America,74.815385


In [7]:
for continente in df["continent"].unique():

    df_c = df[df["continent"] == continente]

    media_esperanza_vida = df_c["life_expectancy"]

    error_esperanza_vida = stats.sem(df_c["life_expectancy"], nan_policy="omit")#n

    nivel_confianza_esperanza_vida = 0.95

    grados_libertad_esperanza_vida = len(df_c["life_expectancy"]) - 1

    valor_critico_esperanza_vida = stats.t.ppf((1 + nivel_confianza_esperanza_vida) / 2, df=grados_libertad_esperanza_vida)

    limite_inferior_esperanza_vida = media_esperanza_vida - valor_critico_esperanza_vida * error_esperanza_vida
    limite_superior_esperanza_vida = media_esperanza_vida + valor_critico_esperanza_vida * error_esperanza_vida

    print(continente)
    print("Intervalo de Confianza para la esperanza vida:")
    print(f"Media Muestral: {np.round(media_esperanza_vida, 2)}")
    print(f"Error Estándar: {np.round(error_esperanza_vida, 2)}")
    print(f"Nivel de Confianza: {nivel_confianza_esperanza_vida}")
    print(f"Valor Crítico: {np.round(valor_critico_esperanza_vida, 2)}")
    print(f"Intervalo de Confianza: ({np.round(limite_inferior_esperanza_vida, 2)}, {np.round(limite_superior_esperanza_vida, 2)})")
    print("-----------------------------------------------------------------------")

Asia
Intervalo de Confianza para la esperanza vida:
Media Muestral: 0      64.5
7      74.9
10     72.9
12     77.2
13     72.3
19     71.5
24     75.7
30     69.6
36     77.0
77     69.4
78     71.5
79     76.5
80     70.5
82     82.8
85     84.2
86     74.4
87     73.2
90     75.4
91     71.4
92     67.6
94     78.9
103    76.0
104    78.6
114    69.7
118    66.9
121    70.5
127    72.1
130    77.6
131    67.1
133     NaN
138    71.1
141    80.1
151    75.0
156    83.1
162    82.6
165    76.8
170    71.8
171    70.9
173    76.9
174    69.3
180    68.1
184    77.8
188    71.6
191    75.3
192    66.1
Name: life_expectancy, dtype: float64
Error Estándar: 0.72
Nivel de Confianza: 0.95
Valor Crítico: 2.02
Intervalo de Confianza: (0      63.04
7      73.44
10     71.44
12     75.74
13     70.84
19     70.04
24     74.24
30     68.14
36     75.54
77     67.94
78     70.04
79     75.04
80     69.04
82     81.34
85     82.74
86     72.94
87     71.74
90     73.94
91     69.94
92     66.14
94 

In [8]:
for continente in df["continent"].unique():

    df_c = df[df["continent"] == continente]

    media_esperanza_vida = df_c["gdp"]

    error_esperanza_vida = stats.sem(df_c["gdp"], nan_policy="omit")

    nivel_confianza_esperanza_vida = 0.90

    grados_libertad_esperanza_vida = len(df_c["gdp"]) - 1

    valor_critico_esperanza_vida = stats.t.ppf((1 + nivel_confianza_esperanza_vida) / 2, df=grados_libertad_esperanza_vida)

    limite_inferior_esperanza_vida = media_esperanza_vida - valor_critico_esperanza_vida * error_esperanza_vida
    limite_superior_esperanza_vida = media_esperanza_vida + valor_critico_esperanza_vida * error_esperanza_vida

    print(continente)
    print("Intervalo de Confianza para el PBI:")
    print(f"Media Muestral: {np.round(media_esperanza_vida, 2)}")
    print(f"Error Estándar: {np.round(error_esperanza_vida, 2)}")
    print(f"Nivel de Confianza: {nivel_confianza_esperanza_vida}")
    print(f"Valor Crítico: {np.round(valor_critico_esperanza_vida, 2)}")
    print(f"Intervalo de Confianza: ({np.round(limite_inferior_esperanza_vida, 2)}, {np.round(limite_superior_esperanza_vida, 2)})")
    print("-----------------------------------------------------------------------")

Asia
Intervalo de Confianza para el PBI:
Media Muestral: 0      1.910135e+10
7      1.367280e+10
10     3.920700e+10
12     3.857407e+10
13     3.025713e+11
19     2.446674e+09
24     1.346942e+10
30     2.708939e+10
36     1.991000e+13
77     2.611000e+12
78     1.119191e+12
79     4.453453e+11
80     2.340940e+11
82     3.950987e+11
85     5.081770e+12
86     4.374366e+10
87     1.801617e+11
90     1.347612e+11
91     8.454620e+09
92     1.817384e+10
94     5.336704e+10
103    3.647015e+11
104    5.729248e+09
114    1.385285e+10
118    7.608585e+10
121    3.064138e+10
127    3.210000e+10
130    7.698309e+10
131    3.044000e+11
133             NaN
138    3.767955e+11
141    1.834662e+11
151    7.929668e+11
156    3.720625e+11
162    2.029000e+12
165    8.400878e+10
170    4.040501e+10
171    8.116627e+09
173    5.436500e+11
174    1.673540e+09
180    4.076114e+10
184    4.211423e+11
188    5.792129e+10
191    2.619212e+11
192    2.691440e+10
Name: gdp, dtype: float64
Error Estándar: 4


2. Prueba de Hipótesis

* Test de Normalidad :Verifica si la variable "life_expectancy" (esperanza de vida) sigue una distribución normal usando el test de Shapiro-Wilk o Kolmogorov-Smirnov según el tamaño de la muestra.

* Test de Igualdad de Varianzas: Comprueba si la varianza del PIB (GDP) es igual en países de Europa y África usando el test de Bartlett (si los datos son normales) o Levene (si no son normales).

* Comparación de Medias (t-Test de Student o Mann-Whitney U): ¿La esperanza de vida difiere significativamente entre países de Europa y Asia?

* Prueba de Hipótesis sobre Proporciones: ¿Hay una diferencia significativa en la tasa de desempleo entre los países de Europa y América?

* Comparación de Medias en Precios de Gasolina : ¿El precio de la gasolina (gasoline_price) es significativamente diferente entre países con un PIB alto y PIB bajo?

In [9]:
# vamos a definir una función para poder hacer el t-test de Student
def prueba_hipotesis(*args):
    """
    Realiza una prueba de hipótesis para comparar grupos.
    1. Primero verifica si los datos son normales usando el test de Shapiro-Wilk o Kolmogorov-Smirnov.
    2. Si los datos son normales, usa Bartlett para probar igualdad de varianzas. Si no son normales, usa Levene.
    3. Si las varianzas son iguales, usa el t-test de Student; si no, usa la versión de Welch.
    4. Si los datos no son normales, usa el test de Mann-Whitney (alternativa no paramétrica).

    Parámetros:
    *args: listas o arrays con los datos de cada grupo.

    Retorna:
    dict con resultados del test de normalidad, varianza e hipótesis.
    """
    
    # Verificar si hay al menos dos grupos
    if len(args) < 2:
        raise ValueError("Se necesitan al menos dos conjuntos de datos para realizar la prueba.")
    
    # Comprobar normalidad en cada grupo
    normalidad = []
    for grupo in args:
        if len(grupo) > 5000:
            p_valor_norm = stats.kstest(grupo, 'norm').pvalue  # Kolmogorov-Smirnov si n > 5000
        else:
            p_valor_norm = stats.shapiro(grupo).pvalue  # Shapiro-Wilk si n <= 5000
        normalidad.append(p_valor_norm > 0.05)

    datos_normales = all(normalidad)  # True si todos los grupos son normales

    # Prueba de igualdad de varianzas
    if datos_normales:
        p_valor_varianza = stats.bartlett(*args).pvalue  # Test de Bartlett si los datos son normales
    else:
        p_valor_varianza = stats.levene(*args, center="median").pvalue  # Test de Levene si no son normales

    varianzas_iguales = p_valor_varianza > 0.05

    # Aplicar el test adecuado
    if datos_normales:
        if varianzas_iguales:
            t_stat, p_valor = stats.ttest_ind(*args, equal_var=True)
            test_usado = "t-test de Student (varianzas iguales)"
        else:
            t_stat, p_valor = stats.ttest_ind(*args, equal_var=False)
            test_usado = "t-test de Welch (varianzas desiguales)"
    else:
        t_stat, p_valor = stats.mannwhitneyu(*args)
        test_usado = "Mann-Whitney U (prueba no paramétrica)"

    # Nivel de significancia
    alfa = 0.05

    # Resultados
    resultado = {
        "Test de Normalidad": normalidad,
        "Datos Normales": datos_normales,
        "p-valor Varianza": p_valor_varianza,
        "Varianzas Iguales": varianzas_iguales,
        "Test Usado": test_usado,
        "Estadístico": t_stat,
        "p-valor": p_valor,
        "Conclusión": "Rechazamos H0 (Diferencias significativas)" if p_valor < alfa else "No se rechaza H0 (No hay diferencias significativas)"
    }

    # Imprimir resultados de manera más clara
    print("\n📊 **Resultados de la Prueba de Hipótesis** 📊")
    print(f"✅ Test de Normalidad: {'Sí' if datos_normales else 'No'}")
    print(f"   - Normalidad por grupo: {normalidad}")
    print(f"✅ Test de Varianza: {'Iguales' if varianzas_iguales else 'Desiguales'} (p = {p_valor_varianza:.4f})")
    print(f"✅ Test aplicado: {test_usado}")
    print(f"📉 Estadístico: {t_stat:.4f}, p-valor: {p_valor:.4f}")
    print(f"🔍 Conclusión: {resultado['Conclusión']}\n")

    return resultado

In [10]:
# filtramos los datos para obtener dos grupos: educación básica 4 años y educación secundaria
grupo_Africa = df[df['continent'] == 'Africa']["life_expectancy"]
grupo_Asia = df[df['continent'] == 'Asia']["life_expectancy"]
grupo_Central_America = df[df['continent'] == 'Central America']["life_expectancy"]
grupo_Europe = df[df['continent'] == 'Europe']["life_expectancy"]
grupo_North_America = df[df['continent'] == 'North America']["life_expectancy"]
grupo_Central_Oceania = df[df['continent'] == 'Oceania']["life_expectancy"]
grupo_South_America = df[df['continent'] == 'South America']["life_expectancy"]

# llamamos a la función que hemos creado
prueba_hipotesis(grupo_Africa, grupo_Asia)


📊 **Resultados de la Prueba de Hipótesis** 📊
✅ Test de Normalidad: No
   - Normalidad por grupo: [np.False_, np.False_]
✅ Test de Varianza: Desiguales (p = nan)
✅ Test aplicado: Mann-Whitney U (prueba no paramétrica)
📉 Estadístico: nan, p-valor: nan
🔍 Conclusión: No se rechaza H0 (No hay diferencias significativas)



{'Test de Normalidad': [np.False_, np.False_],
 'Datos Normales': False,
 'p-valor Varianza': np.float64(nan),
 'Varianzas Iguales': np.False_,
 'Test Usado': 'Mann-Whitney U (prueba no paramétrica)',
 'Estadístico': np.float64(nan),
 'p-valor': np.float64(nan),
 'Conclusión': 'No se rechaza H0 (No hay diferencias significativas)'}

In [11]:
prueba_hipotesis(grupo_Central_America, grupo_Europe)


📊 **Resultados de la Prueba de Hipótesis** 📊
✅ Test de Normalidad: No
   - Normalidad por grupo: [np.False_, np.False_]
✅ Test de Varianza: Desiguales (p = nan)
✅ Test aplicado: Mann-Whitney U (prueba no paramétrica)
📉 Estadístico: nan, p-valor: nan
🔍 Conclusión: No se rechaza H0 (No hay diferencias significativas)



{'Test de Normalidad': [np.False_, np.False_],
 'Datos Normales': False,
 'p-valor Varianza': np.float64(nan),
 'Varianzas Iguales': np.False_,
 'Test Usado': 'Mann-Whitney U (prueba no paramétrica)',
 'Estadístico': np.float64(nan),
 'p-valor': np.float64(nan),
 'Conclusión': 'No se rechaza H0 (No hay diferencias significativas)'}

In [12]:
prueba_hipotesis(grupo_North_America, grupo_Central_Oceania)


📊 **Resultados de la Prueba de Hipótesis** 📊
✅ Test de Normalidad: No
   - Normalidad por grupo: [np.False_, np.False_]
✅ Test de Varianza: Desiguales (p = nan)
✅ Test aplicado: Mann-Whitney U (prueba no paramétrica)
📉 Estadístico: nan, p-valor: nan
🔍 Conclusión: No se rechaza H0 (No hay diferencias significativas)



{'Test de Normalidad': [np.False_, np.False_],
 'Datos Normales': False,
 'p-valor Varianza': np.float64(nan),
 'Varianzas Iguales': np.False_,
 'Test Usado': 'Mann-Whitney U (prueba no paramétrica)',
 'Estadístico': np.float64(nan),
 'p-valor': np.float64(nan),
 'Conclusión': 'No se rechaza H0 (No hay diferencias significativas)'}

In [13]:
prueba_hipotesis(grupo_Africa, grupo_South_America)


📊 **Resultados de la Prueba de Hipótesis** 📊
✅ Test de Normalidad: No
   - Normalidad por grupo: [np.False_, np.True_]
✅ Test de Varianza: Desiguales (p = nan)
✅ Test aplicado: Mann-Whitney U (prueba no paramétrica)
📉 Estadístico: nan, p-valor: nan
🔍 Conclusión: No se rechaza H0 (No hay diferencias significativas)



{'Test de Normalidad': [np.False_, np.True_],
 'Datos Normales': False,
 'p-valor Varianza': np.float64(nan),
 'Varianzas Iguales': np.False_,
 'Test Usado': 'Mann-Whitney U (prueba no paramétrica)',
 'Estadístico': np.float64(nan),
 'p-valor': np.float64(nan),
 'Conclusión': 'No se rechaza H0 (No hay diferencias significativas)'}