In [1]:
# importamos las librerías que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Visualización
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

# Evaluar linealidad de las relaciones entre las variables
# y la distribución de las variables
# ------------------------------------------------------------------------------
#from scipy.stats import shapiro, kstest, poisson, chisquare, ttest_ind, levene, bartlett, sem, ppf
import scipy.stats as stats

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Gestión de los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

In [4]:
df_inferencial = pd.read_csv('files/world_data_full_apply_nulos.csv', index_col=0)

In [5]:
df_inferencial.head(2)

Unnamed: 0,country,density,abbreviation,agricultural_land,land_area,armed_forces_size,birth_rate,calling_code,capital/major_city,co2-emissions,cpi,cpi_change,currency-code,fertility_rate,forested_area,gasoline_price,gdp,gross_primary_education_enrollment,gross_tertiary_education_enrollment,infant_mortality,largest_city,life_expectancy,maternal_mortality_ratio,minimum_wage,official_language,out_of_pocket_health_expenditure,physicians_per_thousand,population,population_labor_force_participation,tax_revenue,total_tax_rate,unemployment_rate,urban_population,latitude,longitude,continent
0,Afghanistan,60.0,AF,58.1,652.23,323.0,32.49,93.0,Kabul,8.672,149.9,2.3,AFN,4.47,2.1,0.7,19101350000.0,104.0,9.7,47.9,Kabul,64.5,638.0,0.43,Pashto,78.4,0.28,,48.9,9.3,71.4,11.12,,33.93911,67.709953,Asia
1,Albania,105.0,AL,43.1,28.748,9.0,11.78,355.0,Tirana,4.536,119.05,1.4,ALL,1.62,28.1,1.36,15278080000.0,107.0,55.0,7.8,Tirana,78.5,15.0,1.12,Albanian,56.9,1.2,,55.7,18.6,36.6,12.33,,41.153332,20.168331,Europe


### Función para aplicar el cálculo de los intervalos de confianza

In [44]:
def intervalo_confianza(dataframe, columnas, nivel_confianza = float):
    
    resultados = {}
    
    if isinstance(columnas, list):
        
        for c in columnas:
    
            media = dataframe[c].mean()
    
            error = stats.sem(dataframe[c], nan_policy='omit')

            grados_libertad = len(dataframe[c]) - 1

            valor_critico = stats.t.ppf((1 + nivel_confianza) / 2, df=grados_libertad)

            limite_inferior = media - valor_critico * error
            limite_superior = media + valor_critico * error
        
            resultados[c] = (round(limite_inferior, 2), round(limite_superior, 2))
    
    
    else:
        
        media = dataframe[columnas].mean()
    
        error = stats.sem(dataframe[columnas],nan_policy='omit')

        grados_libertad = len(dataframe[columnas]) - 1

        valor_critico = stats.t.ppf((1 + nivel_confianza) / 2, df=grados_libertad)

        limite_inferior = media - valor_critico * error
        limite_superior = media + valor_critico * error
        
        resultados[columnas] = (round(limite_inferior, 2) , round(limite_superior, 2))

    return (f'El intervalo de confianza para {columnas} es {resultados}')


In [45]:
df_inferencial.columns

Index(['country', 'density', 'abbreviation', 'agricultural_land', 'land_area',
       'armed_forces_size', 'birth_rate', 'calling_code', 'capital/major_city',
       'co2-emissions', 'cpi', 'cpi_change', 'currency-code', 'fertility_rate',
       'forested_area', 'gasoline_price', 'gdp',
       'gross_primary_education_enrollment',
       'gross_tertiary_education_enrollment', 'infant_mortality',
       'largest_city', 'life_expectancy', 'maternal_mortality_ratio',
       'minimum_wage', 'official_language', 'out_of_pocket_health_expenditure',
       'physicians_per_thousand', 'population',
       'population_labor_force_participation', 'tax_revenue', 'total_tax_rate',
       'unemployment_rate', 'urban_population', 'latitude', 'longitude',
       'continent'],
      dtype='object')

In [46]:
intervalo_confianza(df_inferencial,'density',0.95)

"El intervalo de confianza para density es {'density': (112.29, 156.72)}"

In [47]:
lista_columnas = ['density', 'birth_rate', 'infant_mortality']

In [48]:
intervalo_confianza(df_inferencial, lista_columnas, 0.99)

"El intervalo de confianza para ['density', 'birth_rate', 'infant_mortality'] es {'density': (105.2, 163.81), 'birth_rate': (18.33, 22.1), 'infant_mortality': (17.63, 25.03)}"

## Ejercicios intervalo de confianza. 

Al igual que en el caso del ejercicio de la clase, piensa un motivo por el que sería interesante calcular estos intervalos de confianza para la extracción de insights.

### Intervalo de Confianza para la Esperanza de Vida Contexto: 

Trabajas en una organización de salud global y deseas estimar el intervalo de confianza al 95% para la esperanza de vida promedio de cada continente. 

Nota: Cuidado porque puede que os salgan algunos nulos, genera un código para que no salgan nulos en los intervalos de confianza.

In [49]:
df_africa = df_inferencial[df_inferencial['continent'] == 'Africa']
df_africa.head(2)

Unnamed: 0,country,density,abbreviation,agricultural_land,land_area,armed_forces_size,birth_rate,calling_code,capital/major_city,co2-emissions,cpi,cpi_change,currency-code,fertility_rate,forested_area,gasoline_price,gdp,gross_primary_education_enrollment,gross_tertiary_education_enrollment,infant_mortality,largest_city,life_expectancy,maternal_mortality_ratio,minimum_wage,official_language,out_of_pocket_health_expenditure,physicians_per_thousand,population,population_labor_force_participation,tax_revenue,total_tax_rate,unemployment_rate,urban_population,latitude,longitude,continent
2,Algeria,18.0,DZ,17.4,,317.0,24.28,213.0,Algiers,150.006,151.36,2.0,DZD,3.02,0.8,0.28,169988200000.0,109.9,51.4,20.1,Algiers,76.7,112.0,0.95,Arabic,28.1,1.72,,41.2,37.2,66.1,11.7,,28.033886,1.659626,Africa
4,Angola,26.0,AO,47.5,,117.0,40.73,244.0,Luanda,34.693,261.73,17.1,AOA,5.52,46.3,0.97,94635420000.0,113.5,9.3,51.6,Luanda,60.8,241.0,0.71,Portuguese,33.4,0.21,,77.5,9.2,49.1,6.89,,-11.202692,17.873887,Africa


In [50]:
df_inferencial.columns

Index(['country', 'density', 'abbreviation', 'agricultural_land', 'land_area',
       'armed_forces_size', 'birth_rate', 'calling_code', 'capital/major_city',
       'co2-emissions', 'cpi', 'cpi_change', 'currency-code', 'fertility_rate',
       'forested_area', 'gasoline_price', 'gdp',
       'gross_primary_education_enrollment',
       'gross_tertiary_education_enrollment', 'infant_mortality',
       'largest_city', 'life_expectancy', 'maternal_mortality_ratio',
       'minimum_wage', 'official_language', 'out_of_pocket_health_expenditure',
       'physicians_per_thousand', 'population',
       'population_labor_force_participation', 'tax_revenue', 'total_tax_rate',
       'unemployment_rate', 'urban_population', 'latitude', 'longitude',
       'continent'],
      dtype='object')

In [51]:
for continent in df_inferencial['continent'].unique():
    
    df_continent= df_inferencial[df_inferencial['continent'] == continent]
    
    print(continent, intervalo_confianza(df_continent, 'life_expectancy', 0.95))


Asia El intervalo de confianza para life_expectancy es {'life_expectancy': (72.33, 75.24)}
Europe El intervalo de confianza para life_expectancy es {'life_expectancy': (78.09, 80.31)}
Africa El intervalo de confianza para life_expectancy es {'life_expectancy': (62.06, 65.39)}
Central America El intervalo de confianza para life_expectancy es {'life_expectancy': (73.04, 76.34)}
South America El intervalo de confianza para life_expectancy es {'life_expectancy': (72.99, 76.64)}
Oceania El intervalo de confianza para life_expectancy es {'life_expectancy': (67.47, 74.78)}
North America El intervalo de confianza para life_expectancy es {'life_expectancy': (58.6, 101.8)}
nan El intervalo de confianza para life_expectancy es {'life_expectancy': (nan, nan)}


### Intervalo de Confianza para el PIB Contexto: 

Eres una economista y quieres calcular el intervalo de confianza al 90% para el Producto Interno Bruto (PIB) de los continentes.

In [53]:
df_inferencial.columns

Index(['country', 'density', 'abbreviation', 'agricultural_land', 'land_area',
       'armed_forces_size', 'birth_rate', 'calling_code', 'capital/major_city',
       'co2-emissions', 'cpi', 'cpi_change', 'currency-code', 'fertility_rate',
       'forested_area', 'gasoline_price', 'gdp',
       'gross_primary_education_enrollment',
       'gross_tertiary_education_enrollment', 'infant_mortality',
       'largest_city', 'life_expectancy', 'maternal_mortality_ratio',
       'minimum_wage', 'official_language', 'out_of_pocket_health_expenditure',
       'physicians_per_thousand', 'population',
       'population_labor_force_participation', 'tax_revenue', 'total_tax_rate',
       'unemployment_rate', 'urban_population', 'latitude', 'longitude',
       'continent'],
      dtype='object')

In [52]:
for continent in df_inferencial['continent'].unique():
    
    df_continent= df_inferencial[df_inferencial['continent'] == continent]
    
    print(continent, intervalo_confianza(df_continent, 'gdp', 0.90))


Asia El intervalo de confianza para gdp es {'gdp': (58967662156.24, 1615422869145.49)}
Europe El intervalo de confianza para gdp es {'gdp': (278287544461.41, 695208836147.07)}
Africa El intervalo de confianza para gdp es {'gdp': (25896266980.48, 66264851307.25)}
Central America El intervalo de confianza para gdp es {'gdp': (-18731287288.44, 195691142694.64)}
South America El intervalo de confianza para gdp es {'gdp': (54751277700.89, 542116093396.64)}
Oceania El intervalo de confianza para gdp es {'gdp': (-58941320387.31, 292518431891.88)}
North America El intervalo de confianza para gdp es {'gdp': (-50580843877729.44, 73744969507249.44)}
nan El intervalo de confianza para gdp es {'gdp': (nan, nan)}


## Prueba de Hipótesis

1. Test de Normalidad :Verifica si la variable "life_expectancy" (esperanza de vida) sigue una distribución normal usando el test de Shapiro-Wilk o Kolmogorov-Smirnov según el tamaño de la muestra.


2. Test de Igualdad de Varianzas: Comprueba si la varianza del PIB (GDP) es igual en países de Europa y África usando el test de Bartlett (si los datos son normales) o Levene (si no son normales).


3. Comparación de Medias (t-Test de Student o Mann-Whitney U): ¿La esperanza de vida difiere significativamente entre países de Europa y Asia?


4. Prueba de Hipótesis sobre Proporciones: ¿Hay una diferencia significativa en la tasa de desempleo entre los países de Europa y América?


5. Comparación de Medias en Precios de Gasolina : ¿El precio de la gasolina (gasoline_price) es significativamente diferente entre países con un PIB alto y PIB bajo?