In [1]:
# importamos las librerías que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Visualización
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

# Evaluar linealidad de las relaciones entre las variables
# y la distribución de las variables
# ------------------------------------------------------------------------------
#import scipy.stats as stats
import scipy.stats as stats
from scipy.stats import shapiro, poisson, chisquare, expon, kstest


# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Gestión de los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

In [2]:
# lo primero que hacemos es cargar el dataframe que vamos a usar 

df = pd.read_csv("world_data_full_apply_nulos.csv", index_col = 0)
df.head(2)

Unnamed: 0,country,density,abbreviation,agricultural_land,land_area,armed_forces_size,birth_rate,calling_code,capital/major_city,co2-emissions,cpi,cpi_change,currency-code,fertility_rate,forested_area,gasoline_price,gdp,gross_primary_education_enrollment,gross_tertiary_education_enrollment,infant_mortality,largest_city,life_expectancy,maternal_mortality_ratio,minimum_wage,official_language,out_of_pocket_health_expenditure,physicians_per_thousand,population,population_labor_force_participation,tax_revenue,total_tax_rate,unemployment_rate,urban_population,latitude,longitude,continent
0,Afghanistan,60.0,AF,58.1,652.23,323.0,32.49,93.0,Kabul,8.672,149.9,2.3,AFN,4.47,2.1,0.7,19101350000.0,104.0,9.7,47.9,Kabul,64.5,638.0,0.43,Pashto,78.4,0.28,,48.9,9.3,71.4,11.12,,33.93911,67.709953,Asia
1,Albania,105.0,AL,43.1,28.748,9.0,11.78,355.0,Tirana,4.536,119.05,1.4,ALL,1.62,28.1,1.36,15278080000.0,107.0,55.0,7.8,Tirana,78.5,15.0,1.12,Albanian,56.9,1.2,,55.7,18.6,36.6,12.33,,41.153332,20.168331,Europe


### Ejercicios estadística inferencial

#### Ejercicios intervalo de confianza. 

Al igual que en el caso del ejercicio de la clase invertida, piensa un motivo por el que sería interesante calcular estos intervalos de confianza para la extracción de insights.

- Intervalo de Confianza para la Esperanza de Vida

Contexto: Trabajas en una organización de salud global y deseas estimar el intervalo de confianza al 95% para la esperanza de vida promedio de cada continente.

Nota: Cuidado porque puede que os salgan algunos nulos, genera un código para que no salgan nulos en los intervalos de confianza.




In [4]:
media_esperanza_vida = df["life_expectancy"].mean()
media_esperanza_vida

np.float64(72.27967914438503)

In [5]:
df.groupby("continent")["life_expectancy"].mean()

continent
Africa             63.725000
Asia               73.781818
Central America    74.690000
Europe             79.202326
North America      80.200000
Oceania            71.125000
South America      74.815385
Name: life_expectancy, dtype: float64

In [18]:
# Nuestra organización destinará más recursos a los continentes donde la esperanza de vida sea más baja.

# Primero, eliminamos los valores nulos en la columna de 'life_expectancy' y 'continent'
df_clean = df.dropna(subset=['life_expectancy', 'continent'])

# lo primero que tenemos que hacer es calcular la estimación puntual, en este caso calcularemos la media de la esperanza de vida por continente.
media_vida_continente = df_clean.groupby("continent")["life_expectancy"].mean()


# después vamos a calcular el error estándar utilizando el método "sem" de la librería stats
error_vida_continente = df_clean.groupby('continent')['life_expectancy'].apply(stats.sem)

# definimos el nivel de confianza (95% en este caso)
nivel_confianza_vida = 0.95

# calculamos los grados de libertad de la muestra. Recordad que debemos restar el total de datos que tenemos -1. 
grados_libertad_vida = len(df_clean.groupby("continent")["life_expectancy"]) - 1

# calculamos el valor crítico de la muestra
valor_critico_duracion = stats.t.ppf((1 + nivel_confianza_vida) / 2, df=grados_libertad_vida) # df = DEGREES OF FREEDOM!!!!!!!

# Calcular el intervalo de confianza para cada continente
print("Intervalos de Confianza para la Esperanza de Vida por Continente:")
for continente in media_vida_continente.index:
    
    # Calcular el tamaño de la muestra para cada continente
    n_continente = df_clean[df_clean["continent"] == continente].shape[0]

    # Calcular el valor crítico de t para cada continente (cada uno con sus propios grados de libertad)
    valor_critico_vida = stats.t.ppf((1 + nivel_confianza_vida) / 2, df=grados_libertad_vida[continente])

    # Calcular el intervalo de confianza
    limite_inferior_vida = media_vida_continente[continente] - valor_critico_vida * error_vida_continente[continente]
    limite_superior_vida = media_vida_continente[continente] + valor_critico_vida * error_vida_continente[continente]

    # Mostrar los resultados para cada continente
    print(f"\nContinente: {continente}")
    print(f"Media Muestral: {np.round(media_vida_continente[continente], 2)}")
    print(f"Error Estándar: {np.round(error_vida_continente[continente], 2)}")
    print(f"Nivel de Confianza: {nivel_confianza_vida}")
    print(f"Valor Crítico: {np.round(valor_critico_vida, 2)}")
    print(f"Intervalo de Confianza: ({np.round(limite_inferior_vida, 2)}, {np.round(limite_superior_vida, 2)})")


Intervalos de Confianza para la Esperanza de Vida por Continente:


TypeError: 'int' object is not subscriptable

In [None]:

print("Intervalo de Confianza para la Media de Esperanza de Vida por Continente:")
print(f"Media Muestral: {np.round(media_vida_continente, 2)}")
print(f"Error Estándar: {np.round(error_duracion, 2)}")
print(f"Nivel de Confianza: {nivel_confianza_duracion}")
print(f"Valor Crítico: {np.round(valor_critico_duracion, 2)}")
print(f"Intervalo de Confianza: ({np.round(limite_inferior_duracion, 2)}, {np.round(limite_superior_duracion, 2)})")

- Intervalo de Confianza para el PIB

Contexto: Eres una economista y quieres calcular el intervalo de confianza al 90% para el Producto Interno Bruto (PIB) de los continentes.


### Bonus

- Intervalo de Confianza para la Tasa de Natalidad

Contexto: Trabajas en una agencia gubernamental que se ocupa de cuestiones demográficas y deseas determinar el intervalo de confianza al 99% para la tasa de natalidad promedio en Asia.



- Intervalo de Confianza para la Tasa de Desempleo

Contexto: Eres un analista de políticas públicas y deseas calcular el intervalo de confianza al 95% para la tasa de desempleo promedio en los países de Oceanía.

- Intervalo de Confianza para la Tasa de Impuestos

Contexto: Trabajas en un ministerio de finanzas y deseas estimar el intervalo de confianza al 90% para la tasa de impuestos promedio en los países de África.
