In [2]:
# importamos las librerías que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Visualización
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

# Evaluar linealidad de las relaciones entre las variables
# y la distribución de las variables
# ------------------------------------------------------------------------------
#import scipy.stats as stats
import scipy.stats as stats
from scipy.stats import shapiro, poisson, chisquare, expon, kstest


# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Gestión de los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

# Ejercicios estadística inferencial

In [18]:
df = pd.read_csv("_Data_/world_data_full_apply_nulos.csv", index_col = 0)

df.head(1)

Unnamed: 0,country,density,abbreviation,agricultural_land,land_area,armed_forces_size,birth_rate,calling_code,capital/major_city,co2-emissions,cpi,cpi_change,currency-code,fertility_rate,forested_area,gasoline_price,gdp,gross_primary_education_enrollment,gross_tertiary_education_enrollment,infant_mortality,largest_city,life_expectancy,maternal_mortality_ratio,minimum_wage,official_language,out_of_pocket_health_expenditure,physicians_per_thousand,population,population_labor_force_participation,tax_revenue,total_tax_rate,unemployment_rate,urban_population,latitude,longitude,continent
0,Afghanistan,60.0,AF,58.1,652.23,323.0,32.49,93.0,Kabul,8.672,149.9,2.3,AFN,4.47,2.1,0.7,19101350000.0,104.0,9.7,47.9,Kabul,64.5,638.0,0.43,Pashto,78.4,0.28,,48.9,9.3,71.4,11.12,,33.93911,67.709953,Asia


1. Evalúa si las siguientes afirmaciones corresponden a una distribución exponencial o poisson.

¿El tiempo que transcurre entre la llegada de autobuses a una parada sigue una distribución exponencial o de Poisson?

¿El tiempo que transcurre entre la llegada de solicitudes de servicio en un restaurante sigue una distribución exponencial o de Poisson?

¿El tiempo que transcurre entre la llegada de taxis en una parada sigue una distribución exponencial o de Poisson?

¿El número de errores de ortografía en un libro de texto sigue una distribución exponencial o de Poisson?

2. Ejercicios intervalo de confianza. Al igual que en el caso del ejercicio de la clase invertida, piensa un motivo por el que sería interesante calcular estos intervalos de confianza para la extracción de insights.

Intervalo de Confianza para la Esperanza de Vida

Contexto: Trabajas en una organización de salud global y deseas estimar el intervalo de confianza al 95% para la esperanza de vida promedio de cada continente.

Nota: Cuidado porque puede que os salgan algunos nulos, genera un código para que no salgan nulos en los intervalos de confianza.

Intervalo de Confianza para el PIB

Contexto: Eres una economista y quieres calcular el intervalo de confianza al 90% para el Producto Interno Bruto (PIB) de los continentes.

In [4]:
def intervalo_confianza(dataframe, columna, nivel_confianza = float):
    """
    Calcula el intervalo de confianza para una columna específica en un DataFrame.

    Parámetros:
    -----------
    dataframe : DataFrame
        El DataFrame que contiene los datos de la muestra.
    columna : str
        El nombre de la columna para la cual deseas calcular el intervalo de confianza.
    nivel_confianza : float, opcional
        El nivel de confianza deseado para el intervalo de confianza (valor predeterminado es 0.95).

    Salida:
    -------
    None
        La función imprime en la consola la siguiente información:
        - La media muestral de la columna especificada.
        - El error estándar de la muestra.
        - El nivel de confianza utilizado.
        - El valor crítico calculado a partir de la distribución t de Student.
        - El intervalo de confianza calculado, que incluye el límite inferior y el límite superior.
    """

    # Calcular la media y el error estándar de la muestra
    media = dataframe[columna].mean()
    error = stats.sem(dataframe[columna].dropna())  # Eliminar NaN para evitar errores

    # calculamos los grados de libertad de la muestra. Recordad que debemos restar el total de datos que tenemos -1. 
    grados_libertad = len(df[columna].dropna()) - 1

    # Calcular el valor crítico (utilizando la distribución t de Student)
    valor_critico = stats.t.ppf((1 + nivel_confianza) / 2, df=grados_libertad)

    # Calcular el intervalo de confianza
    limite_inferior = media - valor_critico * error
    limite_superior = media + valor_critico * error

    print(f"Intervalo de Confianza para {columna}:")
    print(f"Media Muestral: {np.round(media, 2)}")
    print(f"Error Estándar: {np.round(error, 2)}")
    print(f"Nivel de Confianza: {nivel_confianza}")
    print(f"Valor Crítico: {np.round(valor_critico, 2)}")
    print(f"Intervalo de Confianza: ({np.round(limite_inferior)}, {np.round(limite_superior)})")

In [5]:
intervalo_confianza(df, "life_expectancy", 0.95)

Intervalo de Confianza para life_expectancy:
Media Muestral: 72.28
Error Estándar: 0.55
Nivel de Confianza: 0.95
Valor Crítico: 1.97
Intervalo de Confianza: (71.0, 73.0)


## Bonus

1. Intervalo de Confianza para la Tasa de Natalidad

Contexto: Trabajas en una agencia gubernamental que se ocupa de cuestiones demográficas y deseas determinar el intervalo de confianza al 99% para la tasa de natalidad promedio en Asia.

In [6]:
df["continent"].unique()

array(['Asia', 'Europe', 'Africa', 'Central America', 'South America',
       'Oceania', 'North America', nan], dtype=object)

In [7]:
intervalo_confianza(df[df["continent"] == "Asia"], "life_expectancy", 0.99)

Intervalo de Confianza para life_expectancy:
Media Muestral: 73.78
Error Estándar: 0.72
Nivel de Confianza: 0.99
Valor Crítico: 2.6
Intervalo de Confianza: (72.0, 76.0)


2. Intervalo de Confianza para la Tasa de Desempleo

Contexto: Eres un analista de políticas públicas y deseas calcular el intervalo de confianza al 95% para la tasa de desempleo promedio en los países de Oceanía.

In [15]:
intervalo_confianza(df[df["continent"] == "Oceania"], "unemployment_rate", 0.95)

Intervalo de Confianza para unemployment_rate:
Media Muestral: 3.79
Error Estándar: 0.87
Nivel de Confianza: 0.95
Valor Crítico: 1.97
Intervalo de Confianza: (2.0, 6.0)


3. Intervalo de Confianza para la Tasa de Impuestos

Contexto: Trabajas en un ministerio de finanzas y deseas estimar el intervalo de confianza al 90% para la tasa de impuestos promedio en los países de África.

In [None]:
# intervalo_confianza(df[df["continent"] == "Africa"], "Hay que hacer el calculo de la tasa de impuestos promedio", 0.90)

Intervalo de Confianza para life_expectancy:
Media Muestral: 63.73
Error Estándar: 0.83
Nivel de Confianza: 0.9
Valor Crítico: 1.65
Intervalo de Confianza: (62.0, 65.0)
