In [2]:
# importamos las librerías que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Visualización
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

# Evaluar linealidad de las relaciones entre las variables
# y la distribución de las variables
# ------------------------------------------------------------------------------
#import scipy.stats as stats
import scipy.stats as stats
from scipy.stats import shapiro, poisson, chisquare, expon, kstest


# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Gestión de los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

In [5]:
df = pd.read_csv("data/world_data_full_apply_nulos.csv")

In [25]:
df1 = pd.read_csv("data/world_data_full_apply_nulos.csv")

# Pair Programming Estadística Inferencial

1. Igual que en los ejercicios de la clase invertida, evalúa si las siguientes afirmaciones corresponden a una distribución exponencial o poisson.

1.1 ¿El tiempo que transcurre entre la llegada de autobuses a una parada sigue una distribución exponencial o de Poisson?

In [None]:
# El tiempo que transcurre entre la llegada de autobuses a una parada suele seguir una distribución exponencial. 
# Esto se debe a que la distribución exponencial se utiliza para modelar el tiempo entre eventos en un proceso de 
# llegadas que ocurre a una tasa constante, y es una distribución continua.


1.2. ¿El tiempo que transcurre entre la llegada de solicitudes de servicio en un restaurante sigue una distribución exponencial o de Poisson?

In [None]:
# Distribución exponencial al igual que el caso anterior. 

1.3 ¿El tiempo que transcurre entre la llegada de taxis en una parada sigue una distribución exponencial o de Poisson?

In [None]:
# Distribución exponencial al igual que el caso anterior. 

1.4 ¿El número de errores de ortografía en un libro de texto sigue una distribución exponencial o de Poisson?

In [None]:
# El número de errores de ortografía en un libro de texto sigue una distribución de Poisson. 
# La distribución de Poisson es adecuada para modelar el número de eventos (en este caso, errores de ortografía) 
# que ocurren en un intervalo fijo de tiempo o espacio (como en una página del libro) cuando estos eventos ocurren 
# de manera independiente y con una tasa promedio constante.

2. Ejercicios intervalo de confianza. Al igual que en el caso del ejercicio de la clase invertida, piensa un motivo por el que sería interesante calcular estos intervalos de confianza para la extracción de insights.

2.1 Intervalo de Confianza para la Esperanza de Vida

Contexto: Trabajas en una organización de salud global y deseas estimar el intervalo de confianza al 95% para la esperanza de vida promedio de cada continente.

Nota: Cuidado porque puede que os salgan algunos nulos, genera un código para que no salgan nulos en los intervalos de confianza.

In [7]:
df.head(1)

Unnamed: 0.1,Unnamed: 0,country,density,abbreviation,agricultural_land,land_area,armed_forces_size,birth_rate,calling_code,capital/major_city,co2-emissions,cpi,cpi_change,currency-code,fertility_rate,forested_area,gasoline_price,gdp,gross_primary_education_enrollment,gross_tertiary_education_enrollment,infant_mortality,largest_city,life_expectancy,maternal_mortality_ratio,minimum_wage,official_language,out_of_pocket_health_expenditure,physicians_per_thousand,population,population_labor_force_participation,tax_revenue,total_tax_rate,unemployment_rate,urban_population,latitude,longitude,continent
0,0,Afghanistan,60.0,AF,58.1,652.23,323.0,32.49,93.0,Kabul,8.672,149.9,2.3,AFN,4.47,2.1,0.7,19101350000.0,104.0,9.7,47.9,Kabul,64.5,638.0,0.43,Pashto,78.4,0.28,,48.9,9.3,71.4,11.12,,33.93911,67.709953,Asia


In [20]:
# quitamos los nulos

df = df.dropna(subset=['life_expectancy', 'continent'])

In [24]:
# calculamos el intervalo de confianza

agrupado = df.groupby("continent")
n_confianza = 0.95
dicc_int_confianza = {}

for name, group in agrupado:
    media = group["life_expectancy"].mean()
    error = stats.sem(group["life_expectancy"])
    g_libertad = len(group["life_expectancy"]) - 1
    valor_crit = stats.t.ppf((1+n_confianza)/2, df=g_libertad)
    l_inferior = round(media - valor_crit * error,2)
    l_sup = round(media + valor_crit * error,2)
    dicc_int_confianza[name] = (l_inferior,l_sup)
    print(f"Intervalo de confianza {name}: [{l_inferior}, {l_sup}]")

Intervalo de confianza Africa: [62.05, 65.4]
Intervalo de confianza Asia: [72.32, 75.24]
Intervalo de confianza Central America: [73.04, 76.34]
Intervalo de confianza Europe: [78.09, 80.32]
Intervalo de confianza North America: [58.6, 101.8]
Intervalo de confianza Oceania: [67.4, 74.85]
Intervalo de confianza South America: [72.99, 76.64]


2.2 Intervalo de Confianza para el PIB

Contexto: Eres una economista y quieres calcular el intervalo de confianza al 90% para el Producto Interno Bruto (PIB) de los continentes.



In [26]:
# quitamos los nulos

df = df1.dropna(subset=['gdp', 'continent'])

In [27]:
# calculamos el intervalo de confianza

agrupado = df.groupby("continent")
n_confianza = 0.95
dicc_int_confianza = {}

for name, group in agrupado:
    media = group["gdp"].mean()
    error = stats.sem(group["gdp"])
    g_libertad = len(group["gdp"]) - 1
    valor_crit = stats.t.ppf((1+n_confianza)/2, df=g_libertad)
    l_inferior = round(media - valor_crit * error,2)
    l_sup = round(media + valor_crit * error,2)
    dicc_int_confianza[name] = (l_inferior,l_sup)
    print(f"Intervalo de confianza {name}: [{l_inferior}, {l_sup}]")

Intervalo de confianza Africa: [21895327356.21, 70265790931.53]
Intervalo de confianza Asia: [-96870639757.66, 1771261171059.39]
Intervalo de confianza Central America: [-41293592517.24, 218253447923.44]
Intervalo de confianza Europe: [236631317798.53, 736865062809.95]
Intervalo de confianza North America: [-113518619021528.45, 136682744651048.45]
Intervalo de confianza Oceania: [-97585015425.54, 331162126930.11]
Intervalo de confianza South America: [536550544.18, 596330820553.36]


## BONUS 

1. Intervalo de Confianza para la Tasa de Natalidad

Contexto: Trabajas en una agencia gubernamental que se ocupa de cuestiones demográficas y deseas determinar el intervalo de confianza al 99% para la tasa de natalidad promedio en Asia.



2. Intervalo de Confianza para la Tasa de Desempleo

Contexto: Eres un analista de políticas públicas y deseas calcular el intervalo de confianza al 95% para la tasa de desempleo promedio en los países de Oceanía.


3. Intervalo de Confianza para la Tasa de Impuestos

Contexto: Trabajas en un ministerio de finanzas y deseas estimar el intervalo de confianza al 90% para la tasa de impuestos promedio en los países de África.