# ESTADÍSTICA INFERENCIAL

### 1. Evalúa si las siguientes afirmaciones corresponden a una **distribución exponencial** o a una **distribución de *Poisson***.

> <span style="color:#6B8E23">La distribución de Poisson</span> es una distribución de probabilidad que se utiliza para modelar el **número de eventos raros** que ocurren en un intervalo de **tiempo o espacio** específico. Esta distribución se caracteriza por tener una tasa media de ocurrencia de eventos (λ, lambda) y se aplica a situaciones en las que los eventos son independientes y ocurren a una tasa constante en promedio.

> <span style="color:#D4AF37">La distribución exponencial</span> es una distribución de probabilidad que **describe el tiempo entre eventos** sucesivos en un proceso de Poisson, en el cual los eventos ocurren de manera aleatoria e independiente en el tiempo. Es una distribución continua que se utiliza comúnmente para **modelar tiempos de espera o duraciones hasta que ocurra un evento específico**.

Según este resúmen, contestamos a las preguntas planteadas en el ejercicio 1

<span style="color:#AAAAAA">tiempo que transcurre entre la llegada de autobuses a una parada</span>

Mediremos tiempos entre eventos sucesivos, por lo que seguirá una <span style="color:#D4AF37"> distribución exponencial.</span>

<span style="color:#AAAAAA">número de errores en un artículo de noticias</span>

Mediremos número de eventos raros, por lo que seguirá una <span style="color:#6B8E23"> distribución de *Poisson*. </span>

<span style="color:#AAAAAA">tiempo que transcurre entre la llegada de solicitudes de servicio en un restaurante</span>

Mediremos tiempos entre eventos sucesivos, por lo que seguirá una <span style="color:#D4AF37"> distribución exponencial.</span>

<span style="color:#AAAAAA">número de accidentes de tráfico en una hora en una ciudad </span>

Mediremos número de eventos raros, por lo que seguirá una <span style="color:#6B8E23"> distribución de *Poisson*. </span>

<span style="color:#AAAAAA">tiempo entre llegadas de llamadas telefónicas a una central de emergencias </span>

Mediremos tiempos entre eventos sucesivos, por lo que seguirá una <span style="color:#D4AF37"> distribución exponencial.</span>

<span style="color:#AAAAAA">número de clientes que ingresan a una tienda en una hora</span>

Mediremos número de eventos raros que transcurren en el inervalo de tiempo de una hora, por lo que seguirá una <span style="color:#6B8E23"> distribución de *Poisson*. </span>

 <span style="color:#AAAAAA">tiempo entre llegadas de correos electrónicos en una bandeja de entrada</span>

Mediremos tiempos entre eventos sucesivos, por lo que seguirá una <span style="color:#D4AF37"> distribución exponencial.</span>

<span style="color:#AAAAAA">número de defectos en una línea de producción por día</span>

Mediremos número de eventos raros, por lo que seguirá una <span style="color:#6B8E23"> distribución de *Poisson*. </span>

<span style="color:#AAAAAA">tiempo que transcurre entre la llegada de taxis en una parada</span>

Mediremos tiempos entre eventos sucesivos, por lo que seguirá una <span style="color:#D4AF37"> distribución exponencial.</span>

<span style="color:#AAAAAA">número de errores de ortografía en un libro de texto</span>

Mediremos número de eventos raros, por lo que seguirá una <span style="color:#6B8E23"> distribución de *Poisson*. </span>

In [1]:
# importamos las librerías que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Visualización
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

# Evaluar linealidad de las relaciones entre las variables
# y la distribución de las variables
# ------------------------------------------------------------------------------
import scipy.stats as stats
from scipy.stats import shapiro, poisson, chisquare, expon, kstest


# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Gestión de los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

### 2.Ejercicios intervalo de confianza. 
Piensa un **motivo** por el que sería interesante **calcular estos intervalos de confianza** para la extracción de **insights**.

In [2]:
# lo primero que hacemos es cargar el dataframe que vamos a usar
df = pd.read_csv("world_data_sin_nulos.csv", index_col = 0)
df.head()

Unnamed: 0,country,density,abbreviation,agriculturalland,landarea,birthrate,callingcode,capital/majorcity,co2-emissions,currency-code,fertilityrate,forestedarea,gdp,grossprimaryeducationenrollment,infantmortality,largestcity,lifeexpectancy,officiallanguage,outofpockethealthexpenditure,physiciansperthousand,population,urban_population,latitude,longitude,continent,armedforcessize,cpi,cpichange,gasolineprice,grosstertiaryeducationenrollment,maternalmortalityratio,minimumwage,populationlaborforceparticipation,taxrevenue,totaltaxrate,unemploymentrate
0,Afghanistan,60.0,AF,58.1,652230.0,32.49,93.0,Kabul,8672.0,AFN,4.47,2.1,19101350000.0,104.0,47.9,Kabul,64.5,Pashto,78.4,0.28,38041754.0,9797273.0,33.93911,67.709953,Asia,323000.0,149.9,2.3,0.7,9.7,638.0,0.43,48.9,9.3,71.4,11.12
1,Albania,105.0,AL,43.1,28748.0,11.78,355.0,Tirana,4536.0,ALL,1.62,28.1,15278080000.0,107.0,7.8,Tirana,78.5,Albanian,56.9,1.2,2854191.0,1747593.0,41.153332,20.168331,Europe,9000.0,119.05,1.4,1.36,55.0,15.0,1.12,55.7,18.6,36.6,12.33
2,Algeria,18.0,DZ,17.4,2381741.0,24.28,213.0,Algiers,150006.0,DZD,3.02,0.8,169988200000.0,109.9,20.1,Algiers,76.7,Arabic,28.1,1.72,43053054.0,31510100.0,28.033886,1.659626,Africa,317000.0,151.36,2.0,0.28,51.4,112.0,0.95,41.2,37.2,66.1,11.7
3,Andorra,164.0,AD,40.0,468.0,7.2,376.0,Andorra la Vella,469.0,EUR,1.27,34.0,3154058000.0,106.4,2.7,Andorra la Vella,73.2,Catalan,36.4,3.33,77142.0,67873.0,42.506285,1.521801,Europe,22200.0,108.672,0.92,1.51,59.58,169.0,6.63,60.32,18.24,39.48,6.782
4,Angola,26.0,AO,47.5,1246700.0,40.73,244.0,Luanda,34693.0,AOA,5.52,46.3,94635420000.0,113.5,51.6,Luanda,60.8,Portuguese,33.4,0.21,31825295.0,21061025.0,-11.202692,17.873887,Africa,117000.0,261.73,17.1,0.97,9.3,241.0,0.71,77.5,9.2,49.1,6.89


**Intervalo de Confianza para la Esperanza de Vida de cada continente**

Contexto: Trabajas en una organización de salud global y deseas estimar el intervalo de confianza al <span style="color:#D4AF37">95% </span>para <span style="color:#D4AF37">la esperanza de vida promedio de cada continente</span>.

Nota: Cuidado porque puede que os salgan algunos nulos, genera un código para que no salgan nulos en los intervalos de confianza.

In [28]:
# Agrupar por continente y calcular los parámetros estadísticos para cada grupo
grouped = df.groupby('continent')['lifeexpectancy']

# Crear un bucle para recoger los datos de cada continente
for continent, group_data in grouped:
    media_life_expectancy = group_data.mean() # estimación puntual (media)
    error_life_expectancy = stats.sem(group_data) # calcular el error estándar
    nivel_confianza_life_expectancy = 0.95 # dato del ejercicio
    grados_libertad_life_expectancy = len(group_data) - 1 # calculamos los grados de libertad de la muestra
    valor_critico_life_expectancy = stats.t.ppf((1 + nivel_confianza_life_expectancy) / 2, df=grados_libertad_life_expectancy) # calculamos el valor crítico de la muestra
    limite_inferior_life_expectancy = media_life_expectancy - valor_critico_life_expectancy * error_life_expectancy # calculamos el dato mínimo intervalo de confianza
    limite_superior_life_expectancy = media_life_expectancy + valor_critico_life_expectancy * error_life_expectancy # calculamos el dato máximo intervalo de confianza superior

    print(f"Intervalo de Confianza al 95 % para la Esperanza de vida en {continent} es ({np.round(limite_inferior_life_expectancy, 2)} años, {np.round(limite_superior_life_expectancy, 2)} años)\n")

Intervalo de Confianza al 95 % para la Esperanza de vida en Africa es (61.95 años, 65.57 años)

Intervalo de Confianza al 95 % para la Esperanza de vida en Asia es (71.96 años, 74.68 años)

Intervalo de Confianza al 95 % para la Esperanza de vida en Europe es (77.56 años, 79.92 años)

Intervalo de Confianza al 95 % para la Esperanza de vida en North America es (73.31 años, 76.75 años)

Intervalo de Confianza al 95 % para la Esperanza de vida en Oceania es (67.27 años, 75.57 años)

Intervalo de Confianza al 95 % para la Esperanza de vida en South America es (72.65 años, 77.21 años)



Si trabajas en una organización de salud global y dispones de datos sobre la esperanza de vida promedio de cada continente, hay varias formas en las que puedes aplicar esta información:

1. **Planificación de Programas de Salud:** Utiliza estos datos para planificar programas de salud específicos en diferentes continentes. Identifica las áreas donde la esperanza de vida es más baja y desarrolla estrategias para mejorar la atención médica, la nutrición, la prevención de enfermedades y el acceso a servicios de salud.

2. **Análisis de Disparidades en la Salud:** Examina las diferencias en la esperanza de vida entre los continentes y dentro de ellos. Identifica los factores clave que contribuyen a estas disparidades, como la calidad del sistema de salud, el acceso a agua potable, la educación, la pobreza, y formula estrategias para abordar estas inequidades.

3. **Evaluación de Impacto de Intervenciones:** Si tu organización implementa intervenciones específicas en áreas de salud, usa estos datos para evaluar el impacto de dichas intervenciones en la esperanza de vida de la población en diferentes continentes.

4. **Predicción y Planificación a Largo Plazo:** Utiliza estos datos históricos de esperanza de vida para prever y planificar a largo plazo. Proyecta cómo podría cambiar la esperanza de vida en diferentes continentes en el futuro y elabora estrategias para abordar los posibles desafíos que podrían surgir.

5. **Advocacy y Sensibilización:** Utiliza los datos para crear conciencia sobre la importancia de la salud y las desigualdades en la esperanza de vida entre continentes. Usa esta información para abogar por políticas de salud más inclusivas y equitativas a nivel global.

6. **Colaboración Internacional:** Comparte estos datos con otras organizaciones y países para fomentar la colaboración internacional en la mejora de la salud mundial. Trabaja en conjunto para desarrollar estrategias y programas que aborden los desafíos identificados.

7. **Investigación y Publicaciones:** Los datos de esperanza de vida pueden servir como base para investigaciones científicas y publicaciones académicas en el campo de la salud global. Pueden contribuir a la comprensión de las tendencias, causas y consecuencias de las variaciones en la esperanza de vida.

En resumen, los datos de esperanza de vida por continente son una herramienta crucial para informar y guiar las estrategias y políticas de salud global, identificar áreas de intervención y trabajar hacia el objetivo de mejorar la salud y el bienestar de las poblaciones en todo el mundo.

**Intervalo de Confianza para el PIB**

Contexto: Eres una economista y quieres calcular el intervalo de confianza al <span style="color:#D4AF37">90% </span>para el Producto Interno Bruto (PIB) de los continentes.

In [30]:
# Agrupar por continente y calcular los parámetros estadísticos para cada grupo
grouped = df.groupby('continent')['gdp']

# Crear un bucle para recoger los datos de cada continente
for continent, group_data in grouped:
    media_gdp = group_data.mean() # estimación puntual (media)
    error_gdp = stats.sem(group_data) # calcular el error estándar
    nivel_confianza_gdp = 0.90 # dato del ejercicio
    grados_libertad_gdp = len(group_data) - 1 # calculamos los grados de libertad de la muestra
    valor_critico_gdp = stats.t.ppf((1 + nivel_confianza_gdp) / 2, df=grados_libertad_gdp) # calculamos el valor crítico de la muestra
    limite_inferior_gdp = media_gdp - valor_critico_gdp * error_gdp # calculamos el dato mínimo intervalo de confianza
    limite_superior_gdp = media_gdp + valor_critico_gdp * error_gdp # calculamos el dato máximo intervalo de confianza superior

    print(f"Intervalo de Confianza al 90 % para el Producto Interior Bruto en {continent} es ({np.round(limite_inferior_gdp, 2)}, {np.round(limite_superior_gdp, 2)})\n")

Intervalo de Confianza al 90 % para el Producto Interior Bruto en Africa es (25254133412.1, 70743405582.66)

Intervalo de Confianza al 90 % para el Producto Interior Bruto en Asia es (234124887377.91, 1736223421023.45)

Intervalo de Confianza al 90 % para el Producto Interior Bruto en Europe es (213119753371.71, 637506562803.7)

Intervalo de Confianza al 90 % para el Producto Interior Bruto en North America es (-2353147039.08, 336260212142.13)

Intervalo de Confianza al 90 % para el Producto Interior Bruto en Oceania es (-79470279442.95, 376493024334.58)

Intervalo de Confianza al 90 % para el Producto Interior Bruto en South America es (12023979588.7, 651402515927.3)



Calcular el intervalo de confianza al 90% para el Producto Interno Bruto (PIB) de los continentes siendo economista puede tener diversas aplicaciones y utilidades, entre las cuales se incluyen:

1. **Análisis Comparativo:** Permite comparar y evaluar la variabilidad del PIB entre diferentes continentes con mayor precisión. Esto facilita la identificación de tendencias económicas, fortalezas y debilidades en la producción económica de cada continente.

2. **Toma de Decisiones Económicas:** Proporciona información crucial para la toma de decisiones económicas y financieras, tanto a nivel gubernamental como empresarial. Los intervalos de confianza ayudan a determinar la incertidumbre asociada con las estimaciones del PIB y pueden influir en estrategias de inversión, políticas fiscales y decisiones empresariales.

3. **Evaluación de Políticas Económicas:** Los intervalos de confianza proporcionan una medida de la fiabilidad de las estimaciones del PIB. Esto es esencial para evaluar la efectividad de políticas económicas implementadas en diferentes continentes y para ajustarlas en función de las variaciones económicas observadas.

4. **Estudios de Mercado y Potencial Económico:** Ayudan a comprender la estabilidad y el potencial de crecimiento económico en cada continente. Esto es valioso para empresas e inversores que buscan oportunidades de mercado y expansión económica en diferentes regiones.

5. **Investigación Académica:** Los intervalos de confianza proporcionan una herramienta estadística fundamental en la investigación económica. Estos datos pueden ser utilizados para análisis empíricos, estudios comparativos y para respaldar conclusiones en tesis, artículos académicos y trabajos de investigación.

6. **Planificación Estratégica:** Facilitan la planificación estratégica a largo plazo en términos de políticas económicas, desarrollo de infraestructuras, inversiones y colaboraciones internacionales, ya que proporcionan un rango estimado dentro del cual es probable que se encuentre el verdadero valor del PIB.

7. **Divulgación y Comunicación de Datos:** Los intervalos de confianza son útiles para comunicar la incertidumbre asociada con las estimaciones del PIB a una audiencia más amplia, incluyendo a legisladores, analistas financieros, líderes empresariales y al público en general.

En resumen, calcular el intervalo de confianza al 90% para el PIB de los continentes brinda información valiosa que puede ser utilizada en múltiples contextos económicos, desde la formulación de políticas hasta la toma de decisiones de inversión y la planificación estratégica.

**Intervalo de Confianza para la Tasa de Natalidad**
 
Contexto: Trabajas en una agencia gubernamental que se ocupa de cuestiones demográficas y deseas determinar el intervalo de confianza al <span style="color:#D4AF37">99% </span>para la tasa de natalidad promedio en Asia.

In [26]:
# Agrupar por continente y calcular los parámetros estadísticos para cada grupo
grouped = df.groupby('continent')['birthrate']

# Crear un bucle para recoger los datos de cada continente
for continent, group_data in grouped:
    media_birthrate = group_data.mean() # estimación puntual (media)
    error_birthrate = stats.sem(group_data) # calcular el error estándar
    nivel_confianza_birthrate = 0.99 # dato del ejercicio
    grados_libertad_birthrate = len(group_data) - 1 # calculamos los grados de libertad de la muestra
    valor_critico_birthrate = stats.t.ppf((1 + nivel_confianza_birthrate) / 2, df=grados_libertad_birthrate) # calculamos el valor crítico de la muestra
    limite_inferior_birthrate = media_birthrate - valor_critico_birthrate * error_birthrate # calculamos el dato mínimo intervalo de confianza
    limite_superior_birthrate = media_birthrate + valor_critico_birthrate * error_birthrate # calculamos el dato máximo intervalo de confianza superior

    print(f"Intervalo de Confianza al 99 % para la Tasa de Natalidad en {continent} es ({np.round(limite_inferior_birthrate, 2)}, {np.round(limite_superior_birthrate, 2)})\n")

Intervalo de Confianza al 99 % para la Tasa de Natalidad en Africa es (28.54, 34.64)

Intervalo de Confianza al 99 % para la Tasa de Natalidad en Asia es (16.93, 22.09)

Intervalo de Confianza al 99 % para la Tasa de Natalidad en Europe es (9.11, 11.05)

Intervalo de Confianza al 99 % para la Tasa de Natalidad en North America es (13.61, 19.14)

Intervalo de Confianza al 99 % para la Tasa de Natalidad en Oceania es (15.23, 28.67)

Intervalo de Confianza al 99 % para la Tasa de Natalidad en South America es (14.51, 20.84)



Calcular el intervalo de confianza al 99% para la tasa de natalidad promedio en Asia siendo parte de una agencia gubernamental que se ocupa de cuestiones demográficas puede tener diversas aplicaciones y utilidades, incluyendo:

1. **Formulación de Políticas de Población:** Los intervalos de confianza proporcionan una medida de la precisión de las estimaciones de la tasa de natalidad en Asia. Estos datos son fundamentales para la formulación de políticas relacionadas con la planificación familiar, salud materno-infantil y programas de apoyo a la maternidad.

2. **Planificación de Recursos y Servicios de Salud:** Proporcionan información precisa para la planificación de recursos y servicios de salud materno-infantil en Asia. Ayudan a estimar la demanda futura de servicios de salud, instalaciones de maternidad, atención prenatal y postnatal, así como programas de vacunación y cuidado infantil.

3. **Análisis de Tendencias Demográficas:** Permiten evaluar las tendencias históricas y proyectar las futuras tasas de natalidad en Asia con mayor precisión. Esto es útil para comprender cómo está evolucionando la población y puede influir en las estrategias de desarrollo social y económico.

4. **Estudios Comparativos y Análisis Internacional:** Facilitan la comparación de la tasa de natalidad en Asia con otras regiones o países. Esto puede ser útil para identificar diferencias significativas, evaluar el impacto de políticas de población y salud, y aprender de las estrategias exitosas implementadas en otros lugares.

5. **Investigación Demográfica y Académica:** Los intervalos de confianza son fundamentales en investigaciones demográficas y estudios académicos. Proporcionan una medida de la precisión de los datos y son esenciales para respaldar hallazgos, conclusiones y recomendaciones en informes, estudios y publicaciones académicas.

6. **Comunicación de Datos a las Autoridades y al Público:** Son útiles para comunicar la incertidumbre asociada con las estimaciones de la tasa de natalidad a las autoridades gubernamentales, responsables de la toma de decisiones y al público en general. Esto ayuda a crear conciencia sobre la importancia de políticas y programas destinados a la salud reproductiva y maternoinfantil.

En resumen, el cálculo del intervalo de confianza al 99% para la tasa de natalidad en Asia es fundamental para comprender la dinámica demográfica, formular políticas efectivas, planificar servicios de salud, realizar investigaciones y comunicar información precisa y confiable a las autoridades y al público.

**Intervalo de Confianza para la Tasa de Desempleo**
 
Contexto: Eres un analista de políticas públicas y deseas calcular el intervalo de confianza al <span style="color:#D4AF37">95% </span>para la tasa de desempleo promedio en los países de Oceanía.

In [33]:
# Agrupar por continente y calcular los parámetros estadísticos para cada grupo
grouped = df[df['continent'] == 'Oceania']['unemploymentrate']

# Crear un bucle para recoger los datos de cada continente
media_oce_unemploymentrate = group_data.mean() # estimación puntual (media)
error_oce_unemploymentrate = stats.sem(group_data) # calcular el error estándar
nivel_confianza_oce_unemploymentrate = 0.95 # dato del ejercicio
grados_libertad_oce_unemploymentrate = len(group_data) - 1 # calculamos los grados de libertad de la muestra
valor_critico_oce_unemploymentrate = stats.t.ppf((1 + nivel_confianza_oce_unemploymentrate) / 2, df=grados_libertad_oce_unemploymentrate) # calculamos el valor crítico de la muestra
limite_inferior_oce_unemploymentrate = media_oce_unemploymentrate - valor_critico_oce_unemploymentrate * error_oce_unemploymentrate # calculamos el dato mínimo intervalo de confianza
limite_superior_oce_unemploymentrate = media_oce_unemploymentrate + valor_critico_oce_unemploymentrate * error_oce_unemploymentrate # calculamos el dato máximo intervalo de confianza superior

print(f"Intervalo de Confianza al 95 % para la Tasa de desempleo en los países de Oceania: es ({np.round(limite_inferior_oce_unemploymentrate, 2)}, {np.round(limite_superior_oce_unemploymentrate, 2)})\n")

Intervalo de Confianza al 95 % para la Tasa de desempleo en los países de Oceania: es (-62800017059.64, 726226512575.64)



Calcular el intervalo de confianza al 95% para la tasa de desempleo promedio en los países de Oceanía siendo un analista de políticas públicas puede tener varias aplicaciones y utilidades significativas:

1. **Formulación de Políticas Laborales:** Proporciona información precisa sobre la variabilidad y la confiabilidad de la tasa de desempleo en los países de Oceanía. Esta información es esencial para la formulación de políticas laborales que puedan abordar los desafíos específicos del mercado laboral en la región.

2. **Evaluación de la Eficiencia de Políticas de Empleo:** Permite evaluar la efectividad de las políticas gubernamentales y programas de empleo implementados en los países de Oceanía. Al tener un intervalo de confianza, se puede determinar si las variaciones en la tasa de desempleo son estadísticamente significativas y atribuibles a las políticas aplicadas.

3. **Planificación de Recursos y Programas de Capacitación:** Facilita la planificación de recursos para programas de capacitación y desarrollo de habilidades. Un intervalo de confianza más estrecho indica una estimación más precisa, lo que ayuda a asignar recursos de manera más eficiente para reducir el desempleo y mejorar la empleabilidad en la región.

4. **Estudios Comparativos y Benchmarking:** Permite comparar la tasa de desempleo en Oceanía con otras regiones o países a nivel internacional. Esto ayuda a identificar las fortalezas y debilidades en términos de políticas de empleo, y aprender de las estrategias exitosas implementadas en otros lugares.

5. **Comunicación de Datos y Toma de Decisiones:** Los resultados del intervalo de confianza son útiles para comunicar la incertidumbre asociada con las estimaciones de la tasa de desempleo a los responsables de la toma de decisiones y al público en general. Esto ayuda a tomar decisiones informadas y transparentes basadas en datos confiables.

6. **Análisis Económico y Previsiones:** Estos datos pueden ser utilizados en análisis económicos y proyecciones a futuro. Un intervalo de confianza más preciso permite hacer pronósticos más fiables sobre la dirección futura del desempleo en la región, lo que influye en las estrategias económicas y políticas.

En resumen, el cálculo del intervalo de confianza al 95% para la tasa de desempleo en los países de Oceanía es fundamental para apoyar la toma de decisiones políticas, la planificación de recursos, la evaluación de políticas laborales y la comprensión de la situación del mercado laboral en la región.

**Intervalo de Confianza para la Tasa de Impuestos**
Contexto: Trabajas en un ministerio de finanzas y deseas estimar el intervalo de confianza al <span style="color:#D4AF37">90% </span>para la tasa de impuestos promedio en los países de África.

In [34]:
# Agrupar por continente y calcular los parámetros estadísticos para cada grupo
grouped = df[df['continent'] == 'Africa']['totaltaxrate']

# Crear un bucle para recoger los datos de cada continente
media_afri_totaltaxrate = group_data.mean() # estimación puntual (media)
error_afri_totaltaxrate = stats.sem(group_data) # calcular el error estándar
nivel_confianza_afri_totaltaxrate = 0.90 # dato del ejercicio
grados_libertad_afri_totaltaxrate = len(group_data) - 1 # calculamos los grados de libertad de la muestra
valor_critico_afri_totaltaxrate = stats.t.ppf((1 + nivel_confianza_afri_totaltaxrate) / 2, df=grados_libertad_afri_totaltaxrate) # calculamos el valor crítico de la muestra
limite_inferior_afri_totaltaxrate = media_afri_totaltaxrate - valor_critico_afri_totaltaxrate * error_afri_totaltaxrate # calculamos el dato mínimo intervalo de confianza
limite_superior_afri_totaltaxrate = media_afri_totaltaxrate + valor_critico_afri_totaltaxrate * error_afri_totaltaxrate # calculamos el dato máximo intervalo de confianza superior

print(f"Intervalo de Confianza al 90 % para la Tasa de impuestos promedo en los países de Africa: es ({np.round(limite_inferior_afri_totaltaxrate, 2)}, {np.round(limite_superior_afri_totaltaxrate, 2)})\n")

Intervalo de Confianza al 90 % para la Tasa de impuestos promedo en los países de Africa: es (12023979588.7, 651402515927.3)



Calcular el intervalo de confianza al 90% para la tasa de impuestos promedio en los países de África siendo parte del Ministerio de Finanzas puede tener diversas aplicaciones y utilidades, entre las cuales se incluyen:

1. **Política Fiscal y Presupuestaria:** Los intervalos de confianza ayudan a entender la variabilidad y la precisión en la estimación de la tasa de impuestos en los países de África. Esto puede influir en la formulación de políticas fiscales y en la planificación presupuestaria del gobierno en relación con la recaudación de impuestos y la asignación de recursos financieros.

2. **Evaluación de Competitividad Tributaria:** Permite evaluar la competitividad fiscal de los países africanos en comparación con otras regiones o economías globales. Un intervalo de confianza más estrecho indica una estimación más precisa de la tasa impositiva, lo que ayuda a evaluar la posición fiscal relativa y a tomar medidas para mejorar la competitividad.

3. **Análisis Económico y Desarrollo:** Los datos sobre la tasa de impuestos y sus intervalos de confianza pueden utilizarse en análisis económicos para comprender la relación entre las políticas fiscales, el crecimiento económico y el desarrollo en los países africanos. Esto es valioso para identificar oportunidades de mejora en términos de políticas económicas.

4. **Negociaciones y Acuerdos Internacionales:** Proporciona datos confiables para negociaciones en tratados comerciales o acuerdos internacionales. Los intervalos de confianza son útiles para respaldar y comunicar la posición fiscal de los países africanos en debates sobre impuestos y acuerdos comerciales internacionales.

5. **Evaluación de Riesgos y Estabilidad Financiera:** Ayuda a evaluar los riesgos financieros asociados con la recaudación de impuestos y la estabilidad fiscal en los países africanos. Un intervalo de confianza más amplio puede indicar mayor variabilidad, lo que señala posibles desafíos financieros a considerar.

6. **Transparencia y Divulgación de Datos:** Los intervalos de confianza ayudan a comunicar la incertidumbre asociada con las estimaciones de la tasa de impuestos a los responsables de la toma de decisiones, legisladores, inversionistas y al público en general. Promover la transparencia en los datos fiscales es fundamental para generar confianza y credibilidad.

En resumen, el cálculo del intervalo de confianza al 90% para la tasa de impuestos promedio en los países de África proporciona información valiosa para respaldar la toma de decisiones fiscales, evaluar la competitividad, comprender la economía y la estabilidad financiera, y fomentar la transparencia en el ámbito fiscal.

### 3.Ejercicios prueba de hipótesis: 

Tienes que pensar en 2 hipótesis que quieras aceptar o rechazar usando una prueba de hipótesis en base a los datos que tenemos.

Para formular hipótesis que se puedan evaluar mediante pruebas de hipótesis utilizando los datos proporcionados, es importante tener en cuenta la naturaleza de las variables y cómo se relacionan entre sí. Dado el conjunto diverso de variables en tu DataFrame, aquí hay dos ejemplos hipotéticos de pruebas de hipótesis que podrías realizar:

### Hipótesis 1:
**Hipótesis Nula (H0):** El porcentaje de la fuerza laboral que está desempleada (Unemployment rate) en países con un alto índice de precios al consumidor (CPI) es igual al porcentaje de desempleo en países con un bajo índice de precios al consumidor.

**Hipótesis Alternativa (H1):** El porcentaje de desempleo en países con un alto CPI es diferente del porcentaje de desempleo en países con un bajo CPI.

**Método:** Una prueba de comparación de medias o una prueba t de dos muestras podría ser apropiada para evaluar esta hipótesis. Se dividirían los datos en dos grupos: aquellos países con un CPI alto y aquellos con un CPI bajo, y se compararían las tasas de desempleo entre estos grupos.

### Hipótesis 2:
**Hipótesis Nula (H0):** La esperanza de vida (Life expectancy) es la misma en países con una tasa de impuestos (Total tax rate) superior al 50% y en países con una tasa de impuestos inferior al 50%.

**Hipótesis Alternativa (H1):** La esperanza de vida en países con una tasa de impuestos superior al 50% es diferente de la esperanza de vida en países con una tasa de impuestos inferior al 50%.

**Método:** Una prueba de comparación de medias o una prueba t de dos muestras podría ser utilizada aquí. Se clasificarían los países en dos grupos: aquellos con una tasa de impuestos superior al 50% y aquellos con una tasa de impuestos inferior al 50%, y luego se compararían las esperanzas de vida entre estos grupos.

Estas son solo hipótesis hipotéticas; el análisis preciso requerirá la consideración de la distribución de los datos, la normalidad de las muestras y otros supuestos específicos de cada prueba estadística. Además, es fundamental tener en cuenta la relevancia y validez de las relaciones entre las variables seleccionadas para probar las hipótesis.