### Ejercicios estadística inferencial

1. Igual que en los ejercicios de la clase invertida, evalúa si las siguientes afirmaciones corresponden a una distribución exponencial o poisson.

- ¿El tiempo que transcurre entre la llegada de autobuses a una parada sigue una distribución exponencial o de Poisson?

- ¿El tiempo que transcurre entre la llegada de solicitudes de servicio en un restaurante sigue una distribución exponencial o de Poisson?

- ¿El tiempo que transcurre entre la llegada de taxis en una parada sigue una distribución exponencial o de Poisson?

- ¿El número de errores de ortografía en un libro de texto sigue una distribución exponencial o de Poisson?



a. El **tiempo** que transcurre entre la llegada de autobuses a una parada sigue una **distribución exponencial**.

b. El **tiempo** que transcurre entre la llegada de solicitudes de servicio en un restaurante sigue una **distribución exponencial**.

c. El **tiempo** que transcurre entre la llegada de taziz a una parada sigue una **distribución exponencial**.

d. El **número** de errores de ortografía en un libro de texto sigue una distribución de Poisson.

2. Ejercicios intervalo de confianza. Al igual que en el caso del ejercicio de la clase invertida, piensa un motivo por el que sería interesante calcular estos intervalos de confianza para la extracción de insights.

- Intervalo de Confianza para la Esperanza de Vida

- Contexto: Trabajas en una organización de salud global y deseas estimar el intervalo de confianza al 95% para la esperanza de vida promedio de cada continente.

- Nota: Cuidado porque puede que os salgan algunos nulos, genera un código para que no salgan nulos en los intervalos de confianza.

- Intervalo de Confianza para el PIB

- Contexto: Eres una economista y quieres calcular el intervalo de confianza al 90% para el Producto Interno Bruto (PIB) de los continentes.

**Intervalo de Confianza para la Esperanza de Vida**
Conocer la Esperanza de Vida de un continente nos puede ayudar a mejorar las políticas sanitarias de la población de un continente en general y la de cada país en particular, desarrollando estrategias preventivas que ayuden a alargar esta esperanza de vida.

Para la gestión de nulos, deberé limpiar previamente los datos de la columna 'lifeexpectancy'. Puedo gestionar los nulos de diferentes maneras en función del volumen de los mismos:
    - Puedo eliminarlos -> df.dropna(subset=['life_expectancy'])
    - O puedo imputarlos a la media o la mediana -> df['life_expectancy'] = df['life_expectancy'].fillna(df['life_expectancy'].mean()) // df['life_expectancy'] = df['life_expectancy'].fillna(df['life_expectancy'].median()) // *O usar el parámetro nan_policy="omit*.


**Intervalo de Confianza para el PIB**
Conocer el Producto Interior Bruto de cada continente, permite estimar el volumen de riqueza de los mismos, y desarrollar políticas económicas que permitan estimular el crecimiento económico en aquellos paises o regiones donde resulte más necesario.

In [7]:
#Importo librerías
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

import scipy.stats as stats
from scipy.stats import shapiro, poisson, chisquare, expon, kstest

import warnings
warnings.filterwarnings("ignore")

#Configuro la visualización.
pd.set_option('display.max_columns', None) 

In [8]:
df= pd.read_csv('df_continentes_sinnulos.csv', index_col=0)
df.head(2)

Unnamed: 0,country,density,abbreviation,capitalmajorcity,currencycode,largestcity,officiallanguage,longitude,latitude,continent,urbanpopulation,unemploymentrate,totaltaxrate,population,minimumwage,maternalmortalityratio,gdp,cpichange,cpi,co2emissions,physiciansperthousand,outofpockethealthexpenditure,lifeexpectancy,infantmortality,grosstertiaryeducationenrollment,gasolineprice,fertilityrate,callingcode,birthrate,armedforcessize,landarea,agriculturalland,taxrevenue,populationlaborforceparticipation,forestedarea
0,Afghanistan,60.0,AF,Kabul,AFN,Kabul,Pashto,67.709953,33.93911,Asia,9797273.0,11.12,71.4,38041754.0,0.43,638.0,19101350000.0,2.3,149.9,8672.0,0.28,78.4,64.5,47.9,9.7,0.7,4.47,93.0,32.49,323000.0,652230.0,58.1,9.3,48.9,2.1
1,Albania,105.0,AL,Tirana,ALL,Tirana,Albanian,20.168331,41.153332,Europa,1747593.0,12.33,36.6,2854191.0,1.12,15.0,15278080000.0,1.4,119.05,4536.0,1.2,56.9,78.5,7.8,55.0,1.36,1.62,355.0,11.78,9000.0,28748.0,43.1,18.6,55.7,28.1


**Bonus**

3. Intervalo de Confianza para la Tasa de Natalidad

Contexto: Trabajas en una agencia gubernamental que se ocupa de cuestiones demográficas y deseas determinar el intervalo de confianza al 99% para la tasa de natalidad promedio en Asia.

In [9]:
#Primero calculo los datos de natalidad para el continente asiático.
natalidad_asia = df[df['continent'] == 'Asia']['birthrate']

#Luego calculo la media de la tasa de natalidad.
media_natalidad = natalidad_asia.mean()

#Calculo el error estándar utilizando el método "sem" (standar error mean) de la librería stats
error_natalidad = stats.sem(natalidad_asia)

#Determino el nivel de confianza al 99%.
nivel_confianza_natalidad = 0.99

#Calculo los grados de libertad de la muestra (n-1)
grados_libertad_natalidad = len(natalidad_asia) - 1

#Calculo el valor crítico de la muestra
valor_critico_natalidad = stats.t.ppf((1 + nivel_confianza_natalidad) / 2, df=grados_libertad_natalidad)

#Calculo el intervalo de confianza
limite_inferior_natalidad = media_natalidad - valor_critico_natalidad * error_natalidad
limite_superior_natalidad = media_natalidad + valor_critico_natalidad * error_natalidad

#Imprimo los resultados
print('Intervalo de Confianza para la Tasa de Natalidad en Asia:')
print(f'Media Muestral: {np.round(media_natalidad, 2)}')
print(f'Error Estándar: {np.round(error_natalidad, 2)}')
print(f'Nivel de Confianza: {nivel_confianza_natalidad}')
print(f'Valor Crítico: {np.round(valor_critico_natalidad, 2)}')
print(f'Intervalo de Confianza: ({np.round(limite_inferior_natalidad, 2)}, {np.round(limite_superior_natalidad, 2)})')


Intervalo de Confianza para la Tasa de Natalidad en Asia:
Media Muestral: 19.48
Error Estándar: 1.17
Nivel de Confianza: 0.99
Valor Crítico: 2.72
Intervalo de Confianza: (16.29, 22.68)


**Intervalo de Confianza para la Tasa de Natalidad en Asia** 
Conocer el intervalo de confianza de la tasa de natalidad, permite desarrollar programas gubernamentales de fomento a la natalidad en aquellas zonas donde la tasa de natalidad sea inferior al intervalo de confianza, gestionar nuevos equipamientos sociales en aquellas zonas donde la tasa de natalidad sea superior al intervalo de confianza.

4. Intervalo de Confianza para la Tasa de Desempleo

Contexto: Eres un analista de políticas públicas y deseas calcular el intervalo de confianza al 95% para la tasa de desempleo promedio en los países de Oceanía.

In [10]:
#Primero calculo los datos de desempleo para el continente oceánico.
desempleo_oceania = df[df['continent'] == 'Oceanía']['unemploymentrate']

#Luego calculo la media de la tasa de natalidad.
media_desempleo = desempleo_oceania.mean()

#Calculo el error estándar utilizando el método "sem" de la librería stats
error_desempleo = stats.sem(desempleo_oceania)

#Determino el nivel de confianza al 95%.
nivel_confianza_desempleo = 0.95

#Calculo los grados de libertad de la muestra (n-1)
grados_libertad_desempleo = len(desempleo_oceania) - 1

#Calculo el valor crítico de la muestra
valor_critico_desempleo = stats.t.ppf((1 + nivel_confianza_desempleo) / 2, grados_libertad_desempleo)

#Calculo el intervalo de confianza
limite_inferior_desempleo = media_desempleo - valor_critico_desempleo * error_desempleo
limite_superior_desempleo = media_desempleo + valor_critico_desempleo * error_desempleo

#Imprimo los resultados
print('Intervalo de Confianza para la Tasa de Desempleo en Oceanía:')
print(f'Media Muestral: {np.round(media_desempleo, 2)}')
print(f'Error Estándar: {np.round(error_desempleo, 2)}')
print(f'Nivel de Confianza: {nivel_confianza_desempleo}')
print(f'Valor Crítico: {np.round(valor_critico_desempleo, 2)}')
print(f'Intervalo de Confianza: ({np.round(limite_inferior_desempleo, 2)}, {np.round(limite_superior_desempleo, 2)})')


Intervalo de Confianza para la Tasa de Desempleo en Oceanía:
Media Muestral: 4.46
Error Estándar: 0.28
Nivel de Confianza: 0.95
Valor Crítico: 3.18
Intervalo de Confianza: (3.57, 5.35)


**Intervalo de Confianza para la Tasa de Desempleo en Oceanía** Conocer este intervalo de confianza permite desarrollar políticas económicas que fomenten el empleo y la inclusión laboral, políticas sociales que protegan e integren a las personas desempleadas y desarrolla programas formativos orientados a mejorar las habilidades laborales de la población.

5. Intervalo de Confianza para la Tasa de Impuestos

Contexto: Trabajas en un ministerio de finanzas y deseas estimar el intervalo de confianza al 90% para la tasa de impuestos promedio en los países de África.

In [11]:
#Primero calculo los datos de la Tasa de Impuestos para el continente africano.
impuestos_africa = df[df['continent'] == 'África']['totaltaxrate']

#Luego calculo la media de la tasa de natalidad.
media_impuestos = impuestos_africa.mean()

#Calculo el error estándar utilizando el método "sem" de la librería stats
error_impuestos= stats.sem(impuestos_africa)

#Determino el nivel de confianza al 90%.
nivel_confianza_impuestos = 0.90

#Calculo los grados de libertad de la muestra (n-1)
grados_libertad_impuestos = len(impuestos_africa) - 1

#Calculo el valor crítico de la muestra
valor_critico_impuestos = stats.t.ppf((1 + nivel_confianza_impuestos) / 2, grados_libertad_impuestos)

#Calculo el intervalo de confianza
limite_inferior_impuestos = media_impuestos - valor_critico_impuestos * error_impuestos
limite_superior_impuestos = media_impuestos + valor_critico_impuestos * error_impuestos

#Imprimo los resultados
print('Intervalo de Confianza para la Tasa de Impuestos en África:')
print(f'Media Muestral: {np.round(media_desempleo, 2)}')
print(f'Error Estándar: {np.round(error_desempleo, 2)}')
print(f'Nivel de Confianza: {nivel_confianza_desempleo}')
print(f'Valor Crítico: {np.round(valor_critico_desempleo, 2)}')
print(f'Intervalo de Confianza: ({np.round(limite_inferior_desempleo, 2)}, {np.round(limite_superior_desempleo, 2)})')


Intervalo de Confianza para la Tasa de Impuestos en África:
Media Muestral: 4.46
Error Estándar: 0.28
Nivel de Confianza: 0.95
Valor Crítico: 3.18
Intervalo de Confianza: (3.57, 5.35)


**Intervalo de Confianza para la Tasa de Impuestos en África** Conocer este intervalo de confianza permite mejorar las políticas económicas y fiscales para que sean equitativas y transparentes, ajustándo estas políticas en función de las necesidades y capacidades económicas de cada país. 