# Tendencias mundiales realcionadas con la economia

## 📚 Librerias

In [16]:
import pandas as pd
import pandas as pd
import scipy.stats as ss
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
#Pruebas estadisticas 
from scipy import stats
#Prueba t de student de una cola
from scipy.stats import ttest_ind
#Regresion multiple
import statsmodels.api as sm

## 📄📥 Cargar el archivo

In [5]:
# Cargar el archivo
file_path = 'nations_gdp_life_pop_urban.csv'
df = pd.read_csv(file_path)

# Mostrar las primeras filas y nombres de columnas para entender la estructura
df.head(), df.columns

(                                                           ;country;region;gdp;life;pop;urban
 1;Algeria;Africa;7300      399902;72  31666565;34172236;64                           93333435
 2;Benin;Africa;1338        800049;54  73333359;8237634;41                                 NaN
 3;Botswana;Africa;12307    40039;52   25;1941233;59                                        25
 4;Burkina Faso;Africa;1063 400024;53  78333282;15308383;23                           58333397
 5;Burundi;Africa;349       2000122;48 86666489;7821783;10                                  25,
 Index([';country;region;gdp;life;pop;urban'], dtype='object'))

### Corregir data 

In [6]:
# Leer el archivo correctamente separando por punto y coma
df_fixed = pd.read_csv(file_path, sep=';')

# Mostrar las primeras filas y los nombres de columnas corregidos
df_fixed.head(), df_fixed.columns

(   Unnamed: 0       country  region          gdp         life       pop  \
 0           1       Algeria  Africa  7300,399902  72,31666565  34172236   
 1           2         Benin  Africa  1338,800049  54,73333359   8237634   
 2           3      Botswana  Africa  12307,40039        52,25   1941233   
 3           4  Burkina Faso  Africa  1063,400024  53,78333282  15308383   
 4           5       Burundi  Africa  349,2000122  48,86666489   7821783   
 
          urban  
 0  64,93333435  
 1           41  
 2        59,25  
 3  23,58333397  
 4        10,25  ,
 Index(['Unnamed: 0', 'country', 'region', 'gdp', 'life', 'pop', 'urban'], dtype='object'))

## 🔍 Explorar datos Nulos NaN 

In [9]:
df.isnull().sum()

;country;region;gdp;life;pop;urban    56
dtype: int64

## 🎯 Resolver problema 1 

Se sabe que el porcentaje promedio de urbanizacion en Europa ha estado aumentando en las ultimas decadas. Un informe reciente sugiere que el porcentaje de urbanizacion promedio en el continente
ha superado el 75%. Sin embargo, un grupo de investigadores desea verificar si el porcentaje de urbanizacion promedio en Europa sigue siendo igual o menor al 75%. Corroborar esta informacion, considerando $\alpha$ = 5%

### Limpiar la columna urban 

Voy a limpiar la columna `urban` para convertirla a valores numéricos y luego filtrar los países de Europa para realizar una prueba de hipótesis (one-sample t-test) y verificar si el porcentaje promedio de urbanización es ≤ 75%. 

### Reemplazar comas por puntos y convertir a nuemrico, error como NaN 

In [None]:
df_fixed['urban'] = df_fixed['urban'].astype(str).str.replace(',', '.')
df_fixed['urban'] = pd.to_numeric(df_fixed['urban'], errors='coerce')


### Eliminar valores nulos en urban

In [14]:
df_europe = df_fixed[df_fixed['region'] == 'Europe']
urban_europe = df_europe['urban'].dropna()

### **🧪 t de Student de una muestra**

Es una prueba estadística utilizada para comparar la media de una muestra con un valor de referencia conocido o asumido de la población. Se aplica cuando:

- No se conoce la desviación estándar poblacional (σ).
- Se trabaja con una muestra relativamente pequeña (n < 30~50, aunque en este caso tenemos n=43).
- Los datos se pueden suponer aproximadamente normales (aunque con más de 30 datos, se invoca el Teorema Central del Límite).

**Variable de interés** 
Porcentaje de urbanización (urban) en países de Europa.

**Muestra**
Países europeos en el dataset (n = 43).
Valor de referencia (μ₀): 75%.

**Hipótesis:**
H₀: μ ≤ 75 (la urbanización promedio no ha superado el 75%).
H₁: μ > 75 (la urbanización promedio ha superado el 75%).


In [15]:
# Obtener media y tamaño muestral
mean_urban = urban_europe.mean()
n = len(urban_europe)

# Repetimos el análisis para agregar interpretación sobre la hipótesis planteada

# Prueba t de una muestra: H0: μ ≤ 75 vs H1: μ > 75
t_stat, p_value = stats.ttest_1samp(urban_europe, popmean=75)
p_value_one_tailed = p_value / 2

# Imprimir resultados
print(f"Media observada de urbanización: {mean_urban:.2f}%")
print(f"Valor t: {t_stat:.4f}")
print(f"Valor p (una cola): {p_value_one_tailed:.4f}")
print("Hipótesis nula: El porcentaje promedio de urbanización en Europa es ≤ 75%")
print("Hipótesis alternativa: El porcentaje promedio de urbanización en Europa es > 75%")

# Decisión
if p_value_one_tailed < 0.05:
    print("❌ Se rechaza la hipótesis nula: La evidencia sugiere que el promedio NO es menor o igual a 75%.")
else:
    print("✅ No se rechaza la hipótesis nula: No hay evidencia suficiente para afirmar que supera el 75%.")

Media observada de urbanización: 70.06%
Valor t: -1.9481
Valor p (una cola): 0.0291
Hipótesis nula: El porcentaje promedio de urbanización en Europa es ≤ 75%
Hipótesis alternativa: El porcentaje promedio de urbanización en Europa es > 75%
❌ Se rechaza la hipótesis nula: La evidencia sugiere que el promedio NO es menor o igual a 75%.


### ✅ **Conclusión basada en la prueba de hipótesis**

A partir de los datos analizados sobre el porcentaje de urbanización en los países de Europa, se realizó una prueba de hipótesis con un nivel de significancia del 5% ($\alpha = 0.05$) para contrastar si el porcentaje promedio de urbanización sigue siendo igual o menor al 75%.

La prueba estadística arrojó un valor $t = -1{,}9481$ y un valor $p = 0{,}0291$. Dado que $p < \alpha$, se **rechaza la hipótesis nula**, lo que sugiere que el porcentaje promedio **no es menor o igual al 75%**.

No obstante, como el valor t obtenido es negativo, esto indica que la media observada es **inferior al valor de referencia** (70.06% < 75%). Por tanto, aunque estadísticamente se rechaza la hipótesis nula, los datos **no respaldan la afirmación del informe reciente** que sugiere que el promedio ha superado el 75%. Por el contrario, la evidencia muestra que el promedio actual está **por debajo del 75%**.


## 🎯 Resolver problema 2

Desarrolla un modelo de regresion lineal multiple donde la variable explicada sea la esperanza de vida
al nacer, ademas procede a analizar la significancia de cada una de las variables y de ser necesario,
redefinir el modelo