In [36]:
import pandas as pd
import numpy as np

In [37]:
path = "poblacion_global_2020.csv"
path2 = "paises.csv"

# Ejercicio

Examina detenidamente el siguiente dataset y responde las siguientes preguntas:

1. ¿Porqué cumple con las condiciones de Tidy Data?
2. ¿Cuál es el data point principal y cual es la meta data?
3. Si quisieramos saber más sobre los niveles educativos globales ¿Qué otras características necesitariamos para este data set?
4. ¿Qué tipo de análisis harías con este data set?

1. Cumple con las condiciones de Tidy Data porque los datos se encuentran ordenados de tal manera que cada fila de la tabla es una observación y cada columna representa una característica de esa observación.
2. El data point principal es el país y el metadata engloba cada uno de los datos adicionales sobre dicho país.
3. El conjunto de datos no incluye información sobre niveles educativos. Para obtener información sobre niveles educativos globales, se necesitarían datos adicionales, incluyendo, por ejemplo, tasas de alfabetización, niveles educativos alcanzados por la población, inversión en educación, etc.
4. Se pueden realizar varios análisis con este conjunto de datos:

Comparar la población y densidad de diferentes países.
Analizar la relación entre la tasa de migración y la densidad de población.
Explorar la relación entre la tasa de fertilidad y la edad promedio.
Comparar la población urbana en diferentes países.
Identificar patrones geográficos relacionados con el territorio (población urbana) y la población total de cada país.

In [38]:
df = pd.read_csv(path)
df2 = pd.read_csv(path2)

print(df.head())
print(df2.head())

             Pais  Poblacion (2020)  Densidad  Territorio (Km²)  \
0           China        1440297825       153           9388211   
1           India        1382345085       464           2973190   
2  Estados Unidos         331341050        36           9147420   
3       Indonesia         274021604       151           1811570   
4        Pakistán         221612785       287            770880   

   Tasa Migracion Tasa Fertilidad Edad Promedio % Poblacion Urbaba  
0       -348399.0             1.7            38               61 %  
1       -532687.0             2.2            28               35 %  
2        954806.0             1.8            38               83 %  
3        -98955.0             2.3            30               56 %  
4       -233379.0             3.6            23               35 %  
       nombre         name          nom  iso2  iso3  phone_code continente
0  Afganistán  Afghanistan  Afghanistan    AF   AFG          93       Asia
1     Albania      Albania      A

# Ejercicios:

Manipula el dataset, de manera que respondas las siguientes preguntas:

1. ¿Cual es el promedio de Tasa de Fertilidad global?
2. ¿Que país tiene la Edad Promedio más alta y cual la más baja?
3. Agrupa los países por continente y obtén la mediana de la población urbana
4. ¿Qué otro de cálculo de interés (usando estas variables) crees pertinente para comparar la calidad de vida a nivel global? ¿Porqué?

1. ¿Cual es el promedio de Tasa de Fertilidad global?

In [39]:
#Transformar la columna tasa de fertilidad a numérico, ya que hay algún valor de tipo string en alguna de las filas. Errors coerce transforma los strings a NaN
df["Tasa Fertilidad"] = pd.to_numeric(df["Tasa Fertilidad"], errors="coerce")

fertility_mean = df["Tasa Fertilidad"].mean()
print(f"El promedio de Tasa de Fertilidad global es {fertility_mean}")

El promedio de Tasa de Fertilidad global es 2.6930348258706465


2. ¿Que país tiene la Edad Promedio más alta y cual la más baja?

In [40]:
#Corregir error en el encabezado de una de las columnas
df.rename(columns={"% Poblacion Urbaba": "% Poblacion Urbana"}, inplace=True)
# Convertir todas las columnas a numérico excepto la de país, que debe ser categórica
columns_to_convert = df.columns.difference(["Pais", "% Poblacion Urbana"])
df[columns_to_convert] = df[columns_to_convert].apply(pd.to_numeric, errors="coerce")

max_age = df["Edad Promedio"].max()
min_age = df["Edad Promedio"].min()
max_index_age = df["Edad Promedio"].idxmax()
min_index_age = df["Edad Promedio"].idxmin()
max_age_country = df.loc[max_index_age, "Pais"]
min_age_country = df.loc[min_index_age, "Pais"]
print(f"{max_age_country} es el país que tiene la Edad Promedio más alta con un valor de {max_age}")
print(f"{min_age_country} es el país que tiene la Edad Promedio más baja con un valor de {min_age}")


Japan es el país que tiene la Edad Promedio más alta con un valor de 48.0
Niger es el país que tiene la Edad Promedio más baja con un valor de 15.0


3. Agrupa los países por continente y obtén la mediana de la población urbana


In [43]:

# Generar un tercer dataframe con la columna de continentes obtenida de df2
df3 = pd.merge(df, df2[["nombre", "continente"]], how="left", left_on="Pais", right_on="nombre")
df3 = df3.drop("nombre", axis=1)
# Sigue habiendo paises que tienen NaN como continente. En esos casos voy a meter manualmente los valores para tener todos los datos completos
df3_conti_nan = df3[df3["continente"].isna()]
df3_conti_nan.to_csv("faltan_continentes.csv", index=False)

# Extender el diccionario llamado «continent_mapping» con los países para los que no tengo la info del continente
continent_mapping = {
    "Estados Unidos": "América",
    "Mexico": "América",
    "Japan": "Asia",
    "Etiopia": "África",
    "DR Congo": "África",
    "Iran": "Asia",
    "Myanmar": "Asia",
    "Argelia": "África",
    "Sudan": "África",
    "Iraq": "Asia",
    "Canada": "América",
    "Uzbekistan": "Asia",
    "Taiwan": "Asia",
    "Sri Lanka": "Asia",
    "Rumania": "Europa",
    "Paises Bajos": "Europa",
    "Cambodia": "Asia",
    "Zimbabwe": "África",
    "Rwanda": "África",
    "Benin": "África",
    "Haiti": "África",
    "Sudán del Sur": "África",
    "Azerbaiyan": "Asia",
    "Tajikistan": "Asia",
    "Papua Nueva Guinea": "Australia y Oceanía",
    "Hong Kong": "Asia",
    "Libano": "Asia",
    "Kirgistan": "Asia",
    "Turkmenistan": "Asia",
    "Singapore": "Asia",
    "Noreuga": "Europa",
    "Oman": "Asia",
    "Panama": "América",
    "Botswana": "África",
    "Gabon": "África",
    "Lesotho": "África",
    "Macedonia del Norte": "Europa",
    "Bahrain": "Asia",
    "Triniad y Tobajo": "América",
    "Timor-Leste": "Asia",
    "Eswatini": "África",
    "Djibouti": "África",
    "Fiji": "Australia y Oceanía",
    "Réunion": "África",
    "Comoros": "África",
    "Bhutan": "Asia",
    "Suriname": "América",
    "Maldivas": "Asia",
    "Brunei": "Asia",
    "Guadeloupe": "América",
    "Guyana Francesa": "América",
    "San Tomé y Principe": "África",
    "Santa Lucia": "América",
    "Islas Canal": "Europa",
    "Curaçao": "América",
    "St. Vincent y Grenadinas": "América",
    "Islas Virgenes": "América",
    "Islas Cayman": "América",
    "Bermuda": "América",
    "Islas Mariana del Norte": "Australia y Oceanía",
    "Saint Kitts y Nevis": "América",
    "San Martín": "América",
    "Monaco": "Europa",
}

df3["continente"] = df3["continente"].fillna(df3["Pais"].map(continent_mapping))
# Transformar los valures de porcentajes a número, están almacenados como strings
df3["% Poblacion Urbana"] = pd.to_numeric(df3["% Poblacion Urbana"].str.rstrip("%"), errors="coerce")


grouped_df = df3.groupby("continente")
mediana = grouped_df["% Poblacion Urbana"].median()
sorted_df = mediana.sort_values(ascending=True)

for continent, percentage in sorted_df.reset_index().iterrows():
    print(f"{percentage['continente']}, {percentage['% Poblacion Urbana']} % población urbana (mediana)")

#Añadir la columna % Poblacion Urbana_median 
merged_df = pd.merge(df3, sorted_df, how="left", on="continente", suffixes=("", "_median"))
#Ordenar el dataframe por %% Poblacion Urbana (mediana) en orden ascendente
sorted_merged_df = merged_df.sort_values(by="% Poblacion Urbana_median", ascending=True)
print(sorted_merged_df)

África, 47.0 % población urbana (mediana)
Asia, 58.0 % población urbana (mediana)
Australia y Oceanía, 61.5 % población urbana (mediana)
Europa, 71.0 % población urbana (mediana)
América, 76.0 % población urbana (mediana)
               Pais  Poblacion (2020)  Densidad  Territorio (Km²)  \
107           Libia           6887247         4           1759540   
133         Eritrea           3554797        35            101000   
39        Marruecos          36985624        83            446300   
127      Mauritania           4669775         5           1030700   
43           Angola          33032075        26           1246700   
..              ...               ...       ...               ...   
65        Guatemala          17971382       167            107160   
66          Ecuador          17688599        71            248360   
2    Estados Unidos         331341050        36           9147420   
189     Santa Lucia            183774       301               610   
179       Martinica

4. ¿Qué otro de cálculo de interés (usando estas variables) crees pertinente para comparar la calidad de vida a nivel global? ¿Por qué?
Considero que otro cálculo de interés sería determinar la tasa de Migración ajustada (Tasa Migración/Población) para saber el «porcentaje» (tanto por 1 en este caso) de gente que decide migrar hacia o desde esos paises. Cuanto más negativo sea el valor implicará una mayor emigración y cuanto más positivo más inmigración habrá. Si bien es cierto que puede haber otros motivos que ocasionen los flujos de migrantes, en este caso sería posible establecer que una baja calidad de vida origina mayor emigración para huir de la situación, mientras que los paises con una gran calidad de vida tendrán más inmigrantes. 

In [45]:
df["Tasa Migracion Ajustada"] = df["Tasa Migracion"] / df["Poblacion (2020)"]

# Top 5 paises con los valores más positivos
top_positive = df.nlargest(5, "Tasa Migracion Ajustada")

# Top 5 paises con los valores más negativos
top_negative = df.nsmallest(5, "Tasa Migracion Ajustada")

print("Top 5 paises con los valores más positivos para Tasa Migracion Ajustada (mejor calidad de vida):")
print(top_positive)

print("Top 5 paises con los valores más negativos para Tasa Migracion Ajustada (peor calidad de vida):")
print(top_negative)

Top 5 paises con los valores más positivos para Tasa Migracion Ajustada (mejor calidad de vida):
           Pais  Poblacion (2020)  Densidad  Territorio (Km²)  Tasa Migracion  \
151     Bahrain           1711057      2239               760         47800.0   
172    Maldivas            542151      1802               300         11370.0   
119        Oman           5128058        16            309500         87400.0   
168  Luxemburgo            627704       242              2590          9741.0   
138       Qatar           2889284       248             11610         40000.0   

     Tasa Fertilidad  Edad Promedio % Poblacion Urbana  \
151              2.0           32.0               89 %   
172              1.9           30.0               35 %   
119              2.9           31.0               87 %   
168              1.5           40.0               88 %   
138              1.9           32.0               96 %   

     Tasa Migracion Ajustada  
151                 0.027936  
172  