Eres un analista de datos que trabajas para una organización internacional que se enfoca en el desarrollo y el bienestar de los países. Tu objetivo es realizar un análisis inicial de estadísticas descriptivas sobre varios países utilizando el conjunto de datos proporcionado.

Objetivo: Realizar un análisis de estadísticas descriptivas para comprender mejor la situación de los países en términos de diversos indicadores.

Instrucciones:

Calcula las siguientes estadísticas descriptivas para las variables numéricas:

Media

Mediana

Desviación estándar

Mínimo

Máximo

Identifica el país con la mayor densidad de población y el país con la menor población en el conjunto de datos.

Calcula la tasa promedio de natalidad (birth_rate) para todos los países en el conjunto de datos.

Realiza un análisis de la mortalidad infantil (infant_mortality) y clasifica los países en tres categorías: baja, moderada y alta mortalidad infantil.

Calcula la correlación entre las variables de "fertility_rate" y "life_expectancy". Interpreta la relación entre estas dos variables. ¿Qué tipo de correlación hay? Explica la razón de esta relación

In [1]:
# importamos las librerías que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Visualización
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

# Evaluar linealidad de las relaciones entre las variables
# ------------------------------------------------------------------------------
from scipy.stats import shapiro, kstest

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Gestión de los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

In [4]:
df=pd.read_csv("world_data_full_apply_nulos.csv", index_col=0)
df

Unnamed: 0,country,density,abbreviation,agricultural_land,land_area,armed_forces_size,birth_rate,calling_code,capital/major_city,co2-emissions,cpi,cpi_change,currency-code,fertility_rate,forested_area,gasoline_price,gdp,gross_primary_education_enrollment,gross_tertiary_education_enrollment,infant_mortality,largest_city,life_expectancy,maternal_mortality_ratio,minimum_wage,official_language,out_of_pocket_health_expenditure,physicians_per_thousand,population,population_labor_force_participation,tax_revenue,total_tax_rate,unemployment_rate,urban_population,latitude,longitude,continent
0,Afghanistan,60.0,AF,58.1,652.230,323.0,32.49,93.0,Kabul,8.672,149.90,2.3,AFN,4.47,2.1,0.70,1.910135e+10,104.0,9.7,47.9,Kabul,64.5,638.0,0.43,Pashto,78.4,0.28,,48.9,9.3,71.4,11.12,,33.939110,67.709953,Asia
1,Albania,105.0,AL,43.1,28.748,9.0,11.78,355.0,Tirana,4.536,119.05,1.4,ALL,1.62,28.1,1.36,1.527808e+10,107.0,55.0,7.8,Tirana,78.5,15.0,1.12,Albanian,56.9,1.20,,55.7,18.6,36.6,12.33,,41.153332,20.168331,Europe
2,Algeria,18.0,DZ,17.4,,317.0,24.28,213.0,Algiers,150.006,151.36,2.0,DZD,3.02,0.8,0.28,1.699882e+11,109.9,51.4,20.1,Algiers,76.7,112.0,0.95,Arabic,28.1,1.72,,41.2,37.2,66.1,11.70,,28.033886,1.659626,Africa
3,Andorra,164.0,AD,40.0,468.000,,7.20,376.0,Andorra la Vella,469.000,,,EUR,1.27,34.0,1.51,3.154058e+09,106.4,,2.7,Andorra la Vella,,,6.63,Catalan,36.4,3.33,77.142,,,,,67.873,42.506285,1.521801,Europe
4,Angola,26.0,AO,47.5,,117.0,40.73,244.0,Luanda,34.693,261.73,17.1,AOA,5.52,46.3,0.97,9.463542e+10,113.5,9.3,51.6,Luanda,60.8,241.0,0.71,Portuguese,33.4,0.21,,77.5,9.2,49.1,6.89,,-11.202692,17.873887,Africa
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
190,Venezuela,32.0,VE,24.5,912.050,343.0,17.88,58.0,Caracas,164.175,,254.9,VED,2.27,52.7,0.00,4.823593e+11,97.2,79.3,21.4,Caracas,72.1,125.0,0.01,Spanish,45.8,1.92,,59.7,,73.3,8.80,,6.423750,-66.589730,South America
191,Vietnam,314.0,VN,39.3,331.210,522.0,16.75,84.0,Hanoi,192.668,163.52,2.8,VND,2.05,48.1,0.80,2.619212e+11,110.6,28.5,16.5,Ho Chi Minh City,75.3,43.0,0.73,Vietnamese,43.5,0.82,,77.4,19.1,37.6,2.01,,14.058324,108.277199,Asia
192,Yemen,56.0,YE,44.6,527.968,40.0,30.45,967.0,Sanaa,10.609,157.58,8.1,YER,3.79,1.0,0.92,2.691440e+10,93.6,10.2,42.9,Sanaa,66.1,164.0,,Arabic,81.0,0.31,,38.0,,26.6,12.91,,15.552727,48.516388,Asia
193,Zambia,25.0,ZM,32.1,752.618,16.0,36.19,260.0,Lusaka,5.141,212.31,9.2,ZMW,4.63,65.2,1.40,2.306472e+10,98.7,4.1,40.4,Lusaka,63.5,213.0,0.24,English,27.5,1.19,,74.6,16.2,15.6,11.43,,-13.133897,27.849332,Africa


In [None]:
"""Calcula las siguientes estadísticas descriptivas para las variables numéricas: Media, Mediana Desviación estándar, Mínimo, Máximo

Identifica el país con la mayor densidad de población y el país con la menor población en el conjunto de datos."""

In [None]:
df.describe().T

# crear una fun para calcular métricas. Con prints descriptivos. 

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
density,195.0,134.5045,157.3068,1.265,26.1685,83.0,165.5,847.0
agricultural_land,188.0,39.11755,21.78305,0.6,21.7,39.6,55.375,82.6
land_area,165.0,255.2127,258.385,0.0,41.277,148.46,430.0,964.0
armed_forces_size,166.0,103.7831,167.158,0.0,10.25,28.5,128.25,936.0
birth_rate,189.0,20.21497,9.945774,5.9,11.3,17.95,28.75,46.08
calling_code,194.0,360.5464,323.2364,1.0,82.5,255.5,506.75,1876.0
co2-emissions,183.0,125.9155,181.7949,1.016,7.6,34.477,185.0305,727.973
cpi,175.0,144.1936,54.784,99.03,113.67,124.74,155.925,550.93
cpi_change,179.0,6.722346,24.45041,-4.3,1.0,2.3,4.25,254.9
fertility_rate,188.0,2.698138,1.282267,0.98,1.705,2.245,3.5975,6.91


In [8]:
# Identifica el país con la mayor densidad de población y el país con la menor población en el conjunto de datos.

df["density"].max()

np.float64(847.0)

In [10]:
df["population"].min()

np.float64(10.084)

In [13]:
# Calcula la tasa promedio de natalidad (birth_rate) para todos los países en el conjunto de datos.

round(df["birth_rate"].mean(), 2)

np.float64(20.21)

In [None]:
# Realiza un análisis de la mortalidad infantil (infant_mortality) y clasifica los países en tres categorías: baja, moderada y alta mortalidad infantil.

# Primero calculamos los percentiles:
q33 = df['infant_mortality'].quantile(0.33)
q66 = df['infant_mortality'].quantile(0.66)

df['infant_mortality_cat'] = df['infant_mortality'].apply(
    lambda x: 'Baja' if pd.notnull(x) and x <= q33 
    else ('Moderada' if pd.notnull(x) and x <= q66 
    else ('Alta' if pd.notnull(x) else np.nan))

)



# Ejemplos de la clase de otras soluciones del ejercicio:

In [None]:
pd.cut(df["infant_mortality"], bins=3).unique() # pd.cut

[(29.1, 56.8], (1.317, 29.1], (56.8, 84.5], NaN]
Categories (3, interval[float64, right]): [(1.317, 29.1] < (29.1, 56.8] < (56.8, 84.5]]

In [41]:
pd.cut(df["infant_mortality"], bins=3, labels=["bajo", "medio", "alto"])

0      medio
1       bajo
2       bajo
3       bajo
4      medio
       ...  
190     bajo
191     bajo
192    medio
193    medio
194    medio
Name: infant_mortality, Length: 195, dtype: category
Categories (3, object): ['bajo' < 'medio' < 'alto']

In [None]:
df['infant_mortality_cat_2']= pd.cut(df["infant_mortality"], bins=3, labels=["bajo", "medio", "alto"])


In [None]:
# También podríamos pasarle nosotras los intervalos si tengo los valores:

def cat(dato):
    if dato<15:
        return "menos"
    elif dato<54:
        return "mediano"
    else:
        return "alto"

In [44]:
df[['infant_mortality_cat_2','infant_mortality' ]]

Unnamed: 0,infant_mortality_cat_2,infant_mortality
0,medio,47.9
1,bajo,7.8
2,bajo,20.1
3,bajo,2.7
4,medio,51.6
...,...,...
190,bajo,21.4
191,bajo,16.5
192,medio,42.9
193,medio,40.4


In [None]:
df['infant_mortality_cat'].isnull().sum() # vemos que los nulos se han trasladado de manera correcta.

np.int64(6)

In [36]:
df['infant_mortality'].isnull().sum()

np.int64(6)

In [37]:
# Calcula la correlación entre las variables de "fertility_rate" y "life_expectancy". Interpreta la relación entre estas dos variables. ¿Qué tipo de correlación hay? Explica la razón de esta relación

df[["fertility_rate", "life_expectancy"]].corr(method="pearson") 

Unnamed: 0,fertility_rate,life_expectancy
fertility_rate,1.0,-0.849153
life_expectancy,-0.849153,1.0


In [38]:
df[["fertility_rate", "life_expectancy"]].corr(method="spearman") 

Unnamed: 0,fertility_rate,life_expectancy
fertility_rate,1.0,-0.843047
life_expectancy,-0.843047,1.0
