# 📊 **Pair Programming: Estadística Descriptiva** 📊

## **Ejercicios de Estadística Descriptiva**

En este caso usaremos el mismo DataFrame que hemos estado usando en los últimos pairs. El ejercicio que os planteamos es:

**Eres un analista de datos que trabaja para una organización internacional que se enfoca en el desarrollo y el bienestar de los países. Tu objetivo es realizar un análisis inicial de estadísticas descriptivas sobre varios países utilizando el conjunto de datos proporcionado.**

### **Objetivo:**
Realizar un análisis de estadísticas descriptivas para comprender mejor la situación de los países en términos de diversos indicadores.

_ _ _

### **Instrucciones:**

1. **Calcula las siguientes estadísticas descriptivas para las variables numéricas:**

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib as ptl
from scipy.stats import shapiro, kstest
import warnings

warnings.filterwarnings("ignore")

- Media

In [2]:
df = pd.read_csv('World-Data-Unidas-Limpio.csv')
variables_numericas = df.select_dtypes(float, int)
media = variables_numericas.mean()
media

agriculturalland                      39.117553
birthrate                             20.214974
callingcode                          360.546392
cpichange                              6.722346
fertilityrate                          2.698138
forestedarea                          32.015426
gasolineprice                          1.002457
grossprimaryeducationenrollment      102.470213
grosstertiaryeducationenrollment      37.963388
infantmortality                       21.332804
lifeexpectancy                        72.279679
maternalmortalityratio               160.392265
minimumwage                            2.194133
outofpockethealthexpenditure          32.637234
physiciansperthousand                  1.839840
populationlaborforceparticipation     62.738068
taxrevenue                            16.573964
totaltaxrate                          40.822404
unemploymentrate                       6.886364
dtype: float64

- Mediana

In [3]:
mediana = variables_numericas.median()
mediana

agriculturalland                      39.600
birthrate                             17.950
callingcode                          255.500
cpichange                              2.300
fertilityrate                          2.245
forestedarea                          32.000
gasolineprice                          0.980
grossprimaryeducationenrollment      102.550
grosstertiaryeducationenrollment      31.200
infantmortality                       14.000
lifeexpectancy                        73.200
maternalmortalityratio                53.000
minimumwage                            1.045
outofpockethealthexpenditure          30.700
physiciansperthousand                  1.460
populationlaborforceparticipation     62.450
taxrevenue                            16.300
totaltaxrate                          37.200
unemploymentrate                       5.360
dtype: float64

- Desviación estándar

In [4]:
desv_estandar = variables_numericas.std()
desv_estandar

agriculturalland                      21.783052
birthrate                              9.945774
callingcode                          323.236419
cpichange                             24.450414
fertilityrate                          1.282267
forestedarea                          23.791331
gasolineprice                          0.368858
grossprimaryeducationenrollment       13.151607
grosstertiaryeducationenrollment      29.261022
infantmortality                       19.548058
lifeexpectancy                         7.483661
maternalmortalityratio               233.502024
minimumwage                            2.970796
outofpockethealthexpenditure          19.172697
physiciansperthousand                  1.684261
populationlaborforceparticipation     10.502907
taxrevenue                             6.961632
totaltaxrate                          20.557662
unemploymentrate                       5.079216
dtype: float64

- Mínimo

In [5]:
minimo = variables_numericas.min()
minimo

agriculturalland                      0.60
birthrate                             5.90
callingcode                           1.00
cpichange                            -4.30
fertilityrate                         0.98
forestedarea                          0.00
gasolineprice                         0.00
grossprimaryeducationenrollment      23.40
grosstertiaryeducationenrollment      0.80
infantmortality                       1.40
lifeexpectancy                       52.80
maternalmortalityratio                2.00
minimumwage                           0.01
outofpockethealthexpenditure          0.20
physiciansperthousand                 0.01
populationlaborforceparticipation    38.00
taxrevenue                            0.00
totaltaxrate                          8.00
unemploymentrate                      0.09
dtype: float64

- Máximo

In [6]:
maximo = variables_numericas.min()
maximo

agriculturalland                      0.60
birthrate                             5.90
callingcode                           1.00
cpichange                            -4.30
fertilityrate                         0.98
forestedarea                          0.00
gasolineprice                         0.00
grossprimaryeducationenrollment      23.40
grosstertiaryeducationenrollment      0.80
infantmortality                       1.40
lifeexpectancy                       52.80
maternalmortalityratio                2.00
minimumwage                           0.01
outofpockethealthexpenditure          0.20
physiciansperthousand                 0.01
populationlaborforceparticipation    38.00
taxrevenue                            0.00
totaltaxrate                          8.00
unemploymentrate                      0.09
dtype: float64

2. **Identifica el país con la mayor densidad de población y el país con la menor población en el conjunto de datos.**

In [7]:
df.columns

Index(['unnamed0', 'country', 'density\r\np', 'abbreviation',
       'agriculturalland', 'landarea', 'armedforcessize', 'birthrate',
       'callingcode', 'capitalmajorcity', 'co2-emissions', 'cpi', 'cpichange',
       'currency-code', 'fertilityrate', 'forestedarea', 'gasolineprice',
       'gdp', 'grossprimaryeducationenrollment',
       'grosstertiaryeducationenrollment', 'infantmortality', 'largestcity',
       'lifeexpectancy', 'maternalmortalityratio', 'minimumwage',
       'officiallanguage', 'outofpockethealthexpenditure',
       'physiciansperthousand', 'population',
       'populationlaborforceparticipation', 'taxrevenue', 'totaltaxrate',
       'unemploymentrate', 'urban_population', 'latitud', 'longitud'],
      dtype='object')

In [8]:
df.columns = df.columns.str.strip().str.replace(r'\r\n', '').str.replace(r'\n', '')

In [11]:
df.columns

Index(['unnamed0', 'country', 'densityp', 'abbreviation', 'agriculturalland',
       'landarea', 'armedforcessize', 'birthrate', 'callingcode',
       'capitalmajorcity', 'co2-emissions', 'cpi', 'cpichange',
       'currency-code', 'fertilityrate', 'forestedarea', 'gasolineprice',
       'gdp', 'grossprimaryeducationenrollment',
       'grosstertiaryeducationenrollment', 'infantmortality', 'largestcity',
       'lifeexpectancy', 'maternalmortalityratio', 'minimumwage',
       'officiallanguage', 'outofpockethealthexpenditure',
       'physiciansperthousand', 'population',
       'populationlaborforceparticipation', 'taxrevenue', 'totaltaxrate',
       'unemploymentrate', 'urban_population', 'latitud', 'longitud'],
      dtype='object')

In [13]:
densidad_maxima = df.groupby("country")["densityp"].max().sort_values(ascending=False).reset_index()
densidad_maxima.head(1)

Unnamed: 0,country,densityp
0,Malaysia,99


In [14]:
densidad_minima = df.groupby("country")["densityp"].min().sort_values(ascending=False).reset_index()
densidad_minima.tail(1)

Unnamed: 0,country,densityp
194,Bangladesh,1265


3. **Calcula la tasa promedio de natalidad (`birth_rate`) para todos los países en el conjunto de datos.**

In [16]:
tasa_natalidad = df['birthrate'].mean()
tasa_natalidad

20.21497354497354

4. **Realiza un análisis de la mortalidad infantil (`infant_mortality`) y clasifica los países en tres categorías:**

- Baja mortalidad infantil

- Moderada mortalidad infantil
   

- Alta mortalidad infantil

In [28]:
# Identificamos los valores máximos y mínimos de mortalidad infantil para armar la función
print(f"El valor máximo de la mortalidad infantil es {df['infantmortality'].max()}")
print(f"\nEl valor mínimo de la mortalidad infantil es {df['infantmortality'].min()}")

# Definimos la función para clasificar la mortalidad infantil
def analisis_mortalidad(datos):
    if datos < 15:
        return "Baja"
    elif 15 <= datos <= 30:
        return "Moderada"
    else:
        return "Alta"

# Aplicamos la función a la columna 'infant_mortality'
df["mortalityclassification"] = df["infantmortality"].apply(analisis_mortalidad)

# Mostramos las columnas 'country', 'infant_mortality' y 'mortality_classification'
df[["country", "infantmortality", "mortalityclassification"]]


El valor máximo de la mortalidad infantil es 84.5

El valor mínimo de la mortalidad infantil es 1.4


Unnamed: 0,country,infantmortality,mortalityclassification
0,Afghanistan,47.9,Alta
1,Albania,7.8,Baja
2,Algeria,20.1,Moderada
3,Andorra,2.7,Baja
4,Angola,51.6,Alta
...,...,...,...
190,Venezuela,21.4,Moderada
191,Vietnam,16.5,Moderada
192,Yemen,42.9,Alta
193,Zambia,40.4,Alta


5. **Calcula la correlación entre las variables de `fertility_rate` y `life_expectancy`.**

- Interpreta la relación entre estas dos variables.

- ¿Qué tipo de correlación hay?              
   

- Explica la razón de esta relación.

### **Bonus:**

1. **Visualiza la distribución de la variable `cpi` utilizando un histograma y comenta sobre la distribución de los índices de percepción de corrupción.**

2. **Encuentra el país con la mayor diferencia entre el `gdp` (Producto Interno Bruto) y el `co2-emissions` (emisiones de dióxido de carbono).**

3. **Calcula el porcentaje promedio de personas que participan en la fuerza laboral (`population_labor_force_participation`) para todos los países.**

4. **Genera un mapa de calor (heatmap) de la matriz de correlación de todas las variables numéricas y discute las relaciones más destacadas.**