# Pair Estadística Descriptiva II

### Conjunto de datos:

ARCHIVO: world_data_full_apply_nulos.csv

### **Ejercicios estadística descriptiva**

En este caso usaremos el mismo DataFrame que hemos estado usando en los últimos ejercicios. Imagina que eres un analista de datos que trabaja para una organización internacional enfocada en el desarrollo y el bienestar de los países. Tu objetivo es realizar un **primer análisis descriptivo**, centrándote en:

* Cómo se distribuyen algunas **variables categóricas** entre los países (continente, idioma, etc.).
* Qué relaciones básicas podemos ver entre esas categorías.
* Y, al final, explorar **una correlación numérica concreta** relacionada con el desarrollo (fertilidad y esperanza de vida).


***

#### 4. Idioma oficial vs. continente

Queremos ver la relación entre **continente** e **idioma oficial**.

Variables categóricas:

* `continent`
* `official_language`

1. Crea una **tabla de contingencia**:
   * Filas: `continent`
   * Columnas: `official_language`
2. Normaliza por filas (`normalize="index"`) para obtener porcentajes.
3. Interpreta:
   * ¿Hay continentes donde uno o dos idiomas dominen claramente?
   * ¿En qué continente ves más diversidad de idiomas?
   * Desde el punto de vista de políticas internacionales, ¿por qué puede ser útil esta información?

*(Si la tabla es muy grande, puedes filtrar a los 5–10 idiomas más frecuentes antes de construirla.)*

***

#### 5. Fertilidad y esperanza de vida: correlación entre variables numéricas

Ahora pasamos a una relación entre dos **variables numéricas**:

* `fertility_rate`
* `life_expectancy`

1. Calcula el **coeficiente de correlación de Pearson** entre `fertility_rate` y `life_expectancy`.
2. Representa, si puedes, un **diagrama de dispersión (scatter plot)** de `fertility_rate` (eje X) vs. `life_expectancy` (eje Y).
3. Interpreta:
   * ¿La correlación es positiva o negativa? ¿Es fuerte, moderada o débil?
   * ¿Tiene sentido esta relación desde el punto de vista demográfico?
   * ¿Podrías explicar, en lenguaje de negocio/políticas públicas, qué significa “a mayor tasa de fertilidad, tiende a ocurrir X con la esperanza de vida”?

***

#### 6. Bonus: clasificación y resumen de mortalidad infantil (categorías a partir de numérica)

Variable numérica: `infant_mortality`

1. Crea una **variable categórica** a partir de `infant_mortality`, por ejemplo:

   * `baja` mortalidad infantil
   * `moderada`
   * `alta`

   (Puedes definir los cortes usando percentiles, o umbrales que tú elijas y documentes.)
2. Calcula la **tabla de frecuencias** de esta nueva variable categórica.
3. Crea una **tabla de contingencia** entre:
   * Filas: `continent`
   * Columnas: categoría de mortalidad infantil.
4. Interpreta:
   * ¿Qué continentes concentran más países con **alta** mortalidad infantil?
   * ¿Hay continentes donde predominan los países con **baja** mortalidad?
   * ¿Qué tipo de prioridades podría marcarse una organización internacional a partir de este análisis?

***

Recuerda siempre acompañar los cálculos con una **pequeña interpretación** como analista de datos: no solo “qué números salen”, sino **qué implican** sobre la situación de los países.


In [2]:
import pandas as pd
import numpy as np

# Librerías de visualización
import seaborn as sns
import matplotlib.pyplot as plt

# Visualizar todas las columnas de los DataFrames
pd.set_option('display.max_columns', None)

In [7]:
df = pd.read_csv("world_data_full_apply_nulos.csv", index_col = 0)


***
#### 1. Distribución de países por continente (variable categórica)

Variable categórica: `continent`

1. Calcula la **tabla de frecuencias** de `continent`:
   * Frecuencia absoluta (número de países por continente).
   * Frecuencia relativa o porcentaje sobre el total.
2. Interpreta:
   * ¿Qué continente tiene más países en el dataset?
   * ¿Qué continentes están menos representados?
   * Desde el punto de vista de un analista, ¿por qué es importante conocer esta distribución antes de comparar indicadores entre continentes?

In [6]:
freq = pd.DataFrame({
    'Frecuencia absoluta': df['continent'].value_counts(),
    'Frecuencia relativa (%)': round(df['continent'].value_counts(normalize=True) * 100, 2)})

freq

Unnamed: 0_level_0,Frecuencia absoluta,Frecuencia relativa (%)
continent,Unnamed: 1_level_1,Unnamed: 2_level_1
Africa,53,27.32
Europe,47,24.23
Asia,45,23.2
Central America,20,10.31
Oceania,14,7.22
South America,13,6.7
North America,2,1.03


¿Qué continente tiene más países en el dataset?
- El continente con más países es Africa con 53 países y 27.32% mundial.

¿Qué continentes están menos representados?
- El continente menos representado es America del Norte

Desde el punto de vista de un analista, ¿por qué es importante conocer esta distribución antes de comparar indicadores entre continentes?
- Sin conocer la distribución, no puedes interpretar correctamente diferencias entre continentes ni confiar en la robustez de las comparaciones.
Continentes con tamaños de muestra muy distintos no tienen el mismo “peso estadístico”; las medias, medianas o porcentajes no tendrán la misma estabilidad.

***

#### 2. Idioma oficial: ¿qué idiomas son más frecuentes?

Variable categórica: `official_language`

1. Calcula la **frecuencia absoluta y relativa** de `official_language`.
2. Identifica:
   * Los 5 idiomas oficiales más frecuentes.
3. Interpreta:
   * ¿Hay algún idioma claramente dominante?
   * ¿Qué implicaciones podría tener esto a la hora de diseñar encuestas, campañas o informes internacionales?

*(Si hay demasiadas categorías, puedes usar algo como `value_counts().head(10)` para ver solo las más frecuentes.)*


In [8]:
freq_idiomas = pd.DataFrame({
    'Frecuencia absoluta': df['official_language'].value_counts(),
    'Frecuencia relativa (%)': round(df['official_language'].value_counts(normalize=True) * 100, 2)})

freq_idiomas

Unnamed: 0_level_0,Frecuencia absoluta,Frecuencia relativa (%)
official_language,Unnamed: 1_level_1,Unnamed: 2_level_1
English,31,16.32
French,25,13.16
Spanish,19,10.00
Arabic,18,9.47
Portuguese,7,3.68
...,...,...
Albanian,1,0.53
Jamaican English,1,0.53
Lao,1,0.53
Latvian,1,0.53


¿Hay algún idioma claramente dominante?
- Sí, el inglés con 16.32%.

¿Qué implicaciones podría tener esto a la hora de diseñar encuestas, campañas o informes internacionales?
- Esta distribución te ayuda a priorizar idiomas, evitar sesgos culturales o de acceso y planificar recursos de manera realista para proyectos internacionales. A la hora de hacer algo a nível internacional se debría tener esto en cuenta y disponer en los 3 idiomas más dominantes: inglés, francés y español. Así se puede llegar al 40% de población

***

#### 3. Continente vs. nivel de ingresos

En esta base de datos tenemos `gdp` (Producto Interno Bruto per cápita aproximado). Crea primero una **variable categórica derivada** a partir de `gdp`, por ejemplo:

* `bajo`: países con `gdp` por debajo del percentil 33.
* `medio`: entre los percentiles 33 y 66.
* `alto`: por encima del percentil 66.

Puedes llamarla, por ejemplo, `gdp_level`.

1. Crea la nueva columna `gdp_level` en el DataFrame.
2. Construye una **tabla de contingencia** entre:
   * Filas: `continent`
   * Columnas: `gdp_level`
3. Normaliza la tabla por filas (porcentaje dentro de cada continente).
4. Interpreta:
   * ¿Qué continentes concentran más países en el grupo de `gdp` **alto**?
   * ¿Hay algún continente donde predominen claramente los países de `gdp` **bajo**?
   * ¿Qué conclusiones preliminares (no definitivas) podrías extraer sobre la distribución de riqueza por continente?


In [15]:
# variable categórica derivada

# Calcular percentiles 33 y 66
p33 = df['gdp'].quantile(0.33)
p66 = df['gdp'].quantile(0.66)

# Crear variable categórica usando bins definidos por percentiles
df['gdp_level'] = pd.cut(df['gdp'],
                bins=[df['gdp'].min(), p33, p66, df['gdp'].max()],
                labels=['bajo', 'medio', 'alto'],
                include_lowest=True)

df[['gdp', 'gdp_level']].head()

Unnamed: 0,gdp,gdp_level
0,19101350000.0,medio
1,15278080000.0,medio
2,169988200000.0,alto
3,3154058000.0,bajo
4,94635420000.0,alto


In [18]:
# tabla de contingencia - contaje absoluta

pd.crosstab(df['continent'], df['gdp_level']
            ).rename_axis(index='Continente', columns='Nível PIB')


Nível PIB,bajo,medio,alto
Continente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Africa,25,20,8
Asia,7,17,20
Central America,11,6,3
Europe,7,15,24
North America,0,0,2
Oceania,11,1,2
South America,2,4,7


In [19]:
# tabla de contingencia Normalizada

tabla_cross = round(pd.crosstab(df['continent'], df['gdp_level'], 
                    normalize='index') *100, 2).rename_axis(
                    index='Continente %', columns='Nível PIB %')

tabla_cross

Nível PIB %,bajo,medio,alto
Continente %,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Africa,47.17,37.74,15.09
Asia,15.91,38.64,45.45
Central America,55.0,30.0,15.0
Europe,15.22,32.61,52.17
North America,0.0,0.0,100.0
Oceania,78.57,7.14,14.29
South America,15.38,30.77,53.85


- ¿Qué continentes concentran más países en el grupo de `gdp` **alto**?

- ¿Hay algún continente donde predominen claramente los países de `gdp` **bajo**?

- ¿Qué conclusiones preliminares (no definitivas) podrías extraer sobre la distribución de riqueza por continente?