In [1]:
import pandas as pd
import numpy as np

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [2]:
path = 'poblacion_global_2020.csv'

# Ejercicio

Examina detenidamente el siguiente dataset y responde las siguientes preguntas:

* ¿Por qué cumple con las condiciones de Tidy Data?
* ¿Cuál es el data point principal y cual es la meta data?
* Si quisieramos saber más sobre los niveles educativos globales ¿Qué otras características necesitariamos para este data set?
* ¿Qué tipo de análisis harías con este data set?

In [3]:
df = pd.read_csv(path)

df

Unnamed: 0,Pais,Poblacion (2020),Densidad,Territorio (Km²),Tasa Migracion,Tasa Fertilidad,Edad Promedio,% Poblacion Urbaba
0,China,1440297825,153,9388211,-348399.0,1.7,38,61 %
1,India,1382345085,464,2973190,-532687.0,2.2,28,35 %
2,Estados Unidos,331341050,36,9147420,954806.0,1.8,38,83 %
3,Indonesia,274021604,151,1811570,-98955.0,2.3,30,56 %
4,Pakistán,221612785,287,770880,-233379.0,3.6,23,35 %
...,...,...,...,...,...,...,...,...
209,Samoa Americana,55169,276,200,,N.A.,N.A.,88 %
210,Saint Kitts y Nevis,53264,205,260,,N.A.,N.A.,33 %
211,Islas Feroe,48896,35,1396,,N.A.,N.A.,43 %
212,San Martín,42960,1261,34,,N.A.,N.A.,96 %


In [4]:
# Observamos que en algunas columnas los valores nulos se designan como 'N.A.' en formato textual.
df.replace('N.A.', np.NaN, inplace=True)

# Además, el nombre de la columna '% Poblacion Urbana' es incorrecto.
df.rename(columns={ '% Poblacion Urbaba':'% Poblacion Urbana'}, inplace=True)

df

Unnamed: 0,Pais,Poblacion (2020),Densidad,Territorio (Km²),Tasa Migracion,Tasa Fertilidad,Edad Promedio,% Poblacion Urbana
0,China,1440297825,153,9388211,-348399.0,1.7,38,61 %
1,India,1382345085,464,2973190,-532687.0,2.2,28,35 %
2,Estados Unidos,331341050,36,9147420,954806.0,1.8,38,83 %
3,Indonesia,274021604,151,1811570,-98955.0,2.3,30,56 %
4,Pakistán,221612785,287,770880,-233379.0,3.6,23,35 %
...,...,...,...,...,...,...,...,...
209,Samoa Americana,55169,276,200,,,,88 %
210,Saint Kitts y Nevis,53264,205,260,,,,33 %
211,Islas Feroe,48896,35,1396,,,,43 %
212,San Martín,42960,1261,34,,,,96 %


# Respuestas


### ¿Por qué cumple con las condiciones de Tidy Data?
Este dataset cumple con las condiciones de Tidy Data porque cada fila  es una observación y cada columna es una característica de dicha información.


### ¿Cuál es el data point principal y cual es la meta data?
Los data point principales son cada uno de los diferentes países y la meta data la forman la población, densidad, territorio, etc. de esos países.

### Si quisieramos saber más sobre los niveles educativos globales ¿Qué otras características necesitariamos para este data set?

Algunas de las posibles variables a analizar son:

* Tasa de alfabetización: la tasa de alfabetización es la proporción de personas en una población que pueden leer y escribir.
* Nivel de educación: podemos agregar información sobre el nivel educativo alcanzado por la población.
* Índice de Desarrollo Humano (IDH): el IDH es una medida compuesta que combina información sobre la educación, la salud y el ingreso per cápita.
* Ratio estudiante-docente: el ratio de estudiantes por cada docente es una medida importante de la calidad de la educación.

### ¿Qué tipo de análisis harías con este data set?
Los análisis que se pueden hacer con este dataset son de carácter demográfico. Por ejemplo, podríamos analizar si existe relación entre la tasa de migración y la tasa de fertilidad.

# Ejercicios:

Manipula el dataset, de manera que respondas las siguientes preguntas:

1. ¿Cual es el promedio de Tasa de Fertilidad global?
2. ¿Que país tiene la Edad Promedio más alta y cual la más baja?
3. Agrupa los países por continente y obtén la mediana de la población urbana
4. ¿Qué otro de cálculo de interés (usando estas variables) crees pertinente para comparar la calidad de vida a nivel global? ¿Por qué?

In [5]:
df.dtypes

Pais                   object
Poblacion (2020)        int64
Densidad                int64
Territorio (Km²)        int64
Tasa Migracion        float64
Tasa Fertilidad        object
Edad Promedio          object
% Poblacion Urbana     object
dtype: object

In [6]:
df.count()

Pais                  214
Poblacion (2020)      214
Densidad              214
Territorio (Km²)      214
Tasa Migracion        201
Tasa Fertilidad       201
Edad Promedio         201
% Poblacion Urbana    206
dtype: int64

### ¿Cual es el promedio de Tasa de Fertilidad global?

In [7]:
df['Tasa Fertilidad']

0      1.7
1      2.2
2      1.8
3      2.3
4      3.6
      ... 
209    NaN
210    NaN
211    NaN
212    NaN
213    NaN
Name: Tasa Fertilidad, Length: 214, dtype: object

In [8]:
# Convertimos de str a float y calculamos el valor medio
df['Tasa Fertilidad'] = df['Tasa Fertilidad'].astype(float)
df['Tasa Fertilidad'].mean()

2.6930348258706465

### ¿Que país tiene la Edad Promedio más alta y cual la más baja?

In [9]:
df['Edad Promedio']

0       38
1       28
2       38
3       30
4       23
      ... 
209    NaN
210    NaN
211    NaN
212    NaN
213    NaN
Name: Edad Promedio, Length: 214, dtype: object

In [10]:
# Convertimos de str a float
df['Edad Promedio'] = df['Edad Promedio'].astype(float)

# Buscamos el valor máximo y el país al que corresponde
edad_max = df['Edad Promedio'].max()
pais_edad_max = df.iloc[df['Edad Promedio'].idxmax()]['Pais']

print(f'El país con la edad promedio más alta es {pais_edad_max} con {edad_max} años')

# Buscamos el valor mínimo y el país al que corresponde
edad_min = df['Edad Promedio'].min()
pais_edad_min =df.iloc[df['Edad Promedio'].idxmin()]['Pais']

print(f'El país con la edad promedio más baja es {pais_edad_min} con {edad_min} años')

El país con la edad promedio más alta es Japan con 48.0 años
El país con la edad promedio más baja es Niger con 15.0 años


### Agrupa los países por continente y obtén la mediana de la población urbana

In [11]:
# COmo esta información no existe en el dataset original, buscamos otro dataset que contenga esta información.
df_continentes = pd.read_csv('paises.csv')

In [12]:
df_continentes.head()

Unnamed: 0,nombre,name,nom,iso2,iso3,phone_code,continente
0,Afganistán,Afghanistan,Afghanistan,AF,AFG,93,Asia
1,Albania,Albania,Albanie,AL,ALB,355,Europa
2,Alemania,Germany,Allemagne,DE,DEU,49,Europa
3,Algeria,Algeria,Algérie,DZ,DZA,213,África
4,Andorra,Andorra,Andorra,AD,AND,376,Europa


In [13]:
# Nos quedamos solo con las columnas que nos interesan
df_continentes = df_continentes.loc[:,['nombre', 'continente']]

# Para poder unir ambos datasets, tienen que estar en el mismo formato. 
# Nos aseguramos de ello eliminando las tildes.

def quitar_tilde(x):
  a,b = 'áéíóúü','aeiouu'
  trans = str.maketrans(a,b)
  return x.translate(trans)

df_continentes['nombre'] = df_continentes['nombre'].apply(quitar_tilde)

df['Pais_sin_tilde'] = df['Pais'].apply(quitar_tilde)


# Renombramos las columnas del segundo dataset para que coincida con las del original
df_continentes.rename(columns={ 'nombre':'Pais_sin_tilde',
                                'continente':'Continente' },
                      inplace=True)



In [14]:
df_continentes.head()

Unnamed: 0,Pais_sin_tilde,Continente
0,Afganistan,Asia
1,Albania,Europa
2,Alemania,Europa
3,Algeria,África
4,Andorra,Europa


In [15]:
# Unimos los dos datset con una 'left joint'. 
df = df.merge(df_continentes, on='Pais_sin_tilde', how='left')

df.drop('Pais_sin_tilde', axis='columns', inplace=True)
df.count()

Pais                  215
Poblacion (2020)      215
Densidad              215
Territorio (Km²)      215
Tasa Migracion        202
Tasa Fertilidad       202
Edad Promedio         202
% Poblacion Urbana    207
Continente            174
dtype: int64

In [16]:
# A pesar de que hemos hecho gran parte del trabajo, todavñia nos queda un 19% de los países.
list(df[df['Continente'].isna()]['Pais'])

['Estados Unidos',
 'Japan',
 'DR Congo',
 'Myanmar',
 'Argelia',
 'Iraq',
 'Sri Lanka',
 'Cambodia',
 'Zimbabwe',
 'Rwanda',
 'Sudán del Sur',
 'Azerbaiyan',
 'Tajikistan',
 'Hong Kong',
 'Kirgistan',
 'Singapore',
 'Noreuga',
 'Botswana',
 'Lesotho',
 'Macedonia del Norte',
 'Bahrain',
 'Triniad y Tobajo',
 'Timor-Leste',
 'Eswatini',
 'Djibouti',
 'Fiji',
 'Comoros',
 'Suriname',
 'Maldivas',
 'Guadeloupe',
 'Guyana Francesa',
 'San Tomé y Principe',
 'Islas Canal',
 'Curaçao',
 'St. Vincent y Grenadinas',
 'Islas Virgenes',
 'Islas Cayman',
 'Bermuda',
 'Islas Mariana del Norte',
 'Saint Kitts y Nevis',
 'San Martín']

In [17]:
# Para terminar de completar el dataset, utilizamos la herramienta Chat GPT.
otros_continentes = ['América', 'Asia', 'África', 'Asia', 'África', 'Asia', 'Asia', 'Asia', 'África', 'África', 'África', 'Europa', 'Asia', 'Asia', 'Asia', 'Asia', 'Europa', 'África', 'África', 'Europa', 'Asia', 'América', 'Asia', 'África', 'África', 'Australia y Oceanía', 'África', 'América', 'Asia', 'América', 'América', 'África', 'Europa', 'América', 'América', 'América', 'América', 'América', 'Australia y Oceanía', 'América', 'América']

In [18]:
# Añadimos la nueva información al dataset original.
df.loc[df['Continente'].isna(), 'Continente'] = otros_continentes

In [19]:
# Comprobamos que tenemos 215 valores de continentes.
df.count()

Pais                  215
Poblacion (2020)      215
Densidad              215
Territorio (Km²)      215
Tasa Migracion        202
Tasa Fertilidad       202
Edad Promedio         202
% Poblacion Urbana    207
Continente            215
dtype: int64

In [20]:
# Para poder calcular la población urbana, tenemos que convertir la columna '% Poblacion Urbana' en numérica.
df.head()

Unnamed: 0,Pais,Poblacion (2020),Densidad,Territorio (Km²),Tasa Migracion,Tasa Fertilidad,Edad Promedio,% Poblacion Urbana,Continente
0,China,1440297825,153,9388211,-348399.0,1.7,38.0,61 %,Asia
1,India,1382345085,464,2973190,-532687.0,2.2,28.0,35 %,Asia
2,Estados Unidos,331341050,36,9147420,954806.0,1.8,38.0,83 %,América
3,Indonesia,274021604,151,1811570,-98955.0,2.3,30.0,56 %,Asia
4,Pakistán,221612785,287,770880,-233379.0,3.6,23.0,35 %,Asia


In [21]:
# El formato es '{porcentaje} %', por lo que la transformación es sencilla: x = x[:-2].
df['% Poblacion Urbana'] = df['% Poblacion Urbana'].apply(lambda x: x[:-2] if type(x)==str else None)
df['% Poblacion Urbana'] = df['% Poblacion Urbana'].astype(float)

df.head()

Unnamed: 0,Pais,Poblacion (2020),Densidad,Territorio (Km²),Tasa Migracion,Tasa Fertilidad,Edad Promedio,% Poblacion Urbana,Continente
0,China,1440297825,153,9388211,-348399.0,1.7,38.0,61.0,Asia
1,India,1382345085,464,2973190,-532687.0,2.2,28.0,35.0,Asia
2,Estados Unidos,331341050,36,9147420,954806.0,1.8,38.0,83.0,América
3,Indonesia,274021604,151,1811570,-98955.0,2.3,30.0,56.0,Asia
4,Pakistán,221612785,287,770880,-233379.0,3.6,23.0,35.0,Asia


In [22]:
# Calculamos la población urbana de cada país.
df['Poblacion Urbana (2020)'] = df['Poblacion (2020)'] * df['% Poblacion Urbana'] / 100

df.head()

Unnamed: 0,Pais,Poblacion (2020),Densidad,Territorio (Km²),Tasa Migracion,Tasa Fertilidad,Edad Promedio,% Poblacion Urbana,Continente,Poblacion Urbana (2020)
0,China,1440297825,153,9388211,-348399.0,1.7,38.0,61.0,Asia,878581700.0
1,India,1382345085,464,2973190,-532687.0,2.2,28.0,35.0,Asia,483820800.0
2,Estados Unidos,331341050,36,9147420,954806.0,1.8,38.0,83.0,América,275013100.0
3,Indonesia,274021604,151,1811570,-98955.0,2.3,30.0,56.0,Asia,153452100.0
4,Pakistán,221612785,287,770880,-233379.0,3.6,23.0,35.0,Asia,77564470.0


In [23]:
# Calculamos la mediana de la población urbana por continente.
df.groupby('Continente')['Poblacion Urbana (2020)'].median()

Continente
América                1629885.950
Asia                   9534659.820
Australia y Oceanía     116312.605
Europa                 4994845.880
África                 3878388.500
Name: Poblacion Urbana (2020), dtype: float64

### ¿Qué otro de cálculo de interés (usando estas variables) crees pertinente para comparar la calidad de vida a nivel global? ¿Por qué?

Podríamos analizar si existe una relación entre la tasa de fertilidad y la migración y si, a su vez, esto está relacionado con la calidad de vida.

In [24]:
df.groupby('Continente')['Tasa Fertilidad'].mean()

Continente
América                2.110000
Asia                   2.336000
Australia y Oceanía    2.984615
Europa                 1.587805
África                 4.150000
Name: Tasa Fertilidad, dtype: float64

In [25]:
df.groupby('Continente')['Tasa Migracion'].mean()

Continente
América                16858.600000
Asia                  -34606.320000
Australia y Oceanía    12202.923077
Europa                 33210.902439
África                 -8052.586207
Name: Tasa Migracion, dtype: float64