In [102]:
import pandas as pd
import numpy as np

In [103]:
path = 'poblacion_global_2020.csv'

# Ejercicio

Examina detenidamente el siguiente dataset y responde las siguientes preguntas:

* ¿Porqué cumple con las condiciones de Tidy Data? 
*Porque cada columna es una característica y cada fila una observación*
* ¿Cuál es el data point principal y cual es la meta data? 
*El data point será a finales del 2020, ya que nos proporciona info de la población en esa fecha y la metadata son las características que nos describe ese momento, en este caso recogidas en las columnas*
* Si quisieramos saber más sobre los niveles educativos globales ¿Qué otras características necesitariamos para este data set?
*El índice de escolarización como dato general y % de población con educación básica y superior para conocer con más precisión. También podría ser interesante conocer estos datos segregados entre población urbana y rural*
* ¿Qué tipo de análisis harías con este data set?
*Mirando los datos parece haber una correlación entre la densidad poblacional y una tasa de migración. Por otra parte, con los datos de edad promedio y tasa de fertilidad frente a densidad poblacional podríamos estimar las tasas de migración de cada pais.*

In [104]:
df = pd.read_csv(path)

df.head()

Unnamed: 0,Pais,Poblacion (2020),Densidad,Territorio (Km²),Tasa Migracion,Tasa Fertilidad,Edad Promedio,% Poblacion Urbaba
0,China,1440297825,153,9388211,-348399.0,1.7,38,61 %
1,India,1382345085,464,2973190,-532687.0,2.2,28,35 %
2,Estados Unidos,331341050,36,9147420,954806.0,1.8,38,83 %
3,Indonesia,274021604,151,1811570,-98955.0,2.3,30,56 %
4,Pakistán,221612785,287,770880,-233379.0,3.6,23,35 %


# Ejercicios:

Manipula el dataset, de manera que respondas las siguientes preguntas:

1. ¿Cual es el promedio de Tasa de Fertilidad global? *2,63*
2. ¿Que país tiene la Edad Promedio más alta y cual la más baja? *Japon y Nigeria respectivamente*
3. Agrupa los países por continente y obtén la mediana de la población urbana
4. ¿Qué otro de cálculo de interés (usando estas variables) crees pertinente para comparar la calidad de vida a nivel global? ¿Porqué?

#### Primero miramos de que tipos de datos está compuesto nuestro data set

In [105]:
df.info()
# Parece que hay valores nulos en la Tasa de Migración, pero no sabemos si son de valor 0 o NaN.
# Un valor de 0 en la tasa de migración, no tiene por que ser un valor erróneo

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 214 entries, 0 to 213
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Pais                214 non-null    object 
 1   Poblacion (2020)    214 non-null    int64  
 2   Densidad            214 non-null    int64  
 3   Territorio (Km²)    214 non-null    int64  
 4   Tasa Migracion      201 non-null    float64
 5   Tasa Fertilidad     214 non-null    object 
 6   Edad Promedio       214 non-null    object 
 7   % Poblacion Urbaba  214 non-null    object 
dtypes: float64(1), int64(3), object(4)
memory usage: 13.5+ KB


In [106]:
df.isnull().sum() # Confirmamos de otra manera lo visto anteriormente

Pais                   0
Poblacion (2020)       0
Densidad               0
Territorio (Km²)       0
Tasa Migracion        13
Tasa Fertilidad        0
Edad Promedio          0
% Poblacion Urbaba     0
dtype: int64

Tasa de Fertilidad, Edad promedio y %Poblacion urbana son de tipo object, por lo que tendremos que cambiar su tipo para poder realizar operaciones matematicas 

In [107]:
df.info
#Vemos que los valores no disponibles están definidos como NaN o N.A., por lo que tendremos
#que unificarlo para poder gestionarlos

<bound method DataFrame.info of                     Pais  Poblacion (2020)  Densidad  Territorio (Km²)  \
0                  China        1440297825       153           9388211   
1                  India        1382345085       464           2973190   
2         Estados Unidos         331341050        36           9147420   
3              Indonesia         274021604       151           1811570   
4               Pakistán         221612785       287            770880   
..                   ...               ...       ...               ...   
209      Samoa Americana             55169       276               200   
210  Saint Kitts y Nevis             53264       205               260   
211          Islas Feroe             48896        35              1396   
212           San Martín             42960      1261                34   
213               Monaco             39290     26337                 1   

     Tasa Migracion Tasa Fertilidad Edad Promedio % Poblacion Urbaba  
0       

Modificamos los valores no disponibles

In [108]:
df["Tasa Fertilidad"] = df["Tasa Fertilidad"].replace("N.A.", "NaN")

In [109]:
df["Edad Promedio"] = df["Edad Promedio"].replace("N.A.", "NaN")

In [110]:
df["% Poblacion Urbaba"] = df["% Poblacion Urbaba"].replace("N.A.", "NaN")

In [111]:
df.info
#Confirmamos que se han modificado de forma correcta

<bound method DataFrame.info of                     Pais  Poblacion (2020)  Densidad  Territorio (Km²)  \
0                  China        1440297825       153           9388211   
1                  India        1382345085       464           2973190   
2         Estados Unidos         331341050        36           9147420   
3              Indonesia         274021604       151           1811570   
4               Pakistán         221612785       287            770880   
..                   ...               ...       ...               ...   
209      Samoa Americana             55169       276               200   
210  Saint Kitts y Nevis             53264       205               260   
211          Islas Feroe             48896        35              1396   
212           San Martín             42960      1261                34   
213               Monaco             39290     26337                 1   

     Tasa Migracion Tasa Fertilidad Edad Promedio % Poblacion Urbaba  
0       

In [112]:
#Eliminamos los registros con valores no disponibles
df.dropna(inplace = True)

In [113]:
# Confirmamos que se ha realizado
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 201 entries, 0 to 200
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Pais                201 non-null    object 
 1   Poblacion (2020)    201 non-null    int64  
 2   Densidad            201 non-null    int64  
 3   Territorio (Km²)    201 non-null    int64  
 4   Tasa Migracion      201 non-null    float64
 5   Tasa Fertilidad     201 non-null    object 
 6   Edad Promedio       201 non-null    object 
 7   % Poblacion Urbaba  201 non-null    object 
dtypes: float64(1), int64(3), object(4)
memory usage: 14.1+ KB


Corrijo el nombre de la columna % Poblacion Urbana

In [114]:
df.rename({"% Poblacion Urbaba": "% Poblacion Urbana"}, axis = 1, inplace = "True")

In [115]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 201 entries, 0 to 200
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Pais                201 non-null    object 
 1   Poblacion (2020)    201 non-null    int64  
 2   Densidad            201 non-null    int64  
 3   Territorio (Km²)    201 non-null    int64  
 4   Tasa Migracion      201 non-null    float64
 5   Tasa Fertilidad     201 non-null    object 
 6   Edad Promedio       201 non-null    object 
 7   % Poblacion Urbana  201 non-null    object 
dtypes: float64(1), int64(3), object(4)
memory usage: 14.1+ KB


### Para conocer el promedio de la tasa de fertilidad a nivel global

In [116]:
# Cambiamos el tipo de dato para Tasa de Fertilidad para poder manipular
df["Tasa Fertilidad"] = df["Tasa Fertilidad"].astype("float64")

In [117]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 201 entries, 0 to 200
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Pais                201 non-null    object 
 1   Poblacion (2020)    201 non-null    int64  
 2   Densidad            201 non-null    int64  
 3   Territorio (Km²)    201 non-null    int64  
 4   Tasa Migracion      201 non-null    float64
 5   Tasa Fertilidad     201 non-null    float64
 6   Edad Promedio       201 non-null    object 
 7   % Poblacion Urbana  201 non-null    object 
dtypes: float64(2), int64(3), object(3)
memory usage: 14.1+ KB


In [118]:
df["Tasa Fertilidad"].mean()

2.6930348258706465

### Para saber qué pais tiene la Edad promedio más alta y cúal la más baja

In [119]:
EdadPromedioMin = df.groupby(["Edad Promedio"]).min()
minimo = EdadPromedioMin.head(1)
maximo = EdadPromedioMin.tail(1)

In [120]:
minimo

Unnamed: 0_level_0,Pais,Poblacion (2020),Densidad,Territorio (Km²),Tasa Migracion,Tasa Fertilidad,% Poblacion Urbana
Edad Promedio,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
15,Niger,24346468,19,1266700,4000.0,7.0,17 %


In [121]:
maximo

Unnamed: 0_level_0,Pais,Poblacion (2020),Densidad,Territorio (Km²),Tasa Migracion,Tasa Fertilidad,% Poblacion Urbana
Edad Promedio,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
48,Japan,126407422,347,364555,71560.0,1.4,92 %


### Agrupa los países por continente y obtén la mediana de la población urbana

Miramos que valores tenemos para la columna Pais

In [122]:
paises = df["Pais"].values
# Definimos listas con los valores para cada uno de los continentes

In [123]:
europa = ['Rusia','Turquía','Alemania','Reino Unido', 'Francia',
       'Italia','España','Polonia','Rumania','Paises Bajos','Bélgica',
       'República Checa', 'Grecia','Portugal','Suecia','Hungría',
       'Bielorrusia', 'Austria','Serbia','Suiza','Bulgaria',
       'Dinamarca', 'Finlandia','Eslovaquia', 'Noreuga','Irlanda',
       'Croacia','Georgia','Bosnia y Herzegovina','Armenia',
       'Albania', 'Lituania', 'Macedonia del Norte', 'Eslovenia','Letonia',
       'Estonia','Chipre','Montenegro', 'Luxemburgo','Malta','Islandia', 'Islas Canal',
       'Turquía','Ucrania']

In [124]:
america = ['Estados Unidos','Canada','Mexico','Haiti', 'Cuba',
    'República Dominicana','Jamaica', 'Puerto Rico', 'Barbados', 'Santa Lucia', 'Granada', 
    'Islas Virgenes', 'Guatemala','Honduras','Nicaragua','El Salvador','Costa Rica','Panama',
    'Belice','Brasil','Colombia','Argentina','Perú','Venezuela','Chile','Ecuador', 'Bolivia',
    'Paraguay', 'Uruguay','Triniad y Tobajo','Guyana Francesa','Curaçao', 
    'St. Vincent y Grenadinas', 'Aruba', 'Antigua y Barbuda','Guadeloupe', 'Bahamas', 
    'Martinica', 'Suriname']

In [125]:
oceania = ['Australia','Nueva Zelanda','Fiji', 'Islas Salomón','Vanuatu',
       'Polinesia Francesa','Samoa','Kiribati','Micronesia','Papua Nueva Guinea','Guam', 'Tonga',
          'Nueva Caledonia']

In [126]:
africa = ['Nigeria','Etiopia','Egipto', 'DR Congo','Tanzania', 'Sudáfrica','Kenia',
       'Uganda','Argelia', 'Sudan','Marruecos', 'Arabia Saudita','Angola', 'Mozambique',
        'Ghana', 'Yemen', 'Madagascar', 'Camerún', 'Costa de Marfil','Niger','Burkina Faso',
        'Mali','Malawi','Zambia', 'Senegal','Chad', 'Somalia', 'Zimbabwe', 'Guinea',
       'Rwanda', 'Benin', 'Burundi', 'Tunez', 'Sudán del Sur','Togo', 'Sierra Leona',
        'Libia','Congo', 'Oman','Palestina','Liberia', 'República Centroafricana',
        'Mauritania','Eritrea','Namibia', 'Gambia', 'Botswana', 'Gabon', 'Lesotho',
       'Guinea-Bissau', 'Guinea Ecuatorial','Eswatini', 'Djibouti', 'Réunion', 'Comoros',
        'Guyana', 'Bhutan', 'Sahara Occidental', 'Maldivas', 'Brunei',
          'Guyana Francesa','Kiribati', 'Seychelles', 'Eritrea','Mauricio', 'Cabo Verde',
          'Mayotte', 'San Tomé y Principe']

In [127]:
len(europa) + len(america) + len(oceania) + len(africa)

164

In [128]:
asia = ['China', 'India', 'Indonesia', 'Pakistán','Bangladesh','Japan',
        'Filipinas','Vietnam','Iran','Tailandia','Myanmar','Corea del Sur','Iraq', 'Afganistán',
        'Uzbekistan','Malasia','Nepal','Corea del Norte', 'Taiwan', 'Sri Lanka',
       'Kazajistán','Cambodia','Azerbaiyan','Emiratos Árabes Unidos',
       'Tajikistan','Hong Kong','Laos', 'Paraguay', 'Bulgaria','Libano','Kirgistan', 'Oman',
        'Kuwait','Moldavia', 'Georgia','Mongolia', 'Armenia','Qatar',
        'Bahrain','Brunei', 'Siria', 'Jordania','Israel','Turkmenistan','Singapore','Timor-Leste',
       'Macao']

In [129]:
# Confirmamos que ya tenemos todos los paises ubicados en su correspondiente continente
len(europa) + len(america) + len(oceania) + len(africa) + len(asia)

211

In [130]:
#GEneramos un diccionario donde se vincule pais con su continente
continentePais = dict()
for i in europa:
    continentePais[i]="Europa"

In [131]:
for i in america:
    continentePais[i] = "America"

In [132]:
for i in oceania:
    continentePais[i] = "Oceania"

In [133]:
for i in africa:
    continentePais[i] = "Africa"

In [134]:
for i in asia:
    continentePais[i] = "Asia"

In [135]:
#Confirmamos que todos los paises del dataframe están definidos con su continente en el 
#diccionario que vicula pais con contiente
for i in paises:
    if i not in continentePais.keys():
        print(i)

In [136]:
#Creamos nueva columna en el dataframe llamada continente
df.insert(0,"Continente",0)

In [137]:
df.columns

Index(['Continente', 'Pais', 'Poblacion (2020)', 'Densidad',
       'Territorio (Km²)', 'Tasa Migracion', 'Tasa Fertilidad',
       'Edad Promedio', '% Poblacion Urbana'],
      dtype='object')

In [138]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 201 entries, 0 to 200
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Continente          201 non-null    int64  
 1   Pais                201 non-null    object 
 2   Poblacion (2020)    201 non-null    int64  
 3   Densidad            201 non-null    int64  
 4   Territorio (Km²)    201 non-null    int64  
 5   Tasa Migracion      201 non-null    float64
 6   Tasa Fertilidad     201 non-null    float64
 7   Edad Promedio       201 non-null    object 
 8   % Poblacion Urbana  201 non-null    object 
dtypes: float64(2), int64(4), object(3)
memory usage: 25.7+ KB


In [139]:
# Generamos una lista con el continente que corresponde a cada uno de los paises en el dataframe
continentes = list()
for i in paises:
    cont = continentePais[i]
    continentes.append(cont)
    

In [140]:
# Lo asignamos a la columna de continente
df["Continente"] = continentes

In [141]:
df.head()

Unnamed: 0,Continente,Pais,Poblacion (2020),Densidad,Territorio (Km²),Tasa Migracion,Tasa Fertilidad,Edad Promedio,% Poblacion Urbana
0,Asia,China,1440297825,153,9388211,-348399.0,1.7,38,61 %
1,Asia,India,1382345085,464,2973190,-532687.0,2.2,28,35 %
2,America,Estados Unidos,331341050,36,9147420,954806.0,1.8,38,83 %
3,Asia,Indonesia,274021604,151,1811570,-98955.0,2.3,30,56 %
4,Asia,Pakistán,221612785,287,770880,-233379.0,3.6,23,35 %


In [142]:
# Cambiamos el tipo de datos de la columna Edad Promedio
df["Edad Promedio"] = df["Edad Promedio"].astype("int")

In [143]:
# Eliminamos el % de la columna poblacion urbana para poder manipular los datos
df["% Poblacion Urbana"] = df["% Poblacion Urbana"].str.replace(" %","")

In [144]:
df.head()

Unnamed: 0,Continente,Pais,Poblacion (2020),Densidad,Territorio (Km²),Tasa Migracion,Tasa Fertilidad,Edad Promedio,% Poblacion Urbana
0,Asia,China,1440297825,153,9388211,-348399.0,1.7,38,61
1,Asia,India,1382345085,464,2973190,-532687.0,2.2,28,35
2,America,Estados Unidos,331341050,36,9147420,954806.0,1.8,38,83
3,Asia,Indonesia,274021604,151,1811570,-98955.0,2.3,30,56
4,Asia,Pakistán,221612785,287,770880,-233379.0,3.6,23,35


In [145]:
# Como nos da error cuando queremos cambiar de tipo de dato para poblacion urbana, miramos 
# si hay valores NaN
df.isna().values.any()

False

In [146]:
# Como no conseguimos ver si hay valores, recorremos los datos con un bucle
for i in df["% Poblacion Urbana"]:
    print(i)

61
35
83
56
35
88
52
39
74
84
92
21
47
43
38
46
76
76
76
51
83
82
69
37
67
31
28
82
80
80
26
93
73
35
69
73
25
60
81
64
84
50
79
67
78
38
57
38
21
NaN
39
56
51
63
86
17
79
18
31
44
55
18
85
58
45
52
63
60
92
49
24
23
47
38
39
18
48
14
70
69
98
57
78
25
85
74
85
91
66
56
88
57
86
72
27
79
57
13
56
93
74
43
43
NaN
36
62
76
78
78
57
36
73
53
NaN
88
86
70
54
83
87
80
80
53
63
43
87
57
68
NaN
58
43
58
63
96
52
67
63
55
96
63
NaN
71
55
59
73
87
31
59
55
45
69
89
73
52
68
33
41
67
30
79
59
100
29
27
46
23
NaN
68
88
87
65
68
35
93
80
NaN
46
86
92
94
24
87
31
72
64
46
74
18
19
30
95
89
57
21
35
53
44
24
96
56
26


In [151]:
# Identificamos los valores NaN como valores no validos para poder eliminarlos
df['% Poblacion Urbana'] = df['% Poblacion Urbana'].replace('NaN', np.nan)

In [152]:
# Confirmamos que estan identificados
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 201 entries, 0 to 200
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Continente          201 non-null    object 
 1   Pais                201 non-null    object 
 2   Poblacion (2020)    201 non-null    int64  
 3   Densidad            201 non-null    int64  
 4   Territorio (Km²)    201 non-null    int64  
 5   Tasa Migracion      201 non-null    float64
 6   Tasa Fertilidad     201 non-null    float64
 7   Edad Promedio       201 non-null    int32  
 8   % Poblacion Urbana  194 non-null    object 
dtypes: float64(2), int32(1), int64(3), object(3)
memory usage: 24.9+ KB


In [153]:
#eliminamos los valores no válidos
df.dropna(inplace = True)

In [170]:
df["% Poblacion Urbana"] = df["% Poblacion Urbana"].astype(int)

In [171]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 194 entries, 0 to 200
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Continente          194 non-null    object 
 1   Pais                194 non-null    object 
 2   Poblacion (2020)    194 non-null    int64  
 3   Densidad            194 non-null    int64  
 4   Territorio (Km²)    194 non-null    int64  
 5   Tasa Migracion      194 non-null    float64
 6   Tasa Fertilidad     194 non-null    float64
 7   Edad Promedio       194 non-null    int32  
 8   % Poblacion Urbana  194 non-null    int32  
 9   % Pobalcion Urbana  194 non-null    int32  
dtypes: float64(2), int32(3), int64(3), object(2)
memory usage: 14.4+ KB


In [179]:
# Y obtenemos la mediana por continentes
df["% Poblacion Urbana"].groupby(df['Continente']).median()

Continente
Africa     46.0
America    71.0
Asia       58.0
Europa     71.5
Oceania    41.5
Name: % Poblacion Urbana, dtype: float64

In [181]:
df.groupby(df['Continente']).mean()

Unnamed: 0_level_0,Poblacion (2020),Densidad,Territorio (Km²),Tasa Migracion,Tasa Fertilidad,Edad Promedio,% Poblacion Urbana
Continente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Africa,21821160.0,150.492308,502308.4,-5577.6,3.990769,21.984615,50.2
America,28935260.0,173.617647,1082243.0,42599.264706,2.070588,32.852941,67.558824
Asia,104434400.0,249.302326,652355.2,-52273.093023,2.355814,30.697674,58.186047
Europa,20552160.0,169.425,569242.3,41388.9,1.5875,41.775,71.85
Oceania,3533899.0,77.25,706970.8,13286.5,2.933333,27.833333,48.833333


In [183]:
df.groupby(df['Continente']).median()

Unnamed: 0_level_0,Poblacion (2020),Densidad,Territorio (Km²),Tasa Migracion,Tasa Fertilidad,Edad Promedio,% Poblacion Urbana
Continente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Africa,11839918.0,56.0,257670.0,-4000.0,4.2,20.0,46.0
America,5797040.5,94.5,62700.0,-139.5,2.0,32.0,71.0
Asia,17571053.0,115.0,183630.0,-5385.0,2.2,30.0,58.0
Europa,8698348.0,104.0,79824.5,7365.0,1.6,42.0,71.5
Oceania,297154.5,37.0,15230.0,-700.0,2.95,26.0,41.5


In [184]:
df.groupby(df['Continente']).corr()

Unnamed: 0_level_0,Unnamed: 1_level_0,Poblacion (2020),Densidad,Territorio (Km²),Tasa Migracion,Tasa Fertilidad,Edad Promedio,% Poblacion Urbana
Continente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Africa,Poblacion (2020),1.0,-0.105245,0.477701,0.022702,0.243611,-0.185102,-0.172281
Africa,Densidad,-0.105245,1.0,-0.332691,0.075998,-0.234021,0.20853,-0.126933
Africa,Territorio (Km²),0.477701,-0.332691,1.0,0.11902,0.199034,-0.057917,0.038531
Africa,Tasa Migracion,0.022702,0.075998,0.11902,1.0,-0.158494,0.202116,0.182361
Africa,Tasa Fertilidad,0.243611,-0.234021,0.199034,-0.158494,1.0,-0.89246,-0.399543
Africa,Edad Promedio,-0.185102,0.20853,-0.057917,0.202116,-0.89246,1.0,0.49788
Africa,% Poblacion Urbana,-0.172281,-0.126933,0.038531,0.182361,-0.399543,0.49788,1.0
America,Poblacion (2020),1.0,-0.311195,0.809078,0.763754,-0.163943,0.061113,0.304372
America,Densidad,-0.311195,1.0,-0.370412,-0.24498,-0.162571,0.363051,-0.458941
America,Territorio (Km²),0.809078,-0.370412,1.0,0.682828,-0.279991,0.191495,0.328523


In [177]:
df.corr()

Unnamed: 0,Poblacion (2020),Densidad,Territorio (Km²),Tasa Migracion,Tasa Fertilidad,Edad Promedio,% Poblacion Urbana
Poblacion (2020),1.0,0.044001,0.447086,-0.291667,-0.056746,0.028814,-0.04238
Densidad,0.044001,1.0,-0.149689,-0.096738,-0.169198,0.13473,0.00306
Territorio (Km²),0.447086,-0.149689,1.0,0.247795,-0.056508,0.078489,0.131365
Tasa Migracion,-0.291667,-0.096738,0.247795,1.0,-0.135536,0.211874,0.269363
Tasa Fertilidad,-0.056746,-0.169198,-0.056508,-0.135536,1.0,-0.881949,-0.485171
Edad Promedio,0.028814,0.13473,0.078489,0.211874,-0.881949,1.0,0.536597
% Poblacion Urbana,-0.04238,0.00306,0.131365,0.269363,-0.485171,0.536597,1.0


In [188]:
# Viendo los estadisticos de arriba, parece que tiene mucho sentido hacer un análisis por 
# continentes ya que parece que las dinámicas están bastante bien definidas respecto a ese
# criterio. 
# Muchas de variables tienen más correlación desde ese prisma