
# Poblacion mundial en el año 2020
## Análisis comparativo de la densidad de población y el territorio de países

# Introducción
### En el presente trabajo vamos a visualizar información referida a  población, extensión territorial y cantidad de habitantes por kilómetro cuadrado de los países del mundo durante el año 2020 con el objetivo de comprender como estás variables se relacionan en cada uno de ellos.


# Objetivos
### - Conocer cuáles son los diez países con mayor y menor población en 2020
### - Determinar si los países de mayor población y mayor superficie de territorio son aquellos de mayor densidad de población por kilómetro cuadrado.
### -Visualizar aspectos destacados y/o comunes de los paises con mayor densidad de población


# Objeto de Análisis : 
### dataset descargado de https://www.kaggle.com/tanuprabhu/population-by-country-2020





# Herramientas de Trabajo -  Librerías: 
### pandas, math, matplotlib, numpy

In [1]:
#impotamos las liberías que vamos a utilizar a lo largo del trabajo para la presentación final
import pandas as pd
import matplotlib.pyplot as plt
import math as mth
import numpy as np

# Conociendo nuestro set de datos

In [4]:
#traemos el set desde el modo lectura para constituir nuestro data frame, conocer sus carácterísticas y empezar a analizarlo
path = 'data/population_by_country_2020.csv'
df = pd.read_csv(path)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 235 entries, 0 to 234
Data columns (total 11 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Country (or dependency)  235 non-null    object 
 1   Population (2020)        235 non-null    int64  
 2   Yearly Change            235 non-null    object 
 3   Net Change               235 non-null    int64  
 4   Density (P/Km²)          235 non-null    int64  
 5   Land Area (Km²)          235 non-null    int64  
 6   Migrants (net)           201 non-null    float64
 7   Fert. Rate               235 non-null    object 
 8   Med. Age                 235 non-null    object 
 9   Urban Pop %              235 non-null    object 
 10  World Share              235 non-null    object 
dtypes: float64(1), int64(4), object(6)
memory usage: 20.3+ KB


# Verificación
### Antes de comenzar a visualizar los dtose vamos a hacer una pequeña prueba para saber si la información del dataframe es certera

In [11]:
#vemos las primeras diez entradas las cuales van a ser nuestra muestra para trabajar a lo largo de la presentación
df.head(10)

Unnamed: 0,Country (or dependency),Population (2020),Yearly Change,Net Change,Density (P/Km²),Land Area (Km²),Migrants (net),Fert. Rate,Med. Age,Urban Pop %,World Share
0,China,1440297825,0.39 %,5540090,153,9388211,-348399.0,1.7,38,61 %,18.47 %
1,India,1382345085,0.99 %,13586631,464,2973190,-532687.0,2.2,28,35 %,17.70 %
2,United States,331341050,0.59 %,1937734,36,9147420,954806.0,1.8,38,83 %,4.25 %
3,Indonesia,274021604,1.07 %,2898047,151,1811570,-98955.0,2.3,30,56 %,3.51 %
4,Pakistan,221612785,2.00 %,4327022,287,770880,-233379.0,3.6,23,35 %,2.83 %
5,Brazil,212821986,0.72 %,1509890,25,8358140,21200.0,1.7,33,88 %,2.73 %
6,Nigeria,206984347,2.58 %,5175990,226,910770,-60000.0,5.4,18,52 %,2.64 %
7,Bangladesh,164972348,1.01 %,1643222,1265,130170,-369501.0,2.1,28,39 %,2.11 %
8,Russia,145945524,0.04 %,62206,9,16376870,182456.0,1.8,40,74 %,1.87 %
9,Mexico,129166028,1.06 %,1357224,66,1943950,-60000.0,2.1,29,84 %,1.65 %


In [12]:
# aplicando una función vamos a determinar si los valores de la columna 'Density (P/Km²)' 
# se corresponden con el valor obtenido del cociente entre las columnas 'Population (2020)' y 'Land Area (Km²)'
#creamos la funcion
def resultado_cociente():
   x = (df.loc[:,  'Population (2020)'])
   y = (df.loc[:, 'Land Area (Km²)'])
   z = x // y
   return z.head(10)

resultado_cociente()

0     153.0
1     464.0
2      36.0
3     151.0
4     287.0
5      25.0
6     227.0
7    1267.0
8       8.0
9      66.0
dtype: float64

In [8]:
# a continuacion vamos a comparar el cociente de las primeras diez entradas de las columnas'Population (2020)' y 'Land Area (Km²)' con la columna 'Density (P/Km²)'  
# utilizando el condicional "==" que nos arrojara el valor True o False por tratarse de datos de tipo booleano

resultado_cociente() == df.loc[:, 'Density (P/Km²)'].head(10)

0     True
1     True
2     True
3     True
4     True
5     True
6    False
7    False
8    False
9     True
dtype: bool

In [9]:
#otra forma de llegar al mismo resultado es a traves de una operacion aritmetica a la cual se le aplica el condicional
(df.loc[:,  'Population (2020)'].head(10))//(df.loc[:, 'Land Area (Km²)'].head(10)) == (df.loc[:, 'Density (P/Km²)'].head(10))

0     True
1     True
2     True
3     True
4     True
5     True
6    False
7    False
8    False
9     True
dtype: bool

### Conclusión
#### 7 de 10 datos son verdaderos, los tres datos que no son exactamente iguales tienen una diferencia entre uno y dos puntos con el parámetro del condicional, por lo tanto vamos a considerar que los datos son certeros y nos sirven para nuestro análisis

# Muestras
## Comenzamos a visualizar el dataframe y a responder la primera pregunta acerca de cuales son los países más y menos poblados del mundo en 2020. Para esto vamos a aplicar el metodo sort_values


In [16]:
#los paises mas poblados
df.sort_values(['Population (2020)'], ascending=[False]).head(10)

Unnamed: 0,Country (or dependency),Population (2020),Yearly Change,Net Change,Density (P/Km²),Land Area (Km²),Migrants (net),Fert. Rate,Med. Age,Urban Pop %,World Share
0,China,1440297825,0.39 %,5540090,153,9388211,-348399.0,1.7,38,61 %,18.47 %
1,India,1382345085,0.99 %,13586631,464,2973190,-532687.0,2.2,28,35 %,17.70 %
2,United States,331341050,0.59 %,1937734,36,9147420,954806.0,1.8,38,83 %,4.25 %
3,Indonesia,274021604,1.07 %,2898047,151,1811570,-98955.0,2.3,30,56 %,3.51 %
4,Pakistan,221612785,2.00 %,4327022,287,770880,-233379.0,3.6,23,35 %,2.83 %
5,Brazil,212821986,0.72 %,1509890,25,8358140,21200.0,1.7,33,88 %,2.73 %
6,Nigeria,206984347,2.58 %,5175990,226,910770,-60000.0,5.4,18,52 %,2.64 %
7,Bangladesh,164972348,1.01 %,1643222,1265,130170,-369501.0,2.1,28,39 %,2.11 %
8,Russia,145945524,0.04 %,62206,9,16376870,182456.0,1.8,40,74 %,1.87 %
9,Mexico,129166028,1.06 %,1357224,66,1943950,-60000.0,2.1,29,84 %,1.65 %


In [17]:
#los paises menos poblados
df.sort_values(['Population (2020)'], ascending=[False]).tail(10)

Unnamed: 0,Country (or dependency),Population (2020),Yearly Change,Net Change,Density (P/Km²),Land Area (Km²),Migrants (net),Fert. Rate,Med. Age,Urban Pop %,World Share
225,Wallis & Futuna,11203,-1.69 %,-193,80,140,,N.A.,N.A.,0 %,0.00 %
226,Nauru,10836,0.63 %,68,541,20,,N.A.,N.A.,N.A.,0.00 %
227,Saint Barthelemy,9882,0.30 %,30,470,21,,N.A.,N.A.,0 %,0.00 %
228,Saint Helena,6080,0.30 %,18,16,390,,N.A.,N.A.,27 %,0.00 %
229,Saint Pierre & Miquelon,5789,-0.48 %,-28,25,230,,N.A.,N.A.,100 %,0.00 %
230,Montserrat,4993,0.06 %,3,50,100,,N.A.,N.A.,10 %,0.00 %
231,Falkland Islands,3497,3.05 %,103,0,12170,,N.A.,N.A.,66 %,0.00 %
232,Niue,1628,0.68 %,11,6,260,,N.A.,N.A.,46 %,0.00 %
233,Tokelau,1360,1.27 %,17,136,10,,N.A.,N.A.,0 %,0.00 %
234,Holy See,801,0.25 %,2,2003,0,,N.A.,N.A.,N.A.,0.00 %
