### Importo librerías.

In [20]:
# Importo librerías necesarias para el preprocesamiento.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

### Leo los datasets con los que voy a trabajar en este notebook.

In [None]:
# Leo los dataset que voy a utilizar.
# Leo el dataset con los datos de la población por paises.
poblacion_paises = pd.read_csv("/Users/angelpastorsanchez/Documents/VSCode/SAMPLEREPO/w_datasets/poblacion/preprocesamiento/datasets/población_paises.csv")
# Leo el dataset con las coordenadas.
coordenadas = pd.read_csv("/Users/angelpastorsanchez/Documents/VSCode/SAMPLEREPO/w_datasets/poblacion/preprocesamiento/datasets/coordenadas_paises.csv")
# Leo el dataset con la traducción de los nombres.
traduccion = pd.read_csv("/Users/angelpastorsanchez/Documents/VSCode/SAMPLEREPO/w_datasets/poblacion/preprocesamiento/datasets/traduccion_nombres_paises.csv")

## Población paises.

In [None]:
# Leo el dataset de la población por paises para verlo.
poblacion_paises

In [None]:
# Obtengo información del dataset.
poblacion_paises.info()

In [None]:
# Obtengo la lista de paises.
poblacion_paises["Country Name"].value_counts()

In [None]:
# Obtengo la cantidad de nulos.
poblacion_paises.isnull().sum()

### World

In [None]:
# Creo un dataset que solo contenga la información general de la población mundial.
world = poblacion_paises[poblacion_paises["Country Name"] == "World"].copy()
world

In [None]:
world.drop(["Country Name", "Country Code"], axis = 1, inplace = True)

In [None]:
world.reset_index(drop = True, inplace=True)


In [None]:
world

In [None]:
# Cambio el nombre de las columnas.
world.rename(columns = {"Year": "Año",
                        "Value": "Valor"},
                        inplace = True)

### Regiones

In [None]:
# Creo un dataset que contenga solamente la población por regiones.
regiones = poblacion_paises[poblacion_paises.index < 2655].copy()
regiones

In [None]:
# Obtengo la lista de las regiones.
regiones["Country Name"].value_counts()

In [None]:
# Cambio el nombre de las columnas.
regiones.rename(columns = {"Country Name": "Pais",
                        "Country Code": "Código",
                        "Year": "Año",
                        "Value": "Valor"},
                        inplace = True)

### Paises

In [None]:
# Creo un dataset que contenga solamente la población por paises.
paises = poblacion_paises[poblacion_paises.index > 2713].copy()
paises

In [None]:
# Obtengo la lista con los paises.
paises["Country Name"].value_counts()

In [None]:
paises

## Coordenadas.

In [None]:
# Obtengo una vista previa del dataset con las coordenadas.
coordenadas

In [None]:
# Busco valores nulos.
coordenadas.isnull().sum()

In [None]:
# Elimino los datos de Otros territorios porque considero que no me serán utiles al no saber a qué territorios concretos hacen referencia.
coordenadas.drop(coordenadas[coordenadas["etiqueta"] == "Otros territorios"].index, axis = 0, inplace = True)

In [None]:
# Elimino columnas geocode y granularidad por no considerarlas útiles.
coordenadas.drop(["geocode", "granularidad"], axis = 1, inplace = True)

In [None]:
# Compruebo que he hecho bien los cambios.
coordenadas

In [None]:
# Compruebo la cantidad de valores en la columna etiqueta.
coordenadas["etiqueta"].value_counts()

In [None]:
# Reemplazo los nombres de algunos paises interesantes para que sean iguales a los del siguiente dataset y no me den problemas.
coordenadas["etiqueta"].replace(
   to_replace= ["Los Estados Unidos de América", 
                "La República Popular Democrática de Corea", 
                "la República de Corea",
                "Rumania",
                "Nueva Zelandia",
                "La Federación de Rusia",
                "República Bolivariana de Venezuela",
                "República Árabe Siria",
                "Los Emiratos Árabes Unidos",
                "Iraq",
                "República islámica de Irán",
                "La República Democrática del Congo",
                "Malí",
                "La República Centroafricana",
                "La República Democrática del Congo",
                "Rwanda",
                "Sierra leona",
                "Kenya",
                "Botswana"],
    value= ["Estados Unidos de América",    
            "Corea del Norte", 
            "Corea del Sur",
            "Rumanía",
            "Nueva Zelanda",
            "Rusia",
            "Venezuela",
            "Siria",
            "Emiratos Árabes Unidos",
            "Irak",
            "Irán",
            "República Democrática del Congo",
            "Mali",
            "República Centroafricana",
            "República Democrática del Congo",
            "Ruanda",
            "Sierra Leona",
            "Kenia",
            "Botsuana"],
    inplace=True
)

In [None]:
# Cambio el índice del dataset para poder hacer un join.
coordenadas.set_index("etiqueta", inplace= True)

## Traducción.

In [None]:
# Obtengo una vista previa del dataset traduccion.
traduccion

In [None]:
# Quiero saber el nombre de las columnas porque creo que tienen espacios.
traduccion.columns

In [None]:
# Elimino columnas que no me van a ser necesarias para este proyecto.
traduccion.drop([" nom", " iso2", " phone_code"], axis = 1, inplace = True)

In [None]:
# Compruebo que he hecho bien la eliminación.
traduccion

In [None]:
# Compruebo si tiene nulos.
traduccion.isnull().sum()

## Paises-Traducción

In [None]:
# Uno el dataframe paises con traducidos. Para ello uso la columna Country Code del primero con la columna iso3 del segundo.
paises_traducidos = pd.merge(paises, traduccion, left_on = "Country Code", right_on = " iso3", how = "left")

In [None]:
# Obtengo una vista previa.
paises_traducidos

In [None]:
# Compruebo si hay valores nulos debido a la ausencia de algún pais en alguno de los dataset.
paises_traducidos.isnull().sum()

In [None]:
# Compruebo cuales son los paises no coincidentes y por tanto con nulos.
paises_traducidos[paises_traducidos["nombre"].isnull()]["Country Name"].unique()


In [None]:
# Elimino la columna name por tener los valores repetidos.
paises_traducidos.drop([" name"], axis = 1, inplace = True)


In [None]:
# Elimino los paises con valores nulos por ser además poco importantes.
paises_traducidos.drop(paises_traducidos[paises_traducidos["Country Name"].isin(["Channel Islands", "Curacao", "Kosovo", "Sint Maarten (Dutch part)"])].index, axis = 0, inplace = True)

In [None]:
# Compruebo que he hecho bien la eliminación.
paises_traducidos.isnull().sum()

In [None]:
# Compruebo la cantidad de valores en la columna nombre.
paises_traducidos["nombre"].value_counts()

In [None]:
# Cambio el índice del dataset para poder hacer un join con más comodidad.
paises_traducidos.set_index("nombre", inplace= True)

## Paises traducidos-Coordenadas

In [None]:
# Uno el dataset paises_traducidos con el dataset coordenadas.
paises_coordenadas = paises_traducidos.join(coordenadas)

In [None]:
# Obtengo una vista previa del dataset.
paises_coordenadas

In [None]:
# Compruebo los valores nulos que se hayan podido producir por falta de coincidencia en los dataset.
paises_coordenadas.isnull().sum()

In [None]:
# Compruebo cuales son los paises con valores de coordenadas nulos y sopeso su importancia.
paises_coordenadas[paises_coordenadas["longitud"].isnull()]["Country Name"].value_counts().head(60)

In [None]:
# Elimino paises con valores nulos.
paises_coordenadas.drop(paises_coordenadas[paises_coordenadas["longitud"].isnull()].index, axis = 0, inplace = True)

In [None]:
# Compruebo que he hecho bien la eliminación.
paises_coordenadas

In [None]:
# Elimino columnas que ya no me son útiles.
paises_coordenadas.drop(["Country Name", " iso3"], axis = 1, inplace = True)

In [None]:
# Compruebo que he hecho bien la eliminación.
paises_coordenadas

In [None]:
# Introduzco un nuevo índice pero sin eliminar el anterior.
paises_coordenadas.reset_index(drop = False, inplace=True)

In [None]:
# Compruebo que se ha hecho bien.
paises_coordenadas

In [None]:
# Genero una copia del dataframe que incluya unicamente los datos más recientes de la población de los paises.
paises_actual = paises_coordenadas[paises_coordenadas["Year"] == 2018][["index", "Year", "Value", "longitud", "latitud"]].copy()

In [None]:
# Introduzco un nuevo índice eliminando el anterior.
paises_actual.reset_index(drop = True, inplace=True)

In [None]:
# Observo el nuevo dataframe.
paises_actual

In [None]:
# Cambio los nombres de las columnas.
paises_actual.rename(columns = {"index": "País",
                            "Year": "Año",
                            "Value": "Población",
                            }, inplace = True)

In [None]:
paises_actual

## Guardo los nuevos dataset.

In [None]:
# Genero tres archivos con los dataset que me van a set útiles.
paises_coordenadas.to_csv("dataset_paises.csv")
paises_actual.to_csv("paises_actual.csv")
# regiones.to_csv("dataset_regiones.csv") -- finalmente he decidido no usar este archivo, por lo que no lo descargaré.
world.to_csv("dataset_mundial.csv")

## Continentes

In [21]:
# Importo librerías necesarias para hacer web scrapping.
from bs4 import BeautifulSoup
import requests

In [22]:
# Enlazo la dirección de donde obtendré la información.
enlace = "https://es.wikipedia.org/wiki/Población_mundial"
# Convierto la web en texto.
texto_web = requests.get(enlace).text 
print(texto_web)

<!DOCTYPE html>
<html class="client-nojs" lang="es" dir="ltr">
<head>
<meta charset="UTF-8"/>
<title>Población mundial - Wikipedia, la enciclopedia libre</title>
<script>document.documentElement.className="client-js";(function(){var cookie=document.cookie.match(/(?:^|; )eswikimwclientprefs=([^;]+)/);if(cookie){var featureName=cookie[1];document.documentElement.className=document.documentElement.className.replace(featureName+'-enabled',featureName+'-disabled');}}());RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","enero","febrero","marzo","abril","mayo","junio","julio","agosto","septiembre","octubre","noviembre","diciembre"],"wgRequestId":"eb94a502-d610-4c8a-845c-9878cdb88806","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Población_mundial","wgTitle":"Población mundial","wgCurRevisionId":149167416,"wgRevisionId":14

In [23]:
# Doy formato al texto.
sopa = BeautifulSoup(texto_web, 'lxml') 
print(sopa)

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="es">
<head>
<meta charset="utf-8"/>
<title>Población mundial - Wikipedia, la enciclopedia libre</title>
<script>document.documentElement.className="client-js";(function(){var cookie=document.cookie.match(/(?:^|; )eswikimwclientprefs=([^;]+)/);if(cookie){var featureName=cookie[1];document.documentElement.className=document.documentElement.className.replace(featureName+'-enabled',featureName+'-disabled');}}());RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","enero","febrero","marzo","abril","mayo","junio","julio","agosto","septiembre","octubre","noviembre","diciembre"],"wgRequestId":"eb94a502-d610-4c8a-845c-9878cdb88806","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Población_mundial","wgTitle":"Población mundial","wgCurRevisionId":149167416,"wgRevisionId":14

In [24]:
# "Embellezco" el resultado hasta ahora.
print(sopa.prettify())

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="es">
 <head>
  <meta charset="utf-8"/>
  <title>
   Población mundial - Wikipedia, la enciclopedia libre
  </title>
  <script>
   document.documentElement.className="client-js";(function(){var cookie=document.cookie.match(/(?:^|; )eswikimwclientprefs=([^;]+)/);if(cookie){var featureName=cookie[1];document.documentElement.className=document.documentElement.className.replace(featureName+'-enabled',featureName+'-disabled');}}());RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","enero","febrero","marzo","abril","mayo","junio","julio","agosto","septiembre","octubre","noviembre","diciembre"],"wgRequestId":"eb94a502-d610-4c8a-845c-9878cdb88806","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Población_mundial","wgTitle":"Población mundial","wgCurRevisionId":149167416

In [25]:
# Encuentro las tablas de la web, ya que voy a utilizar una de ellas.
tablas = sopa.find_all('table')
print(tablas)

[<table class="wikitable">
<tbody><tr>
<th>Edad
</th>
<th>Hombres
</th>
<th>Mujeres
</th>
<th>Fuente
</th></tr>
<tr>
<td>100+ años
</td>
<td>159 920
</td>
<td>574 932
</td>
<td><sup class="reference separada" id="cite_ref-:5_10-0"><a href="#cite_note-:5-10"><span class="corchete-llamada">[</span>10<span class="corchete-llamada">]</span></a></sup>​
</td></tr>
<tr>
<td>95 - 99 años
</td>
<td>1 659 265
</td>
<td>4 133 829
</td>
<td><sup class="reference separada" id="cite_ref-:5_10-1"><a href="#cite_note-:5-10"><span class="corchete-llamada">[</span>10<span class="corchete-llamada">]</span></a></sup>​
</td></tr>
<tr>
<td>90 - 94 años
</td>
<td>6 540 753
</td>
<td>12 857 020
</td>
<td><sup class="reference separada" id="cite_ref-:5_10-2"><a href="#cite_note-:5-10"><span class="corchete-llamada">[</span>10<span class="corchete-llamada">]</span></a></sup>​
</td></tr>
<tr>
<td>85 - 89 años
</td>
<td>18 255 270
</td>
<td>29 634 339
</td>
<td><sup class="reference separada" id="cite_ref-:5_10-3

In [26]:
# Inspecciono directamente en la web la clase de la tabla que necesito y busco las que tienen esa clase.
tablas_seleccion = sopa.find_all('table', class_= 'wikitable sortable')
print(tablas_seleccion)

[<table border="1" class="wikitable sortable">
<tbody><tr>
<th>Continente
</th>
<th>Población<br/>(2023)<sup class="reference separada" id="cite_ref-12"><a href="#cite_note-12"><span class="corchete-llamada">[</span>12<span class="corchete-llamada">]</span></a></sup>​
</th>
<th>País más poblado<br/>(2023)<sup class="reference separada" id="cite_ref-:6_9-1"><a href="#cite_note-:6-9"><span class="corchete-llamada">[</span>9<span class="corchete-llamada">]</span></a></sup>​
</th>
<th>Ciudad más poblada<br/>(2020)
</th></tr>
<tr>
<td>Asia
</td>
<td style="text-align:right">4 753 500 631
</td>
<td><span class="flagicon"><a class="image" href="/wiki/Archivo:Flag_of_the_People%27s_Republic_of_China.svg" title="Bandera de la República Popular China"><img alt="Bandera de la República Popular China" class="thumbborder" data-file-height="600" data-file-width="900" decoding="async" height="13" src="//upload.wikimedia.org/wikipedia/commons/thumb/f/fa/Flag_of_the_People%27s_Republic_of_China.svg/20p

In [27]:
# Selecciono la tabla que me va a ser útil.
tabla_continentes = tablas_seleccion[0]
print(tabla_continentes)

<table border="1" class="wikitable sortable">
<tbody><tr>
<th>Continente
</th>
<th>Población<br/>(2023)<sup class="reference separada" id="cite_ref-12"><a href="#cite_note-12"><span class="corchete-llamada">[</span>12<span class="corchete-llamada">]</span></a></sup>​
</th>
<th>País más poblado<br/>(2023)<sup class="reference separada" id="cite_ref-:6_9-1"><a href="#cite_note-:6-9"><span class="corchete-llamada">[</span>9<span class="corchete-llamada">]</span></a></sup>​
</th>
<th>Ciudad más poblada<br/>(2020)
</th></tr>
<tr>
<td>Asia
</td>
<td style="text-align:right">4 753 500 631
</td>
<td><span class="flagicon"><a class="image" href="/wiki/Archivo:Flag_of_the_People%27s_Republic_of_China.svg" title="Bandera de la República Popular China"><img alt="Bandera de la República Popular China" class="thumbborder" data-file-height="600" data-file-width="900" decoding="async" height="13" src="//upload.wikimedia.org/wikipedia/commons/thumb/f/fa/Flag_of_the_People%27s_Republic_of_China.svg/20px

In [28]:
# Transformo la tabla en una estructura dataframe.
dataframe_continentes = pd.read_html(str(tabla_continentes))[0] 
print(dataframe_continentes)

  Continente             Población (2023)[12]​   País más poblado (2023)[9]​  \
0       Asia                     4 753 500 631         China (1 428 627 663)   
1     África                     1 440 353 360         Nigeria (223 804 632)   
2    América                     1 046 571 635  Estados Unidos (335 136 000)   
3     Europa                       747 089 798           Rusia (142 952 112)   
4    Oceanía                        44 284 912        Australia (26 194 302)   
5  Antártida  4490 (no permanente, varía)[15]​                 N.D.[nota 1]​   

            Ciudad más poblada (2020)  
0                  Tokio (37 400 000)  
1         El Cairo (21 323 000).[13]​  
2  Ciudad de México (30 077 000)[14]​  
3                  Moscú (18 940 000)  
4                  Sídney (6 550 000)  
5                                N.D.  


In [29]:
# Compruebo que he hecho bien el proceso.
dataframe_continentes

Unnamed: 0,Continente,Población (2023)[12]​,País más poblado (2023)[9]​,Ciudad más poblada (2020)
0,Asia,4 753 500 631,China (1 428 627 663),Tokio (37 400 000)
1,África,1 440 353 360,Nigeria (223 804 632),El Cairo (21 323 000).[13]​
2,América,1 046 571 635,Estados Unidos (335 136 000),Ciudad de México (30 077 000)[14]​
3,Europa,747 089 798,Rusia (142 952 112),Moscú (18 940 000)
4,Oceanía,44 284 912,Australia (26 194 302),Sídney (6 550 000)
5,Antártida,"4490 (no permanente, varía)[15]​",N.D.[nota 1]​,N.D.


In [34]:
# Cambio el nombre de las columnas para hacerlas más manejables.
dataframe_continentes.rename(columns = {"Continente": "Continente",
                                        "Población (2023)[12]​": "Población",
                                        "País más poblado (2023)[9]​": "País más poblado",
                                        "Ciudad más poblada (2020)": "Ciudad más poblada"},
                                        inplace = True)

In [36]:
# De los valores de la columna Población elimino los caracteres no numéricos.
dataframe_continentes["Población"] = dataframe_continentes["Población"].str.replace("[^\d.]","")

  dataframe_continentes["Población"] = dataframe_continentes["Población"].str.replace("[^\d.]","")


In [38]:
# Obtengo información del dataframe.
dataframe_continentes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Continente          6 non-null      object
 1   Población           6 non-null      object
 2   País más poblado    6 non-null      object
 3   Ciudad más poblada  6 non-null      object
dtypes: object(4)
memory usage: 320.0+ bytes


In [39]:
# Transformo la columna Población en tipo numérico.
dataframe_continentes["Población"] = dataframe_continentes["Población"].astype("int")

In [40]:
# Compruebo que he hecho bien el cambio.
dataframe_continentes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Continente          6 non-null      object
 1   Población           6 non-null      int64 
 2   País más poblado    6 non-null      object
 3   Ciudad más poblada  6 non-null      object
dtypes: int64(1), object(3)
memory usage: 320.0+ bytes


In [42]:
# Guardo el dataframe resultante como un archivo csv.
dataframe_continentes.to_csv("dataframe_continentes.csv")