### Importo librerías.

In [1]:
# Importo librerías necesarias para el preprocesamiento.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

### Leo los datasets con los que voy a trabajar en este notebook.

In [2]:
# Leo el dataset sobre la población por ciudades.
df_ciudades = pd.read_csv("/Users/angelpastorsanchez/Documents/VSCode/SAMPLEREPO/w_datasets/poblacion/preprocesamiento/datasets/población_ciudades.csv")

## Población ciudades.

In [3]:
# Obtengo una vista previa del dataset.
df_ciudades

Unnamed: 0,Country or Area,Year,Area,Sex,City,City type,Record Type,Reliability,Source Year,Value,Value Footnotes
0,Åland Islands,2013,Total,Both Sexes,MARIEHAMN,City proper,Estimate - de jure,"Final figure, complete",2014,11370,
1,Åland Islands,2012,Total,Both Sexes,MARIEHAMN,City proper,Estimate - de jure,"Final figure, complete",2013,11304.5,
2,Åland Islands,2011,Total,Both Sexes,MARIEHAMN,City proper,Estimate - de jure,"Final figure, complete",2012,11226.5,
3,Åland Islands,2010,Total,Both Sexes,MARIEHAMN,City proper,Estimate - de jure,"Final figure, complete",2011,11156.5,
4,Åland Islands,2009,Total,Both Sexes,MARIEHAMN,City proper,Estimate - de jure,"Final figure, complete",2009,11064,
...,...,...,...,...,...,...,...,...,...,...,...
17218,159,"Included in urban agglomeration of Oxnard, CA.",,,,,,,,,
17219,160,"Included in urban agglomeration of San Jose, CA.",,,,,,,,,
17220,161,"Included in urban agglomeration of Portland, O...",,,,,,,,,
17221,162,Included in urban agglomeration of Salt Lake C...,,,,,,,,,


In [4]:
# Compruebo valores nulos. Hay varias columnas que tienen los mismos valores nulos.
df_ciudades.isnull().sum()

Country or Area        0
Year                   0
Area                 163
Sex                  163
City                 163
City type            163
Record Type          163
Reliability          163
Source Year          163
Value                163
Value Footnotes    10628
dtype: int64

In [5]:
# Compruebo los paises del dataset. Son muchos y los últimos aparentan ser solo números.
df_ciudades["Country or Area"].value_counts()

Russian Federation          2031
United States of America    2013
Japan                       1202
India                        662
China                        656
                            ... 
31                             1
32                             1
33                             1
34                             1
163                            1
Name: Country or Area, Length: 372, dtype: int64

In [6]:
# Compruebo la cantidad de valores de la columna Area. Solo hay dos y uno de ellos solo está representado una vez.
df_ciudades["Area"].value_counts()

Total      17059
Proper"        1
Name: Area, dtype: int64

In [7]:
# Busco los datos del valor Proper" en el dataset.
df_ciudades[df_ciudades["Area"] == 'Proper"']

Unnamed: 0,Country or Area,Year,Area,Sex,City,City type,Record Type,Reliability,Source Year,Value,Value Footnotes
17072,13,Locations are generally based on Statistical D...,"Proper""",usually,based,on,the,city inner,Statistical,Local,"Area"""


In [8]:
# Compruebo los valores de la columna Sex. Ocurre como en Area.
df_ciudades["Sex"].value_counts()

Both Sexes    17059
usually           1
Name: Sex, dtype: int64

In [9]:
# Compruebo los valores de la columna City type.
df_ciudades["City type"].value_counts()

City proper            13534
Urban agglomeration     3525
on                         1
Name: City type, dtype: int64

In [10]:
# Compruebo los valores de la columna Record Type.
df_ciudades["Record Type"].value_counts()

Estimate - de jure                         8651
Census - de jure - complete tabulation     5102
Census - de facto - complete tabulation    2124
Estimate - de facto                         960
Sample survey - de jure                      93
Census - de jure - sample tabulation         72
Sample survey - de facto                     52
Record type not defined/applicable            5
the                                           1
Name: Record Type, dtype: int64

In [11]:
# Compruebo los valores de la columna Realiability.
df_ciudades["Reliability"].value_counts()

Final figure, complete    16639
Provisional figure          416
Other estimate                4
city inner                    1
Name: Reliability, dtype: int64

In [12]:
# Previo a este paso, viendo que habia valores raros, he decidido visualizar el dataframe. 
# Al hacerlo he descubierto que a partir de cierta fila empieza una sección del dataset en 
# la que se incluyen una serie de anotaciones sobre los datos. He decidido crear un dataset 
# nuevo en el que mantener unicamente las notas, aunque no creo que las use.
notas_al_pie = df_ciudades[df_ciudades.index > 17058].copy()

In [13]:
# Echo un ojo al nuevo dataset.
notas_al_pie

Unnamed: 0,Country or Area,Year,Area,Sex,City,City type,Record Type,Reliability,Source Year,Value,Value Footnotes
17059,footnoteSeqID,Footnote,,,,,,,,,
17060,1,Including armed forces stationed in the area.,,,,,,,,,
17061,2,Data refer to projections based on the 2001 Po...,,,,,,,,,
17062,3,The urban agglomeration of Buenos Aires includ...,,,,,,,,,
17063,4,The urban agglomeration of Tucumán-Tafí Viejo ...,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...
17218,159,"Included in urban agglomeration of Oxnard, CA.",,,,,,,,,
17219,160,"Included in urban agglomeration of San Jose, CA.",,,,,,,,,
17220,161,"Included in urban agglomeration of Portland, O...",,,,,,,,,
17221,162,Included in urban agglomeration of Salt Lake C...,,,,,,,,,


In [14]:
# He creado otro dataset nuevo en el que mantener solo la información pertinente.
ciudades_global = df_ciudades[df_ciudades.index < 17059].copy()

In [15]:
# Echo un ojo al nuevo dataset.
ciudades_global

Unnamed: 0,Country or Area,Year,Area,Sex,City,City type,Record Type,Reliability,Source Year,Value,Value Footnotes
0,Åland Islands,2013,Total,Both Sexes,MARIEHAMN,City proper,Estimate - de jure,"Final figure, complete",2014,11370,
1,Åland Islands,2012,Total,Both Sexes,MARIEHAMN,City proper,Estimate - de jure,"Final figure, complete",2013,11304.5,
2,Åland Islands,2011,Total,Both Sexes,MARIEHAMN,City proper,Estimate - de jure,"Final figure, complete",2012,11226.5,
3,Åland Islands,2010,Total,Both Sexes,MARIEHAMN,City proper,Estimate - de jure,"Final figure, complete",2011,11156.5,
4,Åland Islands,2009,Total,Both Sexes,MARIEHAMN,City proper,Estimate - de jure,"Final figure, complete",2009,11064,
...,...,...,...,...,...,...,...,...,...,...,...
17054,Zimbabwe,1992,Total,Both Sexes,Bulawayo,City proper,Census - de facto - complete tabulation,"Final figure, complete",1992,621742,
17055,Zimbabwe,1992,Total,Both Sexes,Chitungwiza,City proper,Census - de facto - complete tabulation,"Final figure, complete",1992,274912,
17056,Zimbabwe,1992,Total,Both Sexes,Gweru,City proper,Census - de facto - complete tabulation,"Final figure, complete",1992,128037,
17057,Zimbabwe,1992,Total,Both Sexes,HARARE,City proper,Census - de facto - complete tabulation,"Final figure, complete",1992,1189103,


In [16]:
# Busco los valores nulos y compruebo que los que aparecieron antes se debían al comportamiento de las notas.
ciudades_global.isnull().sum()

Country or Area        0
Year                   0
Area                   0
Sex                    0
City                   0
City type              0
Record Type            0
Reliability            0
Source Year            0
Value                  0
Value Footnotes    10465
dtype: int64

In [17]:
# Elimino las columnas que considero que no me serán necesarias por tener un solo valor diferente.
ciudades_global.drop(["Area", "Sex", "Value Footnotes"], axis = 1, inplace = True)

In [18]:
# Compruebo que he hecho bien la eliminación de las columnas.
ciudades_global

Unnamed: 0,Country or Area,Year,City,City type,Record Type,Reliability,Source Year,Value
0,Åland Islands,2013,MARIEHAMN,City proper,Estimate - de jure,"Final figure, complete",2014,11370
1,Åland Islands,2012,MARIEHAMN,City proper,Estimate - de jure,"Final figure, complete",2013,11304.5
2,Åland Islands,2011,MARIEHAMN,City proper,Estimate - de jure,"Final figure, complete",2012,11226.5
3,Åland Islands,2010,MARIEHAMN,City proper,Estimate - de jure,"Final figure, complete",2011,11156.5
4,Åland Islands,2009,MARIEHAMN,City proper,Estimate - de jure,"Final figure, complete",2009,11064
...,...,...,...,...,...,...,...,...
17054,Zimbabwe,1992,Bulawayo,City proper,Census - de facto - complete tabulation,"Final figure, complete",1992,621742
17055,Zimbabwe,1992,Chitungwiza,City proper,Census - de facto - complete tabulation,"Final figure, complete",1992,274912
17056,Zimbabwe,1992,Gweru,City proper,Census - de facto - complete tabulation,"Final figure, complete",1992,128037
17057,Zimbabwe,1992,HARARE,City proper,Census - de facto - complete tabulation,"Final figure, complete",1992,1189103


In [19]:
# Compruebo los tipos de datos.
ciudades_global.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 17059 entries, 0 to 17058
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Country or Area  17059 non-null  object
 1   Year             17059 non-null  object
 2   City             17059 non-null  object
 3   City type        17059 non-null  object
 4   Record Type      17059 non-null  object
 5   Reliability      17059 non-null  object
 6   Source Year      17059 non-null  object
 7   Value            17059 non-null  object
dtypes: object(8)
memory usage: 1.2+ MB


In [20]:
# Cambio el tipo de dato de algunas columnas.
# La columna Year la transformo a numérica.
ciudades_global["Year"] = pd.to_numeric(ciudades_global["Year"])
# La columna Source Year la transformo a numérica.
ciudades_global["Source Year"] = pd.to_numeric(ciudades_global["Source Year"])
# La columna value la transformo a numérica.
ciudades_global["Value"] = pd.to_numeric(ciudades_global["Value"])

In [21]:
# Redondeo los valores de la columna Value ya que un ciudadano solo puede ser un número entero.
ciudades_global["Value"].round()

0          11370.0
1          11304.0
2          11226.0
3          11156.0
4          11064.0
           ...    
17054     621742.0
17055     274912.0
17056     128037.0
17057    1189103.0
17058     131367.0
Name: Value, Length: 17059, dtype: float64

In [22]:
# Paso el la columna Value de decimal a entero.
ciudades_global["Value"] = ciudades_global["Value"].astype("int")

In [23]:
# Compruebo que he hecho bien el cambio.
ciudades_global.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 17059 entries, 0 to 17058
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Country or Area  17059 non-null  object
 1   Year             17059 non-null  int64 
 2   City             17059 non-null  object
 3   City type        17059 non-null  object
 4   Record Type      17059 non-null  object
 5   Reliability      17059 non-null  object
 6   Source Year      17059 non-null  int64 
 7   Value            17059 non-null  int64 
dtypes: int64(3), object(5)
memory usage: 1.2+ MB


In [24]:
# Obtengo una nueva vista previa del dataframe.
ciudades_global

Unnamed: 0,Country or Area,Year,City,City type,Record Type,Reliability,Source Year,Value
0,Åland Islands,2013,MARIEHAMN,City proper,Estimate - de jure,"Final figure, complete",2014,11370
1,Åland Islands,2012,MARIEHAMN,City proper,Estimate - de jure,"Final figure, complete",2013,11304
2,Åland Islands,2011,MARIEHAMN,City proper,Estimate - de jure,"Final figure, complete",2012,11226
3,Åland Islands,2010,MARIEHAMN,City proper,Estimate - de jure,"Final figure, complete",2011,11156
4,Åland Islands,2009,MARIEHAMN,City proper,Estimate - de jure,"Final figure, complete",2009,11064
...,...,...,...,...,...,...,...,...
17054,Zimbabwe,1992,Bulawayo,City proper,Census - de facto - complete tabulation,"Final figure, complete",1992,621742
17055,Zimbabwe,1992,Chitungwiza,City proper,Census - de facto - complete tabulation,"Final figure, complete",1992,274912
17056,Zimbabwe,1992,Gweru,City proper,Census - de facto - complete tabulation,"Final figure, complete",1992,128037
17057,Zimbabwe,1992,HARARE,City proper,Census - de facto - complete tabulation,"Final figure, complete",1992,1189103


In [25]:
# Quiero trabajar solo con las poblaciones de las ciudades, despreciando la población del área urbana.
ciudades_global = ciudades_global[ciudades_global["City type"] == "City proper"].copy()

In [26]:
# Elimino las columnas que considero que no me serán útiles.
ciudades_global.drop(["City type", "Record Type", "Reliability", "Source Year"], axis = 1, inplace = True)

In [27]:
# Cambio el nombre de las columnas.
ciudades_global.rename(columns = {"Country or Area": "País",
                                "Year": "Año",
                                "City": "Ciudad",
                                "Value": "Valor"}, 
                                inplace = True)

In [28]:
# Cambio el índice del dataframe.
ciudades_global.reset_index(drop = True, inplace = True)

In [29]:
# Creo un nuevo dataset en el que incluyo las ciudades en el año más reciente del que tengo datos. Además, selecciono solo las columnas necesarias.
ciudades_global_recientes = ciudades_global[ciudades_global["Año"] == 2012][["País", "Año", "Ciudad", "Valor"]].copy()

In [30]:
# Cambio el índice del dataframe.
ciudades_global_recientes.reset_index(drop = True, inplace = True)

In [31]:
# Quiero saber las ciudades únicas que hay en España.
ciudades_global[ciudades_global["País"] == "Spain"]["Ciudad"].unique()

array(['Albacete', 'Alcalá de Henares', 'Alcobendas', 'Alcorcón',
       'Algeciras', 'Alicante', 'Almería', 'Badajoz', 'Badalona',
       'Baracaldo', 'Barcelona', 'Bilbao', 'Burgos', 'Cádiz', 'Cartagena',
       'Castellón de la Plana', 'Córdoba', 'A Coruña',
       'Donostia - San Sebastián', 'Dos Hermanas', 'Elche', 'Fuenlabrada',
       'Getafe', 'Gijón', 'Granada', 'Hospitalet de Llobregat', 'Huelva',
       'Jaén', 'Jérez de la Frontera', 'Leganés', 'León', 'Lleida',
       'Logroño', 'MADRID', 'Málaga', 'Marbella', 'Mataró', 'Móstoles',
       'Murcia', 'Ourense', 'Oviedo', 'Palma de Mallorca',
       'Palmas de Gran Canaria', 'Pamplona', 'Parla', 'Reus', 'Sabadell',
       'Salamanca', 'San Cristóbal de La Laguna',
       'Santa Coloma de Gramanet', 'Santa Cruz de Tenerife', 'Santander',
       'Sevilla', 'Tarragona', 'Telde', 'Terrassa', 'Torrejón de Ardoz',
       'Torrevieja', 'Valencia', 'Valladolid', 'Vigo', 'Vitoria-Gasteiz',
       'Zaragoza', 'Palma', 'Las Palmas de Gr

In [32]:
# Creo un dataset que incluya sola las ciudades españolas y solo la población de la ciudad.
ciudades_españa = ciudades_global.loc[(ciudades_global["País"] == "Spain")].copy()

In [33]:
# Elimina la columna País por considerarla redundante.
ciudades_españa.drop(["País"], axis = 1, inplace = True)

In [34]:
# Cambio el índice.
ciudades_españa.reset_index(drop = True, inplace = True)

In [35]:
# Creo un dataset solo con las ciudades españolas, en su año más reciente del que dispongo de información, y selecciono las columnas que considero necesarias.
ciudades_españa_recientes = ciudades_españa[ciudades_españa["Año"] == 2012][["Ciudad", "Año", "Valor"]].copy()


In [36]:
# Obtengo una vista previa del dataset.
ciudades_españa_recientes

Unnamed: 0,Ciudad,Año,Valor
0,Albacete,2012,172583
1,Alcalá de Henares,2012,204374
2,Alcobendas,2012,111618
3,Alcorcón,2012,169541
4,Algeciras,2012,115597
...,...,...,...
58,Valencia,2012,794666
59,Valladolid,2012,310608
60,Vigo,2012,296917
61,Vitoria-Gasteiz,2012,241805


In [37]:
# Cambio el índice.
ciudades_españa_recientes.reset_index(drop = True, inplace = True)

## Guardo los nuevos dataset.

In [None]:
# Genero los datasets que utilizaré.
# ciudades_global.to_csv("ciudades_global.csv")
# ciudades_global_recientes.to_csv("ciudades_global_recientes.csv")

# En última instancia encuentro mejor información sobre ciudades a nivel global, por lo 
# hasta aquí solo conservaré la información relativa a las ciudades españolas, que sí considero
# apropiada. La información sobre ciudades globales la procesaré a partir del siguiente paso.

ciudades_españa.to_csv("ciudades_españa.csv")
ciudades_españa_recientes.to_csv("ciudades_españa_recientes.csv")

## Ciudades más pobladas del mundo

In [52]:
# Importo librerías necesarias para hacer web scrapping.
from bs4 import BeautifulSoup
import requests

In [53]:
# Enlazo la dirección de donde obtendré la información.
enlace = "https://es.wikipedia.org/wiki/Anexo:Aglomeraciones_urbanas_más_pobladas_del_mundo"
# Convierto la web en texto.
texto_web = requests.get(enlace).text 
print(texto_web)

<!DOCTYPE html>
<html class="client-nojs" lang="es" dir="ltr">
<head>
<meta charset="UTF-8"/>
<title>Anexo:Aglomeraciones urbanas más pobladas del mundo - Wikipedia, la enciclopedia libre</title>
<script>document.documentElement.className="client-js";(function(){var cookie=document.cookie.match(/(?:^|; )eswikimwclientprefs=([^;]+)/);if(cookie){var featureName=cookie[1];document.documentElement.className=document.documentElement.className.replace(featureName+'-enabled',featureName+'-disabled');}}());RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","enero","febrero","marzo","abril","mayo","junio","julio","agosto","septiembre","octubre","noviembre","diciembre"],"wgRequestId":"df521308-fc2a-4814-bb8d-106d302ab6f1","wgCSPNonce":false,"wgCanonicalNamespace":"Anexo","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":104,"wgPageName":"Anexo:Aglomeraciones_urbanas_más_pobladas_del_mundo",

In [54]:
# Doy formato al texto.
sopa = BeautifulSoup(texto_web, 'lxml') 
print(sopa)

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="es">
<head>
<meta charset="utf-8"/>
<title>Anexo:Aglomeraciones urbanas más pobladas del mundo - Wikipedia, la enciclopedia libre</title>
<script>document.documentElement.className="client-js";(function(){var cookie=document.cookie.match(/(?:^|; )eswikimwclientprefs=([^;]+)/);if(cookie){var featureName=cookie[1];document.documentElement.className=document.documentElement.className.replace(featureName+'-enabled',featureName+'-disabled');}}());RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","enero","febrero","marzo","abril","mayo","junio","julio","agosto","septiembre","octubre","noviembre","diciembre"],"wgRequestId":"df521308-fc2a-4814-bb8d-106d302ab6f1","wgCSPNonce":false,"wgCanonicalNamespace":"Anexo","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":104,"wgPageName":"Anexo:Aglomeraciones_urbanas_más_pobladas_del_mundo",

In [55]:
# "Embellezco" el resultado hasta ahora.
print(sopa.prettify())

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="es">
 <head>
  <meta charset="utf-8"/>
  <title>
   Anexo:Aglomeraciones urbanas más pobladas del mundo - Wikipedia, la enciclopedia libre
  </title>
  <script>
   document.documentElement.className="client-js";(function(){var cookie=document.cookie.match(/(?:^|; )eswikimwclientprefs=([^;]+)/);if(cookie){var featureName=cookie[1];document.documentElement.className=document.documentElement.className.replace(featureName+'-enabled',featureName+'-disabled');}}());RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","enero","febrero","marzo","abril","mayo","junio","julio","agosto","septiembre","octubre","noviembre","diciembre"],"wgRequestId":"df521308-fc2a-4814-bb8d-106d302ab6f1","wgCSPNonce":false,"wgCanonicalNamespace":"Anexo","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":104,"wgPageName":"Anexo:Aglomeraciones_urbanas_más_po

In [56]:
# Encuentro las tablas de la web, ya que voy a utilizar una de ellas.
tablas = sopa.find_all('table')
print(tablas)

[<table border="1" cellpadding="2" cellspacing="0" class="wikitable sortable">
<tbody><tr>
<th style="background:Gainsboro;" width="0"><small>Posición</small>
</th>
<th style="background:Gainsboro;" width="0"><small>Ciudad</small>
</th>
<th style="background:Gainsboro;" width="0"><small>País</small>
</th>
<th style="background:Gainsboro;" width="0"><small>Población según Citypopulation <sup>(2021)</sup><sup class="reference separada" id="cite_ref-1"><a href="#cite_note-1"><span class="corchete-llamada">[</span>1<span class="corchete-llamada">]</span></a></sup>​</small>
</th>
<th style="background:Gainsboro;" width="0"><small>Población según ONU<sup>(2018)</sup><sup class="reference separada" id="cite_ref-2"><a href="#cite_note-2"><span class="corchete-llamada">[</span>2<span class="corchete-llamada">]</span></a></sup>​</small>
</th>
<th style="background:Gainsboro;" width="0"><small>Población según Demographia<sup>(2020)</sup><sup class="reference separada" id="cite_ref-3"><a href="#ci

In [57]:
# Inspecciono directamente en la web la clase de la tabla que necesito y busco las que tienen esa clase.
tablas_seleccion = sopa.find_all('table', class_= 'wikitable sortable')
print(tablas_seleccion)

[<table border="1" cellpadding="2" cellspacing="0" class="wikitable sortable">
<tbody><tr>
<th style="background:Gainsboro;" width="0"><small>Posición</small>
</th>
<th style="background:Gainsboro;" width="0"><small>Ciudad</small>
</th>
<th style="background:Gainsboro;" width="0"><small>País</small>
</th>
<th style="background:Gainsboro;" width="0"><small>Población según Citypopulation <sup>(2021)</sup><sup class="reference separada" id="cite_ref-1"><a href="#cite_note-1"><span class="corchete-llamada">[</span>1<span class="corchete-llamada">]</span></a></sup>​</small>
</th>
<th style="background:Gainsboro;" width="0"><small>Población según ONU<sup>(2018)</sup><sup class="reference separada" id="cite_ref-2"><a href="#cite_note-2"><span class="corchete-llamada">[</span>2<span class="corchete-llamada">]</span></a></sup>​</small>
</th>
<th style="background:Gainsboro;" width="0"><small>Población según Demographia<sup>(2020)</sup><sup class="reference separada" id="cite_ref-3"><a href="#ci

In [58]:
# Selecciono la tabla que me va a ser útil.
tabla_ciudades = tablas_seleccion[0]
print(tabla_ciudades)

<table border="1" cellpadding="2" cellspacing="0" class="wikitable sortable">
<tbody><tr>
<th style="background:Gainsboro;" width="0"><small>Posición</small>
</th>
<th style="background:Gainsboro;" width="0"><small>Ciudad</small>
</th>
<th style="background:Gainsboro;" width="0"><small>País</small>
</th>
<th style="background:Gainsboro;" width="0"><small>Población según Citypopulation <sup>(2021)</sup><sup class="reference separada" id="cite_ref-1"><a href="#cite_note-1"><span class="corchete-llamada">[</span>1<span class="corchete-llamada">]</span></a></sup>​</small>
</th>
<th style="background:Gainsboro;" width="0"><small>Población según ONU<sup>(2018)</sup><sup class="reference separada" id="cite_ref-2"><a href="#cite_note-2"><span class="corchete-llamada">[</span>2<span class="corchete-llamada">]</span></a></sup>​</small>
</th>
<th style="background:Gainsboro;" width="0"><small>Población según Demographia<sup>(2020)</sup><sup class="reference separada" id="cite_ref-3"><a href="#cit

In [59]:
# Transformo la tabla en una estructura dataframe.
dataframe_ciudades = pd.read_html(str(tabla_ciudades))[0] 
print(dataframe_ciudades)

    Posición              Ciudad            País  \
0          1               Tokio           Japón   
1          2              Cantón           China   
2          3            Shanghái           China   
3          4             Yakarta       Indonesia   
4          5               Delhi           India   
..       ...                 ...             ...   
95        96  Colonia/Düsseldorf        Alemania   
96        97           Melbourne       Australia   
97        98               Hefei           China   
98        99                Yeda  Arabia Saudita   
99       100           Zhengzhou           China   

   Población según Citypopulation (2021)[1]​ Población según ONU(2018)[2]​  \
0                                 49 400 000                    37 468 000   
1                                 46 700 000                    12 638 000   
2                                 33 600 000                    25 582 000   
3                                 31 300 000                   

In [60]:
# Compruebo que he hecho bien el proceso.
dataframe_ciudades

Unnamed: 0,Posición,Ciudad,País,Población según Citypopulation (2021)[1]​,Población según ONU(2018)[2]​,Población según Demographia(2020)[3]​,Población según último censo oficial,Fecha y fuente del censo
0,1,Tokio,Japón,49 400 000,37 468 000,37 977 000,40 078 055,2015
1,2,Cantón,China,46 700 000,12 638 000,20 902 000,39 264 023,2015
2,3,Shanghái,China,33 600 000,25 582 000,22 120 000,30 435 400,2010
3,4,Yakarta,Indonesia,31 300 000,10 517 000,34 540 000,17 720 485,2010
4,5,Delhi,India,30 300 000,28 514 000,29 617 000,16 349 831,2011
...,...,...,...,...,...,...,...,...
95,96,Colonia/Düsseldorf,Alemania,5 000 000,1 096 000,---,4 691 900,2011
96,97,Melbourne,Australia,4 975 000,4 771 000,4 539 000,4 196 201,2016
97,98,Hefei,China,4 950 000,3 980 000,4 628 000,3 098 727,2010
98,99,Yeda,Arabia Saudita,4 950 000,4 433 000,4 366 000,3 430 697,2010


In [61]:
# Obtengo información de la tabla.
dataframe_ciudades.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 8 columns):
 #   Column                                     Non-Null Count  Dtype 
---  ------                                     --------------  ----- 
 0   Posición                                   100 non-null    int64 
 1   Ciudad                                     100 non-null    object
 2   País                                       100 non-null    object
 3   Población según Citypopulation (2021)[1]​  100 non-null    object
 4   Población según ONU(2018)[2]​              100 non-null    object
 5   Población según Demographia(2020)[3]​      100 non-null    object
 6   Población según último censo oficial       100 non-null    object
 7   Fecha y fuente del censo                   99 non-null     object
dtypes: int64(1), object(7)
memory usage: 6.4+ KB


In [63]:
# Cambio el índice.
dataframe_ciudades.set_index("Posición", inplace=True)

In [64]:
# Cambio el nombre de la columna con la que voy a trabajar para hacerlo más sencillo.
dataframe_ciudades.rename(columns = {"Población según Citypopulation (2021)[1]​": "Población"}, inplace = True)

In [66]:
# Elimino espacios en los valores para poder pasarlos a tipo numérico.
dataframe_ciudades["Población"] = dataframe_ciudades["Población"].replace(" ", "", regex = True)

In [68]:
# Paso la columna Población a tipo numérico.
dataframe_ciudades["Población"] = dataframe_ciudades["Población"].astype("int")

In [69]:
# Elimino las columnas que no utilizaré.
dataframe_ciudades.drop(["Población según ONU(2018)[2]​", 
                        "Población según Demographia(2020)[3]​", 
                        "Población según último censo oficial", 
                        "Fecha y fuente del censo"], 
                        axis = 1, inplace = True)

In [70]:
# Observo el dataframe final.
dataframe_ciudades

Unnamed: 0_level_0,Ciudad,País,Población
Posición,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Tokio,Japón,49400000
2,Cantón,China,46700000
3,Shanghái,China,33600000
4,Yakarta,Indonesia,31300000
5,Delhi,India,30300000
...,...,...,...
96,Colonia/Düsseldorf,Alemania,5000000
97,Melbourne,Australia,4975000
98,Hefei,China,4950000
99,Yeda,Arabia Saudita,4950000


In [72]:
# Guardo el dataframe como csv.
dataframe_ciudades.to_csv("dataframe_ciudades.csv")