## Capturando datos desde el Internet

Usa los datos del censo demográfico mundial del 2022 desde la Wikipedia de forma simple guardalos en un archivo para uso posterior

https://es.wikipedia.org/wiki/Poblaci%C3%B3n_mundial

**Nota**: A veces también existen fuentes donde los datos están mejor organizados, actualizados y confiables como la ONU que tiene a su disposición toda una gama de datos

https://population.un.org/wpp/Download/Standard/CSV/

### Web scraping

Cuando la información que deseamos obtener es directo de el contenido de una página (view-source:https://es.wikipedia.org/wiki/Poblaci%C3%B3n_mundial) existe una técnica llamada **Web Scraping** que nos permite capturar el contenido de una página, localizar los datos deseados y extraer los datos.

Hoy usaremos una herramientas de las más sencillas que nos proporciona el **módulo** Pandas (https://pandas.pydata.org/) y nos permite obtener de una manera sencilla el contenido de todas las **tablas** que existan en la página fuente de los datos.

Para ésto vamos a usar la siguiente función:

`pandas.read_html(-link o url de la página fuente-)`

Primero si vamos a usar un módulo hay que instalarlo:

In [1]:
!pip install pandas



In [2]:
import pandas as pd

In [3]:
tablas = pd.read_html("https://es.wikipedia.org/wiki/Poblaci%C3%B3n_mundial")

In [4]:
tablas

[            Edad      Hombres      Mujeres Fuente
 0      100+ años      159 920      574 932  [10]​
 1   95 - 99 años    1 659 265    4 133 829  [10]​
 2   90 - 94 años    6 540 753   12 857 020  [10]​
 3   85 - 89 años   18 255 270   29 634 339  [10]​
 4   80 - 84 años   35 507 345   49 637 312  [10]​
 5   75 - 79 años   61 612 590   77 425 335  [10]​
 6   70 - 74 años  136 100 196  117 184 094  [10]​
 7   65 - 69 años  136 100 196  148 476 362  [10]​
 8   60 - 64 años  170 031 611  177 732 671  [10]​
 9   55 - 59 años  205 504 168  209 450 494  [10]​
 10  50 - 54 años  231 003 893  231 019 046  [10]​
 11  45 - 49 años  241 649 672  238 803 234  [10]​
 12  40 - 44 años  260 601 267  255 225 919  [10]​
 13  35 - 39 años  296 622 046  286 876 745  [10]​
 14  30 - 34 años  307 444 884  292 234 061  [10]​
 15  25 - 29 años  305 427 376  286 973 075  [10]​
 16  20 - 24 años  311 368 047  291 116 561  [10]​
 17  15 - 19 años  324 413 148  303 005 462  [10]​
 18  10 - 14 años  338 152 605 

Vamos a determinar el tipo de dato devuelto por la función de Pandas:

In [5]:
type(tablas)

list

In [9]:
tablas[0]

Unnamed: 0,Edad,Hombres,Mujeres,Fuente
0,100+ años,159 920,574 932,[10]​
1,95 - 99 años,1 659 265,4 133 829,[10]​
2,90 - 94 años,6 540 753,12 857 020,[10]​
3,85 - 89 años,18 255 270,29 634 339,[10]​
4,80 - 84 años,35 507 345,49 637 312,[10]​
5,75 - 79 años,61 612 590,77 425 335,[10]​
6,70 - 74 años,136 100 196,117 184 094,[10]​
7,65 - 69 años,136 100 196,148 476 362,[10]​
8,60 - 64 años,170 031 611,177 732 671,[10]​
9,55 - 59 años,205 504 168,209 450 494,[10]​


In [12]:
poblacion_mundial_por_edades_2023 = tablas[0]

In [13]:
type(poblacion_mundial_por_edades_2023)

pandas.core.frame.DataFrame

In [14]:
poblacion_mundial_por_edades_2023.drop(columns="Fuente")

Unnamed: 0,Edad,Hombres,Mujeres
0,100+ años,159 920,574 932
1,95 - 99 años,1 659 265,4 133 829
2,90 - 94 años,6 540 753,12 857 020
3,85 - 89 años,18 255 270,29 634 339
4,80 - 84 años,35 507 345,49 637 312
5,75 - 79 años,61 612 590,77 425 335
6,70 - 74 años,136 100 196,117 184 094
7,65 - 69 años,136 100 196,148 476 362
8,60 - 64 años,170 031 611,177 732 671
9,55 - 59 años,205 504 168,209 450 494


In [16]:
poblacion_mundial_por_edades_2023.head()

Unnamed: 0,Edad,Hombres,Mujeres,Fuente
0,100+ años,159 920,574 932,[10]​
1,95 - 99 años,1 659 265,4 133 829,[10]​
2,90 - 94 años,6 540 753,12 857 020,[10]​
3,85 - 89 años,18 255 270,29 634 339,[10]​
4,80 - 84 años,35 507 345,49 637 312,[10]​


In [17]:
pmpe2023 = poblacion_mundial_por_edades_2023.drop(columns="Fuente")
pmpe2023.head()

Unnamed: 0,Edad,Hombres,Mujeres
0,100+ años,159 920,574 932
1,95 - 99 años,1 659 265,4 133 829
2,90 - 94 años,6 540 753,12 857 020
3,85 - 89 años,18 255 270,29 634 339
4,80 - 84 años,35 507 345,49 637 312


Pandas nos permite exportar la información de una tabla de tipo DataFrame en muchos formatos, uno de ellos histórica y ampliamente conocido es el CSV.

Para eso usamos la función de Pandas:

`dataframe.to_csv(-nombre de archivo-)`

In [18]:
pmpe2023.to_csv("pmpe2023.csv")