## Extraccion de datos con Python

## Web Scraping

Se requiere el modulo BeautifulSoup  
`pip install bs4`

In [1]:
# !pip install bs4

In [2]:
import requests
from bs4 import BeautifulSoup

In [3]:
# Enlace a la pagina de consulta
url = 'https://es.wikipedia.org/wiki/Organización_territorial_de_Guatemala'

In [4]:
response = requests.get(url)

In [5]:
print('status code', url, ':', response.status_code)

status code https://es.wikipedia.org/wiki/Organización_territorial_de_Guatemala : 200


In [6]:
soup = BeautifulSoup(response.text, 'html.parser')

In [7]:
tabla = soup.find('table', {'class':'wikitable'})

In [8]:
import pandas as pd
from io import StringIO

In [9]:
tabla = pd.read_html(StringIO(str(tabla)))
tabla

[                                                    0  \
 0                          Departamentos de Guatemala   
 1   Zacapa Chiquimula Sacatepéquez San Marcos Reta...   
 2                                        Departamento   
 3                                        Alta Verapaz   
 4                                        Baja Verapaz   
 5                                       Chimaltenango   
 6                                          Chiquimula   
 7                                         El Progreso   
 8                                           Escuintla   
 9                                           Guatemala   
 10                                      Huehuetenango   
 11                                             Izabal   
 12                                             Jalapa   
 13                                            Jutiapa   
 14                                              Petén   
 15                                     Quetzaltenango   
 16           

In [10]:
departamento = tabla[1]
departamento.columns = ['Departamento', 'Cabecera', 'Superficie', 'Población']
departamento['Superficie'] = list(int(x.replace('\xa0', '')) for x in departamento['Superficie'])
departamento['Poblacion'] = list(int(x.replace('\xa0', '')) for x in departamento['Población'])
departamento

Unnamed: 0,Departamento,Cabecera,Superficie,Población,Poblacion
0,Alta Verapaz,Cobán,8686,1 112 781,1112781
1,Baja Verapaz,Salamá,3124,270 521,270521
2,Chimaltenango,Chimaltenango,1979,666 938,666938
3,Chiquimula,Chiquimula,2376,370 891,370891
4,El Progreso,Guastatoya,1922,158 092,158092
5,Escuintla,Escuintla,4384,701 016,701016
6,Guatemala,Ciudad de Guatemala,2126,2 541 581,2541581
7,Huehuetenango,Huehuetenango,7400,1 143 887,1143887
8,Izabal,Puerto Barrios,9038,413 399,413399
9,Jalapa,Jalapa,2063,318 420,318420


In [11]:
region = soup.find_all('table')[2]
region = pd.read_html(StringIO(str(region)))[0]
region.columns = ['Region', 'Departamentos', 'Extensión', 'Población', 'Ciudad más poblada']
region

Unnamed: 0,Region,Departamentos,Extensión,Población,Ciudad más poblada
0,Suroccidente (Región VI),Quetzaltenango Retalhuleu San Marcos Sololá...,12232,4398222,Quetzaltenango
1,Metropolitana (Región I),Guatemala,2253,3573179,Ciudad de Guatemala
2,Noroccidente (Región VII),Huehuetenango Quiché,15778,2686692,Huehuetenango
3,Central (Región V),Chimaltenango Escuintla Sacatepéquez,6828,1991006,Escuintla
4,Verapaz (Región II),Alta Verapaz Baja Verapaz,11810,1790153,Cobán
5,Nororiente (Región III),Chiquimula El Progreso Izabal Zacapa,16026,1410262,Puerto Barrios
6,Suroriente (Región IV),Jalapa Jutiapa Santa Rosa,8234,1347255,Jalapa
7,Petén (Región VIII),Petén,35854,858256,Santa Elena de la Cruz


In [12]:
segeplan = soup.find_all('table')[3]
segeplan = pd.read_html(StringIO(str(segeplan)))[0]
segeplan.columns = ['Región', 'Departamentos', 'Municipios']
segeplan

Unnamed: 0,Región,Departamentos,Municipios
0,Petén,Petén,Todos los municipios
1,Franja Transversal del Norte,Huehuetenango,"Jacaltenango, Santa Ana Huista, San Antonio Hu..."
2,Franja Transversal del Norte,Izabal,"Puerto Barrios, Morales, Los Amates, El Estor ..."
3,Franja Transversal del Norte,Alta Verapaz,"Cobán, San Pedro Carchá, Senahú, Lanquín, Caha..."
4,Franja Transversal del Norte,Quiché,"Ixcán, Uspantán y Chajul."
5,Región Oriente,Zacapa,Todos los municipios
6,Región Oriente,El Progreso,Todos los municipios
7,Región Oriente,Chiquimula,Todos los municipios
8,Región Oriente,Izabal,"Puerto Barrios, Morales y Los Amates."
9,Región Oriente,Jutiapa,"Agua Blanca, Santa Catarina Mita, Asunción Mit..."


In [13]:
subregion = soup.find_all('table')[4]
subregion = pd.read_html(StringIO(str(subregion)))[0]
subregion.columns = ['Subregión', 'Departamentos', 'Municipios']
subregion

Unnamed: 0,Subregión,Departamentos,Municipios
0,Subregión Polochic,Alta Verapaz,"Tucurú, Panzós, Senahú, Tactic y Tamahú."
1,Subregión Polochic,Izabal,Livingston y El Estor.
2,Subregión Polochic,Baja Verapaz,Purulhá
3,Xalalá,Quiché,Ixcán y Uspantán.
4,Xalalá,Alta Verapaz,Cobán


### Agrupacion de datos (llave compuesta)

In [14]:
segeplan = segeplan.set_index('Región', append=True).swaplevel(0,1)
segeplan

Unnamed: 0_level_0,Unnamed: 1_level_0,Departamentos,Municipios
Región,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Petén,0,Petén,Todos los municipios
Franja Transversal del Norte,1,Huehuetenango,"Jacaltenango, Santa Ana Huista, San Antonio Hu..."
Franja Transversal del Norte,2,Izabal,"Puerto Barrios, Morales, Los Amates, El Estor ..."
Franja Transversal del Norte,3,Alta Verapaz,"Cobán, San Pedro Carchá, Senahú, Lanquín, Caha..."
Franja Transversal del Norte,4,Quiché,"Ixcán, Uspantán y Chajul."
Región Oriente,5,Zacapa,Todos los municipios
Región Oriente,6,El Progreso,Todos los municipios
Región Oriente,7,Chiquimula,Todos los municipios
Región Oriente,8,Izabal,"Puerto Barrios, Morales y Los Amates."
Región Oriente,9,Jutiapa,"Agua Blanca, Santa Catarina Mita, Asunción Mit..."


In [15]:
segeplan.index.names = ['Región', 'Índice']
segeplan

Unnamed: 0_level_0,Unnamed: 1_level_0,Departamentos,Municipios
Región,Índice,Unnamed: 2_level_1,Unnamed: 3_level_1
Petén,0,Petén,Todos los municipios
Franja Transversal del Norte,1,Huehuetenango,"Jacaltenango, Santa Ana Huista, San Antonio Hu..."
Franja Transversal del Norte,2,Izabal,"Puerto Barrios, Morales, Los Amates, El Estor ..."
Franja Transversal del Norte,3,Alta Verapaz,"Cobán, San Pedro Carchá, Senahú, Lanquín, Caha..."
Franja Transversal del Norte,4,Quiché,"Ixcán, Uspantán y Chajul."
Región Oriente,5,Zacapa,Todos los municipios
Región Oriente,6,El Progreso,Todos los municipios
Región Oriente,7,Chiquimula,Todos los municipios
Región Oriente,8,Izabal,"Puerto Barrios, Morales y Los Amates."
Región Oriente,9,Jutiapa,"Agua Blanca, Santa Catarina Mita, Asunción Mit..."
