In [1]:
import pandas as pd
import requests
from bs4 import BeautifulSoup

# Libro Web Scraping
## Esta librería ya está integrada en Python

from urllib.request import urlopen

Para saber qué puedes scrapear y qué no, googlea "robots.txt" más el nombre del sitio web. Ahí te indica qué sí puedes scrapear y qué. Ejemplo: [Página del INEGI](https://inegi.org.mx/robots.txt)

In [2]:
url = 'https://www.inegi.org.mx/'
info = requests.get(url)

In [3]:
type(info)

requests.models.Response

In [23]:
# La versión del libro de web scraping
info_v2 = urlopen(url)
info_v2.read()[:300]

b'<!DOCTYPE html>\r\n<html lang="es">\r\n<head>\r\n    <title>Instituto Nacional de Estad\xc3\xadstica y Geograf\xc3\xada (INEGI)</title>\r\n    <meta charset="UTF-8">\r\n    <meta name="keywords" content="estad\xc3\xadstica, geograf\xc3\xada">\r\n    <meta name="robots" content="index, follow">\r\n    <meta name="description" content="P\xc3'

In [7]:
# ¿Fue exitoso?
info.status_code

200

In [11]:
# Display del contenido
info.content[:600]

b'<!DOCTYPE html>\r\n<html lang="es">\r\n<head>\r\n    <title>Instituto Nacional de Estad\xc3\xadstica y Geograf\xc3\xada (INEGI)</title>\r\n    <meta charset="UTF-8">\r\n    <meta name="keywords" content="estad\xc3\xadstica, geograf\xc3\xada">\r\n    <meta name="robots" content="index, follow">\r\n    <meta name="description" content="P\xc3\xa1gina oficial del INEGI donde se ofrece informaci\xc3\xb3n estad\xc3\xadstica, geogr\xc3\xa1fica y econ\xc3\xb3mica a nivel nacional y por entidad federativa. Informaci\xc3\xb3n generada por el Instituto y otras dependencias del gobierno nacional.">\r\n    <meta name="robots" content="index, follow">\r\n    <meta name="author" conte'

In [28]:
# Para que se vea más bonito
# El parser (analizador) es por defecto, creo, lxml
soup = BeautifulSoup(info.content, 'lxml') 

# Búsqueda de tags

In [29]:
# El primer h1 que se encuentre
# Traer todo hasta que cierre el tag
soup.h1

<h1 style="display:none">Instituto Nacional de Estadística y Geografía (INEGI)</h1>

In [31]:
# El primer p que se encuentre
soup.p

<p>Las medidas derivadas de la emergencia sanitaria han afectado en distinta manera los programas de información del INEGI. En caso de existir impactos en calidad, cobertura o de otra índole en ellos, se darán a conocer en las Notas Técnicas que acompañan su publicación.</p>

In [35]:
# El primer head
soup.head

<head>
<title>Instituto Nacional de Estadística y Geografía (INEGI)</title>
<meta charset="utf-8"/>
<meta content="estadística, geografía" name="keywords"/>
<meta content="index, follow" name="robots"/>
<meta content="Página oficial del INEGI donde se ofrece información estadística, geográfica y económica a nivel nacional y por entidad federativa. Información generada por el Instituto y otras dependencias del gobierno nacional." name="description"/>
<meta content="index, follow" name="robots"/>
<meta content="Instituto Nacional de Estadística y Geografía. INEGI" name="author"/>
<meta content="/default.html" name="dc.identificier"/>
<meta content="Instituto Nacional de Estadística y Geografía. INEGI" name="dc.title"/>
<meta content="estadística, geografía" name="dc.subject"/>
<meta content="Página oficial del INEGI donde se ofrece información estadística, geográfica y económica a nivel nacional y por entidad federativa. Información generada por el Instituto y otras dependencias del gobi

In [57]:
# Hay métodos para traer ciertas cosas

# Text busca el texto dentro de ese tag y sus hijos
soup.head.text

'\nInstituto Nacional de Estadística y Geografía (INEGI)\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n'

In [40]:
# String te trae solo el texto en ese tag.
soup.head.string

# No arroja nada porqu eno hay texto en este tag (aunque sí en los hijos)

In [41]:
soup.text

'\n\nInstituto Nacional de Estadística y Geografía (INEGI)\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nInstituto Nacional de Estadística y Geografía (INEGI)\n\n\n\n\n\n\nAviso COVID-19\n\nLas medidas derivadas de la emergencia sanitaria han afectado en distinta manera los programas de información del INEGI. En caso de existir impactos en calidad, cobertura o de otra índole en ellos, se darán a conocer en las Notas Técnicas que acompañan su publicación.\n\n\n\n\n\n\n\r\n                                Perspectiva en cifras\r\n                            \nCOVID-19\n\n\n\n\n\n\n\n\n\r\n                                Visualizador analítico para el COVID-19\r\n                            \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nTemas\n\n\nAgricultura, ganadería y pesca\n\n\n\n\nCatastro y Gestión Territorial\n\n\n\n\nComercio\n\n\n\n\nComercio exterior\n\n\n\n\n\nCon

### Otro ejemplo

In [58]:
contenido = """<!DOCTYPE html>
<html>
<head>
<title>Page Title</title>
</head>
<body>

<h1>This is a Heading</h1>
<p>This is a paragraph.</p>
<h1> Otro heading </h1>
<b class="boldest" id="elId">Extremely bold</b><p></p>
<p class="body"></p>
<a class="indicador__enlace indicador__enlace-alto" id="enlIn3" href="/programas/ce/2019/" aria-label="Personal ocupado total. Universo total 36,038,272 Número de personas 2019 consulta información">
<h2 class="indicador__enlace__titulo indicador__enlace__titulo-margen h5">
<strong><span class="indDato floDato" id="va_ind3"> 36,038,272</span></strong>
</h2>
</a>
</body>
</html>
"""

In [59]:
cont = BeautifulSoup(contenido, 'lxml')

In [60]:
cont.head.text

'\nPage Title\n'

In [61]:
cont.title.string

'Page Title'

In [63]:
cont.b.text

'Extremely bold'

In [69]:
# Creo que es igual al anterior
cont.b.get_text()

'Extremely bold'

In [67]:
cont.b['id']

'elId'

In [71]:
# Regresa todos los valores de p
cont.find_all('p')

[<p>This is a paragraph.</p>, <p></p>, <p class="body"></p>]

In [73]:
# Así me busca todas las clases que vienen con body
## Se pone class_ porque es palabra reservada
cont.find_all(class_='body')

[<p class="body"></p>]

In [74]:
cont.select(".body")

[<p class="body"></p>]

In [None]:
cont.select(".body")

Volvemos con la página del INEGI

In [85]:
# Para encontrar una etiqueta con una clase
tags_a = soup.find_all('a')
tags_a.get_text()

# Otra forma de hacerlo 

AttributeError: ResultSet object has no attribute 'get_text'. You're probably treating a list of elements like a single element. Did you call find_all() when you meant to call find()?

In [89]:
[x.get_text() for x in tags_a]

['\n\r\n                                Perspectiva en cifras\r\n                            \nCOVID-19\n',
 '\n\r\n                                Visualizador analítico para el COVID-19\r\n                            \n',
 '\n\n\n\n\n\n\n\n\n',
 '\n\n\n\n\n\n\n\n\n',
 '\n\n\n\n\n\n\n\n\n',
 '\n\n\n\n\n\n\n\n\n',
 'Agricultura, ganadería y pesca',
 'Catastro y Gestión Territorial',
 'Comercio',
 'Comercio exterior',
 '\nConstrucción\r\n                    ',
 'Educación',
 'Empleo y ocupación',
 'Empresas y establecimientos',
 'Gobierno',
 'Hogares y Vivienda',
 'Imágenes del territorio',
 'Manufacturas',
 'Mapas',
 'Marco Geodésico',
 'Marco Geoestadístico',
 'Medio ambiente',
 'Minería',
 'PIB y Cuentas Nacionales',
 'Población',
 'Precios',
 'Salud y Seguridad Social',
 'Seguridad pública y justicia',
 'Servicios no financieros',
 'Tecnologías de la información y comunicaciones',
 'Transporte',
 'Turismo',
 'Ver más',
 '  ',
 '',
 '  ',
 '',
 '  ',
 '',
 'Ver más',
 '\n\n\n\n\n\n\n

## Con la página de wikipedia

In [101]:
messi = requests.get('https://es.wikipedia.org/wiki/Lionel_Messi')
messi.status_code

200

In [102]:
soup = BeautifulSoup(messi.content, 'lxml')

In [108]:
segmento = soup.find_all('li', {'class': 'toclevel-1 tocsection-2'})[0]
segmento

<li class="toclevel-1 tocsection-2"><a href="#Trayectoria"><span class="tocnumber">2</span> <span class="toctext">Trayectoria</span></a>
<ul>
<li class="toclevel-2 tocsection-3"><a href="#Categorías_inferiores"><span class="tocnumber">2.1</span> <span class="toctext">Categorías inferiores</span></a>
<ul>
<li class="toclevel-3 tocsection-4"><a href="#Newell's_Old_Boys_(1994-1999)"><span class="tocnumber">2.1.1</span> <span class="toctext">Newell's Old Boys (1994-1999)</span></a></li>
<li class="toclevel-3 tocsection-5"><a href="#F._C._Barcelona_(2000-2005)"><span class="tocnumber">2.1.2</span> <span class="toctext">F. C. Barcelona (2000-2005)</span></a></li>
</ul>
</li>
<li class="toclevel-2 tocsection-6"><a href="#Fútbol_Club_Barcelona"><span class="tocnumber">2.2</span> <span class="toctext">Fútbol Club Barcelona</span></a>
<ul>
<li class="toclevel-3 tocsection-7"><a href="#Debut_y_primeros_años"><span class="tocnumber">2.2.1</span> <span class="toctext">Debut y primeros años</span></

Zaid prefiere por mucho usar .select(), puesto que puedes usar lo de CSS dinner dentro de tu búsqueda.

In [112]:
segmento.select('li')

[<li class="toclevel-2 tocsection-3"><a href="#Categorías_inferiores"><span class="tocnumber">2.1</span> <span class="toctext">Categorías inferiores</span></a>
 <ul>
 <li class="toclevel-3 tocsection-4"><a href="#Newell's_Old_Boys_(1994-1999)"><span class="tocnumber">2.1.1</span> <span class="toctext">Newell's Old Boys (1994-1999)</span></a></li>
 <li class="toclevel-3 tocsection-5"><a href="#F._C._Barcelona_(2000-2005)"><span class="tocnumber">2.1.2</span> <span class="toctext">F. C. Barcelona (2000-2005)</span></a></li>
 </ul>
 </li>,
 <li class="toclevel-3 tocsection-4"><a href="#Newell's_Old_Boys_(1994-1999)"><span class="tocnumber">2.1.1</span> <span class="toctext">Newell's Old Boys (1994-1999)</span></a></li>,
 <li class="toclevel-3 tocsection-5"><a href="#F._C._Barcelona_(2000-2005)"><span class="tocnumber">2.1.2</span> <span class="toctext">F. C. Barcelona (2000-2005)</span></a></li>,
 <li class="toclevel-2 tocsection-6"><a href="#Fútbol_Club_Barcelona"><span class="tocnumber"

In [110]:
segmento.text

"2 Trayectoria\n\n2.1 Categorías inferiores\n\n2.1.1 Newell's Old Boys (1994-1999)\n2.1.2 F. C. Barcelona (2000-2005)\n\n\n2.2 Fútbol Club Barcelona\n\n2.2.1 Debut y primeros años\n2.2.2 Titularidad y consagración en la élite\n2.2.3 Despedida del Barcelona\n\n\n2.3 Paris Saint-Germain\n\n"

In [107]:
soup.find_all('li', class_='toclevel-1 tosection-2')

IndexError: list index out of range

In [113]:
tablas = pd.read_html('https://es.wikipedia.org/wiki/Lionel_Messi')

In [126]:
# Regresa todas las tablas del DataFrame
tablas[:2]

[                                         Lionel Messi  \
 0                                 Medallista olímpico   
 1   Messi con Argentina en la Copa Mundial de Fútb...   
 2                                    Datos personales   
 3                                     Nombre completo   
 4                                Nombre de nacimiento   
 5                                            Apodo(s)   
 6                                          Nacimiento   
 7                                    Nacionalidad(es)   
 8                                              Altura   
 9                                                Peso   
 10                                             Pareja   
 11                                  Carrera deportiva   
 12                                            Deporte   
 13                                   Club profesional   
 14                                    Debut deportivo   
 15                                               Club   
 16           

In [128]:
tablas[0].head(10)

Unnamed: 0,Lionel Messi,Lionel Messi.1,Lionel Messi.2,Unnamed: 3
0,Medallista olímpico,Medallista olímpico,Medallista olímpico,
1,Messi con Argentina en la Copa Mundial de Fútb...,Messi con Argentina en la Copa Mundial de Fútb...,Messi con Argentina en la Copa Mundial de Fútb...,
2,Datos personales,Datos personales,Datos personales,
3,Nombre completo,Lionel Andrés Messi Cuccittini[1]​,Lionel Andrés Messi Cuccittini[1]​,
4,Nombre de nacimiento,Lionel Andrés Messi[2]​,Lionel Andrés Messi[2]​,
5,Apodo(s),"La pulga,[3]​ El Mesías,[4]​ D10S.[5]​","La pulga,[3]​ El Mesías,[4]​ D10S.[5]​",
6,Nacimiento,"Rosario (Santa Fe, Argentina)24 de junio de 19...","Rosario (Santa Fe, Argentina)24 de junio de 19...",
7,Nacionalidad(es),ArgentinaEspañola[nota 1]​,ArgentinaEspañola[nota 1]​,
8,Altura,"1,69 m (5 ′ 7 ″)[6]​","1,69 m (5 ′ 7 ″)[6]​",
9,Peso,67 kg (147 lb),67 kg (147 lb),


Búsquedas con CSS Selector

In [None]:
#soup.select("li.toclevel-1.tocsection-2")[0]

#

# Selenium

In [12]:
import sys
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

In [4]:
driver = webdriver.Firefox()

In [6]:
driver.get("https://www.twitter.com")

In [9]:
content = driver.page_source
soup = BeautifulSoup(content)

In [None]:
WebDriverWait(driver, 5).until(EC.) # Le pones el tiempo que quieres esperar hasta que un elemento aparezca

In [10]:
driver.quit()

---

In [None]:
driver.get("https://sale.aliexpress.com/es/__pc/global_selection_pc.htm?spm=a2g0o.home.01002.3.39a670e51lwa26")

In [None]:
driver.find_element() # Dale TAB. Es como de lo CSS

In [None]:
caja = driver.find_element(by='id',value="search-key")

In [None]:
# Action chains encadena acciones
# El .perform() ya realiza la acción de lo de keys.
# END es para llegar al final de la página
ActionChains(driver).send_keys(Keys.END).perform()

In [None]:
caja.clear()

In [None]:
caja.send_keys("Celulares") # Para teclear algo en la página

In [None]:
caja.send_keys(Keys.RETURN) # Para dar enter en la página

In [None]:
driver.quit()

# ¡Para las **credenciales**! Gran forma de protegerte online

In [30]:
from configparser import ConfigParser

In [24]:
parser = ConfigParser()

In [25]:
parser.read("untitled.txt")

['untitled.txt']

In [29]:
parser.get("Credentials", "usuario")

'usuario123'

# Twitter

In [27]:
driver = webdriver.Firefox()

In [28]:
driver.get('https://Twitter.com')

In [None]:
driver.find_element(By.CSS_SELECTOR, 'Aquí tu búsqueda')