## 1.- Webscrapping estático (NIVEL 1)

### 1.1.- Extracción de info de WIKIPEDIA mediante requests y parseo con lxml

In [1]:
import pandas as pd
import numpy as np

**1.1.1.- Hacer requerimientos con requests**

In [2]:
import requests # empleada para hacer requerimientos a las webs


headers = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/80.0.3987.149 Safari/537.36"}
url = 'https://www.wikipedia.org/'
requerimiento = requests.get(url,headers=headers)
print(requerimiento.text)

<!DOCTYPE html>
<html lang="mul" class="no-js">
<head>
<meta charset="utf-8">
<title>Wikipedia</title>
<meta name="description" content="Wikipedia is a free online encyclopedia, created and edited by volunteers around the world and hosted by the Wikimedia Foundation.">
<script>
document.documentElement.className = document.documentElement.className.replace( /(^|\s)no-js(\s|$)/, "$1js-enabled$2" );
</script>
<meta name="viewport" content="initial-scale=1,user-scalable=yes">
<link rel="apple-touch-icon" href="/static/apple-touch/wikipedia.png">
<link rel="shortcut icon" href="/static/favicon/wikipedia.ico">
<link rel="license" href="//creativecommons.org/licenses/by-sa/3.0/">
<style>
.sprite{background-image:url(portal/wikipedia.org/assets/img/sprite-46c49284.png);background-image:linear-gradient(transparent,transparent),url(portal/wikipedia.org/assets/img/sprite-46c49284.svg);background-repeat:no-repeat;display:inline-block;vertical-align:middle}.svg-Commons-logo_sister{background-posit

**1.1.2.- Parsear la extracción con lxml**

**Método 1: parser.get_element_by_id('id').text_content()**

In [3]:
from lxml import html
idx="js-link-box-en" # el id del código html pegado arriba. Es un código único para cada url
parser = html.fromstring(requerimiento.text)
english = parser.get_element_by_id(idx)
english

<Element a at 0x28fb1cb4138>

In [4]:
print(english.text_content())


English
6 207 000+ articles



**Método 2: parser.xpath()**

In [5]:
english= parser.xpath("//a[@id='js-link-box-en']/strong/text()")
print(english)

['English']


<img src='c1.PNG'>

In [6]:
# obteniendo el listado de idiomas
idiomas=parser.xpath("//div[contains(@class,'central-featured-lang')]//strong/text()") 
# buscamos todas las líneas que contengan el parámetro marcado dentro de un div class y que vayan dentro de strong (negrita)
print(idiomas)

['English', 'EspaÃ±ol', 'æ\x97¥æ\x9c¬èª\x9e', 'Deutsch', 'Ð\xa0Ñ\x83Ñ\x81Ñ\x81ÐºÐ¸Ð¹', 'FranÃ§ais', 'Italiano', 'ä¸\xadæ\x96\x87', 'PortuguÃªs', 'Polski']


In [7]:
for i in idiomas:
    print(i)

English
EspaÃ±ol
æ¥æ¬èª
Deutsch
Ð ÑÑÑÐºÐ¸Ð¹
FranÃ§ais
Italiano
ä¸­æ
PortuguÃªs
Polski


**Método 3: parser.find_class(class).text_content()**

In [8]:
idiomas = parser.find_class('central-featured-lang')
for i in idiomas:
    print(i.text_content())



English
6 207 000+ articles




EspaÃ±ol
1 646 000+ artÃ­culos




æ¥æ¬èª
1 243 000+ è¨äº




Deutsch
2 510 000+ Artikel




Ð ÑÑÑÐºÐ¸Ð¹
1 682 000+ ÑÑÐ°ÑÐµÐ¹




FranÃ§ais
2 277 000+ articles




Italiano
1 658 000+ voci




ä¸­æ
1 163 000+ æ¢ç®




PortuguÃªs
1 049 000+ artigos




Polski
1 444 000+ haseÅ




### 1.2.- Requests y beautiful soup - Extracción de Stackoverflow

In [9]:
import requests
headers = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/80.0.3987.149 Safari/537.36"}
url = 'https://stackoverflow.com/questions'
requerimiento = requests.get(url,headers=headers)

**1.2.1.- Parsear la extracción con BeautifulSoup**

In [10]:
from bs4 import BeautifulSoup
soup= BeautifulSoup(requerimiento.text)

<img src='c2.PNG'>

<img src='c4.PNG'>

In [11]:
# Obtener todas las preguntas de stackoverflow
questions = soup.find(id="questions")
questions_list = questions.find_all('div',class_='question-summary') 
# no es necesario el 'div', pero debemos asegurarnos por si existen dos clases iguales. ç
# Nos devuelve todo el cod html desde ese id

for i in questions_list:
    #OPCION 1
    titulo_pregunta=i.find('h3').text  #.text = .text_content en lxml
    # me devuelve las preguntas
    descripcion_pregunta = (i.find(class_='excerpt').text).replace('\n','').replace('\r','').strip()
    # me devuelve las descripciones o subtitulos
    # retiro los espacios de las descripciones y con strip() retiro las sangrías
    
    print(titulo_pregunta)
    print(descripcion_pregunta)
    
    #OPCION 2
    #elemento = i.find('h3')
    #elemento_pregunta = elemento.text #devuelve las preguntas
    #elemento_descripcion_pregunta = elemento.find_next_sibling('div').text.replace('\n','').replace('\r','').strip()
    
    #print(elemento_pregunta)
    #print(elemento_descripcion_pregunta)
    
    #Misma solución en ambos procesos. La diferencia es que para el segundo no hace falta saber el nombre de class del cod html.
    
    print()


Python Selenium Package, selection of specific language
with selenium package for python I want to:1. Identify element on webpage2. Select languageI believe that presented below HTML code refers to the button I have in mind: <ul class="nav ...

How to check if multiple inputs are in a function
I have made a math calculator, however, the problem is that even though it checks if multiple inputs are within a math topic, sometimes just typing one of those checked inputs will still get that ...

How to change the data type to perform operations
I am doing a Stimulsoft report with the code that is in the web page, to print the data that is in a datagridview, but I cannot change the data type of the table fields. This is the code I have and at ...

flatbuffers golang: include directive maps to wrong import statement
from issue #3927and its resolution: #5097, I managed to do what I wanted, which is to correctly generate golang code based on a flatbuffers schema with an include directive, as sh

<img src='c3.PNG'>

### 1.3.- Extracción de datos con Scrapy

**Si se emplea Scrapy no es necesario recurrir a librerías como lxml o beautifulsoup para parsear, ya que Scracpy dispone de la función Parse como mecanismo para llevarlo a cabo. El proceso a nivel mecánico tiene una estructura similar a esta:**

<img src='c5.PNG'>

#### 1.3.1.- Webscrapping con Scrapy - Extracción de Stackoverflow


In [12]:
from scrapy.item import Field
from scrapy.item import Item
from scrapy.spiders import Spider
from scrapy.selector import Selector
from scrapy.loader import ItemLoader

*Antes de comenzar con el puro proceso debemos siempre determinar, en la extracción que queremos realizar, qué es el item y qué son las propiedades. En este caso, el item es el título de la pregunta y las propiedades son las descripciones de cada una. Tras ello, hemos de definirlo mediante clases (object-oriented programming), del siguiente modo:*

In [13]:
class Pregunta(Item):
    id = Field()
    pregunta = Field()
    #descripcion = Field()
# el objetivo del proceso será rellenar el campo pregunta con todas las preguntas y el campo descripción con las descripciones

class StackOverflow(Spider): # Spider se emplea para extracciones estáticas, de una sola página
    name = 'MiprimerSpider'
    custom_settings = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/80.0.3987.149 Safari/537.36"}
    start_urls = ['https://stackoverflow.com/questions'] # en este caso es una lista de len()=1, en vez de un str
    # El requerimiento se hace simplemente con lo que hemos hecho ya, sin recesidad de la herramienta requests. Falta Parsear
    
    #DEFINIMOS LAS REGLAS
    def parse(self,response):
        sel = Selector(response) # la función Selector() realiza las consultas a la página, tomando el requerimiento previo
        questions = sel.xpath("//div[@id='questions']//div[@class='question-summary']")
        # el resultado, dado que hay varias líneas con question-summary, será una lista con todos los elementos que son preguntas
        for x in questions: # iteramos cada elemento para reproducir su texto
            item = ItemLoader(Pregunta(),x)
            item.add_xpath('pregunta','.//h3/a/text()')
            # el campo pregunta se rellenará con el segundo elemento, que es la ruta xpath en la que se localiza el contenido
            #item.add_xpath('descripcion',".//div[@class='excerpt']/text()")
            item.add_value('id',1) # se añade un valor concreto, en lugar de un campo xpath, a una propiedad definida antes
            
            yield item.load_item() # similar a return en las funciones

La ejecución de scripts con scrapy también es diferente a lo "normal", dado que debe hacerse desde una terminal (por ejemplo en Spyder importando el .py) y no del modo convencional. De todos modos, existe la forma de hacerlo vía script running, de este modo:

In [14]:
from scrapy.spiders import Spider
from scrapy.crawler import CrawlerProcess

if __name__ == "__main__": # Código que se va a ejecutar al dar clic en RUN
        process = CrawlerProcess()
        process.crawl(StackOverflow) # Nombre de la clase de mi Spider
        process.start()

2020-12-23 23:22:30 [scrapy.utils.log] INFO: Scrapy 2.4.1 started (bot: scrapybot)
2020-12-23 23:22:30 [scrapy.utils.log] INFO: Versions: lxml 4.5.0.0, libxml2 2.9.9, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.7.6 (default, Jan  8 2020, 20:23:39) [MSC v.1916 64 bit (AMD64)], pyOpenSSL 19.1.0 (OpenSSL 1.1.1d  10 Sep 2019), cryptography 2.8, Platform Windows-10-10.0.18362-SP0
2020-12-23 23:22:30 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2020-12-23 23:22:30 [scrapy.crawler] INFO: Overridden settings:
{}
2020-12-23 23:22:30 [scrapy.extensions.telnet] INFO: Telnet Password: 37125bfec0859e90
2020-12-23 23:22:30 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.logstats.LogStats']
2020-12-23 23:22:31 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scra

2020-12-23 23:22:31 [scrapy.core.scraper] DEBUG: Scraped from <200 https://stackoverflow.com/questions>
{'id': [1],
 'pregunta': ['Match strings with fuzzy join where max 1 chr is different']}
2020-12-23 23:22:31 [scrapy.core.scraper] DEBUG: Scraped from <200 https://stackoverflow.com/questions>
{'id': [1],
 'pregunta': ['How to find out the full directory of a file in Android phone '
              'to be used with fstream?']}
2020-12-23 23:22:31 [scrapy.core.scraper] DEBUG: Scraped from <200 https://stackoverflow.com/questions>
{'id': [1], 'pregunta': ['Packet loss measurement on loopback']}
2020-12-23 23:22:31 [scrapy.core.scraper] DEBUG: Scraped from <200 https://stackoverflow.com/questions>
{'id': [1], 'pregunta': ['How do I add messages to custom channel id?']}
2020-12-23 23:22:31 [scrapy.core.scraper] DEBUG: Scraped from <200 https://stackoverflow.com/questions>
{'id': [1],
 'pregunta': ["Why can't I import and use machine.SoftI2C in Micropython "
              'v.1.13 on ESP32?'

#### 1.3.2.- Webscrapping con Scrapy+BeautifulSoup - Extracción en diario digital

*Emplearemos Scrapy únicamente para hacer el requerimiento, y parsearemos la extracción tanto con Scrapy como con BeautifulSoup.*

In [15]:
from scrapy.item import Field
from scrapy.item import Item
from scrapy.spiders import Spider
from scrapy.selector import Selector
from bs4 import BeautifulSoup

In [16]:
class Noticia(Item):
    id = Field()
    titular = Field()
    descripcion = Field()

# CLASE CORE - SPIDER  
class ElUniversoSpider(Spider):
    name = "MiSegundoSpider"
    custom_settings = {
        'USER_AGENT': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/71.0.3578.80 Chrome/71.0.3578.80 Safari/537.36',
        # 'FEED_EXPORT_FIELDS': ['id', 'descripcion', 'titular'] # Como ordenar las columnas en el CSV?
    }
    start_urls = ['https://www.eluniverso.com/deportes']
    
    # METODO 1: Parseo con Scrapy

    #def parse(self, response):
        #sel = Selector(response)
        #noticias = sel.xpath('//div[@class="view-content"]/div[@class="posts"]')
        #for i, elem in enumerate(noticias): # PARA INVESTIGAR: Para que sirve enumerate?
            #item = ItemLoader(Noticia(), elem) # Cargo mi item

            # Llenando mi item a traves de expresiones XPATH
            #item.add_xpath('titular', './/h2/a/text()')
            #item.add_xpath('descripcion', './/p/text()')
            #item.add_value('id', i)
            #yield item.load_item() # Retorno mi item lleno
            
            
            
    # METODO 2: Parseo con BeutifulSoup
            
    def parse(self,response):
        soup = BeautifulSoup(response.body)
        contenedor = soup.find_all('div', class_='view-content')
        
        for c in contenedor:
            noticias = contenedor.find_all('div',class_='posts',recursive=False)
            #recursive indica si la búsqueda debe hacerse solo en los hijos directos (False) o también a los subhijos(True)
            for x in noticias:
                item = ItemLoader(Noticia(),response.body)
                
                titular = x.find('h2').text
                descripcion = x.find('p')
                if (descripcion != None):
                    descripcion = descripcion.text
                else:
                    descripcion = 'N/A'
                
                item.add_value('titular',titular)
                item.add_value('descripcion',descripcion)
                
                yield item.load_item()

In [17]:
#from scrapy.spiders import Spider
#from scrapy.crawler import CrawlerProcess

#if __name__ == "__main__": # Código que se va a ejecutar al dar clic en RUN
        #process = CrawlerProcess()
        #process.crawl(ElUniversoSpider) # Nombre de la clase de mi Spider
        #process.start()