# Ejemplo de WebScraping con Python
## Obtener Ibex35 bolsa de Madrid

El objetivo es obtener el valor del indice Ibex 35 de la página http://www.bolsamadrid.es/esp/aspx/Indices/Resumen.aspx. Queremos escribir los datos en un fichero csv.

In [12]:
# import libraries 



import requests
from bs4 import BeautifulSoup
import csv
from datetime import datetime


In [13]:
# indicar la ruta


url = 'http://www.bolsamadrid.es/esp/aspx/Indices/Resumen.aspx'



In [15]:
# realizar la petición con requests, y crear un objeto de BS. Indicar que el parser es "lxml"

page = requests.get(url).text 
soup = BeautifulSoup(page, "lxml")


In [16]:
# Obtenemos la tabla por un ID específico
# El atributo es 'id': 'ctl00_Contenido_tblÍndices'

tabla = soup.find('table', attrs={'id': 'ctl00_Contenido_tblÍndices'})
tabla

<table align="Center" cellpadding="3" cellspacing="0" class="TblPort" id="ctl00_Contenido_tblÍndices" style="margin-bottom: 20px;" width="85%">
<tr align="center">
<th scope="col">Nombre</th><th scope="col">Anterior</th><th scope="col">Último</th><th scope="col">% Dif.</th><th scope="col">Máximo</th><th scope="col">Mínimo</th><th scope="col">Fecha</th><th scope="col">Hora</th><th class="Ult" scope="col">% Dif.<br/>Año 2020</th>
</tr><tr align="right">
<td align="left" class="DifFlSb">IBEX 35®</td><td>6.716,60</td><td>6.729,70</td><td class="DifClSb">0,20</td><td>6.800,80</td><td>6.701,20</td><td align="center">01/10/2020</td><td align="center">17:30:29</td><td class="DifClBj Ult">-29,59</td>
</tr><tr align="right">
<td align="left" class="DifFlSb">IBEX 35® con Dividendos</td><td>20.018,00</td><td>20.056,80</td><td class="DifClSb">0,19</td><td>20.268,80</td><td>19.971,90</td><td align="center">01/10/2020</td><td align="center">17:29:59</td><td class="DifClBj Ult">-27,83</td>
</tr><tr al

In [17]:
# quedarse con los valores correspondientes al Ibex 35, y a su indice

name=""
price=""
nroFila=0
for fila in tabla.find_all("tr"):
    if nroFila==1:
        nroCelda=0
        for celda in fila.find_all('td'):
            if nroCelda==0:
                name=celda.text
                print("Indice:", name)
            if nroCelda==2:
                price=celda.text
                print("Valor:", price)
            nroCelda=nroCelda+1
    nroFila=nroFila+1

Indice: IBEX 35®
Valor: 6.729,70


In [18]:
# Abrimos el csv con append para que pueda agregar contenidos al final del archivo
# opcionalmente podemos incluir la fecha con datetime.now()

# Abrimos el csv con append para que pueda agregar contenidos al final del archivo
with open('bolsa_ibex35.csv', 'a') as csv_file:
    writer = csv.writer(csv_file)
    writer.writerow([name, price, datetime.now()])

El artículo completo en www.aprendemachinelearning.com

## Acediendo a datos de twitter

Vamos a acceder a los datos de twitter utilizando la API de Twitter, y la libreria tweepy, y vamos a guardar los datos en un fichero CSV.

Para ello en primer lugar teneis que crear una aplicación en el área de desarrolladores de twitter, lo que nos permitirá acceder la API Key, el secret API Key, y Los Tokens de acceso


1. Importar las librerias necesarias

In [19]:

import tweepy  
import time
import csv

2. Crear las variables con los tokens y los Ids de las APIs

In [20]:

access_token = "xxx"  
access_token_secret = "xxx"  
consumer_key = "xxx"  
consumer_secret = "xxx"  
 


3. Autenticarse con tweepy, y crear un objeto API de tweepy

In [21]:
auth = tweepy.OAuthHandler(consumer_key, consumer_secret)  
auth.set_access_token(access_token, access_token_secret)  
api = tweepy.API(auth,wait_on_rate_limit=True)

4. Abrir un fichero csv en modo append e incluir una busqueda por un hastag 

In [22]:
csvFile = open('cop25_fichero2.csv', 'a')
#Use csv Writer
csvWriter = csv.writer(csvFile)

for tweet in tweepy.Cursor(api.search,q="#cop25",count=5000,
                           lang="en",
                           since="2019-10-12").items():
    print (tweet.created_at, tweet.text)
    csvWriter.writerow([tweet.created_at, tweet.text.encode('utf-8')])

2020-10-02 09:26:00 RT @arikring: @dotcommodity @Totalrecoverys1 @THEnergyNet @AmazingChevVolt @Jackthelad1947 @mwt2008 @FSS_Tech @ProfRayWills @kashthefuturis…
2020-10-02 09:23:25 RT @arikring: @dotcommodity @Totalrecoverys1 @THEnergyNet @AmazingChevVolt @Jackthelad1947 @mwt2008 @FSS_Tech @ProfRayWills @kashthefuturis…
2020-10-02 08:41:13 RT @arikring: @dotcommodity @Totalrecoverys1 @THEnergyNet @AmazingChevVolt @Jackthelad1947 @mwt2008 @FSS_Tech @ProfRayWills @kashthefuturis…
2020-10-02 08:35:20 RT @arikring: @dotcommodity @Totalrecoverys1 @THEnergyNet @AmazingChevVolt @Jackthelad1947 @mwt2008 @FSS_Tech @ProfRayWills @kashthefuturis…
2020-10-02 00:54:36 RT @Alex_Verbeek: 🌎 

NATO Review just published my article:

Planetary Security, the security implications of climate change. 

RTs apprec…
2020-10-01 18:47:09 RT @SaschaFechner1: Renewable energy☇
A global decision 🖒

#ClimateAction #investing #investors #trade #RE100 #COP25 @Shell @Shell_Germany…
2020-10-01 18:01:25 RT @Alex_Verbee

## Acceder a una serie de datos del INE

Debemos obtener el identificador, con el generador de solicitudes de las APIs 
Realizar el mismo proceso que hemos visto en el WarmUp

In [23]:
import requests
import pandas as pd
import datetime


url_plantilla = 'http://servicios.ine.es/wstempus/js/ES/DATOS_SERIE/{codigo}?nult={num_datos}'

# codigo de la serie de datos a consultar y numero de datos

codigo = "IPC118150" # Datos de variación del IPC en Andalucía
num_datos = 12 # últimos 12 datos

url = url_plantilla.format(codigo=codigo,
                           num_datos=num_datos)

# realizar la descarga de los datos usando la libreria request, y leyendo el formato json

respuesta = requests.get(url)

datos = respuesta.json()

print(datos)

{'COD': 'IPC118150', 'Nombre': 'Andalucía, Total, Base 2011, General, Variación mensual', 'FK_Unidad': 135, 'FK_Escala': 1, 'Data': [{'Fecha': 1451602800000, 'FK_TipoDato': 1, 'FK_Periodo': 1, 'Anyo': 2016, 'Valor': -2.0, 'Secreto': False}, {'Fecha': 1454281200000, 'FK_TipoDato': 1, 'FK_Periodo': 2, 'Anyo': 2016, 'Valor': -0.4, 'Secreto': False}, {'Fecha': 1456786800000, 'FK_TipoDato': 1, 'FK_Periodo': 3, 'Anyo': 2016, 'Valor': 0.8, 'Secreto': False}, {'Fecha': 1459461600000, 'FK_TipoDato': 1, 'FK_Periodo': 4, 'Anyo': 2016, 'Valor': 0.8, 'Secreto': False}, {'Fecha': 1462053600000, 'FK_TipoDato': 1, 'FK_Periodo': 5, 'Anyo': 2016, 'Valor': 0.6, 'Secreto': False}, {'Fecha': 1464732000000, 'FK_TipoDato': 1, 'FK_Periodo': 6, 'Anyo': 2016, 'Valor': 0.4, 'Secreto': False}, {'Fecha': 1467324000000, 'FK_TipoDato': 1, 'FK_Periodo': 7, 'Anyo': 2016, 'Valor': -0.9, 'Secreto': False}, {'Fecha': 1470002400000, 'FK_TipoDato': 1, 'FK_Periodo': 8, 'Anyo': 2016, 'Valor': 0.1, 'Secreto': False}, {'Fecha'