# Ejemplo de WebScraping con Python
## Obtener Ibex35 bolsa de Madrid

El objetivo es obtener el valor del indice Ibex 35 de la página http://www.bolsamadrid.es/esp/aspx/Indices/Resumen.aspx. Queremos escribir los datos en un fichero csv.

In [1]:
# import libraries 
import pandas as pd 
import requests
from bs4 import BeautifulSoup
import csv
from datetime import datetime

In [2]:
# indicar la ruta
url = 'http://www.bolsamadrid.es/esp/aspx/Indices/Resumen.aspx'


In [3]:
# realizar la petición con requests, y crear un objeto de BS. Indicar que el parser es "lxml"
page = requests.get(url).text
soup = BeautifulSoup(page, 'lxml')

In [4]:
# Obtenemos la tabla por un ID específico
# El atributo es 'id': 'ctl00_Contenido_tblÍndices'

tabla = soup.find('table', attrs = {'id': 'ctl00_Contenido_tblÍndices'})
tabla

tr align="right">
<td align="left" class="DifFlSb">IBEX TOP Dividendo®</td><td>1.769,70</td><td>1.783,70</td><td class="DifClSb">0,79</td><td>1.790,60</td><td>1.743,10</td><td align="center">22/10/2020</td><td align="center">17:38:00</td><td class="DifClBj Ult">-37,92</td>
</tr><tr align="right">
<td align="left" class="DifFlBj">IBEX 35® con Dividendos Netos</td><td>17.072,10</td><td>17.034,80</td><td class="DifClBj">-0,22</td><td>17.142,40</td><td>16.816,00</td><td align="center">22/10/2020</td><td align="center">17:38:00</td><td class="DifClBj Ult">-27,44</td>
</tr><tr align="right">
<td align="left" class="DifFlSb">IBEX 35® Inverso</td><td>3.031,10</td><td>3.037,70</td><td class="DifClSb">0,22</td><td>3.076,60</td><td>3.018,60</td><td align="center">22/10/2020</td><td align="center">17:38:00</td><td class="DifClSb Ult">23,92</td>
</tr><tr align="right">
<td align="left" class="DifFlSb">IBEX 35® Doble Inverso</td><td>476,40</td><td>478,50</td><td class="DifClSb">0,44</td><td>490,70</

In [5]:
# quedarse con los valores correspondientes al Ibex 35, y a su indice

name=""
price=""
nroFila=0
for fila in tabla.find_all("tr"):
    if nroFila==1:
        nroCelda=0
        for celda in fila.find_all('td'):
            if nroCelda==0:
                name=celda.text
                print("Indice:", name)
            if nroCelda==2:
                price=celda.text
                print("Valor:", price)
            nroCelda=nroCelda+1
    nroFila=nroFila+1


Indice: IBEX 35®
Valor: 6.796,60


In [8]:
# Abrimos el csv con append para que pueda agregar contenidos al final del archivo
# opcionalmente podemos incluir la fecha con datetime.now()
# Abrimos el csv con append para que pueda agregar contenidos al final del archivo
with open('bolsa_ibex35.csv', 'a') as csv_file:
    writer = csv.writer(csv_file)
    writer.writerow([name, price, datetime.now()])

El artículo completo en www.aprendemachinelearning.com

## Acediendo a datos de twitter

Vamos a acceder a los datos de twitter utilizando la API de Twitter, y la libreria tweepy, y vamos a guardar los datos en un fichero CSV.

Para ello en primer lugar teneis que crear una aplicación en el área de desarrolladores de twitter, lo que nos permitirá acceder la API Key, el secret API Key, y Los Tokens de acceso


1. Importar las librerias necesarias

2. Crear las variables con los tokens y los Ids de las APIs

In [5]:

access_token = ""  
access_token_secret = ""  
consumer_key = ""  
consumer_secret = ""  
 


3. Autenticarse con tweepy, y crear un objeto API de tweepy

4. Abrir un fichero csv en modo append e incluir una busqueda por un hastag 

In [6]:

#Use csv Writer


## Acceder a una serie de datos del INE

Debemos obtener el identificador, con el generador de solicitudes de las APIs 
Realizar el mismo proceso que hemos visto en el WarmUp

In [6]:
import requests
import pandas as pd 
import datetime
import json

url_plantilla = 'http://servicios.ine.es/wstempus/js/ES/DATOS_SERIE/{codigo}?nult={num_datos}'

# codigo de la serie de datos a consultar y numero de datos
codigo = 'IPC118155'
num_datos = 12
url = url_plantilla.format(codigo=codigo, num_datos= num_datos)
# realizar la descarga de los datos usando la libreria request, y leyendo el formato json

respuesta = requests.get(url)
datos = respuesta.json()
print(datos)

{'COD': 'IPC118155', 'Nombre': 'Total Nacional, Total, Base 2011, Seguros médicos, Índice', 'FK_Unidad': 133, 'FK_Escala': 1, 'Data': [{'Fecha': 1451602800000, 'FK_TipoDato': 1, 'FK_Periodo': 1, 'Anyo': 2016, 'Valor': 124.437, 'Secreto': False}, {'Fecha': 1454281200000, 'FK_TipoDato': 1, 'FK_Periodo': 2, 'Anyo': 2016, 'Valor': 124.437, 'Secreto': False}, {'Fecha': 1456786800000, 'FK_TipoDato': 1, 'FK_Periodo': 3, 'Anyo': 2016, 'Valor': 124.437, 'Secreto': False}, {'Fecha': 1459461600000, 'FK_TipoDato': 1, 'FK_Periodo': 4, 'Anyo': 2016, 'Valor': 124.437, 'Secreto': False}, {'Fecha': 1462053600000, 'FK_TipoDato': 1, 'FK_Periodo': 5, 'Anyo': 2016, 'Valor': 124.437, 'Secreto': False}, {'Fecha': 1464732000000, 'FK_TipoDato': 1, 'FK_Periodo': 6, 'Anyo': 2016, 'Valor': 124.437, 'Secreto': False}, {'Fecha': 1467324000000, 'FK_TipoDato': 1, 'FK_Periodo': 7, 'Anyo': 2016, 'Valor': 124.437, 'Secreto': False}, {'Fecha': 1470002400000, 'FK_TipoDato': 1, 'FK_Periodo': 8, 'Anyo': 2016, 'Valor': 124.4