![Nuclio logo](https://nuclio.school/wp-content/uploads/2018/12/nucleoDS-newBlack.png)

# Ejercicio opcional de Web Scraping

Este ejercicio consiste en extraer datos de una página web, procesarlos y guardarlos en un fichero `csv`. Para ello, debes:

1. Extraer los artículos en la página de inicio de [https://slashdot.org/](https://slashdot.org/) utilizando `BeautifulSoup`.
2. Procesar los datos y guardarlos en un `DataFrame`.
3. Crear un fichero `csv` a partir de dicho `DataFrame`.

## Importar librerías

In [2]:
# Importamos requests para obtener los datos de la web
import requests

# Usaremos BeautifulSoup para hacer web scraping
from bs4 import BeautifulSoup

# Importamos pandas para exportar los datos extraidos
import pandas as pd

## Hacer scraping de artículos

In [3]:
# Hacemos el request de la web
response = requests.get('https://slashdot.org/')

# Inicializamos BeautifulSoup
soup = BeautifulSoup(response.content, 'lxml')

In [7]:
# Inicializamos la variable donde vamos a ir guardando los datos
datos = []

# Buscamos el div donde están los datos que queremos extraer
data = soup.select('div[id="firehoselist"] > article')

# Recorremos los articulos que almacenan los datos a extraer
#for article in soup.select("div[id='firehoselist'] > article"):
for articulo in data:
    try:
        titulo = articulo.find('span', class_='story-title').find('a').get_text().strip()
        fuente = articulo.find('span', class_='story-title').find(class_='story-sourcelnk').get_text().strip()
        descripcion = articulo.find('div', class_='body').get_text().strip()
        fecha = articulo.find('div', class_='details').find('time').attrs['datetime'].replace('on ', '')
    except AttributeError:
        pass
    datos.append([titulo, fuente, descripcion, fecha])

## Guardar dataframe

In [8]:
# Creamos la lista con nos nombres de las columnas para crear el DF
columnas = ['titulo', 'fuente', 'descripcion', 'fecha']

# Creamos el DF
df = pd.DataFrame(columns=columnas, data=datos)

# Mostramos el df creado
df.head()

Unnamed: 0,titulo,fuente,descripcion,fecha
0,Microsoft Warns of 'Stealthy DDoS Malware' Tar...,(zdnet.com),"""In the last six months, we observed a 254% in...","Saturday May 21, 2022 @10:34AM"
1,The Online Spider Market Is Massive -- and Cra...,(wired.com),An anonymous reader shares an excerpt from a r...,"Saturday May 21, 2022 @09:00AM"
2,HP Chooses Ubuntu-Based Pop!_OS Linux For Its ...,(betanews.com),System76's CEO Carl Richell announced that HP ...,"Saturday May 21, 2022 @06:00AM"
3,Is the World's Oldest Tree Growing In a Ravine...,(science.org),sciencehabit shares a report from Science Maga...,"Saturday May 21, 2022 @03:00AM"
4,Google's AI Is Smart Enough To Understand Your...,(cnet.com),An anonymous reader quotes a report from CNET:...,"Friday May 20, 2022 @11:30PM"


In [9]:
# Guardamos los datos
df.to_csv("datos_slashdot.csv")