## Extraeremos informacion del clima de Chicago que se encuentra en la web para completar nuestra base de datos

### Importamos librerias:

In [2]:
from bs4 import BeautifulSoup
import requests
import pandas as pd

### Hacemos una solicitud al servidor para obtener el html, posteriormente creamos el objeto soup para poder manipular los datos

In [3]:
url = 'https://practicum-content.s3.us-west-1.amazonaws.com/data-analyst-eng/moved_chicago_weather_2017.html'
req = requests.get(url).text

soup = BeautifulSoup(req, 'lxml')

### Identificamos el id de la tabla en el codigo fuente y extraemos únicamente los datos del clima

In [4]:
table = soup.find('table', attrs = {'id': 'weather_records'})

### Comenzamos con la creacion del DataFrame

In [None]:
# Lista donde se almacenaran todos los nombres de columnas

heading_table = []

# Aqui iteramos sobre cada fila de la tabla para extraer unicamente los nombres de las columnas
# Usamos 'th' porque en las tablas HTML los nombres de las columnas estan dentro de estas etiquetas

for row in table.find_all('th'):
    heading_table.append(row.text)

# Hacemos una impresion para verificar que los nombres de las columnas se extrajeron correctamente
heading_table

['Date and time', 'Temperature', 'Description']

In [None]:
# Lista donde se almacenarán los datos de la tabla

content = []

# Iteraramos cada fila para extraer todos los registros (filas) de la tabla
# Recordemos que cada fila está envuelta en una etiqueta <tr> de HTML

for row in table.find_all('tr'):

# Esta condicion ignora la primera fila que contiene los nombres de las columnas

    if not row.find_all('th'):
        # Dentro de cada fila, el contenido de la celda está envuelto en etiquetas <td> </td>
        # Necesitamos recorrer todos los elementos <td>, extraer el contenido de las celdas y agregarlo a la lista
        # Luego agregamos cada una de las listas a la lista de contenido
        content.append([element.text for element in row.find_all('td')])

# Hacemos una verificación rápida del contenido extraído
content[:5]

[['2017-11-01 00:00:00', '276.150', 'broken clouds'],
 ['2017-11-01 01:00:00', '275.700', 'scattered clouds'],
 ['2017-11-01 02:00:00', '275.610', 'overcast clouds'],
 ['2017-11-01 03:00:00', '275.350', 'broken clouds'],
 ['2017-11-01 04:00:00', '275.240', 'broken clouds']]

### Finalmente, creamos el DataFrame usando Pandas

In [None]:
# Pasamos la lista de contenido como datos y heading_table como encabezados

weather_records = pd.DataFrame(content, columns = heading_table)

# Mostramos las primeras 10 filas del DataFrame
weather_records.head(10)

Unnamed: 0,Date and time,Temperature,Description
0,2017-11-01 00:00:00,276.15,broken clouds
1,2017-11-01 01:00:00,275.7,scattered clouds
2,2017-11-01 02:00:00,275.61,overcast clouds
3,2017-11-01 03:00:00,275.35,broken clouds
4,2017-11-01 04:00:00,275.24,broken clouds
5,2017-11-01 05:00:00,275.05,overcast clouds
6,2017-11-01 06:00:00,275.14,overcast clouds
7,2017-11-01 07:00:00,275.23,overcast clouds
8,2017-11-01 08:00:00,275.23,overcast clouds
9,2017-11-01 09:00:00,275.32,overcast clouds
