# HTML Scrapper

## Intención de este notebook

Parsear los archvios HTML entregados por la cátedra, para así obtener la información importante de cada vuelo.

## Importación de librerías

In [2]:
from bs4 import BeautifulSoup
import pandas as pd
import os

## Análisis previo

In [95]:
f = open("C:/Users/rodri/OneDrive/Documentos/html files/AA+ABE+CLT.html", encoding='utf-8')
soup = BeautifulSoup(f)
f.close()

### Aerolínea y número de vuelo

In [96]:
def get_vuelo(soup):
    a = []
    contentTable  = soup.find_all('div', { "class" : "ZCLkpe"})
    for x in contentTable:
        a.append([x.text])
    return a

get_vuelo(soup)

[[' American   \xa0– AA 5105  '],
 [' American   \xa0– AA 5314  '],
 [' American   \xa0– AA 5231  '],
 [' American   \xa0– AA 5105  '],
 [' American   \xa0– AA 5314  '],
 [' American   \xa0– AA 5231  '],
 [' American   \xa0– AA 5105  '],
 [' American   \xa0– AA 5314  '],
 [' American   \xa0– AA 5231  '],
 [' American   \xa0– AA 5105  '],
 [' American   \xa0– AA 5314  '],
 [' American   \xa0– AA 5231  ']]

### Horarios y puertas de embarque

In [45]:
def get_horarios(soup):
    r = []
    d = soup.find_all('tr', class_ ="kWOKDd")
    for i in range(0, len(d), 2):
        r.append(d[i:i+2][1].text.split())
    return r

get_horarios(soup)

[['06:03', '-', '11', '08:58', '-', 'E11'],
 ['11:26', '-', '-', '13:31', '-', 'E11'],
 ['18:43', '-', '11', '20:55', '-', 'E20'],
 ['06:07', '-', '11', '08:31', '-', 'E20'],
 ['11:37', '-', '-', '13:44', '-', 'E11'],
 ['18:50', '-', '-', '21:00', '-', 'E20'],
 ['06:12', '-', '-', '08:24', '-', 'E15'],
 ['11:37', '-', '-', '13:44', '-', 'E11'],
 ['18:50', '-', '-', '21:00', '-', 'E30'],
 ['06:12', '-', '-', '08:24', '-', '-'],
 ['11:37', '-', '-', '13:44', '-', '-'],
 ['18:50', '-', '-', '21:00', '-', '-']]

### Días de salida y llegada

In [46]:
#Inicio --- Llegada
def get_inicio_llegada(soup):
    il = []
    d = soup.find_all('th', class_ ="a48lTe")
    for i in range(0, len(d), 2):
        il.append([d[i:i+2][0].text, d[i:i+2][1].text])
    return il

get_inicio_llegada(soup)

[['  Allentown  · jue., 7 de marzo   ', '  Charlotte  · jue., 7 de marzo   '],
 ['  Allentown  · jue., 7 de marzo   ', '  Charlotte  · jue., 7 de marzo   '],
 ['  Allentown  · jue., 7 de marzo   ', '  Charlotte  · jue., 7 de marzo   '],
 ['  Allentown  · vie., 8 de marzo   ', '  Charlotte  · vie., 8 de marzo   '],
 ['  Allentown  · vie., 8 de marzo   ', '  Charlotte  · vie., 8 de marzo   '],
 ['  Allentown  · vie., 8 de marzo   ', '  Charlotte  · vie., 8 de marzo   '],
 ['  Allentown  · sáb., 9 de marzo   ', '  Charlotte  · sáb., 9 de marzo   '],
 ['  Allentown  · sáb., 9 de marzo   ', '  Charlotte  · sáb., 9 de marzo   '],
 ['  Allentown  · sáb., 9 de marzo   ', '  Charlotte  · sáb., 9 de marzo   '],
 ['  Allentown  · dom., 10 de marzo   ',
  '  Charlotte  · dom., 10 de marzo   '],
 ['  Allentown  · dom., 10 de marzo   ',
  '  Charlotte  · dom., 10 de marzo   '],
 ['  Allentown  · dom., 10 de marzo   ',
  '  Charlotte  · dom., 10 de marzo   ']]

Comprobamos que no se perdió ningún registro

In [47]:
len(get_vuelo(soup)) == len(get_horarios(soup)) == len(get_inicio_llegada(soup))

True

Concatenamos la información obtenida

In [60]:
v = get_vuelo(soup)
h = get_horarios(soup)
il = get_inicio_llegada(soup)

data = []
for i in range(0, len(v)):
    data.append(v[i]+h[i]+il[i])

### Dataframe de ejemplo

In [61]:
columnas = ['aerolinea', 'horario_salida', 'terminal_salida', 'puerta_salida',
            'horario_llegada', 'terminal_llegada', 'puerta_llegada', 'origen', 'destino']
pd.DataFrame(data, columns=columnas)

Unnamed: 0,aerolinea,horario_salida,terminal_salida,puerta_salida,horario_llegada,terminal_llegada,puerta_llegada,origen,destino
0,American – AA 5105,06:03,-,11,08:58,-,E11,"Allentown · jue., 7 de marzo","Charlotte · jue., 7 de marzo"
1,American – AA 5314,11:26,-,-,13:31,-,E11,"Allentown · jue., 7 de marzo","Charlotte · jue., 7 de marzo"
2,American – AA 5231,18:43,-,11,20:55,-,E20,"Allentown · jue., 7 de marzo","Charlotte · jue., 7 de marzo"
3,American – AA 5105,06:07,-,11,08:31,-,E20,"Allentown · vie., 8 de marzo","Charlotte · vie., 8 de marzo"
4,American – AA 5314,11:37,-,-,13:44,-,E11,"Allentown · vie., 8 de marzo","Charlotte · vie., 8 de marzo"
5,American – AA 5231,18:50,-,-,21:00,-,E20,"Allentown · vie., 8 de marzo","Charlotte · vie., 8 de marzo"
6,American – AA 5105,06:12,-,-,08:24,-,E15,"Allentown · sáb., 9 de marzo","Charlotte · sáb., 9 de marzo"
7,American – AA 5314,11:37,-,-,13:44,-,E11,"Allentown · sáb., 9 de marzo","Charlotte · sáb., 9 de marzo"
8,American – AA 5231,18:50,-,-,21:00,-,E30,"Allentown · sáb., 9 de marzo","Charlotte · sáb., 9 de marzo"
9,American – AA 5105,06:12,-,-,08:24,-,-,"Allentown · dom., 10 de marzo","Charlotte · dom., 10 de marzo"


## Función completa para scrappear cada link HTML

In [90]:
# Aerolinea y numero de vuelo
def get_vuelo(soup):
    a = []
    contentTable  = soup.find_all('div', { "class" : "ZCLkpe"})
    for x in contentTable:
        a.append([x.text])
    return a

# Horarios y puertas de embarque
def get_horarios(soup):
    r = []
    d = soup.find_all('tr', class_ ="kWOKDd")
    for i in range(0, len(d), 2):
        r.append(d[i:i+2][1].text.split())
    return r

# Dias de inicio y llegada
def get_inicio_llegada(soup):
    il = []
    d = soup.find_all('th', class_ ="a48lTe")
    for i in range(0, len(d), 2):
        il.append([d[i:i+2][0].text, d[i:i+2][1].text])
    return il

# Funcion completa
def scrapeo_vuelo(path):
    f = open(path, encoding='utf-8')
    soup = BeautifulSoup(f)
    f.close()

    v = get_vuelo(soup)
    h = get_horarios(soup)
    il = get_inicio_llegada(soup)
    data = []

    if (len(v) == len(h) == len(il)):
        for i in range(0, len(v)):
            data.append(v[i]+h[i]+il[i])
    return data

### Ejemplo 1

In [94]:
scrapeo_vuelo('C:/Users/rodri/OneDrive/Documentos/html files/A9+AMS+TBS.html')

[[' Georgian Airways   \xa0– A9 652  ',
  '19:00',
  '-',
  '-',
  '02:30',
  '-',
  '-',
  '  Ámsterdam  · jue., 7 de marzo   ',
  '  Tiflis  · vie., 8 de marzo   '],
 [' Georgian Airways   \xa0– A9 652  ',
  '10:20',
  '-',
  '-',
  '17:50',
  '-',
  '-',
  '  Ámsterdam  · sáb., 9 de marzo   ',
  '  Tiflis  · sáb., 9 de marzo   ']]

### Ejemplo 2

In [93]:
scrapeo_vuelo('C:/Users/rodri/OneDrive/Documentos/html files/AA+ABE+CLT.html')

[[' American   \xa0– AA 5105  ',
  '06:03',
  '-',
  '11',
  '08:58',
  '-',
  'E11',
  '  Allentown  · jue., 7 de marzo   ',
  '  Charlotte  · jue., 7 de marzo   '],
 [' American   \xa0– AA 5314  ',
  '11:26',
  '-',
  '-',
  '13:31',
  '-',
  'E11',
  '  Allentown  · jue., 7 de marzo   ',
  '  Charlotte  · jue., 7 de marzo   '],
 [' American   \xa0– AA 5231  ',
  '18:43',
  '-',
  '11',
  '20:55',
  '-',
  'E20',
  '  Allentown  · jue., 7 de marzo   ',
  '  Charlotte  · jue., 7 de marzo   '],
 [' American   \xa0– AA 5105  ',
  '06:07',
  '-',
  '11',
  '08:31',
  '-',
  'E20',
  '  Allentown  · vie., 8 de marzo   ',
  '  Charlotte  · vie., 8 de marzo   '],
 [' American   \xa0– AA 5314  ',
  '11:37',
  '-',
  '-',
  '13:44',
  '-',
  'E11',
  '  Allentown  · vie., 8 de marzo   ',
  '  Charlotte  · vie., 8 de marzo   '],
 [' American   \xa0– AA 5231  ',
  '18:50',
  '-',
  '-',
  '21:00',
  '-',
  'E20',
  '  Allentown  · vie., 8 de marzo   ',
  '  Charlotte  · vie., 8 de marzo   '],
 

### Ejemplo 3 (con dataframe)

In [67]:
columnas = ['aerolinea', 'horario_salida', 'terminal_salida', 'puerta_salida',
            'horario_llegada', 'terminal_llegada', 'puerta_llegada', 'origen', 'destino']

data = scrapeo_vuelo('C:/Users/rodri/OneDrive/Documentos/A9+AMS+TBS.html') + \
       scrapeo_vuelo('C:/Users/rodri/OneDrive/Documentos/AA+ABE+CLT.html')

pd.DataFrame(data, columns=columnas)

Unnamed: 0,aerolinea,horario_salida,terminal_salida,puerta_salida,horario_llegada,terminal_llegada,puerta_llegada,origen,destino
0,Georgian Airways – A9 652,19:00,-,-,02:30,-,-,"Ámsterdam · jue., 7 de marzo","Tiflis · vie., 8 de marzo"
1,Georgian Airways – A9 652,10:20,-,-,17:50,-,-,"Ámsterdam · sáb., 9 de marzo","Tiflis · sáb., 9 de marzo"
2,American – AA 5105,06:03,-,11,08:58,-,E11,"Allentown · jue., 7 de marzo","Charlotte · jue., 7 de marzo"
3,American – AA 5314,11:26,-,-,13:31,-,E11,"Allentown · jue., 7 de marzo","Charlotte · jue., 7 de marzo"
4,American – AA 5231,18:43,-,11,20:55,-,E20,"Allentown · jue., 7 de marzo","Charlotte · jue., 7 de marzo"
5,American – AA 5105,06:07,-,11,08:31,-,E20,"Allentown · vie., 8 de marzo","Charlotte · vie., 8 de marzo"
6,American – AA 5314,11:37,-,-,13:44,-,E11,"Allentown · vie., 8 de marzo","Charlotte · vie., 8 de marzo"
7,American – AA 5231,18:50,-,-,21:00,-,E20,"Allentown · vie., 8 de marzo","Charlotte · vie., 8 de marzo"
8,American – AA 5105,06:12,-,-,08:24,-,E15,"Allentown · sáb., 9 de marzo","Charlotte · sáb., 9 de marzo"
9,American – AA 5314,11:37,-,-,13:44,-,E11,"Allentown · sáb., 9 de marzo","Charlotte · sáb., 9 de marzo"


## Scrapper de todos los links HTML

In [106]:
entries = os.listdir('/Users/rodri/OneDrive/Documentos/html files/')
path_carpeta = '/Users/rodri/OneDrive/Documentos/html files/'

html_vacios = 0
html_buenos = 0

data2 = []

for i in entries:
    try:
        r = scrapeo_vuelo(path_carpeta + i)
        if r:
            data2 += r
            html_buenos += 1
        else:
            html_vacios += 1
    except:
        print("Fallo en url: {}".format(path_carpeta + i))
        
print("Archivos html buenos: {}".format(html_buenos))
print("--------------------------------------------")
print("Archivos html vacios: {}".format(html_vacios))

Fallo en url: /Users/rodri/OneDrive/Documentos/html files/part1.tar.html
Archviso html buenos: 2864
--------------------------------------------
Archviso html vacios: 1386


### Exportación de la data a pickle

In [112]:
r = pd.DataFrame(data2, columns=columnas)
r.to_pickle("/Users/rodri/OneDrive/Documentos/html files/output.pkl")
r

Unnamed: 0,aerolinea,horario_salida,terminal_salida,puerta_salida,horario_llegada,terminal_llegada,puerta_llegada,origen,destino
0,Georgian Airways – A9 652,19:00,-,-,02:30,-,-,"Ámsterdam · jue., 7 de marzo","Tiflis · vie., 8 de marzo"
1,Georgian Airways – A9 652,10:20,-,-,17:50,-,-,"Ámsterdam · sáb., 9 de marzo","Tiflis · sáb., 9 de marzo"
2,Georgian Airways – A9 628,20:20,2D,-,03:50,-,-,"París Charles de Gaulle · vie., 8 de marzo","Tiflis · sáb., 9 de marzo"
3,Georgian Airways – A9 1724,23:10,-,-,04:30,-,-,"Riga · vie., 8 de marzo","Tiflis · sáb., 9 de marzo"
4,Georgian Airways – A9 1724,23:10,-,-,04:30,-,-,"Riga · dom., 10 de marzo","Tiflis · lun., 11 de marzo"
5,Georgian Airways – A9 651,06:30,-,-,08:30,-,-,"Tiflis · sáb., 9 de marzo","Ámsterdam · sáb., 9 de marzo"
6,Georgian Airways – A9 627,17:25,-,-,19:20,2D,-,"Tiflis · vie., 8 de marzo","París Charles de Gaulle · vie., 8 de marzo"
7,Georgian Airways – A9 1725,05:26,-,-,07:03,-,-,"Tiflis · jue., 7 de marzo","Riga · jue., 7 de marzo"
8,Georgian Airways – A9 1725,05:15,-,-,06:40,-,-,"Tiflis · sáb., 9 de marzo","Riga · sáb., 9 de marzo"
9,Georgian Airways – A9 695,07:00,-,-,07:40,3,-,"Tiflis · jue., 7 de marzo","Tel Aviv · jue., 7 de marzo"


## Script final

In [16]:
# Aerolinea y numero de vuelo
def get_vuelo(soup):
    a = []
    contentTable  = soup.find_all('div', { "class" : "ZCLkpe"})
    for x in contentTable:
        a.append([x.text])
    return a

# Horarios y puertas de embarque
def get_horarios(soup):
    r = []
    d = soup.find_all('tr', class_ ="kWOKDd")
    for i in range(0, len(d), 2):
        r.append(d[i:i+2][1].text.split())
    return r

# Dias de inicio y llegada
def get_inicio_llegada(soup):
    il = []
    d = soup.find_all('th', class_ ="a48lTe")
    for i in range(0, len(d), 2):
        il.append([d[i:i+2][0].text, d[i:i+2][1].text])
    return il

# Funcion completa
def scrapeo_vuelo(path):
    f = open(path, encoding='utf-8')
    soup = BeautifulSoup(f)
    f.close()

    v = get_vuelo(soup)
    h = get_horarios(soup)
    il = get_inicio_llegada(soup)
    data = []

    if ( len(v) == len(h) == len(il) ):
        for i in range(0, len(v)):
            r = v[i]+h[i]+il[i]
            if len(r) == 9:
                data.append(r)
    return data

# Scrapper final
def scrapear_html_aviones(path_carpeta):
    entries = os.listdir(path_carpeta)
    
    html_vacios = 0
    html_buenos = 0
    
    data2 = []
    
    for i in entries:
        try:
            r = scrapeo_vuelo(path_carpeta + i)
            if r:
                data2 += r
                html_buenos += 1
            else:
                html_vacios += 1
        except:
            print("Fallo en url: {}".format(path_carpeta + i))

    print("Archviso html buenos: {}".format(html_buenos))
    print("--------------------------------------------")
    print("Archviso html malos: {}".format(html_vacios))
    
    columnas = ['aerolinea', 'horario_salida', 'terminal_salida', 'puerta_salida',\
                'horario_llegada', 'terminal_llegada', 'puerta_llegada', 'origen', 'destino']
    
    r = pd.DataFrame(data2, columns=columnas)
    r.to_pickle(path_carpeta + 'output.pkl')
    
    return r
    

### Ejecución

In [18]:
scrapear_html_aviones('/Users/rodri/OneDrive/Documentos/html files 2/part2.tar/part2/')

Fallo en url: /Users/rodri/OneDrive/Documentos/html files 2/part2.tar/part2/output.pkl
Archviso html buenos: 12980
--------------------------------------------
Archviso html malos: 7107


Unnamed: 0,aerolinea,horario_salida,terminal_salida,puerta_salida,horario_llegada,terminal_llegada,puerta_llegada,origen,destino
0,Mandarin – AE 995,07:30,I,28,09:36,-,-,"Kaohsiung · lun., 11 de marzo","Hangzhou · lun., 11 de marzo"
1,Mandarin – AE 995,07:30,I,-,09:40,-,-,"Kaohsiung · mié., 13 de marzo","Hangzhou · mié., 13 de marzo"
2,Mandarin – AE 7931,12:30,D,-,13:35,-,-,"Kaohsiung · dom., 10 de marzo","Condado de Hualien · dom., 10 de marzo"
3,Mandarin – AE 7931,12:30,D,-,13:35,-,-,"Kaohsiung · lun., 11 de marzo","Condado de Hualien · lun., 11 de marzo"
4,Mandarin – AE 7931,12:30,D,-,13:35,-,-,"Kaohsiung · mar., 12 de marzo","Condado de Hualien · mar., 12 de marzo"
5,Mandarin – AE 7931,12:30,D,-,13:35,-,-,"Kaohsiung · mié., 13 de marzo","Condado de Hualien · mié., 13 de marzo"
6,Mandarin – AE 967,07:19,I,26,08:50,3,10,"Kaohsiung · lun., 11 de marzo","Xiamen · lun., 11 de marzo"
7,Mandarin – AE 5103,19:20,I,-,20:40,3,-,"Kaohsiung · mié., 13 de marzo","Xiamen · mié., 13 de marzo"
8,Mandarin – AE 764,09:00,-,-,10:00,1,-,"Kinmen · dom., 10 de marzo","Taichung · dom., 10 de marzo"
9,Mandarin – AE 766,11:40,-,-,12:40,1,-,"Kinmen · dom., 10 de marzo","Taichung · dom., 10 de marzo"
