# <center>Projeto Big Data</center> 
&nbsp;
#### **<center>Otimização da frota de ônibus turísticos</center>**
<br />
<br />
<br />
<br />
<center>Daniel Castro</center>
&nbsp;
<center>Theo Barbara</center>
<br />
<br />
<center>São Paulo | Nov 2022</center>
<br />

### Introdução 
<br />
<br />
    Este projeto tem como intuito a análise das rotas mais procuradas ao longo do ano a fim de possibilitar a alocação mais eficaz e lucrativa das frotas de ônibus. Ao ter conhecimento das rotas mais buscadas pelos passageiros é possível transferir ônibus que levariam bem menos passageiros para estas rotas com maior demanda, possibilitando uma maior captura de passageiros e consequentemente um lucro maior. Foram utilizadas para este estudo as bases de dados da Agência Nacional de Transportes Terrestres (ANTT), o link para o acesso às bases segue abaixo: 
<br />
<br />

[Base de dados ANTT](https://dados.antt.gov.br/dataset/monitriip-bilhetes-de-passagem)

<br />
<br />

### Organização dos dados
<br />
<br />
    Ao entrar no site da ANTT você vai perceber que os dados estão separados por mês, portanto para ter um volume de dados adequado para a análise foi preciso baixar vários meses. Estes arquivos CSV de cada mês foram alocados em uma pasta e compactados para diminuir ligeiramente o tamanho do arquivo de trabalho.
<br />
<br />
    Para trabalhar com este arquivo ZIP com todos os meses a biblioteca ZipFile foi utilizada. O procedimento de análise dos dados foi basicamente abrir o arquivo ZIP, percorrer todos os arquivos que o compõem e logo após uní-los em um arquivo só.
<br />
<br />

In [10]:
from zipfile import ZipFile
import pandas as pd
import os
  
# Definindo o nome do arquivo de análise e seu caminho.
file_name = "Bilhetes.zip"
path = "C:/Users/danie/Desktop/Estudo/Eletivas/Big Data para dados públicos/Projeto-Big-Data/"
    
# Abrindo a arquivo zip com as informações de todos os meses
with ZipFile(os.path.join(path+file_name), 'r') as zip:
    # Printando o nome de todos os arquivo dentro do zip
    zip.printdir()  
    # Extraindo os arquivos para o diretório de trabalho
    zip.extractall()

File Name                                             Modified             Size
venda_passagem_01_2022.csv                     2022-10-22 16:20:22     17167260
venda_passagem_02_2022.csv                     2022-10-22 16:19:24     16620848
venda_passagem_03_2022.csv                     2022-10-22 16:18:58     17019407
venda_passagem_04_2022.csv                     2022-10-22 16:18:12      8500532
venda_passagem_05_2022.csv                     2022-10-22 16:17:38     16775582
venda_passagem_06_2022.csv                     2022-10-22 16:15:48     16292509
venda_passagem_07_2022.csv                     2022-10-22 16:00:36     19957908
venda_passagem_09_2021.csv                     2022-10-22 16:22:58     15840935
venda_passagem_09_2022.csv                     2022-10-22 15:54:58     17361183
venda_passagem_10_2021.csv                     2022-10-22 16:22:22     16216048
venda_passagem_11_2021.csv                     2022-10-22 16:21:48     16376100
venda_passagem_12_2021.csv              

In [2]:
# Criando o Data Frame de análise em branco e depois fazendo a inserção das informações de todos
# os meses
bilhetes = pd.DataFrame()
for file in zip.namelist():
    bilheteMes = pd.read_csv(file, sep=";", encoding="latin-1")
    try:
        bilhetes = pd.concat([bilhetes, bilheteMes], ignore_index=True)
        # Mostrando a evolução do tamanho da tabela 
        print(f"O arquivo de análise contém: '{len(bilhetes)}' linhas!") 
    except error as Exception:
        print(error)

O arquivo de análise contém: '132157' linhas!
O arquivo de análise contém: '260331' linhas!
O arquivo de análise contém: '391086' linhas!
O arquivo de análise contém: '457984' linhas!
O arquivo de análise contém: '586954' linhas!
O arquivo de análise contém: '713771' linhas!
O arquivo de análise contém: '867262' linhas!
O arquivo de análise contém: '988633' linhas!
O arquivo de análise contém: '1124196' linhas!
O arquivo de análise contém: '1248443' linhas!
O arquivo de análise contém: '1374418' linhas!
O arquivo de análise contém: '1527032' linhas!


In [39]:
# Limpando linhas com valores NaN
if len(bilhetes[bilhetes.isna().any(axis=1)])!=0:
    print(f"O arquivo contém '{len(bilhetes[bilhetes.isna().any(axis=1)])}' linhas com NaN que"+
          "devem ser apagadas")
    bilhetes.dropna(inplace=True)
print(f"O arquivo contém '{len(bilhetes[bilhetes.isna().any(axis=1)])}' linhas com NaN!")

O arquivo contém '0' linhas com NaN!


In [4]:
bilhetes.sample(5)

Unnamed: 0,mes_emissao_bilhete,mes_viagem,ponto_origem_viagem,ponto_destino_viagem,tipo_servico,tipo_gratuidade,media_valor_total,dp_valor_total,quantidade_bilhetes
861907,07/2022,07/2022,ACU/RN,ARACATI/CE,Executivo,"Tarifa Promocional - Parágrafo 3º, art. 27 do ...",47.59,3.5,22
1019501,set/22,set/22,BELO HORIZONTE/MG,CAMPINAS/SP,Executivo,"Bilhete de Viagem do Idoso 50% - Inciso II, ar...",145.78,0.13,9
1010492,set/22,set/22,CAMPO GRANDE/MS,SINOP/MT,Convencional com sanitário,Autorização de Viagem - Passe Livre - Art. 1º ...,0.0,0.0,6
1325822,11/2021,11/2021,PIMENTA BUENO/RO,CAMPO MOURAO/PR,Convencional com sanitário,"Tarifa Promocional - Parágrafo 3º, art. 27 do ...",560.75,0.0,4
1404992,12/2021,01/2022,BOM JARDIM DA SERRA/SC,SALDANHA MARINHO/RS,Executivo,Tarifa Normal - sem desconto,230.0,0.0,1


Perceba nas colunas "_mes_emissao_bilhete_" e "_mes_viagem_" a informação da data pode ser apresentada em dois formatos diferentes: totalmente numérico, ou seja, **09/2022**, ou então utilizando a sigla do mês e uma abreviação do ano, ou seja, **set/22**. 

<br />
É preciso unificar a apresentação das informações para que a análise não seja atrapalhada por esta divergência de formato. O formato escolhido foi o númerico, logo abaixo será feita a conversão das informações das colunas.

<br />
<br />

**É imprescindível que as informações de data contenham apenas mês e ano.**

In [61]:
def conversorData(data:str):
    """
    Converte as datas que estão em um foramto diferente do esperado.
    :param data: data a ser convertida
    return: 
    - Caso data seja passível de conversão, retorna a data convertida no formato MM/AAAA.
    
    - Caso contrário, retorna "Informação inválida" 
    """        
    
    mes, ano = data.split('/')
    try:
        int(mes)
    except Exception as error:
        if type(error) is ValueError: # Significa que existe alguma letra
            mes = mes.lower()
            # Faz a respetiva atribuição numérica da sigla do mês da data
            if mes == 'jan':
                mes = '01'
            elif mes == 'fev':
                mes = '02'
            elif mes == 'mar':
                mes = '03'
            elif mes == 'abr':
                mes = '04'
            elif mes == 'mai':
                mes = '05'
            elif mes == 'jun':
                mes = '06'
            elif mes == 'jul':
                mes = '07'
            elif mes == 'ago':
                mes = '08'
            elif mes == 'set':
                mes = '09'
            elif mes == 'out':
                mes = '10'
            elif mes == 'nov':
                mes = '11'
            elif mes == 'dez':
                mes = '12'
            else:
                return 'Informação inválida' 
    else:
        if int(mes) not in range(1,13): # o mês não é válida
            return 'Informação inválida' 
    finally:
        if len(ano) == 2: # A data está no formato MM/AA e deve ser convertida para MM/AAAA
            if ano in range(0,23):
                ano = '20'+ano
            else:
                ano = '19'+ano
        return mes+'/'+ano