# <center>Projeto Big Data</center> 
&nbsp;
#### **<center>Otimização da frota de ônibus turísticos</center>**
<br />
<br />
<br />
<br />
<center>Daniel Castro</center>
&nbsp;
<center>Theo Barbara</center>
<br />
<br />
<center>São Paulo | Nov 2022</center>
<br />

### Introdução 
<br />
<br />
    Este projeto tem como intuito a análise das rotas mais procuradas ao longo do ano a fim de possibilitar a alocação mais eficaz e lucrativa das frotas de ônibus. Ao ter conhecimento das rotas mais buscadas pelos passageiros é possível transferir ônibus que levariam bem menos passageiros para estas rotas com maior demanda, possibilitando uma maior captura de passageiros e consequentemente um lucro maior. Foram utilizadas para este estudo as bases de dados da Agência Nacional de Transportes Terrestres (ANTT), o link para o acesso às bases segue abaixo: 
<br />
<br />

[Base de dados ANTT](https://dados.antt.gov.br/dataset/monitriip-bilhetes-de-passagem)

<br />
<br />

### Organização dos dados
<br />
<br />
    Ao entrar no site da ANTT você vai perceber que os dados estão separados por mês, portanto para ter um volume de dados adequado para a análise foi preciso baixar alguns meses. Estes arquivos CSV de cada mês foram alocados em uma pasta e compactados para diminuir ligeiramente o tamanho do arquivo de trabalho.
<br />
<br />
    Para trabalhar com este arquivo ZIP com todos os meses a biblioteca ZipFile foi utilizada. O procedimento de análise dos dados foi basicamente abrir o arquivo ZIP, percorrer todos os arquivos que o compõem e logo após uní-los em um arquivo só.
<br />
<br />

In [167]:
from zipfile import ZipFile
import pandas as pd
import os
import numpy as np
  
# Definindo o nome do arquivo de análise e seu caminho.
file_name = "Bilhetes.zip"
path = "C:/Users/danie/Desktop/Estudo/Eletivas/Big Data para dados públicos/Projeto-Big-Data/"
    
# Abrindo a arquivo zip com as informações de todos os meses
with ZipFile(os.path.join(path+file_name), 'r') as zip:
    # Printando o nome de todos os arquivo dentro do zip
    zip.printdir()  
    # Extraindo os arquivos para o diretório de trabalho
    zip.extractall()

File Name                                             Modified             Size
venda_passagem_12_2021.csv                     2022-11-09 12:37:42     19642786
venda_passagem_01_2019.csv                     2022-11-09 14:21:10     10164393
venda_passagem_01_2020.csv                     2022-11-09 14:20:06     16489544
venda_passagem_01_2021.csv                     2022-11-09 14:18:56     14744417
venda_passagem_01_2022.csv                     2022-11-09 12:37:40     17167260
venda_passagem_02_2019.csv                     2022-11-09 14:21:04      8703721
venda_passagem_02_2020.csv                     2022-11-09 14:20:02     15885862
venda_passagem_02_2021.csv                     2022-11-09 14:18:50     13524920
venda_passagem_02_2022.csv                     2022-11-09 12:37:40     16620848
venda_passagem_03_2019.csv                     2022-11-09 14:21:00      8282801
venda_passagem_03_2020.csv                     2022-11-09 14:19:52     11977390
venda_passagem_03_2021.csv              

In [103]:
# Criando o Data Frame de análise em branco e depois fazendo a inserção das informações de todos
# os meses
print('Construindo o arquivo...')
bilhetes = pd.DataFrame()
for file in zip.namelist():
    bilheteMes = pd.read_csv(file, sep=";", encoding="latin-1")
    try:
        bilhetes = pd.concat([bilhetes, bilheteMes], ignore_index=True)
        # Mostrando a evolução do tamanho da tabela 
        print(f"'{len(bilhetes)}' linhas.") 
    except Exception as error:
        print(error)
print(f"Finalizado, o arquivo possui '{len(bilhetes)}' linhas!'")

Construindo o arquivo...
'152614' linhas.
'229434' linhas.
'353000' linhas.
'465993' linhas.
'598150' linhas.
'664301' linhas.
'783998' linhas.
'887449' linhas.
'1015623' linhas.
'1077900' linhas.
'1167992' linhas.
'1269001' linhas.
'1399756' linhas.
'1479005' linhas.
'1499676' linhas.
'1601342' linhas.
'1668240' linhas.
'1760529' linhas.
'1781252' linhas.
'1888904' linhas.
'2017874' linhas.
'2105757' linhas.
'2137514' linhas.
'2246516' linhas.
'2373333' linhas.
'2473717' linhas.
'2519192' linhas.
'2639491' linhas.
'2792982' linhas.
'2878156' linhas.
'2944846' linhas.
'3067216' linhas.
'3164334' linhas.
'3237633' linhas.
'3359004' linhas.
'3494567' linhas.
'3597029' linhas.
'3692555' linhas.
'3816802' linhas.
'3915555' linhas.
'4018278' linhas.
'4144253' linhas.
'4273578' linhas.
'4391804' linhas.
Finalizado, o arquivo possui '4391804' linhas!'


In [104]:
# Limpando linhas com valores NaN
if len(bilhetes[bilhetes.isna().any(axis=1)]) != 0:
    print(f"O arquivo contém '{len(bilhetes[bilhetes.isna().any(axis=1)])}' linhas com NaN que"+
          "devem ser apagadas")
    print("Removendo linhas NaN...")
    bilhetes.dropna(inplace=True)
print(f"O arquivo contém '{len(bilhetes[bilhetes.isna().any(axis=1)])}' linhas com NaN!")

O arquivo contém '0' linhas com NaN!


In [105]:
bilhetes.sample(5)

Unnamed: 0,mes_emissao_bilhete,mes_viagem,ponto_origem_viagem,ponto_destino_viagem,tipo_servico,tipo_gratuidade,media_valor_total,dp_valor_total,quantidade_bilhetes
1307822,03/2022,01/2022,MARATAIZES/ES,BOM JESUS DO ITABAPOANA/RJ,Convencional com sanitário,Tarifa Normal - sem desconto,28.17,0.0,1
4227369,12/2019,12/2019,CAXIAS DO SUL/RS,LONDRINA/PR,Executivo,Gratuidade Jovem de Baixa Renda 100% - Inciso ...,230.3,0.0,2
267898,01/2020,01/2020,SAO JOSE DO RIO PRETO/SP,MONTES CLAROS/MG,Convencional com sanitário,Autorização de Viagem - Passe Livre - Art. 1º ...,0.0,0.0,5
3987021,11/2020,12/2020,BREJO SANTO/CE,GOIANIA/GO,Convencional com sanitário,"Bilhete de Viagem do Idoso 50% - Inciso II, ar...",266.38,0.0,1
2735452,07/2022,07/2022,CAMPO VERDE/MT,POTIRAGUA/BA,Executivo,Tarifa Normal - sem desconto,21.87,1.28,34


Perceba que nas colunas "_mes_emissao_bilhete_" e "_mes_viagem_" a informação da data pode ser apresentada em dois formatos diferentes: totalmente numérico, ou seja, **09/2022**, ou então utilizando a sigla do mês e uma abreviação do ano, ou seja, **set/22**. 

<br />
É preciso unificar a apresentação das informações para que a análise não seja atrapalhada por esta divergência de formato. O formato escolhido foi o númerico, logo abaixo será feita a conversão das informações das colunas.

<br />
<br />

**É imprescindível que as informações de data contenham apenas mês e ano.**

In [106]:
def conversorData(data:str):
    """
    Converte as datas que estão em um foramto diferente do esperado.
    :param data: data a ser convertida
    return: 
    - Caso data seja passível de conversão, retorna a data convertida no formato MM/AAAA.
    
    - Caso contrário, retorna "Informação inválida" 
    """        
    
    mes, ano = data.split('/')
    try:
        int(mes)
    except Exception as error:
        if type(error) is ValueError: # Significa que existe alguma letra
            mes = mes.lower()
            # Faz a respetiva atribuição numérica da sigla do mês da data
            if mes == 'jan':
                mes = '01'
            elif mes == 'fev':
                mes = '02'
            elif mes == 'mar':
                mes = '03'
            elif mes == 'abr':
                mes = '04'
            elif mes == 'mai':
                mes = '05'
            elif mes == 'jun':
                mes = '06'
            elif mes == 'jul':
                mes = '07'
            elif mes == 'ago':
                mes = '08'
            elif mes == 'set':
                mes = '09'
            elif mes == 'out':
                mes = '10'
            elif mes == 'nov':
                mes = '11'
            elif mes == 'dez':
                mes = '12'
            else:
                return 'Informação inválida' 
    else:
        if int(mes) not in range(1,13): # o mês não é válida
            return 'Informação inválida' 
    finally:
        if len(ano) == 2: # A data está no formato MM/AA e deve ser convertida para MM/AAAA
            if int(ano) in range(0,25):
                ano = '20'+ano
            else:
                ano = '19'+ano
        return mes+'/'+ano

In [107]:
# Conversão das colunas de data
# A linha abaixo possui o formato errado de data.
print('Convertendo...')
bilhetes['mes_viagem'] = bilhetes['mes_viagem'].apply(lambda x: conversorData(x))
bilhetes['mes_emissao_bilhete'] = bilhetes['mes_emissao_bilhete'].apply(lambda x: conversorData(x))
print("As colunas 'mes_viagem' e 'mes_emissao_bilhete' foram convertidas!")

Convertendo...
As colunas 'mes_viagem' e 'mes_emissao_bilhete' foram convertidas!


### Análise exploratória
<br />
Para começar é interessante observar graficamente para um mês qualquer, qual a rota que possui a maior quantidade de bilhetes e consequentemente a maior quantidade de passageiros. 

Vou utilizar o mês do meu aniversário só por coincidência.

In [188]:
import matplotlib.pyplot as plt
import plotly.express as px

BilhetesABR = bilhetes[(bilhetes['mes_viagem'].str[0:8] == '04/2022')]
df = BilhetesABR.groupby(['ponto_origem_viagem']).count()
df = df.loc[df['mes_emissao_bilhete']>500].sort_values(by=['mes_viagem'], ascending=False).head(15)

px.bar(df, y='mes_viagem',
       labels={'mes_viagem': 'N° bilhetes emitidos', 'ponto_origem_viagem': 'Cidade de partida da viagem'},
       title='Cidades com maior número de passageiros emigrantes em ABR/2022',
       template='plotly_white')                                              

In [189]:
df2 = BilhetesABR.groupby(['ponto_destino_viagem']).count()
df2 = df2.loc[df2['mes_emissao_bilhete']>500].sort_values(by=['mes_viagem'], ascending=False).head(15)
px.bar(df2, y='mes_viagem',
       labels={'mes_viagem': 'N° de bilhetes', 'ponto_destino_viagem': 'Cidade de destino da viagem'},
       title='Cidades com maior número de passageiros imigrantes em ABR/2022',
       template='plotly_white')

Perceba que tanto no ponto de partida, quanto no ponto de destino as cinco cidades predominantes são:

<br />

 *  São Paulo (SP)
 *  Rio de Janeiro (RJ)
 *  Goiânia (GO)
 *  Brasília (DF)
 *  Curitiba (PR)
 
<br />

Com certeza estas são cidades boas para se inserir em suas rotas de viagem. 

Mas existe também duas outras perguntas: 

<br />

 *  "Estas pessoas que saem de São Paulo, para onde elas vão?"

<br />

 *  "E as pessoas que vêm para São Paulo, de onde elas partem?"
 
<br />

Para responder a estas perguntas vamos fazer uma cross table e ver o resultado.

In [195]:
rotas = pd.crosstab(BilhetesABR['ponto_origem_viagem'],BilhetesABR['ponto_destino_viagem'])
rotasSP=rotas.loc[:,["SAO PAULO/SP"]].sort_values(by=['SAO PAULO/SP'], ascending = False).head(50)
rotasSP = rotasSP.loc[rotasSP['SAO PAULO/SP'] != 0] # Retirando as cidades que não possuem bilhetes

In [196]:
px.bar(rotasSP, title='Rotas com sentido a São Paulo em ABR/2022',
       labels={'value':'N° de bilhetes', 'ponto_origem_viagem': 'Cidade de origem'},
       template='plotly_white')

As 10 cidades que mais possuem passageiros em direção a São Paulo em abril são:

In [197]:
rotasSP.head(10)

ponto_destino_viagem,SAO PAULO/SP
ponto_origem_viagem,Unnamed: 1_level_1
CURITIBA/PR,37
VITORIA DA CONQUISTA/BA,34
RIO DE JANEIRO/RJ,31
BRASILIA/DF,31
LONDRINA/PR,30
BELO HORIZONTE/MG,29
GOIANIA/GO,29
MARINGA/PR,29
CASCAVEL/PR,27
FOZ DO IGUACU/PR,25


In [199]:
rotas = pd.crosstab(BilhetesABR['ponto_destino_viagem'],BilhetesABR['ponto_origem_viagem'])
rotasSP=rotas.loc[:,["SAO PAULO/SP"]].sort_values(by=['SAO PAULO/SP'], ascending = False)
rotasSP = rotasSP.loc[rotasSP['SAO PAULO/SP'] != 0] # Retirando as cidades que não possuem bilhetes
rotasSP = rotasSP.head(50)
px.bar(rotasSP, title='Rotas saindo de São Paulo em ABR/2022',
       labels={'value':'N° de bilhetes', 'ponto_origem_viagem': 'Cidade de origem'},
       template='plotly_white')

As 10 cidades que os passageiros de São Paulo mais viajam em abril são:

In [200]:
rotasSP.head(10)

ponto_origem_viagem,SAO PAULO/SP
ponto_destino_viagem,Unnamed: 1_level_1
CURITIBA/PR,35
LONDRINA/PR,33
RIO DE JANEIRO/RJ,33
BELO HORIZONTE/MG,32
MARINGA/PR,31
VITORIA DA CONQUISTA/BA,30
BRASILIA/DF,29
GOIANIA/GO,28
FOZ DO IGUACU/PR,26
UBERLANDIA/MG,24


### Função de análise temporal

A partir da análise feita acima foi possível identificar os melhores trajetos para o mês de abril de 2022, mas será que são sempre os mesmos trajetos que se destacam todos os anos? Na base de dados da ANTT têm-se dados de Janeiro de 2019 até Setembro de 2022. 

<br /> 
Abaixo será feita a análise da quantidade de bilhetes no mês de Abril dos anos 2019 até 2022.

In [216]:
def analiseTemporal(df:pd.DataFrame, mes:int,  numAmostras:int, sentido:bool=False):
    """
    A função calcula o número de bilhetes para os parâmetros de entrada.
    :param df: Data Frame com as informações dos bilhetes
    :param mes: Mês de análise.
    :param sentido: True | Origem
                    False | Destino
    :param numAmostras: Quantidade de cidades que serão apresentadas no gráfico
    """
    mes = '0'+str(mes)
    if sentido:
        sentido = 'ponto_origem_viagem'
    else:
        sentido = 'ponto_destino_viagem'
    
    Bilhetes = {
    '2019': df[(df['mes_viagem'].str[0:9] == mes+'/2019')],
    '2020': df[(df['mes_viagem'].str[0:9] == mes+'/2020')],
    '2021': df[(df['mes_viagem'].str[0:9] == mes+'/2021')],
    '2022': df[(df['mes_viagem'].str[0:9] == mes+'/2022')]    
    }

    for ano in Bilhetes:
        Bilhetes[ano] = Bilhetes[ano].groupby([sentido]).count()
        Bilhetes[ano].rename(columns = {'mes_viagem':ano}, inplace = True)
        Bilhetes[ano] = Bilhetes[ano][ano]

    Bilhetes = pd.DataFrame(Bilhetes)
    Bilhetes['Total']=Bilhetes.apply(np.sum, axis=1)
    Bilhetes = Bilhetes.sort_values(by=['Total'], ascending=False).head(numAmostras)
    fig = px.bar(Bilhetes, y=["2019", "2020", "2021", "2022"], 
             title="Cidades que possuem maior quantidade de passageiros no mês "+mes)
    return fig.show()

In [217]:
analiseTemporal(df=bilhetes, mes=3, numAmostras=5)

In [218]:
analiseTemporal(df=bilhetes, mes=5, numAmostras=10, sentido=True)