O dataset Flight Price Prediction disponibilizado por Shubham Bathwal contém dados de reservas aéreas obtidas do website "Easy My Trip". Os dados cobrem o período de 11 de Fevereiro até 31 de Março de 2022, com 300261 registros.
Este projeto tem objetivo de responder algumas perguntas de negócio e criar um modelo de Machine Learning para predição de preços de voos.
- Preço varia de acordo com a Linha Aérea? e com a Classe?
- Como os preços das passagens são afetados, entre 1 e 2 dias antes da viagem?
- O preço muda de acordo com o período do dia para chegada e partida?
- O preço muda de acordo com o destino de partida e chegada?
Através de uma breve análise exploratória de dados foram respondidas as perguntas de negócio, e através da modelagem cheguei a um modelo com as seguintes métricas:
Métrica | Resultado |
---|---|
Mean Absolute Error | 1588.4280 |
Mean Squared Error | 8835481.4604 |
Root Mean Squared Error | 2972.4537 |
R2 Score | 0.9828 |
Coluna | Descrição |
---|---|
airline | A linha aérea do voo |
flight | O código de identificação do voo |
source_city | A cidade de onde o voo está partindo |
departure_time | Período do dia em qual o voo partiu |
stops | Número de paradas entre a partida e o destino |
arrival_time | Período do dia em que o voo chegou |
destination_city | A cidade destino do voo |
class | Classe do voo |
duration | Duração em horas do voo |
days_left | Diferença entre o dia da viagem e da reserva |
price | Preço da passagem |
- Pandas, Numpy.
- Seaborn, Matplotlib.
- XGBoost, sklearn, feature_engine.
Vistara e Air India são as únicas empreas que oferecem o voos de classe Executiva e por isso tem os maiores valores de passagem aérea.
O preço de passagem aéreas tem tendência de serem maiores quanto mais próximo do voo.
A madrugada é o período onde se encontra as passagens mais baratas, já os voos a noite são os mais caros tanto para chegada quanto para partida.
Sim, os pontos de partida e destino tem influência no preço. Delhi é o destino mais barato, seguido por Hyderabad.
Escolhi o XGBoost para este projeto, e as métricas resultantes após modelagem e tunagem de hiper parâmetros foram:
Métrica | Resultado |
---|---|
Mean Absolute Error | 1588.4280 |
Mean Squared Error | 8835481.4604 |
Root Mean Squared Error | 2972.4537 |
R2 Score | 0.9828 |