# Análise de Voos (voos.antigo.csv)
Este notebook investiga a relação entre **preço** e **distância** das rotas presentes no arquivo `voos.antigo.csv`. O objetivo é avaliar a eficiência econômica dos voos e identificar oportunidades ou anomalias, auxiliando consumidores e gestores a entenderem melhor o mercado aéreo.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

plt.rcParams['figure.figsize'] = (10,6)
sns.set(style='whitegrid')

## Carregamento dos dados

In [None]:
df = pd.read_csv('voos.antigo.csv')
print(f'Total de registros: {len(df)}')
df.head()

## Limpeza e pré-processamento

In [None]:
# Verificar valores ausentes
print(df.isnull().sum())

# Criar coluna de rota simplificada
df['rota'] = df['origem (IATA)'] + '-' + df['destino (IATA)']

# Calcular preço por km
df['preco_por_km'] = df['price'] / df['distancia']

# Visão geral das estatísticas
df[['price','distancia','preco_por_km']].describe()

## Preço vs Distância

In [None]:
sns.regplot(data=df, x='distancia', y='price', scatter_kws={'alpha':0.7});
plt.title('Relação entre Distância e Preço');
plt.xlabel('Distância (km)');
plt.ylabel('Preço (R$)');
plt.show()

## Preço por km vs Distância

In [None]:
sns.scatterplot(data=df, x='distancia', y='preco_por_km', alpha=0.7);
plt.title('Eficiência (Preço por km) ao longo da Distância');
plt.xlabel('Distância (km)');
plt.ylabel('Preço por km (R$/km)');
plt.show()

## Distribuição do Preço por km

In [None]:
sns.histplot(df['preco_por_km'], bins=30, kde=True);
plt.title('Histograma do Preço por km');
plt.xlabel('Preço por km (R$/km)');
plt.ylabel('Frequência');
plt.show()

## Rotas extremas em custo por km

In [None]:
top_caras = df.sort_values('preco_por_km', ascending=False).head(10)
baratas = df.sort_values('preco_por_km', ascending=True).head(10)

print('Mais caras por km:')
display(top_caras[['rota','price','distancia','preco_por_km']])

print('Mais baratas por km:')
display(baratas[['rota','price','distancia','preco_por_km']])

## Comparação por companhia aérea

In [None]:
sns.boxplot(data=df, x='cia', y='preco_por_km');
plt.title('Distribuição do Preço por km por Companhia');
plt.xlabel('Companhia');
plt.ylabel('Preço por km (R$/km)');
plt.show()

## Conclusões
- A relação entre preço e distância apresenta correlação moderada, indicando que voos mais longos tendem a ser mais caros, mas com grande variabilidade.
- Observa-se forte penalização em rotas muito curtas (ex.: BSB-GYN), com custo por km muito acima da média, sugerindo influência de custos fixos e taxas.
- Nas faixas acima de 2000 km o preço por km tende a estabilizar abaixo de 0,5 R$/km, mostrando maior eficiência em distâncias longas.
- Foram identificadas rotas atípicas (tanto baratas quanto caras) que podem representar oportunidades ou sinalizar distorções de mercado.
- A análise pode ser complementada futuramente com dados de ocupação das aeronaves para estudar elasticidade de demanda e viabilidade econômica.