# Análise de Atrasos de Voos

Primeiro, vamos importar as bibliotecas necessárias e carregar os dados do arquivo CSV para um DataFrame do pandas.

In [4]:
import pandas as pd
import plotly.express as px

# Carregar os dados
df = pd.read_csv('dados_aeroporto.csv')

# Exibir as primeiras linhas do dataframe
df.head()

Unnamed: 0,companhia_aerea,destino,tempo_de_voo,tempo_de_atraso
0,Comp A,Local 1,90,15
1,Comp A,Local 2,105,12
2,Comp B,Local 1,100,27
3,Comp B,Local 2,95,33
4,Comp A,Local 3,85,18


Agora, vamos fazer uma análise exploratória inicial para entender a distribuição dos dados.

In [5]:
df.describe()

Unnamed: 0,tempo_de_voo,tempo_de_atraso
count,51.0,51.0
mean,101.078431,20.45098
std,7.70154,6.827338
min,85.0,12.0
25%,95.0,15.0
50%,100.0,18.0
75%,105.0,28.0
max,115.0,33.0


### Quais voos têm maior atraso?

Para responder a essa pergunta, vamos analisar o tempo médio de atraso por companhia aérea.

In [6]:
# Calcular o tempo médio de atraso por companhia aérea
atraso_por_companhia = df.groupby('companhia_aerea')['tempo_de_atraso'].mean().sort_values(ascending=False)
print(atraso_por_companhia)

companhia_aerea
Comp B    30.333333
Comp D    19.454545
Comp A    15.538462
Comp C    14.333333
Name: tempo_de_atraso, dtype: float64


A **Companhia B** é a que apresenta, em média, os maiores atrasos.

### Quais atributos mais influenciam esse atraso?

Para entender as relações entre os atributos e o tempo de atraso, podemos calcular a correlação entre as variáveis numéricas.

In [7]:
# Selecionar apenas colunas numéricas para correlação
df_numeric = df.select_dtypes(include=['number'])
correlacao = df_numeric.corr()

# Visualizar a correlação com o tempo de atraso
print(correlacao['tempo_de_atraso'].sort_values(ascending=False))

tempo_de_atraso    1.000000
tempo_de_voo      -0.062686
Name: tempo_de_atraso, dtype: float64


O `tempo_de_voo` tem uma correlação muito baixa com o `tempo_de_atraso`, sugerindo que voos mais longos não necessariamente atrasam mais.

### Cenários de Atraso

Vamos explorar alguns cenários para entender melhor as causas dos atrasos.

**Cenário 1: Atraso por Companhia Aérea**

A Companhia B se destaca com o maior tempo médio de atraso. Vamos visualizar isso com um gráfico de barras.

In [8]:
fig = px.bar(atraso_por_companhia, 
             x=atraso_por_companhia.index, 
             y='tempo_de_atraso',
             labels={'y': 'Tempo Médio de Atraso (min)', 'x': 'Companhia Aérea'},
             title='Tempo Médio de Atraso por Companhia Aérea')
fig.show()

**Cenário 2: Atraso por Destino**

Pode ser que alguns destinos tenham mais problemas operacionais, causando atrasos independentemente da companhia. Vamos verificar o tempo médio de atraso por destino.

In [9]:
atraso_por_destino = df.groupby('destino')['tempo_de_atraso'].mean().sort_values(ascending=False)

fig = px.bar(atraso_por_destino, 
             x=atraso_por_destino.index, 
             y='tempo_de_atraso',
             labels={'y': 'Tempo Médio de Atraso (min)', 'x': 'Destino'},
             title='Tempo Médio de Atraso por Destino')
fig.show()

Os destinos não parecem ter uma influência tão grande quanto a companhia aérea, mas o **Local 2** apresenta uma média de atraso ligeiramente maior.

**Cenário 3: Relação entre Tempo de Voo e Atraso por Companhia**

Vamos investigar se a correlação baixa entre tempo de voo e atraso se mantém quando analisamos cada companhia individualmente. Usaremos um gráfico de dispersão.

In [10]:
fig = px.scatter(df, 
                 x='tempo_de_voo', 
                 y='tempo_de_atraso', 
                 color='companhia_aerea',
                 title='Tempo de Voo vs. Tempo de Atraso por Companhia Aérea',
                 labels={'tempo_de_voo': 'Tempo de Voo (min)', 'tempo_de_atraso': 'Tempo de Atraso (min)'})
fig.show()

### Conclusões

O gráfico de dispersão confirma visualmente as nossas suspeitas:

1.  **Atrasos da Companhia B:** Os pontos laranjas (Companhia B) estão consistentemente na faixa mais alta de atraso, independentemente do tempo de voo. Isso reforça a ideia de que a causa dos atrasos está mais relacionada à própria companhia do que a outros fatores como a duração do voo.
2.  **Outras Companhias:** As outras companhias (A, C e D) têm seus atrasos concentrados em uma faixa mais baixa e mais consistente, mostrando uma operação mais estável.

**Resumo dos Cenários:**

*   **Cenário 1 (Companhia Aérea):** A Companhia B é claramente o principal ponto de atenção, sendo a maior responsável pelos atrasos.
*   **Cenário 2 (Destino):** O destino tem um impacto menor, sugerindo que a infraestrutura dos locais de chegada não é o principal problema.
*   **Cenário 3 (Tempo de Voo vs. Atraso):** A duração do voo não é um fator preditivo para o tempo de atraso, especialmente quando observamos o comportamento anômalo da Companhia B.

A análise sugere que para reduzir os gargalos de atraso no aeroporto, as investigações deveriam se concentrar nos processos operacionais internos da **Companhia B**.

### Proposta de Solução

Com base na análise, a principal causa dos atrasos está concentrada na **Companhia B**. Uma solução eficaz seria a implementação de um **Plano de Melhoria de Performance Operacional** focado nesta companhia.

O plano poderia incluir:

1.  **Auditoria de Processos:** Uma análise detalhada dos processos de embarque, manutenção de aeronaves e logística da Companhia B para identificar os gargalos específicos.
2.  **Metas de Redução de Atraso:** Estabelecer metas claras e mensuráveis para a redução do tempo médio de atraso. Por exemplo, uma meta de reduzir o tempo médio de atraso da Companhia B em 30% nos próximos 6 meses.
3.  **Monitoramento Contínuo:** Acompanhar o desempenho da companhia através de KPIs (Key Performance Indicators) semanais.

A seguir, vamos simular o impacto que uma redução de 50% nos atrasos da Companhia B teria no cenário geral do aeroporto.

In [None]:
# Criar um novo dataframe para a simulação
df_simulacao = df.copy()

# Reduzir o tempo de atraso da Companhia B em 30%
df_simulacao.loc[df_simulacao['companhia_aerea'] == 'Comp B', 'tempo_de_atraso'] *= 0.7

# Calcular o novo tempo médio de atraso por companhia
novo_atraso_por_companhia = df_simulacao.groupby('companhia_aerea')['tempo_de_atraso'].mean()

# Criar um dataframe para o gráfico
df_comparacao = pd.DataFrame({
    'Cenário': ['Atual'] * len(atraso_por_companhia) + ['Com Melhoria'] * len(novo_atraso_por_companhia),
    'Companhia Aérea': list(atraso_por_companhia.index) + list(novo_atraso_por_companhia.index),
    'Tempo Médio de Atraso': list(atraso_por_companhia.values) + list(novo_atraso_por_companhia.values)
})

# Gerar o gráfico de barras comparativo
fig = px.bar(df_comparacao, 
             x='Companhia Aérea', 
             y='Tempo Médio de Atraso',
             color='Cenário',
             barmode='group',
             labels={'Tempo Médio de Atraso': 'Tempo Médio de Atraso (min)'},
             title='Comparativo de Atrasos: Cenário Atual vs. Cenário com Melhoria')
fig.show()


Setting an item of incompatible dtype is deprecated and will raise an error in a future version of pandas. Value '[18.9 23.1 22.4 20.3 23.1 21.  19.6 22.4 21.  20.3 21.7 22.4 21.  19.6
 21.7]' has dtype incompatible with int64, please explicitly cast to a compatible dtype first.

