## Introdução: 
Apresente o problema e defina claramente os objetivos da sua análise.

## Análise Exploratória: 
Carregue e descreva o dataset. Crie visualizações (histogramas, boxplots, etc.) para entender as variáveis. Investigue correlações (mapas de calor) e planeje o tratamento de dados faltantes e outliers.

In [None]:
# Importando bibliotecas

import numpy as np
import pandas as pd
import altair as alt
import vegafusion
import seaborn as sns
import matplotlib.pyplot as plt


### Importando base de dados (Flight)

In [None]:
df_flight = pd.read_csv("flight.csv")

df_flight.head()

In [None]:
# Removendo a primeira coluna

df_flight = df_flight.drop('Unnamed: 0',axis=1)

In [None]:
# Informações
df_flight.info()

# Verificar valores nulos
df_flight.isnull().sum()

## Colunas

As colunas existentes no dataset escolhido são:  

1. **airline** – Companhia aérea responsável pelo voo.  

2. **flight** – Código ou número identificador do voo.  

3. **source_city** – Cidade de origem de onde o voo parte.  

4. **departure_time** – Faixa de horário da decolagem (por exemplo: manhã, tarde, noite).  

5. **stops** – Número de paradas intermediárias (ex: zero, one, two_or_more).  

6. **arrival_time** – Faixa de horário de chegada ao destino.  

7. **destination_city** – Cidade de destino para onde o voo está indo.  

8. **class** – Classe da passagem (por exemplo: Economy, Business).  

9. **duration** – Duração total do voo em horas.  

10. **days_left** – Quantidade de dias restantes até a data do voo no momento da coleta dos dados.  

11. **price** – Preço da passagem aérea.


## Resumo Estatístico

### Análise unidimensional

In [None]:
df_flight.describe()

In [None]:
# Pela quantidade de observações, é necessário desabilitar o máximo de colunas padrão do Altair (5000)

alt.data_transformers.disable_max_rows()


#### Histogramas

In [None]:
num_cols = ["duration", "days_left", "price"]

charts = [
    alt.Chart(df_flight).mark_bar().encode(
        alt.X(col, type="quantitative", bin=alt.BinParams(maxbins=15), title=col),
        alt.Y("count()", type="quantitative", title="Contagem de ocorrências")
    ).properties(width=150, height=150)
    for col in num_cols
]

histogramas_num = alt.hconcat(*charts).properties(
    title="Distribuição de variáveis numéricas"
)

histogramas_num

In [None]:
cat_cols = [
    "airline", "source_city", "departure_time", "stops",
    "arrival_time", "destination_city", "class"
]
charts_cat = [
    alt.Chart(df_flight).mark_bar().encode(
        x=alt.X(col, type="nominal", title=col, sort='-y'),
        y=alt.Y("count()", type="quantitative", title="Contagem de ocorrências"),
        tooltip=[col, "count()"]
    ).properties(width=150, height=150)
    for col in cat_cols
]

# organiza os gráficos em uma grade
histogramas_cat = alt.hconcat(*charts_cat[:4]).resolve_scale(y='independent')
if len(cat_cols) > 4:
    row2 = alt.hconcat(*charts_cat[4:]).resolve_scale(y='independent')
    histogramas_cat = alt.vconcat(histogramas_cat, row2)

histogramas_cat = histogramas_cat.properties(
    title="Distribuição de variáveis categóricas"
)

histogramas_cat


#### Boxplots

In [None]:
col_titles = {
    "duration": "Duração do voo (horas)",
    "days_left": "Dias restantes até o voo",
    "price": "Preço da passagem (R$)"
}


plt.figure(figsize=(15, 4))

# cria um boxplot horizontal para cada variável numérica
for i, col in enumerate(num_cols):
    plt.subplot(1, 3, i+1) 
    sns.boxplot(x=df_flight[col])  
    plt.title(f"Boxplot de {col_titles[col]}")
    plt.grid(axis="x", linestyle="--", alpha=0.6)

plt.tight_layout()
plt.show()