### 1 - PREPARA√á√ÉO E CARREGAMENTO DOS DADOS ###

In [1]:
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

In [3]:
try:
    df = pd.read_csv("flight_data_2024.csv")
    print("Arquivo carregado com sucesso!")

except FileNotFoundError:
    print("ERRO: Arquivo n√£o encontrado")

print(f"Dataset carregado com {df.shape[0]} linhas e {df.shape[1]} colunas.")

Arquivo carregado com sucesso!
Dataset carregado com 1048575 linhas e 18 colunas.


In [4]:
try:
    df['flight_id'] = np.arange(df.shape[0]) + 1
    colunas = ['flight_id'] + [col for col in df.columns if col != 'flight_id']
    df = df[colunas]

    print(f"\n Coluna 'flight_id' criada com sucesso!")
    print(f"Total de {df.shape[0]:,} voos.")

    print("\n ---- 5 primeiras linhas do df com o ID novo ----")
    print(df[['flight_id', 'fl_date', 'origin', 'cancelled']].head(5))

except Exception as e:
    print(f"ocorreu um erro inesperado: {e}")


 Coluna 'flight_id' criada com sucesso!
Total de 1,048,575 voos.

 ---- 5 primeiras linhas do df com o ID novo ----
   flight_id   fl_date origin  cancelled
0          1  1/1/2024    JFK          0
1          2  1/1/2024    MSP          0
2          3  1/1/2024    JFK          0
3          4  1/1/2024    RIC          0
4          5  1/1/2024    DTW          0


In [5]:
coluna_alvo = 'cancelled'

df[coluna_alvo]=pd.to_numeric(df[coluna_alvo], errors='coerce').fillna(0).astype(int)

# c) Prepara√ß√£o de Vari√°veis Num√©ricas (taxiamento)
df['taxi_out'] = pd.to_numeric(df['taxi_out'], errors='coerce').fillna(0)

# d) Cria√ß√£o de Features de Tempo (data)
df['fl_date'] = pd.to_datetime(df['fl_date'], errors='coerce')
df['day_of_year'] = df['fl_date'].dt.dayofyear
df['week_of_year'] = df['fl_date'].dt.isocalendar().week.astype(int)

# e) Codifica√ß√£o de Vari√°veis Categ√≥ricas (One-Hot Encoding)
colunas_para_dummies = ['origin', 'origin_state_nm']
df_para_regressao_logistica = pd.get_dummies(df, columns=colunas_para_dummies, drop_first=True)

# f) Remo√ß√£o de colunas que n√£o podem ser Features
colunas_para_remover = [
        'fl_date',
        'origin_city_name',
        'flight_id' # NUNCA use IDs como features preditoras!
    ]
df_para_regressao_logistica.drop(columns=colunas_para_remover, inplace=True, errors='ignore')

# 2. Defini√ß√£o de X e Y

Y = df_para_regressao_logistica[coluna_alvo]
X = df_para_regressao_logistica.drop(columns=[coluna_alvo])

# Tratamento final de X: Remover colunas com NaN ou Infinitos
X = X.replace([np.inf, -np.inf], np.nan).dropna(axis=1)

print(f"Dataset pronto. X: {X.shape[0]} linhas, {X.shape[1]} features.")

# 3. Divis√£o Treino e Teste (usando stratify para manter a propor√ß√£o de cancelamentos)
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=1, stratify=Y)

print("\n--- Treinando Modelo de Regress√£o Log√≠stica ---")

# 4. Treinamento do Modelo
model = LogisticRegression(solver='liblinear', random_state=1, max_iter=1000)
model.fit(X_train, Y_train)

# 5. Previs√£o e Avalia√ß√£o
Y_pred = model.predict(X_test)

print("\n=======================================================")
print("‚úÖ RESULTADOS DA REGRESS√ÉO LOG√çSTICA (PREVIS√ÉO DE CANCELAMENTO)")
print("=======================================================")

# M√©tricas de Desempenho
print(f"Acur√°cia: {accuracy_score(Y_test, Y_pred):.4f}")
print("\nRelat√≥rio de Classifica√ß√£o (Precision, Recall, F1-Score):")
# zero_division=0 evita o warning se uma classe n√£o for prevista
print(classification_report(Y_test, Y_pred, zero_division=0))
print("\nMatriz de Confus√£o (real vs. previsto):")

cm = confusion_matrix(Y_test, Y_pred)

# 2. Configura√ß√£o da Visualiza√ß√£o
plt.figure(figsize=(6, 5))

# Criar o Heatmap (Mapa de Calor)
sns.heatmap(
    cm,
    annot=True,              # Mostrar os n√∫meros dentro dos quadrados
    fmt='d',                 # Formatar os n√∫meros como inteiros
    cmap='Blues',            # Escolher um esquema de cores (Azul √© um bom padr√£o)
    linewidths=0.5,          # Linhas entre os quadrados
    linecolor='black',
    cbar=False               # N√£o mostrar a barra de cores lateral
)

# 3. Adicionar R√≥tulos e T√≠tulos
# Os r√≥tulos 0 e 1 correspondem a 'N√£o Cancelado' e 'Cancelado'
class_names = ['N√£o Cancelado (0)', 'Cancelado (1)']
plt.xticks(np.arange(len(class_names)) + 0.5, class_names, rotation=45, ha='right')
plt.yticks(np.arange(len(class_names)) + 0.5, class_names, rotation=0)

plt.title('Matriz de Confus√£o (Previs√£o de Cancelamento)', fontsize=14)
plt.xlabel('Valor Previsto')
plt.ylabel('Valor Real')

plt.tight_layout()
plt.show()

print("\n*Lembre-se: Para a Classe 1 (Cancelados), o Recall √© geralmente a m√©trica mais importante!*")



MemoryError: Unable to allocate 384. MiB for an array with shape (384, 1048575) and data type bool

In [None]:
# 3. Divis√£o Treino e Teste (usando 70/30 e random_state para consist√™ncia)
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=1, stratify=Y)

print("\n--- Treinando Modelo de √Årvore de Decis√£o ---")

    # 4. Treinamento do Modelo (Par√¢metros iniciais: max_depth limita o crescimento da √°rvore)
model_tree = DecisionTreeClassifier(
        max_depth=5,        # Limita a profundidade para evitar Overfitting e facilitar a inspe√ß√£o
        random_state=1,
        class_weight='balanced' # Tenta melhorar o Recall da Classe 1 (Cancelado)
    )
model_tree.fit(X_train, Y_train)

    # 5. Previs√£o e Avalia√ß√£o
Y_pred_tree = model_tree.predict(X_test)

print("\n=======================================================")
print("‚úÖ RESULTADOS DA √ÅRVORE DE DECIS√ÉO (PREVIS√ÉO DE CANCELAMENTO)")
print("=======================================================")

    # M√©tricas de Desempenho
print(f"Acur√°cia: {accuracy_score(Y_test, Y_pred_tree):.4f}")
print("\nRelat√≥rio de Classifica√ß√£o (Precision, Recall, F1-Score):")
print(classification_report(Y_test, Y_pred_tree, zero_division=0))
print("\nMatriz de Confus√£o (real vs. previsto):")

cm_tree = confusion_matrix(Y_test, Y_pred_tree)
# 2. Configura√ß√£o da Visualiza√ß√£o
plt.figure(figsize=(6, 5))

# Criar o Heatmap (Mapa de Calor)
sns.heatmap(
    cm_tree,
    annot=True,              # Mostrar os n√∫meros dentro dos quadrados
    fmt='d',                 # Formatar os n√∫meros como inteiros
    cmap='Greens',           # Usando Verde para diferenciar da Log√≠stica
    linewidths=0.5,
    linecolor='black',
    cbar=False
)

# 3. Adicionar R√≥tulos e T√≠tulos
class_names = ['N√£o Cancelado (0)', 'Cancelado (1)']
plt.xticks(np.arange(len(class_names)) + 0.5, class_names, rotation=45, ha='right')
plt.yticks(np.arange(len(class_names)) + 0.5, class_names, rotation=0)

plt.title('Matriz de Confus√£o - √Årvore de Decis√£o', fontsize=14, fontweight='bold')
plt.xlabel('Valor Previsto')
plt.ylabel('Valor Real')

plt.tight_layout()
plt.show()

print("\nüö® Compare o canto Inferior Esquerdo (Falsos Negativos) com o modelo Log√≠stico.")
print("O modelo com o menor n√∫mero nessa c√©lula √© o melhor para a seguran√ßa operacional!")