# Atividade 1 - Treinar um Modelo de Machine Learning

**Curso:** Qualifica√ß√£o em IA Industrial  
**Unidade Curricular:** Machine Learning  
**Objetivo:** Treinar um modelo XGBoost para predi√ß√£o de atrasos de voos

## Objetivo da Atividade
Conduzir a explora√ß√£o, prepara√ß√£o e configura√ß√£o para treinar um modelo XGBoost usando o dataset `flights_delays_120.csv` para prever se um voo ir√° atrasar.

### Etapas da Atividade:
1. **Importa√ß√£o e Explora√ß√£o dos Dados**
2. **Prepara√ß√£o e Pr√©-processamento dos Dados**
3. **Treinamento do Modelo XGBoost**
4. **Avalia√ß√£o do Modelo**

## 1. Importa√ß√£o das Bibliotecas

Primeiro, vamos importar todas as bibliotecas necess√°rias para o projeto:

In [1]:
# Importa√ß√£o das bibliotecas necess√°rias
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from xgboost import XGBClassifier
import warnings
warnings.filterwarnings('ignore')

print("Bibliotecas importadas com sucesso!")

Bibliotecas importadas com sucesso!


## 2. Carregamento e Explora√ß√£o dos Dados

Agora vamos carregar o dataset e realizar uma an√°lise explorat√≥ria inicial:

In [2]:
# Carregamento do dataset
df = pd.read_csv('flights_delays_120.csv')

print("Dataset carregado com sucesso!")
print(f"Dimens√µes do dataset: {df.shape}")
print("\nPrimeiras 5 linhas do dataset:")
df.head()

Dataset carregado com sucesso!
Dimens√µes do dataset: (120, 7)

Primeiras 5 linhas do dataset:


Unnamed: 0,airline,origin,destination,departure_hour,day_of_week,weather,delayed
0,TravelAir,GIG,FOR,11,5,Storm,0
1,JetCloud,CNF,SSA,11,3,Wind,0
2,SkyWings,POA,SSA,4,5,Fog,1
3,JetCloud,BSB,FOR,6,4,Storm,1
4,JetCloud,GRU,FOR,3,1,Rain,1


In [3]:
# An√°lise explorat√≥ria detalhada
print("=== INFORMA√á√ïES GERAIS DO DATASET ===")
print(f"N√∫mero de linhas: {df.shape[0]}")
print(f"N√∫mero de colunas: {df.shape[1]}")
print(f"Colunas: {list(df.columns)}")

print("\n=== INFORMA√á√ïES SOBRE OS TIPOS DE DADOS ===")
print(df.info())

print("\n=== VERIFICA√á√ÉO DE VALORES AUSENTES ===")
print(df.isnull().sum())

print("\n=== ESTAT√çSTICAS DESCRITIVAS ===")
print(df.describe())

=== INFORMA√á√ïES GERAIS DO DATASET ===
N√∫mero de linhas: 120
N√∫mero de colunas: 7
Colunas: ['airline', 'origin', 'destination', 'departure_hour', 'day_of_week', 'weather', 'delayed']

=== INFORMA√á√ïES SOBRE OS TIPOS DE DADOS ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120 entries, 0 to 119
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   airline         120 non-null    object
 1   origin          120 non-null    object
 2   destination     120 non-null    object
 3   departure_hour  120 non-null    int64 
 4   day_of_week     120 non-null    int64 
 5   weather         120 non-null    object
 6   delayed         120 non-null    int64 
dtypes: int64(3), object(4)
memory usage: 6.7+ KB
None

=== VERIFICA√á√ÉO DE VALORES AUSENTES ===
airline           0
origin            0
destination       0
departure_hour    0
day_of_week       0
weather           0
delayed           0
dtype: int64

=== ESTAT√çSTIC

In [4]:
# An√°lise da vari√°vel alvo (delayed)
print("=== AN√ÅLISE DA VARI√ÅVEL ALVO (DELAYED) ===")
print(f"Distribui√ß√£o da vari√°vel 'delayed':")
print(df['delayed'].value_counts())
print(f"\nPropor√ß√£o de atrasos:")
print(df['delayed'].value_counts(normalize=True))

print("\n=== AN√ÅLISE DAS VARI√ÅVEIS CATEG√ìRICAS ===")
categorical_columns = ['airline', 'origin', 'destination', 'weather']

for col in categorical_columns:
    print(f"\n{col.upper()}:")
    print(f"Valores √∫nicos: {df[col].nunique()}")
    print(f"Valores: {df[col].unique()}")

=== AN√ÅLISE DA VARI√ÅVEL ALVO (DELAYED) ===
Distribui√ß√£o da vari√°vel 'delayed':
delayed
0    68
1    52
Name: count, dtype: int64

Propor√ß√£o de atrasos:
delayed
0    0.566667
1    0.433333
Name: proportion, dtype: float64

=== AN√ÅLISE DAS VARI√ÅVEIS CATEG√ìRICAS ===

AIRLINE:
Valores √∫nicos: 5
Valores: ['TravelAir' 'JetCloud' 'SkyWings' 'FlyFast' 'AirOne']

ORIGIN:
Valores √∫nicos: 5
Valores: ['GIG' 'CNF' 'POA' 'BSB' 'GRU']

DESTINATION:
Valores √∫nicos: 5
Valores: ['FOR' 'SSA' 'CWB' 'BEL' 'REC']

WEATHER:
Valores √∫nicos: 5
Valores: ['Storm' 'Wind' 'Fog' 'Rain' 'Clear']


## 3. Prepara√ß√£o e Pr√©-processamento dos Dados

Agora vamos preparar os dados para o treinamento do modelo:

In [5]:
# Separa√ß√£o das features (X) e da vari√°vel alvo (y)
print("=== SEPARA√á√ÉO DE FEATURES E VARI√ÅVEL ALVO ===")

# Definindo X (features) e y (target)
X = df.drop('delayed', axis=1)
y = df['delayed']

print(f"Shape de X (features): {X.shape}")
print(f"Shape de y (target): {y.shape}")
print(f"Colunas das features: {list(X.columns)}")

print("\nPrimeiras 5 linhas das features:")
print(X.head())

=== SEPARA√á√ÉO DE FEATURES E VARI√ÅVEL ALVO ===
Shape de X (features): (120, 6)
Shape de y (target): (120,)
Colunas das features: ['airline', 'origin', 'destination', 'departure_hour', 'day_of_week', 'weather']

Primeiras 5 linhas das features:
     airline origin destination  departure_hour  day_of_week weather
0  TravelAir    GIG         FOR              11            5   Storm
1   JetCloud    CNF         SSA              11            3    Wind
2   SkyWings    POA         SSA               4            5     Fog
3   JetCloud    BSB         FOR               6            4   Storm
4   JetCloud    GRU         FOR               3            1    Rain


In [6]:
# Convers√£o de vari√°veis categ√≥ricas em num√©ricas usando get_dummies
print("=== CONVERS√ÉO DE VARI√ÅVEIS CATEG√ìRICAS ===")

print("Colunas antes da convers√£o:")
print(f"Tipos de dados: \n{X.dtypes}")

# Aplicando get_dummies para converter vari√°veis categ√≥ricas em num√©ricas
X_encoded = pd.get_dummies(X, drop_first=True)

print(f"\nShape ap√≥s convers√£o: {X_encoded.shape}")
print(f"Novas colunas criadas: {X_encoded.shape[1] - X.shape[1]}")
print(f"\nPrimeiras colunas ap√≥s convers√£o:")
print(list(X_encoded.columns))

print("\nPrimeiras 5 linhas ap√≥s convers√£o:")
print(X_encoded.head())

=== CONVERS√ÉO DE VARI√ÅVEIS CATEG√ìRICAS ===
Colunas antes da convers√£o:
Tipos de dados: 
airline           object
origin            object
destination       object
departure_hour     int64
day_of_week        int64
weather           object
dtype: object

Shape ap√≥s convers√£o: (120, 18)
Novas colunas criadas: 12

Primeiras colunas ap√≥s convers√£o:
['departure_hour', 'day_of_week', 'airline_FlyFast', 'airline_JetCloud', 'airline_SkyWings', 'airline_TravelAir', 'origin_CNF', 'origin_GIG', 'origin_GRU', 'origin_POA', 'destination_CWB', 'destination_FOR', 'destination_REC', 'destination_SSA', 'weather_Fog', 'weather_Rain', 'weather_Storm', 'weather_Wind']

Primeiras 5 linhas ap√≥s convers√£o:
   departure_hour  day_of_week  airline_FlyFast  airline_JetCloud  \
0              11            5            False             False   
1              11            3            False              True   
2               4            5            False             False   
3               6     

In [7]:
# Divis√£o dos dados em conjuntos de treinamento e teste
print("=== DIVIS√ÉO DOS DADOS ===")

# Dividindo os dados em treino e teste (80% treino, 20% teste)
# Usando stratify para manter a propor√ß√£o das classes
X_train, X_test, y_train, y_test = train_test_split(
    X_encoded, y, 
    test_size=0.2, 
    random_state=42, 
    stratify=y
)

print(f"Tamanho do conjunto de treinamento: {X_train.shape}")
print(f"Tamanho do conjunto de teste: {X_test.shape}")

print(f"\nDistribui√ß√£o das classes no conjunto de treinamento:")
print(y_train.value_counts(normalize=True))

print(f"\nDistribui√ß√£o das classes no conjunto de teste:")
print(y_test.value_counts(normalize=True))

=== DIVIS√ÉO DOS DADOS ===
Tamanho do conjunto de treinamento: (96, 18)
Tamanho do conjunto de teste: (24, 18)

Distribui√ß√£o das classes no conjunto de treinamento:
delayed
0    0.5625
1    0.4375
Name: proportion, dtype: float64

Distribui√ß√£o das classes no conjunto de teste:
delayed
0    0.583333
1    0.416667
Name: proportion, dtype: float64


## 4. Treinamento do Modelo XGBoost

Agora vamos treinar o modelo XGBoost:

In [8]:
# Instancia√ß√£o e treinamento do modelo XGBoost
print("=== TREINAMENTO DO MODELO XGBOOST ===")

# Instanciando o classificador XGBoost
model = XGBClassifier(
    random_state=42,
    eval_metric='logloss'  # M√©trica de avalia√ß√£o
)

print("Modelo XGBoost instanciado com sucesso!")
print(f"Par√¢metros do modelo: {model.get_params()}")

# Treinando o modelo
print("\nIniciando o treinamento do modelo...")
model.fit(X_train, y_train)
print("Treinamento conclu√≠do com sucesso!")

=== TREINAMENTO DO MODELO XGBOOST ===
Modelo XGBoost instanciado com sucesso!
Par√¢metros do modelo: {'objective': 'binary:logistic', 'base_score': None, 'booster': None, 'callbacks': None, 'colsample_bylevel': None, 'colsample_bynode': None, 'colsample_bytree': None, 'device': None, 'early_stopping_rounds': None, 'enable_categorical': False, 'eval_metric': 'logloss', 'feature_types': None, 'feature_weights': None, 'gamma': None, 'grow_policy': None, 'importance_type': None, 'interaction_constraints': None, 'learning_rate': None, 'max_bin': None, 'max_cat_threshold': None, 'max_cat_to_onehot': None, 'max_delta_step': None, 'max_depth': None, 'max_leaves': None, 'min_child_weight': None, 'missing': nan, 'monotone_constraints': None, 'multi_strategy': None, 'n_estimators': None, 'n_jobs': None, 'num_parallel_tree': None, 'random_state': 42, 'reg_alpha': None, 'reg_lambda': None, 'sampling_method': None, 'scale_pos_weight': None, 'subsample': None, 'tree_method': None, 'validate_parameter

## 5. Avalia√ß√£o do Modelo

Vamos avaliar a performance do modelo treinado:

In [9]:
# Realizando predi√ß√µes no conjunto de teste
print("=== PREDI√á√ïES DO MODELO ===")

# Fazendo predi√ß√µes
y_pred = model.predict(X_test)
y_pred_proba = model.predict_proba(X_test)

print(f"N√∫mero de predi√ß√µes realizadas: {len(y_pred)}")
print(f"Predi√ß√µes √∫nicas: {np.unique(y_pred)}")
print(f"Probabilidades - Shape: {y_pred_proba.shape}")

# Mostrando algumas predi√ß√µes
print(f"\nPrimeiras 10 predi√ß√µes:")
print(f"Reais:      {list(y_test.head(10))}")
print(f"Predi√ß√µes:  {list(y_pred[:10])}")

=== PREDI√á√ïES DO MODELO ===
N√∫mero de predi√ß√µes realizadas: 24
Predi√ß√µes √∫nicas: [0 1]
Probabilidades - Shape: (24, 2)

Primeiras 10 predi√ß√µes:
Reais:      [1, 0, 1, 0, 0, 1, 0, 1, 0, 1]
Predi√ß√µes:  [np.int64(1), np.int64(0), np.int64(1), np.int64(0), np.int64(0), np.int64(1), np.int64(0), np.int64(1), np.int64(0), np.int64(1)]


In [None]:
# Calculando a acur√°cia
print("=== ACUR√ÅCIA DO MODELO ===")

accuracy = accuracy_score(y_test, y_pred)
print(f"Acur√°cia do modelo: {accuracy:.4f} ({accuracy*100:.2f}%)")

# Acur√°cia no conjunto de treinamento (para compara√ß√£o)
y_train_pred = model.predict(X_train)
train_accuracy = accuracy_score(y_train, y_train_pred)
print(f"Acur√°cia no conjunto de treinamento: {train_accuracy:.4f} ({train_accuracy*100:.2f}%)")

# Verificando se h√° overfitting
if train_accuracy - accuracy > 0.05:
    print("AVISO: Poss√≠vel overfitting detectado!")
else:
    print("Modelo com boa generaliza√ß√£o!")

=== ACUR√ÅCIA DO MODELO ===
Acur√°cia do modelo: 0.8750 (87.50%)
Acur√°cia no conjunto de treinamento: 1.0000 (100.00%)
‚ö†Ô∏è  Poss√≠vel overfitting detectado!


In [11]:
# Relat√≥rio de classifica√ß√£o
print("=== RELAT√ìRIO DE CLASSIFICA√á√ÉO ===")

report = classification_report(y_test, y_pred)
print(report)

# Interpreta√ß√£o do relat√≥rio
print("\n=== INTERPRETA√á√ÉO DO RELAT√ìRIO ===")
print("Precision: Propor√ß√£o de predi√ß√µes positivas que foram corretas")
print("Recall: Propor√ß√£o de casos positivos reais que foram identificados")
print("F1-score: M√©dia harm√¥nica entre precision e recall")
print("Support: N√∫mero de exemplos de cada classe no conjunto de teste")

=== RELAT√ìRIO DE CLASSIFICA√á√ÉO ===
              precision    recall  f1-score   support

           0       0.92      0.86      0.89        14
           1       0.82      0.90      0.86        10

    accuracy                           0.88        24
   macro avg       0.87      0.88      0.87        24
weighted avg       0.88      0.88      0.88        24


=== INTERPRETA√á√ÉO DO RELAT√ìRIO ===
Precision: Propor√ß√£o de predi√ß√µes positivas que foram corretas
Recall: Propor√ß√£o de casos positivos reais que foram identificados
F1-score: M√©dia harm√¥nica entre precision e recall
Support: N√∫mero de exemplos de cada classe no conjunto de teste


In [12]:
# Matriz de confus√£o
print("=== MATRIZ DE CONFUS√ÉO ===")

cm = confusion_matrix(y_test, y_pred)
print("Matriz de Confus√£o:")
print(cm)

print(f"\nInterpreta√ß√£o da Matriz de Confus√£o:")
print(f"Verdadeiros Negativos (TN): {cm[0,0]} - Predi√ß√µes corretas de 'n√£o atrasado'")
print(f"Falsos Positivos (FP): {cm[0,1]} - Predi√ß√µes incorretas de 'atrasado'")
print(f"Falsos Negativos (FN): {cm[1,0]} - Predi√ß√µes incorretas de 'n√£o atrasado'")
print(f"Verdadeiros Positivos (TP): {cm[1,1]} - Predi√ß√µes corretas de 'atrasado'")

# Calculando m√©tricas manualmente
total = cm.sum()
tn, fp, fn, tp = cm.ravel()

print(f"\nM√©tricas calculadas manualmente:")
print(f"Accuracy: {(tp + tn) / total:.4f}")
print(f"Precision: {tp / (tp + fp):.4f}")
print(f"Recall (Sensitivity): {tp / (tp + fn):.4f}")
print(f"Specificity: {tn / (tn + fp):.4f}")

=== MATRIZ DE CONFUS√ÉO ===
Matriz de Confus√£o:
[[12  2]
 [ 1  9]]

Interpreta√ß√£o da Matriz de Confus√£o:
Verdadeiros Negativos (TN): 12 - Predi√ß√µes corretas de 'n√£o atrasado'
Falsos Positivos (FP): 2 - Predi√ß√µes incorretas de 'atrasado'
Falsos Negativos (FN): 1 - Predi√ß√µes incorretas de 'n√£o atrasado'
Verdadeiros Positivos (TP): 9 - Predi√ß√µes corretas de 'atrasado'

M√©tricas calculadas manualmente:
Accuracy: 0.8750
Precision: 0.8182
Recall (Sensitivity): 0.9000
Specificity: 0.8571


## 6. An√°lise dos Resultados e Conclus√µes

Vamos analisar os resultados obtidos e tirar conclus√µes sobre o modelo:

In [None]:
# Resumo dos resultados
print("=== RESUMO DOS RESULTADOS ===")
print(f"Dataset processado: {df.shape[0]} registros, {df.shape[1]} colunas")
print(f"Features ap√≥s encoding: {X_encoded.shape[1]} colunas")
print(f"Divis√£o dos dados: {X_train.shape[0]} treino, {X_test.shape[0]} teste")
print(f"Modelo XGBoost treinado com sucesso")
print(f"Acur√°cia obtida: {accuracy:.4f} ({accuracy*100:.2f}%)")

print(f"\n=== AN√ÅLISE DA PERFORMANCE ===")
if accuracy >= 0.85:
    print("EXCELENTE: Modelo com alta acur√°cia!")
elif accuracy >= 0.75:
    print("BOM: Modelo com boa acur√°cia!")
elif accuracy >= 0.65:
    print("REGULAR: Modelo precisa de melhorias!")
else:
    print("BAIXO: Modelo precisa de revis√£o significativa!")

print(f"\n=== PR√ìXIMOS PASSOS SUGERIDOS ===")
print("1. Ajustar hiperpar√¢metros do XGBoost")
print("2. Realizar feature engineering")
print("3. Testar outros algoritmos de classifica√ß√£o")
print("4. Aplicar t√©cnicas de balanceamento de classes")
print("5. Valida√ß√£o cruzada para melhor estimativa da performance")

=== RESUMO DOS RESULTADOS ===
‚úÖ Dataset processado: 120 registros, 7 colunas
‚úÖ Features ap√≥s encoding: 18 colunas
‚úÖ Divis√£o dos dados: 96 treino, 24 teste
‚úÖ Modelo XGBoost treinado com sucesso
‚úÖ Acur√°cia obtida: 0.8750 (87.50%)

=== AN√ÅLISE DA PERFORMANCE ===
üéØ EXCELENTE: Modelo com alta acur√°cia!

=== PR√ìXIMOS PASSOS SUGERIDOS ===
1. Ajustar hiperpar√¢metros do XGBoost
2. Realizar feature engineering
3. Testar outros algoritmos de classifica√ß√£o
4. Aplicar t√©cnicas de balanceamento de classes
5. Valida√ß√£o cruzada para melhor estimativa da performance
