# An√°lise de Dados - Microsoft Security Incident Prediction (Camada Silver)

Este notebook realiza an√°lises explorat√≥rias e estat√≠sticas dos dados processados da camada Silver do dataset Microsoft Security Incident Prediction.

## Objetivos da An√°lise
- Compreender a distribui√ß√£o dos dados
- Identificar padr√µes e tend√™ncias
- Analisar a qualidade dos dados processados
- Preparar insights para modelagem de Machine Learning


## 1. Importa√ß√£o das Bibliotecas e Carregamento dos Dados


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√µes para visualiza√ß√£o
plt.style.use('default')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

# Carregamento dos dados processados da camada Silver
df = pd.read_csv('security_incident_prediction_silver.csv', low_memory=False)

print("Dataset carregado com sucesso!")
print(f"Dimens√µes do dataset: {df.shape}")
print(f"Mem√≥ria utilizada: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

# Visualizar as primeiras linhas
df.head()


## 2. An√°lise Geral dos Dados


In [None]:
# Informa√ß√µes gerais sobre o dataset
print("=== INFORMA√á√ïES GERAIS DO DATASET ===")
print(f"N√∫mero de registros: {len(df):,}")
print(f"N√∫mero de colunas: {len(df.columns)}")
print(f"Mem√≥ria utilizada: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

print("\n=== TIPOS DE DADOS ===")
print(df.dtypes.value_counts())

print("\n=== INFORMA√á√ïES DETALHADAS ===")
df.info()

print("\n=== ESTAT√çSTICAS DESCRITIVAS ===")
df.describe()


## 3. An√°lise da Vari√°vel Target (IncidentGrade)


In [None]:
# An√°lise da vari√°vel target IncidentGrade
if 'incidentgrade' in df.columns:
    target_counts = df['incidentgrade'].value_counts()
    target_percentages = df['incidentgrade'].value_counts(normalize=True) * 100
    
    print("=== DISTRIBUI√á√ÉO DA VARI√ÅVEL TARGET (IncidentGrade) ===")
    print("\nContagem por classe:")
    for value, count in target_counts.items():
        print(f"  Classe {value}: {count:,} ({target_percentages[value]:.2f}%)")
    
    # Mapear os valores para nomes mais leg√≠veis (baseado no dataset original)
    class_mapping = {0: 'FalsePositive', 1: 'TruePositive', 2: 'BenignPositive'}
    print("\nMapeamento das classes:")
    for encoded_val, original_val in class_mapping.items():
        if encoded_val in target_counts.index:
            count = target_counts[encoded_val]
            percentage = target_percentages[encoded_val]
            print(f"  {encoded_val} = {original_val}: {count:,} ({percentage:.2f}%)")
    
    # Visualiza√ß√£o da distribui√ß√£o
    plt.figure(figsize=(12, 6))
    
    # Subplot 1: Gr√°fico de barras
    plt.subplot(1, 2, 1)
    bars = plt.bar(target_counts.index, target_counts.values, color=['#ff7f7f', '#7fbf7f', '#7f7fff'])
    plt.title('Distribui√ß√£o da Vari√°vel Target (IncidentGrade)')
    plt.xlabel('Classe')
    plt.ylabel('Contagem')
    
    # Adicionar percentuais nas barras
    for i, (bar, count, pct) in enumerate(zip(bars, target_counts.values, target_percentages.values)):
        plt.text(bar.get_x() + bar.get_width()/2., bar.get_height() + bar.get_height()*0.01,
                f'{count:,}\n({pct:.1f}%)', ha='center', va='bottom')
    
    # Subplot 2: Gr√°fico de pizza
    plt.subplot(1, 2, 2)
    labels = [f'{class_mapping.get(i, f"Classe {i}")}\n({pct:.1f}%)' 
              for i, pct in zip(target_counts.index, target_percentages.values)]
    plt.pie(target_counts.values, labels=labels, autopct='%1.1f%%', startangle=90)
    plt.title('Distribui√ß√£o Percentual das Classes')
    
    plt.tight_layout()
    plt.show()
    
    # An√°lise de balanceamento
    balance_ratio = min(target_counts) / max(target_counts)
    print(f"\nRaz√£o de balanceamento: {balance_ratio:.3f}")
    if balance_ratio < 0.1:
        print("  Dataset altamente desbalanceado!")
    elif balance_ratio < 0.3:
        print("  Dataset moderadamente desbalanceado")
    else:
        print(" Dataset relativamente balanceado")
        
else:
    print("Vari√°vel 'incidentgrade' n√£o encontrada no dataset.")
    print("Colunas dispon√≠veis:", df.columns.tolist())


## 4. An√°lise de Categorias de Incidentes


In [None]:
# An√°lise das categorias de incidentes
if 'category' in df.columns:
    category_counts = df['category'].value_counts()
    category_percentages = df['category'].value_counts(normalize=True) * 100
    
    print("=== AN√ÅLISE DE CATEGORIAS DE INCIDENTES ===")
    print(f"Total de categorias √∫nicas: {len(category_counts)}")
    
    print("\nTop 10 categorias mais frequentes:")
    for i, (category, count) in enumerate(category_counts.head(10).items()):
        percentage = category_percentages[category]
        print(f"  {i+1:2d}. Categoria {category}: {count:,} ({percentage:.2f}%)")
    
    # Visualiza√ß√£o das categorias
    plt.figure(figsize=(15, 8))
    
    # Gr√°fico de barras horizontais para as top categorias
    top_categories = category_counts.head(15)
    plt.barh(range(len(top_categories)), top_categories.values, color='skyblue')
    plt.yticks(range(len(top_categories)), [f'Categoria {cat}' for cat in top_categories.index])
    plt.xlabel('N√∫mero de Incidentes')
    plt.title('Top 15 Categorias de Incidentes por Frequ√™ncia')
    plt.gca().invert_yaxis()
    
    # Adicionar valores nas barras
    for i, (cat, count) in enumerate(top_categories.items()):
        plt.text(count + count*0.01, i, f'{count:,}', va='center', ha='left')
    
    plt.tight_layout()
    plt.show()
    
    # An√°lise de distribui√ß√£o por categoria e incident grade
    if 'incidentgrade' in df.columns:
        print("\n=== DISTRIBUI√á√ÉO DE CATEGORIAS POR TIPO DE INCIDENTE ===")
        cross_tab = pd.crosstab(df['category'], df['incidentgrade'], normalize='index') * 100
        
        # Mostrar as top 5 categorias
        top_5_categories = category_counts.head(5).index
        print("\nDistribui√ß√£o das Top 5 categorias por tipo de incidente:")
        for cat in top_5_categories:
            if cat in cross_tab.index:
                print(f"\nCategoria {cat}:")
                for grade in cross_tab.columns:
                    percentage = cross_tab.loc[cat, grade]
                    grade_name = {0: 'FalsePositive', 1: 'TruePositive', 2: 'BenignPositive'}.get(grade, f'Grade{grade}')
                    print(f"  {grade_name}: {percentage:.2f}%")
    
else:
    print("Coluna 'category' n√£o encontrada no dataset.")


## 5. An√°lise Temporal dos Incidentes


In [None]:
# An√°lise temporal dos incidentes
if 'timestamp' in df.columns:
    # Converter timestamp para datetime
    df['datetime'] = pd.to_datetime(df['timestamp'], errors='coerce')
    
    # Extrair componentes temporais
    df['year'] = df['datetime'].dt.year
    df['month'] = df['datetime'].dt.month
    df['day'] = df['datetime'].dt.day
    df['hour'] = df['datetime'].dt.hour
    df['day_of_week'] = df['datetime'].dt.dayofweek
    df['day_name'] = df['datetime'].dt.day_name()
    
    print("=== AN√ÅLISE TEMPORAL DOS INCIDENTES ===")
    
    # Per√≠odo dos dados
    print(f"Per√≠odo dos dados:")
    print(f"  Data inicial: {df['datetime'].min()}")
    print(f"  Data final: {df['datetime'].max()}")
    print(f"  Total de dias: {(df['datetime'].max() - df['datetime'].min()).days}")
    
    # An√°lise por ano
    yearly_counts = df['year'].value_counts().sort_index()
    print(f"\n=== INCIDENTES POR ANO ===")
    for year, count in yearly_counts.items():
        print(f"  {year}: {count:,} incidentes")
    
    # An√°lise por m√™s
    monthly_counts = df['month'].value_counts().sort_index()
    print(f"\n=== INCIDENTES POR M√äS ===")
    month_names = ['Jan', 'Fev', 'Mar', 'Abr', 'Mai', 'Jun', 
                   'Jul', 'Ago', 'Set', 'Out', 'Nov', 'Dez']
    for month, count in monthly_counts.items():
        print(f"  {month_names[month-1]} ({month:02d}): {count:,} incidentes")
    
    # An√°lise por dia da semana
    daily_counts = df['day_of_week'].value_counts().sort_index()
    print(f"\n=== INCIDENTES POR DIA DA SEMANA ===")
    day_names = ['Segunda', 'Ter√ßa', 'Quarta', 'Quinta', 'Sexta', 'S√°bado', 'Domingo']
    for day, count in daily_counts.items():
        print(f"  {day_names[day]}: {count:,} incidentes")
    
    # An√°lise por hora
    hourly_counts = df['hour'].value_counts().sort_index()
    print(f"\n=== INCIDENTES POR HORA DO DIA ===")
    print("Top 5 horas com mais incidentes:")
    for hour, count in hourly_counts.head(5).items():
        print(f"  {hour:02d}:00 - {hour:02d}:59: {count:,} incidentes")
    
    # Visualiza√ß√µes temporais
    fig, axes = plt.subplots(2, 2, figsize=(15, 12))
    
    # Gr√°fico 1: Incidentes por m√™s
    axes[0, 0].bar(monthly_counts.index, monthly_counts.values, color='lightblue')
    axes[0, 0].set_title('Incidentes por M√™s')
    axes[0, 0].set_xlabel('M√™s')
    axes[0, 0].set_ylabel('N√∫mero de Incidentes')
    axes[0, 0].set_xticks(monthly_counts.index)
    axes[0, 0].set_xticklabels([month_names[i-1] for i in monthly_counts.index], rotation=45)
    
    # Gr√°fico 2: Incidentes por dia da semana
    axes[0, 1].bar(daily_counts.index, daily_counts.values, color='lightgreen')
    axes[0, 1].set_title('Incidentes por Dia da Semana')
    axes[0, 1].set_xlabel('Dia da Semana')
    axes[0, 1].set_ylabel('N√∫mero de Incidentes')
    axes[0, 1].set_xticks(daily_counts.index)
    axes[0, 1].set_xticklabels([day_names[i] for i in daily_counts.index], rotation=45)
    
    # Gr√°fico 3: Incidentes por hora
    axes[1, 0].plot(hourly_counts.index, hourly_counts.values, marker='o', color='red')
    axes[1, 0].set_title('Incidentes por Hora do Dia')
    axes[1, 0].set_xlabel('Hora')
    axes[1, 0].set_ylabel('N√∫mero de Incidentes')
    axes[1, 0].set_xticks(range(0, 24, 2))
    axes[1, 0].grid(True, alpha=0.3)
    
    # Gr√°fico 4: Timeline de incidentes
    daily_incidents = df.groupby(df['datetime'].dt.date).size()
    axes[1, 1].plot(daily_incidents.index, daily_incidents.values, alpha=0.7, color='purple')
    axes[1, 1].set_title('Timeline de Incidentes (Di√°rio)')
    axes[1, 1].set_xlabel('Data')
    axes[1, 1].set_ylabel('N√∫mero de Incidentes')
    axes[1, 1].tick_params(axis='x', rotation=45)
    
    plt.tight_layout()
    plt.show()
    
else:
    print("Coluna 'timestamp' n√£o encontrada no dataset.")


## 6. An√°lise de Correla√ß√µes e Padr√µes


In [None]:
# An√°lise de correla√ß√µes e padr√µes
print("=== AN√ÅLISE DE CORRELA√á√ïES ===")

# Selecionar colunas num√©ricas para an√°lise de correla√ß√£o
numeric_columns = df.select_dtypes(include=[np.number]).columns.tolist()
print(f"Colunas num√©ricas dispon√≠veis: {len(numeric_columns)}")

if len(numeric_columns) > 1:
    # Calcular matriz de correla√ß√£o
    correlation_matrix = df[numeric_columns].corr()
    
    # Encontrar correla√ß√µes mais altas (excluindo correla√ß√£o com si mesmo)
    high_correlations = []
    for i in range(len(correlation_matrix.columns)):
        for j in range(i+1, len(correlation_matrix.columns)):
            col1 = correlation_matrix.columns[i]
            col2 = correlation_matrix.columns[j]
            corr_value = correlation_matrix.iloc[i, j]
            if abs(corr_value) > 0.5:  # Correla√ß√£o significativa
                high_correlations.append((col1, col2, corr_value))
    
    # Ordenar por valor absoluto da correla√ß√£o
    high_correlations.sort(key=lambda x: abs(x[2]), reverse=True)
    
    print(f"\nCorrela√ß√µes significativas (|r| > 0.5):")
    if high_correlations:
        for col1, col2, corr in high_correlations[:10]:  # Top 10
            print(f"  {col1} ‚Üî {col2}: {corr:.3f}")
    else:
        print("  Nenhuma correla√ß√£o significativa encontrada.")
    
    # Visualiza√ß√£o da matriz de correla√ß√£o
    plt.figure(figsize=(12, 10))
    
    # Criar heatmap de correla√ß√£o
    mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))  # M√°scara para mostrar apenas metade
    sns.heatmap(correlation_matrix, mask=mask, annot=True, cmap='coolwarm', center=0,
                square=True, fmt='.2f', cbar_kws={"shrink": .8})
    plt.title('Matriz de Correla√ß√£o das Vari√°veis Num√©ricas')
    plt.tight_layout()
    plt.show()
    
    # An√°lise de correla√ß√£o com a vari√°vel target
    if 'incidentgrade' in numeric_columns:
        target_correlations = correlation_matrix['incidentgrade'].drop('incidentgrade').sort_values(key=abs, ascending=False)
        
        print(f"\n=== CORRELA√á√ïES COM A VARI√ÅVEL TARGET (IncidentGrade) ===")
        print("Top 10 vari√°veis mais correlacionadas com IncidentGrade:")
        for col, corr in target_correlations.head(10).items():
            print(f"  {col}: {corr:.3f}")
        
        # Visualiza√ß√£o das correla√ß√µes com target
        plt.figure(figsize=(10, 8))
        target_correlations_abs = target_correlations.abs()
        top_15 = target_correlations_abs.head(15)
        
        plt.barh(range(len(top_15)), top_15.values, color='lightcoral')
        plt.yticks(range(len(top_15)), top_15.index)
        plt.xlabel('Correla√ß√£o Absoluta com IncidentGrade')
        plt.title('Top 15 Vari√°veis com Maior Correla√ß√£o Absoluta com IncidentGrade')
        plt.gca().invert_yaxis()
        
        # Adicionar valores nas barras
        for i, (col, corr) in enumerate(zip(top_15.index, target_correlations[top_15.index])):
            plt.text(corr + 0.01 if corr >= 0 else corr - 0.01, i, f'{corr:.3f}', 
                    va='center', ha='left' if corr >= 0 else 'right')
        
        plt.tight_layout()
        plt.show()

else:
    print("Poucas colunas num√©ricas dispon√≠veis para an√°lise de correla√ß√£o.")


## 7. An√°lise Geogr√°fica dos Incidentes


In [None]:
# An√°lise geogr√°fica dos incidentes
print("=== AN√ÅLISE GEOGR√ÅFICA DOS INCIDENTES ===")

# An√°lise por pa√≠s
if 'countrycode' in df.columns:
    country_counts = df['countrycode'].value_counts()
    print(f"Total de pa√≠ses √∫nicos: {len(country_counts)}")
    
    print("\nTop 10 pa√≠ses com mais incidentes:")
    for i, (country, count) in enumerate(country_counts.head(10).items()):
        percentage = (count / len(df)) * 100
        print(f"  {i+1:2d}. Pa√≠s {country}: {count:,} ({percentage:.2f}%)")
    
    # An√°lise por estado (se dispon√≠vel)
    if 'state' in df.columns:
        state_counts = df['state'].value_counts()
        print(f"\nTotal de estados √∫nicos: {len(state_counts)}")
        
        print("\nTop 10 estados com mais incidentes:")
        for i, (state, count) in enumerate(state_counts.head(10).items()):
            percentage = (count / len(df)) * 100
            print(f"  {i+1:2d}. Estado {state}: {count:,} ({percentage:.2f}%)")
    
    # An√°lise por cidade (se dispon√≠vel)
    if 'city' in df.columns:
        city_counts = df['city'].value_counts()
        print(f"\nTotal de cidades √∫nicas: {len(city_counts)}")
        
        print("\nTop 10 cidades com mais incidentes:")
        for i, (city, count) in enumerate(city_counts.head(10).items()):
            percentage = (count / len(df)) * 100
            print(f"  {i+1:2d}. Cidade {city}: {count:,} ({percentage:.2f}%)")
    
    # Visualiza√ß√µes geogr√°ficas
    fig, axes = plt.subplots(2, 2, figsize=(15, 12))
    
    # Gr√°fico 1: Top pa√≠ses
    top_countries = country_counts.head(10)
    axes[0, 0].barh(range(len(top_countries)), top_countries.values, color='lightblue')
    axes[0, 0].set_yticks(range(len(top_countries)))
    axes[0, 0].set_yticklabels([f'Pa√≠s {country}' for country in top_countries.index])
    axes[0, 0].set_xlabel('N√∫mero de Incidentes')
    axes[0, 0].set_title('Top 10 Pa√≠ses por N√∫mero de Incidentes')
    axes[0, 0].invert_yaxis()
    
    # Gr√°fico 2: Top estados (se dispon√≠vel)
    if 'state' in df.columns:
        top_states = state_counts.head(10)
        axes[0, 1].barh(range(len(top_states)), top_states.values, color='lightgreen')
        axes[0, 1].set_yticks(range(len(top_states)))
        axes[0, 1].set_yticklabels([f'Estado {state}' for state in top_states.index])
        axes[0, 1].set_xlabel('N√∫mero de Incidentes')
        axes[0, 1].set_title('Top 10 Estados por N√∫mero de Incidentes')
        axes[0, 1].invert_yaxis()
    else:
        axes[0, 1].text(0.5, 0.5, 'Dados de estado n√£o dispon√≠veis', 
                        ha='center', va='center', transform=axes[0, 1].transAxes)
        axes[0, 1].set_title('An√°lise por Estado')
    
    # Gr√°fico 3: Distribui√ß√£o geogr√°fica por tipo de incidente
    if 'incidentgrade' in df.columns:
        geo_incident = pd.crosstab(df['countrycode'], df['incidentgrade'])
        top_5_countries = country_counts.head(5).index
        
        # Preparar dados para o gr√°fico
        incident_types = geo_incident.columns
        x = np.arange(len(top_5_countries))
        width = 0.25
        
        for i, incident_type in enumerate(incident_types):
            values = [geo_incident.loc[country, incident_type] if country in geo_incident.index else 0 
                     for country in top_5_countries]
            axes[1, 0].bar(x + i*width, values, width, 
                          label=f'Grade {incident_type}')
        
        axes[1, 0].set_xlabel('Pa√≠s')
        axes[1, 0].set_ylabel('N√∫mero de Incidentes')
        axes[1, 0].set_title('Distribui√ß√£o de Tipos de Incidente por Pa√≠s')
        axes[1, 0].set_xticks(x + width)
        axes[1, 0].set_xticklabels([f'Pa√≠s {country}' for country in top_5_countries])
        axes[1, 0].legend()
    
    # Gr√°fico 4: Concentra√ß√£o de incidentes
    if 'city' in df.columns:
        top_cities = city_counts.head(10)
        axes[1, 1].bar(range(len(top_cities)), top_cities.values, color='orange')
        axes[1, 1].set_xticks(range(len(top_cities)))
        axes[1, 1].set_xticklabels([f'Cidade {city}' for city in top_cities.index], rotation=45)
        axes[1, 1].set_ylabel('N√∫mero de Incidentes')
        axes[1, 1].set_title('Top 10 Cidades por N√∫mero de Incidentes')
    else:
        axes[1, 1].text(0.5, 0.5, 'Dados de cidade n√£o dispon√≠veis', 
                        ha='center', va='center', transform=axes[1, 1].transAxes)
        axes[1, 1].set_title('An√°lise por Cidade')
    
    plt.tight_layout()
    plt.show()

else:
    print("Coluna 'countrycode' n√£o encontrada no dataset.")


## 8. Resumo e Conclus√µes


In [None]:
# Resumo e conclus√µes da an√°lise
print("=== RESUMO E CONCLUS√ïES DA AN√ÅLISE ===")

print(f"\nüìä ESTAT√çSTICAS GERAIS:")
print(f"  ‚Ä¢ Total de registros: {len(df):,}")
print(f"  ‚Ä¢ Total de colunas: {len(df.columns)}")
print(f"  ‚Ä¢ Mem√≥ria utilizada: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

if 'incidentgrade' in df.columns:
    target_counts = df['incidentgrade'].value_counts()
    print(f"\n VARI√ÅVEL TARGET (IncidentGrade):")
    print(f"  ‚Ä¢ FalsePositive: {target_counts.get(0, 0):,} ({target_counts.get(0, 0)/len(df)*100:.1f}%)")
    print(f"  ‚Ä¢ TruePositive: {target_counts.get(1, 0):,} ({target_counts.get(1, 0)/len(df)*100:.1f}%)")
    print(f"  ‚Ä¢ BenignPositive: {target_counts.get(2, 0):,} ({target_counts.get(2, 0)/len(df)*100:.1f}%)")

if 'category' in df.columns:
    category_counts = df['category'].value_counts()
    print(f"\n CATEGORIAS DE INCIDENTES:")
    print(f"  ‚Ä¢ Total de categorias: {len(category_counts)}")
    print(f"  ‚Ä¢ Categoria mais frequente: Categoria {category_counts.index[0]} ({category_counts.iloc[0]:,} incidentes)")

if 'timestamp' in df.columns:
    df['datetime'] = pd.to_datetime(df['timestamp'], errors='coerce')
    print(f"\n AN√ÅLISE TEMPORAL:")
    print(f"  ‚Ä¢ Per√≠odo: {df['datetime'].min()} a {df['datetime'].max()}")
    print(f"  ‚Ä¢ Total de dias: {(df['datetime'].max() - df['datetime'].min()).days}")
    
    # Hora com mais incidentes
    hourly_counts = df['hour'].value_counts().sort_index()
    peak_hour = hourly_counts.idxmax()
    print(f"  ‚Ä¢ Hora de pico: {peak_hour:02d}:00 ({hourly_counts.max():,} incidentes)")

if 'countrycode' in df.columns:
    country_counts = df['countrycode'].value_counts()
    print(f"\n AN√ÅLISE GEOGR√ÅFICA:")
    print(f"  ‚Ä¢ Total de pa√≠ses: {len(country_counts)}")
    print(f"  ‚Ä¢ Pa√≠s com mais incidentes: Pa√≠s {country_counts.index[0]} ({country_counts.iloc[0]:,} incidentes)")

print(f"\n QUALIDADE DOS DADOS:")
print(f"  ‚Ä¢ Valores ausentes: {df.isnull().sum().sum()}")
print(f"  ‚Ä¢ Valores infinitos: {np.isinf(df.select_dtypes(include=[np.number])).sum().sum()}")
print(f"  ‚Ä¢ Tipos de dados: {df.dtypes.value_counts().to_dict()}")

print(f"\n PRINCIPAIS INSIGHTS:")
print(f"  1. Dataset com alta qualidade ap√≥s processamento ETL")
print(f"  2. Vari√°vel target com distribui√ß√£o desbalanceada")
print(f"  3. M√∫ltiplas categorias de incidentes identificadas")
print(f"  4. Padr√µes temporais e geogr√°ficos claros")
print(f"  5. Dados prontos para modelagem de Machine Learning")

print(f"\n PR√ìXIMOS PASSOS RECOMENDADOS:")
print(f"  1. Balanceamento de classes para melhor performance do modelo")
print(f"  2. Feature engineering para capturar padr√µes temporais")
print(f"  3. Sele√ß√£o de features baseada em correla√ß√µes")
print(f"  4. Aplica√ß√£o de algoritmos de classifica√ß√£o")
print(f"  5. Valida√ß√£o cruzada e otimiza√ß√£o de hiperpar√¢metros")

print(f"\n APLICA√á√ïES POTENCIAIS:")
print(f"  ‚Ä¢ Sistema de detec√ß√£o autom√°tica de incidentes")
print(f"  ‚Ä¢ Classifica√ß√£o de amea√ßas em tempo real")
print(f"  ‚Ä¢ An√°lise preditiva de riscos de seguran√ßa")
print(f"  ‚Ä¢ Dashboard de monitoramento de seguran√ßa")
print(f"  ‚Ä¢ Sistema de alertas inteligentes")

print(f"\n{'='*60}")
print(f" AN√ÅLISE CONCLU√çDA COM SUCESSO!")
print(f"{'='*60}")
