Este Jupyter Notebook foi desenvolvido como parte do desafio proposto para o processo de admissão na PUC-TECH. O objetivo deste trabalho é demonstrar as habilidades e conhecimentos, através da implementação de três projetos distintos, cada um abordando um problema específico.

## Estrutura do Notebook

O notebook está organizado nas seguintes seções principais, correspondendo a cada um dos projetos desenvolvidos:

1.  **Análise de Preferências de Estudantes:**
    * Este projeto foca na análise exploratória de um conjunto de dados sobre as preferências de estudantes. Utilizando Python e bibliotecas como Pandas, Matplotlib e Seaborn, são realizadas etapas de carregamento, limpeza, preparação e visualização de dados para extrair insights sobre as preferências dos alunos em diversas áreas (como linguagem de programação, horário de estudo, formato de conteúdo) e outras características relevantes.


2.  **Sistema de Gerenciamento de Estoque de Farmácia:**
    * Nesta seção, é apresentado um sistema de gerenciamento de estoque para uma farmácia, desenvolvido em Python com uma abordagem orientada a objetos. O sistema, operado via console, permite realizar operações CRUD (Criar, Ler, Atualizar, Deletar) para medicamentos, processar pedidos de clientes (com funcionalidades como controle de receita e descontos) e exibir resumos do estoque, incluindo alertas para itens em nível crítico.


3.  **Detecção de Fraudes em Transações de Cartão de Crédito:**
    * Este projeto implementa um pipeline de Machine Learning de ponta a ponta para detectar transações fraudulentas de cartão de crédito. As etapas incluem o carregamento de dados (reais ou sintéticos), engenharia de features, tratamento de datasets desbalanceados (com SMOTE), divisão dos dados, treinamento de um modelo `RandomForestClassifier`, avaliação detalhada do modelo com diversas métricas (incluindo matriz de confusão) e visualização da importância das features.

## Tecnologias Utilizadas

Ao longo dos projetos, foram empregadas principalmente as seguintes tecnologias e bibliotecas Python:
- **Manipulação de Dados:** Pandas, NumPy
- **Visualização de Dados:** Matplotlib, Seaborn
- **Machine Learning e Processamento:** Scikit-learn, Imbalanced-learn (para SMOTE)
- **Linguagem Base:** Python 3

Cada seção subsequente detalhará a implementação específica, as análises realizadas e as conclusões de cada projeto.

para ver mais em detalhe o projeto e as etapas de desenvolviemento, o repositório: https://github.com/raulkolaric/puc-tech-challenge


# Análise de Preferências de Estudantes

Este notebook realiza uma análise exploratória das preferências de estudantes. Utilizando Python com Pandas, Matplotlib e Seaborn, o processo inclui carregamento, limpeza, preparação e visualização dos dados para extrair insights sobre as preferências dos alunos e outras características relevantes.

Destaques da Análise:

- **Bibliotecas e Dados:** Importação de Pandas, Matplotlib, Seaborn e carregamento dos dados de um CSV (URL).
- **Inspeção e Limpeza:** Análise inicial da estrutura, tratamento de valores ausentes, remoção de colunas e conversão de tipos.
- **Preferências Chave:** Visualização das principais preferências estudantis (linguagem de programação, horário de estudo, formato de conteúdo).
- **Outras Explorações:** Gráficos sobre satisfação com o curso, relação estudo/média, áreas de interesse, uso da biblioteca e média por semestre.
- **Configuração Visual:** Padronização do estilo dos gráficos para melhor clareza e interpretação.

Os dados são do arquivo `student_preferences_extended.csv` (URL pública), facilitando a reprodutibilidade da análise.


## 1. Importação de Bibliotecas
Importação das bibliotecas necessárias para manipulação de dados `(pandas)` e visualização `(matplotlib.pyplot e seaborn)`.



In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

ModuleNotFoundError: No module named 'pandas'

## 2. Carregamento dos Dados
Carregamento do conjunto de dados `student_preferences_extended.csv` a partir de uma URL pública no GitHub.



In [None]:
url = "https://raw.githubusercontent.com/puc-tech/challenge/refs/heads/main/student_preferences_extended.csv"
df = pd.read_csv(url)

## 3. Inspeção Inicial dos Dados
Nesta etapa, realizamos uma verificação inicial do DataFrame para entender sua estrutura, as primeiras linhas, informações gerais sobre os tipos de dados e a contagem de valores ausentes por coluna. Também obtemos estatísticas descritivas.



In [None]:
print("--- Inspeção Inicial dos Dados ---")
print("\nPrimeiras 5 linhas do DataFrame:")
print(df.head())

print("\nInformações gerais do DataFrame:")
df.info()

print("\nEstatísticas descritivas (incluindo colunas categóricas):")
print(df.describe(include='all'))

print("\nContagem de valores ausentes por coluna:")
print(df.isnull().sum())

## 4. Limpeza e Preparação dos Dados
Esta seção foca na limpeza e preparação do `DataFrame` para análise. As etapas incluem:

 - Remoção de colunas consideradas metadados ou que exigiriam processamento de linguagem natural complexo para esta análise (`tempo_resposta`, `comentario`).
 - Remoção de linhas com valores ausentes em colunas chave para a análise de preferências (`linguagem_preferida`, `horario_estudo`, `formato_conteudo_principal`).
 - Preenchimento de valores ausentes em colunas numéricas com a mediana.
 - Preenchimento de valores ausentes em colunas categóricas com "Não Informado" ou a moda.
 - Tratamento e tentativa de conversão de colunas para o tipo booleano.


In [None]:
print("\n--- Limpeza e Preparação dos Dados ---")

# Remover colunas que geralmente não são usadas diretamente em análises quantitativas de preferência agregada
# ou são metadados.
cols_to_drop_initial = ['tempo_resposta', 'comentario']
df_cleaned = df.drop(columns=[col for col in cols_to_drop_initial if col in df.columns])

# Para as colunas chave das análises de preferência solicitadas,
# vamos remover linhas onde esses dados estão ausentes para garantir a precisão dessas análises específicas.
key_preference_cols = ['linguagem_preferida', 'horario_estudo', 'formato_conteudo_principal']
df_cleaned.dropna(subset=key_preference_cols, inplace=True)
print(f"\nShape do DataFrame após remover NaNs das colunas chave de preferência: {df_cleaned.shape}")

# Para outras colunas numéricas que podem ser usadas em gráficos,
# podemos preencher NaNs com a média ou mediana.
numeric_cols_to_fill = ['horas_estudo_dia', 'media_geral', 'satisfacao_curso', 'faltas_percentual', 'idade', 'semestre']
for col in numeric_cols_to_fill:
    if col in df_cleaned.columns:
        df_cleaned[col].fillna(df_cleaned[col].median(), inplace=True) # Usando mediana por ser menos sensível a outliers

# Para outras colunas categóricas, podemos preencher com 'Não Informado' ou a moda.
categorical_cols_to_fill = ['framework_preferido', 'formato_conteudo_secundario',
                              'ambiente_desenvolvimento', 'sistema_operacional', 'area_interesse']
for col in categorical_cols_to_fill:
    if col in df_cleaned.columns:
        df_cleaned[col].fillna('Não Informado', inplace=True)

# Booleanos: preencher com False (ou a moda) se fizer sentido contextual.
boolean_cols = ['estuda_em_grupo', 'usa_biblioteca', 'participa_monitoria', 'busca_estagio', 'prefere_backend', 'interesse_pesquisa']
for col in boolean_cols:
    if col in df_cleaned.columns:
        if df_cleaned[col].isnull().any():
            df_cleaned[col].fillna(df_cleaned[col].mode()[0], inplace=True) # Preenche com a moda
        # Tentativa de converter para tipo booleano de forma segura
        try:
            if not pd.api.types.is_bool_dtype(df_cleaned[col]):
                if df_cleaned[col].dtype == 'object':
                    map_dict = {'True': True, 'False': False, True: True, False: False, 'Sim': True, 'Não': False} # Expandido
                    # Aplicar o mapa apenas para valores que existem no mapa, outros podem virar a moda ou False
                    default_bool_value = False # Ou df_cleaned[col].mode()[0] se quiser a moda como padrão
                    df_cleaned[col] = df_cleaned[col].map(lambda x: map_dict.get(x, map_dict.get(str(x), default_bool_value))).astype(bool)
                else: # Se for numérico 0/1 ou outros
                    df_cleaned[col] = df_cleaned[col].astype(bool)
        except Exception as e:
            print(f"Não foi possível converter a coluna {col} para booleano diretamente: {e}. Verifique os valores.")


print("\nContagem de valores ausentes após tratamento geral:")
print(df_cleaned.isnull().sum())

print("\nPrimeiras 5 linhas do DataFrame limpo e preparado:")
print(df_cleaned.head())

print("\nInformações gerais do DataFrame limpo:")
df_cleaned.info() # Para verificar os tipos de dados após a limpeza

## 5. Configurações de Visualização
Definição de configurações globais para os gráficos que serão gerados, utilizando `seaborn` para o estilo e `matplotlib.pyplot` para o tamanho padrão das figuras e ajuste automático de layout.

In [None]:
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (12, 7)
# plt.rcParams['figure.autolayout'] = True # Causa UserWarning com tight_layout, pode ser removido se usar tight_layout()

_Nota: `figure.autolayout` = True pode, às vezes, entrar em conflito ou ser redundante com `plt.tight_layout()` usado posteriormente.
Pode ser comentado ou removido se `tight_layout()` for usado consistentemente._



## 6. Análise de Preferências Solicitadas
Visualização dos principais insights solicitados sobre as preferências dos estudantes:

 - Total de respostas por Linguagem de Programação Preferida.
 - Percentual de preferência por Horário de Estudo.
 - Formato de Conteúdo Principal Mais Popular.

In [None]:

# Insight 1: Total de respostas por Linguagem de Programação Preferida
print("\n--- Insight 1: Linguagem de Programação Preferida ---")
linguagem_counts = df_cleaned['linguagem_preferida'].value_counts()
print(linguagem_counts)

plt.figure()
sns.barplot(x=linguagem_counts.index, y=linguagem_counts.values, palette="viridis", hue=linguagem_counts.index, legend=False)
plt.title('Total de Alunos por Linguagem de Programação Preferida', fontsize=16)
plt.xlabel('Linguagem de Programação', fontsize=14)
plt.ylabel('Número de Alunos', fontsize=14)
plt.xticks(rotation=45, ha='right')
plt.tight_layout() # Adicionado para melhor ajuste
plt.show()

# Insight 2: Percentual de preferência por Horário de Estudo
print("\n--- Insight 2: Horário de Estudo Preferido ---")
horario_counts = df_cleaned['horario_estudo'].value_counts()
horario_percentages = df_cleaned['horario_estudo'].value_counts(normalize=True) * 100
print(horario_percentages)

plt.figure(figsize=(10,8)) # Tamanho específico para gráfico de pizza
plt.pie(horario_counts, labels=horario_counts.index, autopct='%1.1f%%', startangle=140, colors=sns.color_palette("pastel"))
plt.title('Percentual de Preferência por Horário de Estudo', fontsize=16)
plt.axis('equal') # Assegura que o gráfico de pizza seja um círculo.
plt.tight_layout() # Adicionado para melhor ajuste
plt.show()

# Insight 3: Formato de Conteúdo Principal Mais Popular
print("\n--- Insight 3: Formato de Conteúdo Principal Preferido ---")
formato_principal_counts = df_cleaned['formato_conteudo_principal'].value_counts()
print(formato_principal_counts)
if not formato_principal_counts.empty: # Verifica se a série não está vazia
    print(f"O formato de conteúdo principal mais popular é: '{formato_principal_counts.idxmax()}' com {formato_principal_counts.max()} preferências.")

    plt.figure()
    sns.barplot(x=formato_principal_counts.index, y=formato_principal_counts.values, palette="coolwarm", hue=formato_principal_counts.index, legend=False)
    plt.title('Preferência por Formato de Conteúdo Principal', fontsize=16)
    plt.xlabel('Formato de Conteúdo', fontsize=14)
    plt.ylabel('Número de Alunos', fontsize=14)
    plt.xticks(rotation=45, ha='right')
    plt.tight_layout() # Adicionado para melhor ajuste
    plt.show()
else:
    print("Não há dados suficientes para determinar o formato de conteúdo principal mais popular.")

## 7. Gráficos Adicionais Explorando Outras Colunas
Geração de visualizações adicionais para explorar outras dimensões do conjunto de dados, incluindo:

 - Distribuição da Satisfação com o Curso.
 - Relação entre Horas de Estudo por Dia e Média Geral.
 - Contagem de Preferência por Área de Interesse (Top 10).
 - Percentual de Alunos que Utilizam a Biblioteca.
 - Distribuição da Média Geral por Semestre (Boxplot).

In [None]:
# --- 6. Gráficos Adicionais Explorando Outras Colunas ---
print("\n--- Gráficos Adicionais ---")

# Gráfico 1: Distribuição da Satisfação com o Curso
if 'satisfacao_curso' in df_cleaned.columns:
    print("\nAnalisando 'satisfacao_curso'...")
    plt.figure()
    if pd.api.types.is_numeric_dtype(df_cleaned['satisfacao_curso']):
        sns.histplot(df_cleaned['satisfacao_curso'].dropna(), kde=True, bins=5) # Adicionado .dropna() para segurança
        plt.title('Distribuição da Satisfação com o Curso (1 a 5)', fontsize=16)
        plt.xlabel('Nível de Satisfação', fontsize=14)
        plt.ylabel('Número de Alunos', fontsize=14)
        plt.tight_layout() # Adicionado para melhor ajuste
        plt.show()
    else:
        print(f"'satisfacao_curso' (tipo: {df_cleaned['satisfacao_curso'].dtype}) não é numérica ou contém valores não convertidos. Verifique a etapa de limpeza.")
else:
    print("'satisfacao_curso' não encontrada.")

# Gráfico 2: Horas de Estudo por Dia vs. Média Geral
if 'horas_estudo_dia' in df_cleaned.columns and 'media_geral' in df_cleaned.columns:
    print("\nAnalisando 'horas_estudo_dia' vs 'media_geral'...")
    plt.figure()
    if pd.api.types.is_numeric_dtype(df_cleaned['horas_estudo_dia']) and pd.api.types.is_numeric_dtype(df_cleaned['media_geral']):
        sns.scatterplot(x='horas_estudo_dia', y='media_geral', data=df_cleaned, hue='satisfacao_curso', palette='coolwarm', alpha=0.7)
        plt.title('Horas de Estudo por Dia vs. Média Geral', fontsize=16)
        plt.xlabel('Horas de Estudo por Dia', fontsize=14)
        plt.ylabel('Média Geral', fontsize=14)
        plt.legend(title='Satisfação Curso')
        plt.tight_layout() # Adicionado para melhor ajuste
        plt.show()
    else:
        print(f"'horas_estudo_dia' (tipo: {df_cleaned['horas_estudo_dia'].dtype}) ou 'media_geral' (tipo: {df_cleaned['media_geral'].dtype}) não são numéricas. Verifique a limpeza.")
else:
    print("'horas_estudo_dia' ou 'media_geral' não encontradas.")


# Gráfico 3: Contagem de Preferência por Área de Interesse
if 'area_interesse' in df_cleaned.columns:
    print("\nAnalisando 'area_interesse'...")
    area_interesse_counts = df_cleaned['area_interesse'].value_counts().nlargest(10) # Top 10 para clareza
    if not area_interesse_counts.empty:
        plt.figure()
        sns.barplot(x=area_interesse_counts.index, y=area_interesse_counts.values, palette="cubehelix", hue=area_interesse_counts.index, legend=False)
        plt.title('Top 10 Áreas de Interesse dos Alunos', fontsize=16)
        plt.xlabel('Área de Interesse', fontsize=14)
        plt.ylabel('Número de Alunos', fontsize=14)
        plt.xticks(rotation=45, ha='right')
        plt.tight_layout() # Adicionado para melhor ajuste
        plt.show()
    else:
        print("Não há dados para exibir sobre áreas de interesse.")
else:
    print("'area_interesse' não encontrada.")

# Gráfico 4: Uso da Biblioteca
if 'usa_biblioteca' in df_cleaned.columns:
    print("\nAnalisando 'usa_biblioteca'...")
    # Assegurar que a coluna seja tratada como categoria para value_counts
    # A conversão para string é uma forma robusta se o tipo booleano não for consistente.
    try:
        # Tenta converter para string e depois para booleano mapeado para melhor contagem
        map_bool_str = {True: 'Sim (True)', False: 'Não (False)', 'True': 'Sim (True)', 'False': 'Não (False)', 'Sim':'Sim (True)', 'Não':'Não (False)'}
        # O padrão é 'Não Informado' se o mapeamento falhar para algum valor inesperado
        processed_usa_biblioteca = df_cleaned['usa_biblioteca'].map(lambda x: map_bool_str.get(x, map_bool_str.get(str(x), 'Não Informado')))
        usa_biblioteca_counts = processed_usa_biblioteca.value_counts()

        if not usa_biblioteca_counts.empty:
            plt.figure(figsize=(8,6))
            plt.pie(usa_biblioteca_counts, labels=usa_biblioteca_counts.index, autopct='%1.1f%%', startangle=90, colors=['skyblue', 'lightcoral', 'lightgreen'])
            plt.title('Alunos que Utilizam a Biblioteca', fontsize=16)
            plt.axis('equal')
            plt.tight_layout() # Adicionado para melhor ajuste
            plt.show()
        else:
            print("Não há dados para exibir sobre o uso da biblioteca.")
    except Exception as e:
        print(f"Erro ao processar 'usa_biblioteca': {e}. Tipo da coluna: {df_cleaned['usa_biblioteca'].dtype}")
else:
    print("'usa_biblioteca' não encontrada.")


# Gráfico 5: Relação entre Semestre e Média Geral (Boxplot)
if 'semestre' in df_cleaned.columns and 'media_geral' in df_cleaned.columns:
    print("\nAnalisando 'semestre' vs 'media_geral'...")
    plt.figure(figsize=(14, 8))
    
    # Assegura que 'semestre' seja numérico para ordenação correta e depois convertido para string/categoria para o boxplot
    # Tenta converter 'semestre' para numérico, tratando erros
    df_cleaned['semestre_numeric'] = pd.to_numeric(df_cleaned['semestre'], errors='coerce')
    df_temp = df_cleaned.dropna(subset=['semestre_numeric', 'media_geral']) # Remove NaNs criados por 'coerce' ou já existentes
    
    if not df_temp.empty:
        # Ordena os valores únicos de semestre numericamente
        semestre_order = sorted(df_temp['semestre_numeric'].unique())
        # Converte para string para o boxplot usar como categorias ordenadas
        semestre_order_str = [str(int(s)) for s in semestre_order]
        
        df_temp['semestre_cat_ordered'] = pd.Categorical(df_temp['semestre_numeric'].astype(int).astype(str), categories=semestre_order_str, ordered=True)

        sns.boxplot(x='semestre_cat_ordered', y='media_geral', data=df_temp, palette="pastel") # Usando a coluna ordenada
        plt.title('Distribuição da Média Geral por Semestre', fontsize=16)
        plt.xlabel('Semestre', fontsize=14)
        plt.ylabel('Média Geral', fontsize=14)
        plt.xticks(rotation=45, ha='right')
        plt.tight_layout() # Adicionado para melhor ajuste
        plt.show()
    else:
        print("Não há dados numéricos válidos suficientes em 'semestre' ou 'media_geral' para gerar o boxplot.")
else:
    print("'semestre' ou 'media_geral' não encontradas.")

## 8. Conclusão da Análise
Este bloco finaliza a execução da análise exploratória de dados.



In [None]:
print("\n--- Fim da Análise ---")

## Conclusão Resumida Sobre o Processo de Análise do Script
Ao processar e estruturar o script em formato de notebook, observei um pipeline de análise de dados eficaz e bem definido.

O script demonstrou um fluxo de trabalho lógico, desde a importação de bibliotecas e carregamento dos dados, passando por uma inspeção inicial completa, até uma etapa de limpeza e preparação de dados robusta. Esta limpeza destacou-se pela atenção aos detalhes, com tratamento diferenciado para valores ausentes (NaN) conforme o tipo de dado e conversões de tipo cuidadosas, como a de colunas para booleano com tratamento de exceções.

A abordagem analítica e de visualização foi direta e apropriada, utilizando gráficos como barras, pizza, histogramas, scatterplots e boxplots para extrair tanto os insights solicitados sobre preferências estudantis quanto para realizar explorações adicionais em outras variáveis. A inclusão de verificações de robustez, como checar a existência de colunas antes de usá-las, também foi uma prática positiva observada.

Em suma, a análise deste script reforçou a compreensão de um processo completo e bem executado para transformar dados brutos em insights visuais, enfrentando de forma competente os desafios comuns na preparação e exploração de dados.








# Sistema de Gerenciamento de Estoque de Farmácia

Este notebook apresenta um sistema de gerenciamento de estoque de farmácia em Python, usando orientação a objetos. Ele gerencia medicamentos (CRUD), processa pedidos de clientes e exibe resumos de estoque.

Principais Funcionalidades:

- **Interface Console:** Menu de usuário interativo via texto.
- **Controle de Receita:** Gerenciamento da necessidade de receita para medicamentos.
- **Tipos de Medicamento:** Classificação como genéricos ou de marca.
- **Identificação Única:** IDs numéricos crescentes para cada item.
- **UX Aprimorada:** Uso de cores no console para melhor visualização.
- **Validação de Entradas:** Prevenção de erros de digitação do usuário.
- **Descontos:** Funcionalidade de desconto por CPF em pedidos.
- **Alertas de Estoque:** Avisos para itens em nível crítico ou esgotados.

Para facilitar a demonstração e testes, 5 medicamentos foram pré-carregados no sistema.

## 1. Configurações Iniciais e Definições Globais
Este bloco de código estabelece as variáveis globais para o controle do estoque e IDs de medicamentos, define o limite para estoque crítico e introduz a classe Cores para estilização do output no console, melhorando a interface com o usuário.


In [None]:
# Variáveis globais e constantes
estoque = {}
proximo_id_medicamento = 1
LIMITE_ESTOQUE_CRITICO = 5

class Cores:
    RESET = '\033[0m'
    AZUL = '\033[94m'
    VERDE = '\033[92m'
    AMARELO = '\033[93m'
    VERMELHO = '\033[91m'
    MAGENTA = '\033[95m'
    CIANO = '\033[96m'
    BRANCO = '\033[97m'

    BOLD = '\033[1m'
    UNDERLINE = '\033[4m'

## 2. Definição da Classe Medicamento
A classe Medicamento encapsula os atributos de um medicamento, como nome, preço, necessidade de receita, se é genérico, quantidade em estoque e um ID único. Esta classe serve como modelo para todos os medicamentos gerenciados pelo sistema.



In [None]:
class Medicamento:
    def __init__(self, nome, preco, receita, generico, quantidade=0, id=None):
        """Inicializa um novo objeto Medicamento."""
        self.nome = nome
        self.preco = preco
        self.receita = receita
        self.generico = generico
        self.quantidade = quantidade
        self.id = id

## 3. Funções de Gerenciamento de Estoque
Este conjunto de funções constitui o núcleo das operações de gerenciamento de estoque. Inclui funcionalidades para listar todos os medicamentos, adicionar novos medicamentos com validação de dados, atualizar a quantidade de medicamentos existentes e remover medicamentos do estoque.



In [None]:
def listar_estoque():
    """
    Lista todos os medicamentos no estoque, numerados, com seus atributos
    formatados e espaçados, incluindo avisos de estoque crítico/esgotado.
    """
    print(f"\n{Cores.BOLD}{Cores.CIANO}--- LISTA COMPLETA DO ESTOQUE ---{Cores.RESET}\n")
    if not estoque:
        print(f"{Cores.AMARELO}Estoque vazio. Não há medicamentos para listar.{Cores.RESET}")
        return

    numero_item = 1
    for medicamento_obj in estoque.values():
        if medicamento_obj.quantidade == 0:
            nome_display = f"{Cores.BOLD}{Cores.VERMELHO}{medicamento_obj.nome.upper()}      ESGOTADO{Cores.RESET}"
        elif medicamento_obj.quantidade > 0 and medicamento_obj.quantidade <= LIMITE_ESTOQUE_CRITICO:
            nome_display = f"{Cores.VERMELHO}{medicamento_obj.nome.upper()}      ESTOQUE CRÍTICO{Cores.RESET}"
        else:
            nome_display = f"{Cores.AMARELO}{medicamento_obj.nome.upper()}{Cores.RESET}"

        print(f"{numero_item}. {nome_display}")
        print(f"      Preço: R${medicamento_obj.preco:.2f}")
        cor_qtd_listar = Cores.VERMELHO if medicamento_obj.quantidade <= LIMITE_ESTOQUE_CRITICO else Cores.VERDE
        print(f"      Quantidade: {cor_qtd_listar}{medicamento_obj.quantidade}{Cores.RESET}")
        print(f"      Exige Receita: {'Sim' if medicamento_obj.receita else 'Não'}")
        print(f"      É Genérico: {'Sim' if medicamento_obj.generico else 'Não'}")
        print(f"      ID Único: {medicamento_obj.id}")
        print(f"{Cores.CIANO}---------------------------------{Cores.RESET}")
        numero_item += 1
    print(f"{Cores.BOLD}{Cores.CIANO}--- FIM DA LISTA DE ESTOQUE ---{Cores.RESET}")

def adicionar_medicamento():
    """
    Permite adicionar um novo medicamento ao estoque, solicitando
    seus atributos e validando as entradas do usuário.
    """
    global proximo_id_medicamento
    print(f"\n{Cores.BOLD}{Cores.VERDE}--- ADICIONAR NOVO MEDICAMENTO ---{Cores.RESET}")

    nome_medicamento = input("Digite o nome do medicamento (ou digite '0' para cancelar): ").strip()
    if nome_medicamento == '0':
        print(f"{Cores.AZUL}Operação de adição de medicamento cancelada.{Cores.RESET}")
        return
    if not nome_medicamento:
        print(f"{Cores.VERMELHO}Nome do medicamento não pode ser vazio.{Cores.RESET}")
        return

    while True:
        try:
            print(f"Digite o preço de {Cores.AMARELO}{nome_medicamento}{Cores.RESET} (ex: 15.75): ", end="")
            preco_str = input().strip()
            preco_medicamento = float(preco_str)
            if preco_medicamento < 0:
                print(f"{Cores.VERMELHO}O preço não pode ser negativo. Tente novamente.{Cores.RESET}")
                continue
            break
        except ValueError:
            print(f"{Cores.VERMELHO}Preço inválido. Por favor, digite um número.{Cores.RESET}")

    while True:
        print(f"Exige receita médica para {Cores.AMARELO}{nome_medicamento}{Cores.RESET}? (s/n): ", end="")
        receita_str = input().lower().strip()
        if receita_str == 's':
            receita_medicamento = True
            break
        elif receita_str == 'n':
            receita_medicamento = False
            break
        else:
            print(f"{Cores.VERMELHO}Resposta inválida. Por favor, digite 's' para sim ou 'n' para não.{Cores.RESET}")

    while True:
        generico_str = input(f"É um medicamento genérico? (s/n): ").lower().strip()
        if generico_str == 's':
            generico_medicamento = True
            break
        elif generico_str == 'n':
            generico_medicamento = False
            break
        else:
            print(f"{Cores.VERMELHO}Resposta inválida. Por favor, digite 's' para sim ou 'n' para não.{Cores.RESET}")

    while True:
        try:
            print(f"Digite a quantidade inicial de {Cores.AMARELO}{nome_medicamento}{Cores.RESET}: ", end="")
            quantidade_str = input().strip()
            quantidade_medicamento = int(quantidade_str)
            if quantidade_medicamento < 0:
                print(f"{Cores.VERMELHO}A quantidade inicial não pode ser negativa. Tente novamente.{Cores.RESET}")
                continue
            break
        except ValueError:
            print(f"{Cores.VERMELHO}Quantidade inválida. Por favor, digite um número inteiro.{Cores.RESET}")

    try:
        novo_medicamento_obj = Medicamento(nome_medicamento, preco_medicamento, receita_medicamento, generico_medicamento, quantidade_medicamento, proximo_id_medicamento)
        estoque[proximo_id_medicamento] = novo_medicamento_obj
        print(f"\nMedicamento {Cores.AMARELO}'{nome_medicamento}'{Cores.RESET} adicionado com {Cores.VERDE} ID {proximo_id_medicamento} {Cores.RESET}e {Cores.MAGENTA}{quantidade_medicamento} unidades.{Cores.RESET}")
        proximo_id_medicamento += 1
    except ValueError as e:
        print(f"{Cores.VERMELHO}Erro ao criar o medicamento: {e}. Não foi adicionado ao estoque.{Cores.RESET}")

def atualizar_estoque():
    """
    Permite ao usuário adicionar uma quantidade a um medicamento existente
    escolhendo-o por ID. A quantidade fornecida será SOMADA à quantidade atual.
    """
    print(f"\n{Cores.BOLD}{Cores.AZUL}--- ADICIONAR QUANTIDADE AO ESTOQUE POR ID ---{Cores.RESET}")
    if not estoque:
        print(f"{Cores.AMARELO}Estoque vazio. Não há medicamentos para adicionar quantidade.{Cores.RESET}")
        return

    print("Medicamentos disponíveis para adicionar quantidade:")
    for id_medicamento, medicamento_obj in estoque.items():
        if medicamento_obj.quantidade <= LIMITE_ESTOQUE_CRITICO:
            print(f"      {id_medicamento}. {Cores.AMARELO}{medicamento_obj.nome}{Cores.RESET} (Qtd atual: {Cores.VERMELHO}{medicamento_obj.quantidade}{Cores.RESET})")
        else:
            print(f"      {id_medicamento}. {Cores.AMARELO}{medicamento_obj.nome}{Cores.RESET} (Qtd atual: {Cores.MAGENTA}{medicamento_obj.quantidade}{Cores.RESET})")
    print(f"{Cores.BOLD}{Cores.AZUL}---------------------------------------------{Cores.RESET}")

    while True:
        try:
            print(f"Digite o {Cores.BOLD}ID{Cores.RESET} do medicamento para adicionar quantidade (ou '{Cores.AMARELO}0{Cores.RESET}' para cancelar): ", end="")
            id_escolhido_str = input().strip()
            if id_escolhido_str == '0':
                print(f"{Cores.AZUL}Operação de adição de quantidade cancelada.{Cores.RESET}")
                return

            id_escolhido = int(id_escolhido_str)
            if id_escolhido in estoque:
                medicamento_para_atualizar = estoque[id_escolhido]
                print(f"\nVocê escolheu: {medicamento_para_atualizar.nome} (Qtd atual: {medicamento_para_atualizar.quantidade})")
                while True:
                    try:
                        print(f"Digite a quantidade DE {Cores.AMARELO}{medicamento_para_atualizar.nome}{Cores.RESET} para ser SOMADA ao estoque: ", end="")
                        qtd_a_adicionar_str = input().strip()
                        qtd_a_adicionar = int(qtd_a_adicionar_str)
                        if qtd_a_adicionar >= 0:
                            medicamento_para_atualizar.quantidade += qtd_a_adicionar
                            print(f"{Cores.VERDE}Quantidade de '{medicamento_para_atualizar.nome}' atualizada para {medicamento_para_atualizar.quantidade} unidades.{Cores.RESET}")
                            return
                        else:
                            print(f"{Cores.AMARELO}A quantidade a ser somada não pode ser negativa. Tente novamente.{Cores.RESET}")
                    except ValueError:
                        print(f"{Cores.VERMELHO}Quantidade inválida. Por favor, digite um número inteiro.{Cores.RESET}")
            else:
                print(f"{Cores.AMARELO}ID '{id_escolhido_str}' não encontrado no estoque. Por favor, digite um ID existente.{Cores.RESET}")
        except ValueError:
            print(f"{Cores.VERMELHO}Entrada inválida para o ID. Por favor, digite um número.{Cores.RESET}")

def deletar_medicamento():
    """
    Permite ao usuário deletar uma entrada de medicamento do estoque,
    escolhendo-a por ID.
    """
    print(f"\n{Cores.BOLD}{Cores.VERMELHO}--- DELETAR MEDICAMENTO POR ID ---{Cores.RESET}")
    if not estoque:
        print(f"{Cores.AMARELO}Estoque vazio. Não há medicamentos para deletar.{Cores.RESET}")
        return

    print("Medicamentos disponíveis para deleção:")
    for id_medicamento, medicamento_obj in estoque.items():
        print(f"      {id_medicamento}. {Cores.AMARELO}{medicamento_obj.nome}{Cores.RESET} (Qtd: {medicamento_obj.quantidade})")
    print(f"{Cores.BOLD}{Cores.VERMELHO}----------------------------------{Cores.RESET}")

    while True:
        try:
            print(f"Digite o {Cores.BOLD}ID{Cores.RESET} do medicamento a ser deletado (ou '{Cores.AMARELO}0{Cores.RESET}' para cancelar): ", end="")
            id_deletar_str = input().strip()
            if id_deletar_str == '0':
                print(f"{Cores.AZUL}Operação de deleção de medicamento cancelada.{Cores.RESET}")
                return

            id_deletar = int(id_deletar_str)
            if id_deletar in estoque:
                nome_medicamento_deletado = estoque[id_deletar].nome
                del estoque[id_deletar]
                print(f"{Cores.VERDE}Medicamento '{nome_medicamento_deletado}' (ID: {id_deletar}) removido com sucesso do estoque.{Cores.RESET}")
                break
            else:
                print(f"{Cores.AMARELO}ID '{id_deletar_str}' não encontrado no estoque. Por favor, digite um ID existente.{Cores.RESET}")
        except ValueError:
            print(f"{Cores.VERMELHO}Entrada inválida para o ID. Por favor, digite um número inteiro.{Cores.RESET}")

## 4. Funções de Processamento de Pedidos e Resumo do Estoque
Estas funções permitem o processamento de pedidos de clientes e a visualização de um resumo consolidado do estoque. A função processar_pedidos simula uma venda, permitindo adicionar itens, verificar a necessidade de receita, aplicar descontos e atualizar o estoque. A função exibir_resumo fornece estatísticas gerais sobre o inventário.



In [None]:
def processar_pedidos():
    """
    Simula o processo de venda de medicamentos, permitindo adicionar itens
    ao pedido, verificar receita, aplicar desconto e atualizar o estoque.
    """
    print(f"\n{Cores.BOLD}{Cores.CIANO}--- PROCESSAR PEDIDOS ---{Cores.RESET}")
    if not estoque:
        print(f"{Cores.AMARELO}Estoque vazio. Não é possível processar pedidos.{Cores.RESET}")
        return

    pedido_atual = []
    continuar_adicionando_itens = True

    while continuar_adicionando_itens:
        print(f"\n{Cores.BOLD}{Cores.AZUL}--- Medicamentos Disponíveis ---{Cores.RESET}")
        print(f"  {'ID':<4} | {'Nome do Medicamento':<30} | {'Preço':<10} | {'Qtd':<3} | {'Info':<15}")
        print(f"  {'-'*4} | {'-'*30} | {'-'*10} | {'-'*3} | {'-'*15}")

        for id_med, med_obj in estoque.items():
            cor_qtd = Cores.VERMELHO if med_obj.quantidade <= LIMITE_ESTOQUE_CRITICO else Cores.VERDE
            id_field = f"{Cores.BRANCO}{id_med:<4}{Cores.RESET}"
            nome_field = f"{Cores.AMARELO}{med_obj.nome:<30.30}{Cores.RESET}"
            preco_text_val = f"R$ {med_obj.preco:.2f}"
            preco_field = f"{preco_text_val:>10}"
            qtd_numero_str = f"{med_obj.quantidade:>3}"
            qtd_colorido_str = f"{cor_qtd}{qtd_numero_str}{Cores.RESET}"
            qtd_field = qtd_colorido_str
            receita_text_display = "Req. Receita" if med_obj.receita else ""
            info_text_padded = f"{receita_text_display:<15.15}"
            info_field = f"{Cores.MAGENTA}{info_text_padded}{Cores.RESET}"
            print(f"  {id_field} | {nome_field} | {preco_field} | {qtd_field} | {info_field}")
        print(f"{Cores.BOLD}{Cores.AZUL}{'-'*76}{Cores.RESET}")

        id_escolhido_str = input(f"Digite o ID do medicamento para adicionar ao pedido (ou '0' para finalizar): ").strip()
        if id_escolhido_str == '0':
            continuar_adicionando_itens = False
            continue

        try:
            id_escolhido = int(id_escolhido_str)
            if id_escolhido not in estoque:
                print(f"{Cores.VERMELHO}ID inválido ou não encontrado. Tente novamente.{Cores.RESET}")
                continue

            medicamento_selecionado = estoque[id_escolhido]

            if medicamento_selecionado.quantidade == 0:
                print(f"{Cores.VERMELHO}O medicamento '{medicamento_selecionado.nome}' está esgotado.{Cores.RESET}")
                continue

            if medicamento_selecionado.receita:
                print(f"{Cores.MAGENTA}Atenção: O medicamento '{Cores.AMARELO}{medicamento_selecionado.nome}{Cores.RESET}' {Cores.MAGENTA}exige receita médica.{Cores.RESET}")
                while True:
                    confirmacao_receita = input("O cliente apresentou a receita? (s/n): ").lower().strip()
                    if confirmacao_receita in ['s', 'n']:
                        break
                    print(f"{Cores.VERMELHO}Resposta inválida. Por favor, digite 's' ou 'n'.{Cores.RESET}")
                if confirmacao_receita == 'n':
                    print(f"{Cores.AMARELO}Venda de '{medicamento_selecionado.nome}' não pode ser processada sem a apresentação da receita.{Cores.RESET}")
                    continue

            while True:
                try:
                    print(f"Digite a quantidade desejada de {Cores.AMARELO}{medicamento_selecionado.nome}{Cores.RESET} (Disponível: {medicamento_selecionado.quantidade}): ", end="")
                    qtd_desejada_str = input().strip()
                    qtd_desejada = int(qtd_desejada_str)

                    if qtd_desejada <= 0:
                        print(f"{Cores.VERMELHO}A quantidade deve ser um número positivo.{Cores.RESET}")
                        continue

                    quantidade_ja_no_carrinho = 0
                    item_existente_no_carrinho = None
                    for item_carrinho in pedido_atual:
                        if item_carrinho['id'] == id_escolhido:
                            item_existente_no_carrinho = item_carrinho
                            quantidade_ja_no_carrinho = item_carrinho['quantidade_pedida']
                            break
                    
                    if (quantidade_ja_no_carrinho + qtd_desejada) > medicamento_selecionado.quantidade:
                        disponivel_para_adicionar = medicamento_selecionado.quantidade - quantidade_ja_no_carrinho
                        print(f"{Cores.VERMELHO}Erro: Estoque insuficiente para adicionar {qtd_desejada} unidade(s).{Cores.RESET}")
                        print(f"  Você já tem {quantidade_ja_no_carrinho} no carrinho. Estoque total: {medicamento_selecionado.quantidade}.")
                        if disponivel_para_adicionar > 0:
                                print(f"  Você pode adicionar no máximo mais {Cores.VERDE}{disponivel_para_adicionar}{Cores.RESET} unidade(s).")
                        else:
                            print(f"  {Cores.AMARELO}Não há mais unidades disponíveis para adicionar deste item ao carrinho.{Cores.RESET}")
                        continue
                    
                    if item_existente_no_carrinho:
                        item_existente_no_carrinho['quantidade_pedida'] += qtd_desejada
                        print(f"{Cores.VERDE}Quantidade atualizada para '{medicamento_selecionado.nome}' no pedido: {item_existente_no_carrinho['quantidade_pedida']} unidade(s).{Cores.RESET}")
                    else:
                        pedido_atual.append({
                            'id': id_escolhido,
                            'nome': medicamento_selecionado.nome,
                            'quantidade_pedida': qtd_desejada,
                            'preco_unitario': medicamento_selecionado.preco
                        })
                        print(f"{Cores.VERDE}{qtd_desejada} unidade(s) de '{medicamento_selecionado.nome}' adicionada(s) ao pedido.{Cores.RESET}")
                    break
                except ValueError:
                    print(f"{Cores.VERMELHO}Quantidade inválida. Por favor, digite um número inteiro.{Cores.RESET}")
        except ValueError:
            print(f"{Cores.VERMELHO}ID inválido. Por favor, digite um número.{Cores.RESET}")
        except Exception as e:
            print(f"{Cores.VERMELHO}Ocorreu um erro inesperado: {e}{Cores.RESET}")

    if not pedido_atual:
        print(f"{Cores.AMARELO}Nenhum item no pedido. Processo de venda cancelado.{Cores.RESET}")
        return

    print(f"\n{Cores.BOLD}{Cores.VERDE}--- RESUMO DO PEDIDO ---{Cores.RESET}")
    valor_total_bruto = 0.0
    print(f"  {'Item':<5} | {'Nome do Medicamento':<30.30} | {'Qtd':>4} | {'Preço Unit.':>12} | {'Subtotal':>10}")
    print(f"  {'-'*5} | {'-'*30} | {'-'*4} | {'-'*12} | {'-'*10}")

    for i, item in enumerate(pedido_atual):
        subtotal_item = item['preco_unitario'] * item['quantidade_pedida']
        item_num_f = f"{i+1:<5}"
        nome_f = f"{item['nome']:<30.30}"
        qtd_f = f"{item['quantidade_pedida']:>4}"
        preco_unit_text = f"R$ {item['preco_unitario']:.2f}"
        preco_unit_f = f"{preco_unit_text:>12}"
        subtotal_text = f"R$ {subtotal_item:.2f}"
        subtotal_f = f"{subtotal_text:>10}"
        print(f"  {item_num_f} | {nome_f} | {qtd_f} | {preco_unit_f} | {subtotal_f}")
        valor_total_bruto += subtotal_item
    
    print(f"{Cores.BOLD}{'-'*75}{Cores.RESET}")
    print(f"{Cores.BOLD}Valor Total Bruto: R${valor_total_bruto:.2f}{Cores.RESET}")

    desconto_aplicado = 0.0
    cpf_cliente = None
    valor_final_a_pagar = valor_total_bruto

    while True:
        informar_cpf = input("Deseja informar o CPF para obter 20% de desconto? (s/n): ").lower().strip()
        if informar_cpf == 's':
            cpf_cliente = input("Digite o CPF do cliente: ").strip()
            if cpf_cliente:
                desconto_aplicado = valor_total_bruto * 0.20
                valor_final_a_pagar = valor_total_bruto - desconto_aplicado
                print(f"{Cores.VERDE}Desconto de 20% (R${desconto_aplicado:.2f}) aplicado.{Cores.RESET}")
            else:
                print(f"{Cores.AMARELO}CPF não informado. Nenhum desconto será aplicado.{Cores.RESET}")
                cpf_cliente = None
            break
        elif informar_cpf == 'n':
            print(f"{Cores.AMARELO}Nenhum desconto aplicado.{Cores.RESET}")
            break
        else:
            print(f"{Cores.VERMELHO}Opção inválida. Por favor, digite 's' ou 'n'.{Cores.RESET}")

    print(f"{Cores.BOLD}{Cores.VERDE}Valor Final a Pagar: R${valor_final_a_pagar:.2f}{Cores.RESET}")

    while True:
        print(f"Confirmar venda e atualizar estoque ({Cores.BOLD}{Cores.VERDE}s{Cores.RESET}/{Cores.BOLD}{Cores.VERMELHO}n{Cores.RESET})? ", end="")
        confirmar_venda = input().lower().strip()
        if confirmar_venda == 's':
            for item in pedido_atual:
                estoque[item['id']].quantidade -= item['quantidade_pedida']
            print(f"{Cores.VERDE}{Cores.BOLD}Venda processada com sucesso! Estoque atualizado.{Cores.RESET}")
            if cpf_cliente:
                print(f"CPF do cliente registrado: {cpf_cliente}")
            break
        elif confirmar_venda == 'n':
            print(f"{Cores.AMARELO}Venda cancelada pelo operador. Estoque não foi alterado.{Cores.RESET}")
            break
        else:
            print(f"{Cores.VERMELHO}Opção inválida. Digite 's' ou 'n'.{Cores.RESET}")

def exibir_resumo():
    """Exibe um resumo do estoque, incluindo totais e itens críticos."""
    print(f"\n{Cores.BOLD}{Cores.MAGENTA}--- RESUMO DO ESTOQUE ---{Cores.RESET}")
    if not estoque:
        print(f"{Cores.AMARELO}Estoque vazio.{Cores.RESET}")
        return

    total_medicamentos = len(estoque)
    total_unidades = 0
    valor_total_estoque = 0.0
    itens_em_critico = 0
    nomes_criticos = []

    for med_id, med_obj in estoque.items():
        total_unidades += med_obj.quantidade
        valor_total_estoque += med_obj.quantidade * med_obj.preco
        if med_obj.quantidade <= LIMITE_ESTOQUE_CRITICO:
            itens_em_critico +=1
            nomes_criticos.append(f"{med_obj.nome} (Qtd: {med_obj.quantidade})")
    
    print(f"Total de Tipos de Medicamentos (IDs diferentes): {Cores.CIANO}{total_medicamentos}{Cores.RESET}")
    print(f"Total de Unidades de Medicamentos no Estoque: {Cores.CIANO}{total_unidades}{Cores.RESET}")
    print(f"Valor Total Estimado do Estoque: {Cores.VERDE}R${valor_total_estoque:.2f}{Cores.RESET}")
    
    if itens_em_critico > 0:
        print(f"Medicamentos em Estoque Crítico ou Esgotado ({Cores.VERMELHO}{itens_em_critico}{Cores.RESET} tipo(s)):")
        for nome_crit in nomes_criticos:
            print(f"  - {Cores.AMARELO}{nome_crit}{Cores.RESET}")
    else:
        print(f"{Cores.VERDE}Nenhum medicamento em estoque crítico.{Cores.RESET}")
    print(f"{Cores.BOLD}{Cores.MAGENTA}--------------------------{Cores.RESET}")

## Conclusão sobre o Sistema de Gerenciamento de Estoque de Farmácia
Este projeto implementou com sucesso um sistema de console interativo e funcional para o gerenciamento de estoque de uma farmácia. Através de uma estrutura organizada em classes e funções, o programa oferece as operações essenciais de um CRUD (Criar, Ler, Atualizar, Deletar) para medicamentos, além de funcionalidades robustas para processamento de pedidos e visualização de resumos do inventário.

### Principais Destaques e Funcionalidades Alcançadas:

 - Interface de Usuário Amigável: O uso de um menu de console claro, enriquecido com cores, facilita a navegação e a interação do usuário.
 - Gestão Completa de Medicamentos: O sistema permite cadastrar novos medicamentos com detalhes importantes como preço, necessidade de receita, classificação como genérico, e quantidade inicial. A atualização de quantidade e a remoção de itens também são suportadas.
 - Controle de Estoque Inteligente: A implementação de IDs únicos para cada medicamento, juntamente com o aviso dinâmico de estoque crítico ou esgotado, auxilia na gestão eficiente do inventário.
 - Processamento de Pedidos Realista: A funcionalidade de processar pedidos inclui verificações importantes (disponibilidade, exigência de receita) e até mesmo um sistema de desconto por CPF, adicionando um toque de realismo.
 - Robustez e Validação: Diversas proteções contra erros de entrada do usuário foram implementadas, tornando o sistema mais resiliente a entradas inesperadas.
 - Organização do Código: A utilização da classe Medicamento para modelar os produtos e da classe Cores para a interface demonstra uma boa aplicação dos princípios de orientação a objetos, tornando o código mais legível e modular.
### Possíveis Melhorias e Próximos Passos:

Apesar de ser um sistema de console completo e bem elaborado, algumas evoluções poderiam ser consideradas para futuras versões:

 - Persistência de Dados: Implementar o salvamento e carregamento do estoque em um arquivo (CSV, JSON) ou um banco de dados simples (como SQLite) para que os dados não sejam perdidos ao fechar a aplicação.
 - Busca e Filtragem Avançada: Adicionar opções para buscar medicamentos por nome, categoria, ou filtrar por genéricos, medicamentos que exigem receita, etc.
 - Relatórios Detalhados: Gerar relatórios de vendas por período, medicamentos mais vendidos, ou histórico de movimentação de estoque.
 - Interface Gráfica (GUI): Para uma experiência de usuário mais rica, o sistema poderia ser migrado para uma interface gráfica utilizando bibliotecas como Tkinter, PyQt, ou Kivy.
 - Controle de Usuários: Adicionar diferentes níveis de acesso (ex: administrador, vendedor) com login e senha.
 - Validação de CPF (Opcional): Se o objetivo for maior rigor, implementar uma lógica de validação real para o formato do CPF.


# Detecção de Fraudes em Transações de Cartão de Crédito

Este notebook demonstra um pipeline completo de Machine Learning para detecção de fraudes em cartões de crédito.

Principais Etapas do Pipeline:

- **Carga de Dados:** Utilização de dados reais ou geração de dados sintéticos.
- **Engenharia de Features:** Criação de variáveis para otimizar a capacidade preditiva.
- **Balanceamento (SMOTE):** Técnica para lidar com datasets desbalanceados.
- **Divisão dos Dados:** Separação em conjuntos de treino e teste.
- **Treinamento do Modelo:** Uso do `RandomForestClassifier`.
- **Avaliação Detalhada:** Análise com múltiplas métricas e matriz de confusão.
- **Importância das Features:** Visualização das variáveis mais relevantes para o modelo.

**O arquivo `creditcard.csv` deve estar no root do projeto.**

## 1. Importações de Bibliotecas

Importamos todas as bibliotecas e módulos necessários para manipulação de dados, machine learning, e visualização.

In [None]:
# Manipulação de dados e matemática
import pandas as pd
import numpy as np
import os
import time

# Visualização 
import matplotlib.pyplot as plt
import seaborn as sns

# Scikit-learn: geração de dados, divisão, modelo, métricas
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

# Imbalanced-learn: SMOTE para oversampling
# Certifique-se de ter instalado: pip install imbalanced-learn matplotlib seaborn
try:
    from imblearn.over_sampling import SMOTE
    IMBLEARN_AVAILABLE = True
    print("Biblioteca 'imbalanced-learn' (para SMOTE) carregada com sucesso.")
except ImportError:
    IMBLEARN_AVAILABLE = False
    print("AVISO: Biblioteca 'imbalanced-learn' não encontrada. A funcionalidade SMOTE não estará disponível.")
    print("Para instalá-la, execute no seu terminal (com o venv ativo): pip install imbalanced-learn")

# Configurações de estilo para plots (opcional)
# %matplotlib inline # Se estiver usando ambiente Jupyter clássico ou quiser garantir plots inline
# plt.style.use('seaborn-v0_8-whitegrid') # Estilo de plot
# sns.set_style('whitegrid')

print("Bibliotecas e módulos básicos importados.")

## 2. Configuração do Experimento

Defina os parâmetros para esta execução do pipeline. Você pode alterar esses valores para experimentar diferentes cenários.

In [None]:
# --- CONFIGURAÇÕES DO EXPERIMENTO ---

# Escolha da Fonte de Dados
USAR_DADOS_REAIS = True  # Mude para False para usar dados sintéticos

CAMINHO_DADOS_REAIS = 'creditcard.csv'
COLUNA_ALVO_REAL = 'Class'

# Configurações para Dados Sintéticos (se USAR_DADOS_REAIS = False)
N_AMOSTRAS_SINTETICOS = 20000
N_FEATURES_SINTETICOS = 20 # Número de features antes da engenharia
PESOS_CLASSES_SINTETICOS = [0.99, 0.01] # Simula desbalanceamento (1% classe positiva)

# Configuração do SMOTE (aplicado ao conjunto de treino)
APLICAR_SMOTE_NO_TREINO = True # Mude para False para não aplicar SMOTE

# Parâmetros do Modelo RandomForestClassifier
# Estes são os melhores parâmetros encontrados no GridSearch. 
MODEL_PARAMS = {
    'n_estimators': 150,
    'max_depth': 30,
    'min_samples_leaf': 1,
    'min_samples_split': 5,
    'random_state': 42,
    'verbose': 0,          # Mantenha 0 para menos output no notebook, 1 ou mais para progresso do RF
    'n_jobs': -1           # Usar todos os cores da CPU
}

# Limiar de Classificação para converter probabilidades em predições de classe
LIMIAR_CLASSIFICACAO = 0.5

# Semente aleatória para reprodutibilidade geral
RANDOM_STATE = 42

print("Configurações do experimento definidas.")
if USAR_DADOS_REAIS:
    print(f"  Modo: Dados Reais ('{CAMINHO_DADOS_REAIS}')")
else:
    print("  Modo: Dados Sintéticos")
print(f"  Aplicar SMOTE no treino: {'Sim' if APLICAR_SMOTE_NO_TREINO else 'Não'}")
print(f"  Parâmetros do Modelo: {MODEL_PARAMS}")
print(f"  Limiar de Classificação: {LIMIAR_CLASSIFICACAO}")

## 3. Funções Utilitárias para Dados

Estas são as funções que antes estavam em `src/data_input.py`. Nós as definimos diretamente aqui para que o notebook seja autocontido e para facilitar a experimentação direta.

In [None]:
def load_csv_data(file_path, target_column_name):
    """
    Carrega dados de um arquivo CSV especificado e separa as features (X) e o alvo (y).
    """
    print(f"\nTentando carregar dados de: {file_path}...")
    try:
        df = pd.read_csv(file_path)
        print(f"Dados carregados com sucesso de {file_path}.")
        if target_column_name in df.columns:
            X = df.drop(target_column_name, axis=1)
            y = df[target_column_name]
            print(f"Features (X) e alvo (y: '{target_column_name}') separados.")
            print(f"Shape das Features (X): {X.shape}, Shape do Alvo (y): {y.shape}")
            return X, y
        else:
            print(f"Erro: Coluna alvo '{target_column_name}' não encontrada em {file_path}.")
            print(f"Colunas disponíveis: {df.columns.tolist()}")
            return None, None
    except FileNotFoundError:
        print(f"Erro: Arquivo não encontrado em {file_path}. Verifique se o caminho está correto.")
        return None, None
    except Exception as e:
        print(f"Ocorreu um erro ao carregar ou processar os dados: {e}")
        return None, None

def generate_synthetic_data_scratch(n_samples, n_features, class_weights, target_column_name, random_state):
    """
    Gera um conjunto de dados sintético para classificação binária a partir do zero.
    """
    print("\nGerando dados sintéticos do zero...")
    # Ajuste n_informative e n_redundant para serem sempre válidos em relação a n_features
    n_informative_actual = max(1, min(n_features -1, int(n_features * 0.75))) 
    if n_features <= n_informative_actual : # Make sure n_features is greater than n_informative
        n_informative_actual = max(1, n_features-1) if n_features > 1 else 1


    n_redundant_actual = max(0, n_features - n_informative_actual - 1)
    if n_features == 1 and n_informative_actual == 1: # Edge case for single feature
        n_redundant_actual = 0


    X_synth, y_synth = make_classification(
        n_samples=n_samples,
        n_features=n_features,
        n_informative=n_informative_actual,
        n_redundant=n_redundant_actual,
        n_repeated=0,
        n_classes=2,
        n_clusters_per_class=1,
        weights=class_weights,
        flip_y=0.01,
        random_state=random_state
    )
    feature_names = [f'synthetic_feature_{i+1}' for i in range(X_synth.shape[1])]
    X_df = pd.DataFrame(X_synth, columns=feature_names)
    y_series = pd.Series(y_synth, name=target_column_name)
    print(f"Dados sintéticos gerados com shape X: {X_df.shape}, shape y: {y_series.shape}")
    class_dist = y_series.value_counts(normalize=True) * 100
    print(f"Distribuição das classes: \nClasse 0: {class_dist.get(0, 0):.2f}%\nClasse 1: {class_dist.get(1, 0):.2f}%")
    return X_df, y_series

def engineer_features_from_data(X_input_df):
    """
    Cria novas features a partir de um DataFrame de features existente.
    """
    if X_input_df is None:
        print("DataFrame de entrada para engenharia de features é None. Pulando.")
        return None
    print("\nRealizando engenharia de novas features a partir dos dados de entrada...")
    X_engineered = X_input_df.copy()
    if 'Time' in X_engineered.columns and 'Amount' in X_engineered.columns:
        X_engineered['Amount_per_Time'] = X_engineered['Amount'] / (X_engineered['Time'] + 1e-6)
        print("  Feature criada: 'Amount_per_Time'")
    if 'Amount' in X_engineered.columns:
        X_engineered['Log1p_Amount'] = np.log1p(X_engineered['Amount'])
        print("  Feature criada: 'Log1p_Amount'")
    if 'V1' in X_engineered.columns and 'V2' in X_engineered.columns: # Example
        X_engineered['V1_x_V2'] = X_engineered['V1'] * X_engineered['V2']
        print("  Feature criada: 'V1_x_V2'")
    if 'Time' in X_engineered.columns:
        print("  Criando features cíclicas de tempo (Hora do Dia)...")
        seconds_in_day = 24 * 60 * 60
        X_engineered['HourOfDay'] = (X_engineered['Time'] % seconds_in_day) / 3600.0
        X_engineered['HourOfDay_sin'] = np.sin(2 * np.pi * X_engineered['HourOfDay'] / 24.0)
        X_engineered['HourOfDay_cos'] = np.cos(2 * np.pi * X_engineered['HourOfDay'] / 24.0)
        X_engineered = X_engineered.drop('HourOfDay', axis=1)
        print("  Features criadas: 'HourOfDay_sin', 'HourOfDay_cos'")
    print(f"Engenharia de features completa. Novo shape X: {X_engineered.shape}")
    return X_engineered

def augment_data_smote(X_input_df, y_input_series, random_state):
    """
    Aumenta os dados usando SMOTE para lidar com o desbalanceamento de classes.
    """
    if not IMBLEARN_AVAILABLE:
        print("SMOTE requer imbalanced-learn. Retornando dados originais.")
        return X_input_df, y_input_series
    if X_input_df is None or y_input_series is None:
        print("X ou y de entrada para SMOTE é None. Retornando dados originais.")
        return X_input_df, y_input_series
    print("\nTentando aumentar os dados usando SMOTE...")
    try:
        print("Distribuição de classes original no treino:\n", y_input_series.value_counts(normalize=True) * 100)
        if len(y_input_series.value_counts()) < 2 or y_input_series.value_counts().min() < 2: # SMOTE needs min samples
            print("Não há amostras suficientes na classe minoritária ou apenas uma classe presente. Pulando SMOTE.")
            return X_input_df, y_input_series
        smote = SMOTE(random_state=random_state)
        X_smote, y_smote = smote.fit_resample(X_input_df, y_input_series)
        X_smote_df = pd.DataFrame(X_smote, columns=X_input_df.columns)
        y_smote_series = pd.Series(y_smote, name=y_input_series.name)
        print("SMOTE aplicado com sucesso ao conjunto de treino.")
        print(f"Shape X após SMOTE: {X_smote_df.shape}, shape y após SMOTE: {y_smote_series.shape}")
        print("Nova distribuição de classes após SMOTE:\n", y_smote_series.value_counts(normalize=True) * 100)
        return X_smote_df, y_smote_series
    except Exception as e:
        print(f"Erro durante o SMOTE: {e}. Retornando dados originais.")
        return X_input_df, y_input_series

print("Funções utilitárias de dados definidas.")

## 4. Execução do Pipeline Principal

Agora vamos executar o pipeline passo a passo, utilizando as configurações e funções definidas acima.

### 4.1 Carregamento de Dados e Engenharia de Features

In [None]:
X_final, y_final = None, None

if USAR_DADOS_REAIS:
    X_initial, y_initial = load_csv_data(file_path=CAMINHO_DADOS_REAIS, target_column_name=COLUNA_ALVO_REAL)
    if X_initial is not None:
        X_final = engineer_features_from_data(X_initial)
        y_final = y_initial # y não muda com a engenharia de features de X
else:
    X_final, y_final = generate_synthetic_data_scratch(
        n_samples=N_AMOSTRAS_SINTETICOS,
        n_features=N_FEATURES_SINTETICOS,
        class_weights=PESOS_CLASSES_SINTETICOS,
        target_column_name=COLUNA_ALVO_REAL, # Usando o mesmo nome de alvo para consistência
        random_state=RANDOM_STATE
    )
    print("(Para dados sintéticos, a etapa de 'engineer_features_from_data' é opcional e dependeria dos nomes das features geradas)")

if X_final is not None and y_final is not None:
    print("\nDados prontos para a próxima etapa.")
    print(f"Shape de X_final: {X_final.shape}")
    print(f"Distribuição de y_final:\n{y_final.value_counts(normalize=True)}")
    print("\nPrimeiras 5 linhas de X_final:")
    display(X_final.head()) # Use display() para melhor formatação de DataFrames em Jupyter
else:
    print("ERRO: Falha no carregamento ou geração de dados. Não é possível continuar.")

### 4.2 Divisão em Treino e Teste

In [None]:
X_train, X_test, y_train, y_test = None, None, None, None

if X_final is not None and y_final is not None:
    print("\nDividindo os dados em conjuntos de treino e teste...")
    try:
        X_train, X_test, y_train, y_test = train_test_split(
            X_final, y_final,
            test_size=0.25,
            random_state=RANDOM_STATE,
            stratify=y_final
        )
        print("Dados divididos com sucesso.")
        print(f"  Shape de X_train: {X_train.shape}, Shape de y_train: {y_train.shape}")
        print(f"  Shape de X_test: {X_test.shape}, Shape de y_test: {y_test.shape}")
        print(f"  Distribuição do alvo no treino original (y_train):\n{y_train.value_counts(normalize=True)}")
        print(f"  Distribuição do alvo no teste (y_test):\n{y_test.value_counts(normalize=True)}")
    except Exception as e:
        print(f"Erro ao dividir os dados: {e}")
else:
    print("Dados finais (X_final, y_final) não estão disponíveis para divisão.")

### 4.3 Aplicação de SMOTE (Opcional, no Conjunto de Treino)

In [None]:
X_train_processed = X_train.copy() if X_train is not None else None
y_train_processed = y_train.copy() if y_train is not None else None

if X_train is not None and y_train is not None:
    if APLICAR_SMOTE_NO_TREINO:
        print("\nAplicando SMOTE apenas ao conjunto de treino...")
        X_train_processed, y_train_processed = augment_data_smote(X_train, y_train, random_state=RANDOM_STATE)
        # A função augment_data_smote já imprime os shapes e distribuições
    else:
        print("\nSMOTE não aplicado ao conjunto de treino.")
        if X_train_processed is not None: # Apenas para printar se os dados existem
             print(f"Usando dados de treino originais: X_train_processed shape: {X_train_processed.shape}")
             print(f"Distribuição de y_train_processed:\n{y_train_processed.value_counts(normalize=True)}")
else:
    print("Conjunto de treino não disponível. Pulando SMOTE.")

### 4.4 Treinamento do Modelo

In [None]:
model = None
training_duration = 0

if X_train_processed is not None and y_train_processed is not None:
    current_model_params_for_training = MODEL_PARAMS.copy()
    if not APLICAR_SMOTE_NO_TREINO and 'class_weight' not in current_model_params_for_training:
        current_model_params_for_training['class_weight'] = 'balanced'
        print("Usando class_weight='balanced' no modelo (SMOTE não aplicado ao treino e não especificado nos params).")
    elif APLICAR_SMOTE_NO_TREINO and current_model_params_for_training.get('class_weight') == 'balanced':
        print("Aviso: SMOTE foi aplicado, class_weight='balanced' pode ser redundante. Removendo class_weight.")
        if 'class_weight' in current_model_params_for_training:
            del current_model_params_for_training['class_weight']
            
    model = RandomForestClassifier(**current_model_params_for_training)

    print(f"\nTreinando RandomForestClassifier com parâmetros: {current_model_params_for_training}...")
    if current_model_params_for_training.get('verbose', 0) > 0:
        print("(Scikit-learn 'verbose' mostrará o progresso da construção das árvores abaixo)")
    
    start_training_time = time.time()
    try:
        model.fit(X_train_processed, y_train_processed)
        end_training_time = time.time()
        training_duration = end_training_time - start_training_time
        print(f"Modelo treinado com sucesso em {training_duration:.2f} segundos.")
    except Exception as e:
        print(f"Erro durante o treinamento do modelo: {e}")
        model = None 
else:
    print("Dados de treino processados não disponíveis. Pulando treinamento.")

### 4.5 Avaliação do Modelo

In [None]:
if model is not None and X_test is not None and y_test is not None:
    print("\nAvaliando o modelo no conjunto de teste...")
    try:
        proba_predictions = model.predict_proba(X_test)[:, 1]
        print(f"Utilizando limiar de classificação: {LIMIAR_CLASSIFICACAO}")
        predictions = (proba_predictions >= LIMIAR_CLASSIFICACAO).astype(int)

        print("\n--- Relatório de Classificação ---")
        print(classification_report(y_test, predictions, zero_division=0))

        print("\n--- Matriz de Confusão ---")
        cm = confusion_matrix(y_test, predictions)
        
        plt.figure(figsize=(6,4))
        sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
                    xticklabels=['Não Fraude (Prev)', 'Fraude (Prev)'], 
                    yticklabels=['Não Fraude (Real)', 'Fraude (Real)'],
                    annot_kws={"size": 12})
        plt.title('Matriz de Confusão', fontsize=14)
        plt.ylabel('Classe Real', fontsize=12)
        plt.xlabel('Classe Prevista', fontsize=12)
        plt.show()
        
        tn, fp, fn, tp = 0,0,0,0 
        if cm.size == 4: 
            tn, fp, fn, tp = cm.ravel()
        elif cm.size == 1 and len(np.unique(y_test)) == 1 : 
             if y_test.iloc[0] == 0: tn = cm[0,0]
             else: tp = cm[0,0]
        
        print(f"\nDetalhes da Matriz de Confusão:")
        print(f"Verdadeiros Negativos (Não-Fraudes OK): {tn}")
        print(f"Falsos Positivos (Não-Fraudes -> Fraude): {fp} <-- Erro Tipo I")
        print(f"Falsos Negativos (Fraudes -> Não Fraude): {fn} <-- Erro Tipo II (CRÍTICO para fraude)")
        print(f"Verdadeiros Positivos (Fraudes OK): {tp}")

        accuracy = accuracy_score(y_test, predictions)
        print(f"\nAcurácia Geral: {accuracy:.4f}")

    except Exception as e:
        print(f"Erro durante a avaliação ou predição: {e}")
else:
    print("Modelo não treinado ou dados de teste não disponíveis. Pulando avaliação.")

### 4.6 Importância das Features (Random Forest)

In [None]:
if model is not None and isinstance(X_final, pd.DataFrame) and hasattr(model, 'feature_importances_'):
    print("\n--- Importância das Features (Top 15) ---")
    try:
        importances = model.feature_importances_
        feature_names = X_final.columns 
        
        feature_importance_df = pd.DataFrame({'feature': feature_names, 'importance': importances})
        feature_importance_df = feature_importance_df.sort_values(by='importance', ascending=False)

        print("Primeiras 15 features mais importantes:")
        display(feature_importance_df.head(15))

        plt.figure(figsize=(10, 8))
        sns.barplot(x='importance', y='feature', data=feature_importance_df.head(15), 
                    palette='viridis', hue='feature', legend=False) # UPDATED LINE
        plt.title('Importância das Features (Top 15)', fontsize=14)
        plt.xlabel('Importância', fontsize=12)
        plt.ylabel('Feature', fontsize=12)
        plt.tight_layout() 
        plt.show()
    except Exception as e:
        print(f"Erro ao calcular/plotar importância das features: {e}")
else:
    print("Modelo não treinado, X_final não é DataFrame ou o modelo não suporta 'feature_importances_'. Pulando.")

## Conclusão e Próximos Passos

O projeto desenvolveu um modelo RandomForestClassifier para detecção de fraudes em cartões de crédito, utilizando um dataset realista e altamente desbalanceado. A combinação de engenharia de features e a aplicação da técnica SMOTE no conjunto de treino foram fundamentais para os resultados.

O modelo alcançou um F1-score para a classe de fraude em torno de 0.87, com uma revocação na faixa de 0.80-0.84, identificando, por exemplo, 103 das 123 fraudes no conjunto de teste com apenas 11 alarmes falsos. A técnica SMOTE elevou significativamente a capacidade de identificar fraudes reais (revocação), enquanto a engenharia de features contribuiu para a performance geral, com novas features e algumas originais (como V14, V4, V10, V12, V17) mostrando-se influentes. O limiar de classificação foi mantido em 0.5, com reconhecimento da necessidade de otimização futura.

Se o projeto fosse de maior prazo, os próximos passos para alcançar o aperfeiçoamento do projeto seriam:
 - Otimização exaustiva de hiperparâmetros.
 - Teste de outros algoritmos (XGBoost, LightGBM, CatBoost).
 - Engenharia de features mais avançada e análise detalhada de erros.
 - Exploração de técnicas de detecção de anomalias.
 - Ajuste fino do limiar de classificação e consideração dos custos de classificação incorreta em um contexto de negócio.
 - O trabalho estabeleceu uma base sólida para futuras explorações e otimizações na detecção de fraudes.