# An√°lise de Dados - √ìticas Taty Mello

Este notebook realiza an√°lise explorat√≥ria dos dados de ordens de servi√ßo das √≥ticas.

## Objetivos:
- Carregar e analisar planilhas OS_NOVA
- Identificar padr√µes nos dados
- Detectar duplicatas de clientes
- Analisar distribui√ß√£o de dioptrias
- Gerar relat√≥rios e visualiza√ß√µes

In [None]:
# Importa√ß√µes necess√°rias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√µes
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("‚úÖ Bibliotecas carregadas com sucesso!")

In [None]:
# Importar nossas classes personalizadas
import sys
sys.path.append('../scripts')
sys.path.append('../app/services')

from analisar_os import AnalisadorOS
from deduplicacao import DeduplicadorClientes

print("‚úÖ Classes personalizadas carregadas!")

## 1. Carregamento e An√°lise Inicial dos Dados

In [None]:
# Inicializar analisador
analisador = AnalisadorOS(diretorio_dados="../data/raw")

# Listar arquivos dispon√≠veis
arquivos_raw = list(Path("../data/raw").glob("*.xlsx"))
print(f"Arquivos encontrados: {len(arquivos_raw)}")
for arquivo in arquivos_raw:
    print(f"  üìÅ {arquivo.name}")

In [None]:
# Se houver arquivos, processar o primeiro como exemplo
if arquivos_raw:
    arquivo_exemplo = arquivos_raw[0]
    print(f"Analisando arquivo: {arquivo_exemplo.name}")
    
    # Carregar dados
    df_original = analisador.carregar_planilha(arquivo_exemplo)
    
    print(f"\nüìä Informa√ß√µes b√°sicas:")
    print(f"  - Linhas: {len(df_original)}")
    print(f"  - Colunas: {len(df_original.columns)}")
    print(f"  - Tamanho em mem√≥ria: {df_original.memory_usage(deep=True).sum() / 1024:.1f} KB")
    
    # Mostrar colunas
    print(f"\nüìã Colunas encontradas:")
    for i, col in enumerate(df_original.columns):
        print(f"  {i+1:2d}. {col}")
        
    # Primeiras linhas
    print(f"\nüîç Primeiras 3 linhas:")
    display(df_original.head(3))
else:
    print("‚ùå Nenhum arquivo encontrado em data/raw/")
    print("   Copie alguns arquivos OS_NOVA*.xlsx para data/raw/ e execute novamente")

## 2. Padroniza√ß√£o e Limpeza dos Dados

In [None]:
if arquivos_raw:
    # Padronizar colunas
    df_limpo = analisador.padronizar_colunas(df_original.copy())
    
    print("üîß Colunas ap√≥s padroniza√ß√£o:")
    for i, col in enumerate(df_limpo.columns):
        print(f"  {i+1:2d}. {col}")
    
    # Mostrar compara√ß√£o antes/depois
    print("\nüìã Mapeamento de colunas:")
    for orig, novo in zip(df_original.columns, df_limpo.columns):
        if orig != novo:
            print(f"  '{orig}' ‚Üí '{novo}'")

In [None]:
if arquivos_raw:
    # An√°lise de dados faltantes
    print("üîç An√°lise de dados faltantes:")
    missing = df_limpo.isnull().sum()
    missing_pct = (missing / len(df_limpo)) * 100
    
    missing_df = pd.DataFrame({
        'Coluna': missing.index,
        'Valores_Faltantes': missing.values,
        'Percentual': missing_pct.values
    }).sort_values('Percentual', ascending=False)
    
    display(missing_df.head(10))
    
    # Visualizar dados faltantes
    plt.figure(figsize=(12, 6))
    missing_df_plot = missing_df[missing_df['Percentual'] > 0]
    
    plt.subplot(1, 2, 1)
    plt.barh(missing_df_plot['Coluna'][:10], missing_df_plot['Percentual'][:10])
    plt.xlabel('Percentual de Valores Faltantes')
    plt.title('Top 10 Colunas com Dados Faltantes')
    plt.gca().invert_yaxis()
    
    plt.subplot(1, 2, 2)
    plt.hist(missing_df_plot['Percentual'], bins=20, alpha=0.7)
    plt.xlabel('Percentual de Valores Faltantes')
    plt.ylabel('N√∫mero de Colunas')
    plt.title('Distribui√ß√£o de Dados Faltantes')
    
    plt.tight_layout()
    plt.show()

## 3. An√°lise de Clientes e Detec√ß√£o de Duplicatas

In [None]:
if arquivos_raw and 'nome' in df_limpo.columns:
    # An√°lise b√°sica de clientes
    print("üë• An√°lise de Clientes:")
    print(f"  - Total de registros: {len(df_limpo)}")
    print(f"  - Clientes √∫nicos (por nome): {df_limpo['nome'].nunique()}")
    print(f"  - Registros com nome vazio: {df_limpo['nome'].isnull().sum()}")
    
    if 'cpf' in df_limpo.columns:
        print(f"  - CPFs √∫nicos: {df_limpo['cpf'].nunique()}")
        print(f"  - Registros com CPF vazio: {df_limpo['cpf'].isnull().sum()}")
    
    if 'telefone' in df_limpo.columns:
        print(f"  - Telefones √∫nicos: {df_limpo['telefone'].nunique()}")
        print(f"  - Registros com telefone vazio: {df_limpo['telefone'].isnull().sum()}")
    
    # Top 10 clientes por n√∫mero de OS
    top_clientes = df_limpo['nome'].value_counts().head(10)
    print(f"\nüèÜ Top 10 clientes com mais OS:")
    for nome, count in top_clientes.items():
        print(f"  {count:2d} OS - {nome}")

In [None]:
if arquivos_raw and 'nome' in df_limpo.columns:
    # Detectar duplicatas usando nossa classe
    print("üîç Detectando duplicatas...")
    
    deduplicador = DeduplicadorClientes()
    
    # Usar apenas uma amostra se o dataset for muito grande
    df_amostra = df_limpo.head(100) if len(df_limpo) > 100 else df_limpo
    
    duplicatas = deduplicador.encontrar_duplicatas(df_amostra)
    
    print(f"‚úÖ Encontradas {len(duplicatas)} poss√≠veis duplicatas")
    
    if duplicatas:
        # Gerar relat√≥rio
        relatorio_duplicatas = deduplicador.gerar_relatorio_duplicatas(duplicatas)
        
        print("\nüìä Top 5 duplicatas com maior score:")
        display(relatorio_duplicatas.head())
        
        # Estat√≠sticas das duplicatas
        print("\nüìà Estat√≠sticas das duplicatas:")
        print(f"  - Duplicatas com alta confian√ßa: {(relatorio_duplicatas['Confianca'] == 'alta').sum()}")
        print(f"  - Duplicatas com m√©dia confian√ßa: {(relatorio_duplicatas['Confianca'] == 'media').sum()}")
        print(f"  - Duplicatas com baixa confian√ßa: {(relatorio_duplicatas['Confianca'] == 'baixa').sum()}")
        
        print(f"\n  - Recomenda√ß√£o 'merge': {(relatorio_duplicatas['Recomendacao'] == 'merge').sum()}")
        print(f"  - Recomenda√ß√£o 'revisar': {(relatorio_duplicatas['Recomendacao'] == 'revisar').sum()}")
        print(f"  - Recomenda√ß√£o 'ignorar': {(relatorio_duplicatas['Recomendacao'] == 'ignorar').sum()}")

## 4. An√°lise de Dioptrias

In [None]:
if arquivos_raw:
    # Identificar colunas de dioptrias
    colunas_dioptria = [col for col in df_limpo.columns if any(x in col.lower() for x in ['od_', 'oe_', 'esferico', 'cilindrico', 'eixo', 'adicao'])]
    
    print(f"üîç Colunas de dioptria encontradas: {len(colunas_dioptria)}")
    for col in colunas_dioptria:
        print(f"  - {col}")
    
    if colunas_dioptria:
        # An√°lise b√°sica das dioptrias
        print("\nüìä Estat√≠sticas das dioptrias:")
        
        for col in colunas_dioptria[:6]:  # Limitar a 6 colunas
            if df_limpo[col].dtype in ['float64', 'int64']:
                valores_validos = df_limpo[col].dropna()
                if len(valores_validos) > 0:
                    print(f"\n  {col}:")
                    print(f"    - Valores v√°lidos: {len(valores_validos)}")
                    print(f"    - M√©dia: {valores_validos.mean():.2f}")
                    print(f"    - Mediana: {valores_validos.median():.2f}")
                    print(f"    - Min/Max: {valores_validos.min():.2f} / {valores_validos.max():.2f}")
    else:
        print("‚ùå Nenhuma coluna de dioptria identificada")

In [None]:
if arquivos_raw and colunas_dioptria:
    # Visualiza√ß√µes das dioptrias
    print("üìà Gerando visualiza√ß√µes das dioptrias...")
    
    # Selecionar colunas num√©ricas de dioptria
    colunas_numericas = [col for col in colunas_dioptria if df_limpo[col].dtype in ['float64', 'int64']]
    
    if len(colunas_numericas) >= 2:
        fig, axes = plt.subplots(2, min(3, len(colunas_numericas)), figsize=(15, 10))
        axes = axes.flatten() if len(colunas_numericas) > 3 else [axes] if len(colunas_numericas) == 1 else axes
        
        for i, col in enumerate(colunas_numericas[:6]):
            ax = axes[i] if i < len(axes) else None
            if ax is not None:
                valores = df_limpo[col].dropna()
                if len(valores) > 0:
                    if i < 3:
                        # Histogramas na primeira linha
                        ax.hist(valores, bins=30, alpha=0.7, edgecolor='black')
                        ax.set_title(f'Distribui√ß√£o - {col}')
                        ax.set_xlabel('Valor')
                        ax.set_ylabel('Frequ√™ncia')
                    else:
                        # Boxplots na segunda linha
                        ax.boxplot(valores)
                        ax.set_title(f'Boxplot - {col}')
                        ax.set_ylabel('Valor')
        
        # Remover subplots vazios
        for i in range(len(colunas_numericas), len(axes)):
            fig.delaxes(axes[i])
        
        plt.tight_layout()
        plt.show()
    
    else:
        print("‚ùå N√£o h√° colunas num√©ricas suficientes para visualiza√ß√£o")

## 5. An√°lise Temporal (se dispon√≠vel)

In [None]:
if arquivos_raw:
    # Identificar colunas de data
    colunas_data = [col for col in df_limpo.columns if any(x in col.lower() for x in ['data', 'date'])]
    
    print(f"üìÖ Colunas de data encontradas: {len(colunas_data)}")
    for col in colunas_data:
        print(f"  - {col}")
    
    if colunas_data:
        # Tentar converter para datetime
        for col in colunas_data[:2]:  # Limitar a 2 colunas
            try:
                df_limpo[f'{col}_dt'] = pd.to_datetime(df_limpo[col], errors='coerce')
                valores_validos = df_limpo[f'{col}_dt'].dropna()
                
                if len(valores_validos) > 0:
                    print(f"\nüìä An√°lise temporal - {col}:")
                    print(f"  - Datas v√°lidas: {len(valores_validos)}")
                    print(f"  - Per√≠odo: {valores_validos.min().date()} at√© {valores_validos.max().date()}")
                    print(f"  - Amplitude: {(valores_validos.max() - valores_validos.min()).days} dias")
                    
                    # Distribui√ß√£o por m√™s
                    if len(valores_validos) > 10:
                        plt.figure(figsize=(12, 4))
                        
                        plt.subplot(1, 2, 1)
                        valores_validos.dt.to_period('M').value_counts().sort_index().plot(kind='bar')
                        plt.title(f'Distribui√ß√£o Mensal - {col}')
                        plt.xlabel('M√™s')
                        plt.ylabel('Quantidade')
                        plt.xticks(rotation=45)
                        
                        plt.subplot(1, 2, 2)
                        valores_validos.dt.dayofweek.value_counts().sort_index().plot(kind='bar')
                        plt.title(f'Distribui√ß√£o por Dia da Semana - {col}')
                        plt.xlabel('Dia da Semana (0=Segunda)')
                        plt.ylabel('Quantidade')
                        
                        plt.tight_layout()
                        plt.show()
                        
            except Exception as e:
                print(f"‚ùå Erro ao processar coluna {col}: {e}")
    else:
        print("‚ùå Nenhuma coluna de data identificada")

## 6. Relat√≥rio Final e Recomenda√ß√µes

In [None]:
if arquivos_raw:
    print("üìã RELAT√ìRIO FINAL")
    print("=" * 50)
    
    print(f"\nüìä RESUMO DOS DADOS:")
    print(f"  - Arquivo analisado: {arquivo_exemplo.name}")
    print(f"  - Total de registros: {len(df_original):,}")
    print(f"  - Total de colunas: {len(df_original.columns)}")
    print(f"  - Registros ap√≥s limpeza: {len(df_limpo):,}")
    
    if 'nome' in df_limpo.columns:
        print(f"\nüë• CLIENTES:")
        print(f"  - Clientes √∫nicos: {df_limpo['nome'].nunique():,}")
        print(f"  - Taxa de duplica√ß√£o: {((len(df_limpo) - df_limpo['nome'].nunique()) / len(df_limpo) * 100):.1f}%")
        
        if 'duplicatas' in locals() and duplicatas:
            print(f"  - Duplicatas detectadas: {len(duplicatas)}")
            merge_recomendado = sum(1 for d in duplicatas if d.recomendacao == 'merge')
            print(f"  - Merge recomendado: {merge_recomendado}")
    
    if colunas_dioptria:
        print(f"\nüëì DIOPTRIAS:")
        print(f"  - Colunas de dioptria: {len(colunas_dioptria)}")
        
        # Calcular completude dos dados de dioptria
        for col in colunas_dioptria[:4]:
            if col in df_limpo.columns:
                completude = (df_limpo[col].notna().sum() / len(df_limpo)) * 100
                print(f"  - {col}: {completude:.1f}% preenchido")
    
    print(f"\nüîß QUALIDADE DOS DADOS:")
    total_missing = df_limpo.isnull().sum().sum()
    total_cells = len(df_limpo) * len(df_limpo.columns)
    completude_geral = ((total_cells - total_missing) / total_cells) * 100
    print(f"  - Completude geral: {completude_geral:.1f}%")
    print(f"  - C√©lulas vazias: {total_missing:,}")
    
    print(f"\nüí° RECOMENDA√á√ïES:")
    print(f"  1. Implementar processo de deduplica√ß√£o autom√°tica")
    print(f"  2. Padronizar formato dos campos (CPF, telefone, etc.)")
    print(f"  3. Criar valida√ß√µes para entrada de dados")
    print(f"  4. Estabelecer campos obrigat√≥rios")
    
    if len(colunas_dioptria) > 0:
        print(f"  5. Implementar valida√ß√µes espec√≠ficas para dioptrias")
    
    if len(colunas_data) > 0:
        print(f"  6. Padronizar formato de datas")
    
    print(f"\n‚úÖ An√°lise conclu√≠da!")
else:
    print("‚ùå N√£o foi poss√≠vel realizar a an√°lise.")
    print("   Certifique-se de copiar arquivos para data/raw/ e executar novamente.")

## 7. Exportar Dados Limpos

In [None]:
if arquivos_raw and 'df_limpo' in locals():
    # Exportar dados limpos
    output_dir = Path("../data/processed")
    output_dir.mkdir(exist_ok=True)
    
    output_file = output_dir / f"dados_limpos_{arquivo_exemplo.stem}.xlsx"
    
    with pd.ExcelWriter(output_file, engine='openpyxl') as writer:
        # Dados limpos
        df_limpo.to_excel(writer, sheet_name='dados_limpos', index=False)
        
        # Relat√≥rio de duplicatas (se existir)
        if 'relatorio_duplicatas' in locals() and not relatorio_duplicatas.empty:
            relatorio_duplicatas.to_excel(writer, sheet_name='duplicatas', index=False)
        
        # Estat√≠sticas
        stats_df = pd.DataFrame({
            'Metrica': [
                'Total de registros originais',
                'Total de registros limpos',
                'Total de colunas',
                'Clientes √∫nicos',
                'Duplicatas detectadas',
                'Completude geral (%)'
            ],
            'Valor': [
                len(df_original),
                len(df_limpo),
                len(df_limpo.columns),
                df_limpo['nome'].nunique() if 'nome' in df_limpo.columns else 'N/A',
                len(duplicatas) if 'duplicatas' in locals() else 0,
                f"{completude_geral:.1f}%" if 'completude_geral' in locals() else 'N/A'
            ]
        })
        
        stats_df.to_excel(writer, sheet_name='estatisticas', index=False)
    
    print(f"‚úÖ Dados exportados para: {output_file}")
    print(f"   Sheets criados:")
    print(f"   - dados_limpos: {len(df_limpo)} registros")
    
    if 'relatorio_duplicatas' in locals() and not relatorio_duplicatas.empty:
        print(f"   - duplicatas: {len(relatorio_duplicatas)} registros")
    
    print(f"   - estatisticas: resumo da an√°lise")
else:
    print("‚ùå N√£o h√° dados para exportar")