<a href="https://colab.research.google.com/github/Edilsonjunior81/Workshop-dados2025.2/blob/main/Untitled0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [16]:
# 1. Importar Bibliotecas
import pandas as pd
import numpy as np
from docx import Document
from docx.shared import Inches

# 2. Criar DataFrame
data = {
    'id': [1,2,3,4,5,6,7,8,9,10],
    'nome': ['Ana','Bruno','Carla','Daniel','Érica','Francisco','Gabriela','Henrique','Ivana','José'],
    'idade': ['25','vinte e três','30',None,'27','29','21','19','11','?'],
    'data_inscricao': ['2023-05-12','2023/13/01',None,'2022-07-15','2022-08-XX','15/09/2022',
                       '2023-01-05','2023-02-30','2023-03-10','2022-11-25'],
    'nota': ['8.5','9.0',None,'7.2','8','dez','10','9.5',None,'6.7'],
    'ativo': ['Sim','TRUE','Não','sim','e','FALSE','TRUE','nao','Yes','sim']
}

df = pd.DataFrame(data)

# 3. Limpeza e Tratamento
df = df.dropna(subset=['nome'])  # Remover nomes nulos

# Converter idade
idade_map = {'vinte e três': 23, '?': np.nan}
df['idade'] = pd.to_numeric(df['idade'].replace(idade_map), errors='coerce')

# Converter data_inscricao
df['data_inscricao'] = pd.to_datetime(df['data_inscricao'], errors='coerce')

# Converter nota
nota_map = {'dez': 10}
df['nota'] = pd.to_numeric(df['nota'].replace(nota_map), errors='coerce')

# Padronizar ativo
ativo_map = {'sim': True,'Sim': True,'TRUE': True,'Yes': True,'não': False,'Não': False,'nao': False,'FALSE': False,'e': np.nan}
df['ativo'] = df['ativo'].str.strip().str.lower().map(ativo_map)

# Preencher nulos numéricos
df['idade'] = df['idade'].fillna(0).astype(int)
df['nota'] = df['nota'].fillna(0).astype(float)

# Remover duplicatas
df = df.drop_duplicates()

# Renomear colunas
df.rename(columns={
    'nome':'name',
    'idade':'age',
    'data_inscricao':'registration_date',
    'nota':'grade',
    'ativo':'active'
}, inplace=True)

# 4. Visualizar resultado
print("Tabela após tratamento:")
print(df)
print("\nInformações do DataFrame:")
print(df.info())

# 5. Gerar Relatório DOCX
doc = Document()
doc.add_heading("Relatório de Tratamento de Dados", 0)
doc.add_paragraph("Autor: Edilson Jordão Rodrigues Junior")
doc.add_paragraph("Data: 11/09/2025")
doc.add_paragraph("Objetivo: Limpar, padronizar e tratar inconsistências na tabela de usuários.")

doc.add_heading("1. Problemas Identificados", level=1)
doc.add_paragraph(
    "- Coluna 'idade': valores não numéricos e ausentes\n"
    "- Coluna 'data_inscricao': formatos inconsistentes e datas inválidas\n"
    "- Coluna 'nota': valores não numéricos e ausentes\n"
    "- Coluna 'ativo': valores inconsistentes"
)

doc.add_heading("2. Solução Implementada", level=1)
doc.add_paragraph(
    "- Conversão de colunas para tipos corretos (numérico, datetime, booleano)\n"
    "- Substituição de valores inválidos por NaN ou mapeamento correto\n"
    "- Preenchimento de valores nulos nas colunas numéricas\n"
    "- Remoção de duplicatas\n"
    "- Padronização de nomes de colunas para inglês"
)

doc.add_heading("3. Resultado", level=1)
doc.add_paragraph(f"A tabela final possui {df.shape[0]} registros válidos e colunas consistentes:\n{df.head()}")

# Salvar documento
doc_file = "Relatorio_Tratamento_Dados.docx"
doc.save(doc_file)
print(f"\nRelatório salvo como '{doc_file}'")


Tabela após tratamento:
   id       name  age registration_date  grade active
0   1        Ana   25        2023-05-12    8.5   True
1   2      Bruno   23               NaT    9.0    NaN
2   3      Carla   30               NaT    0.0  False
3   4     Daniel    0        2022-07-15    7.2   True
4   5      Érica   27               NaT    8.0    NaN
5   6  Francisco   29               NaT   10.0    NaN
6   7   Gabriela   21        2023-01-05   10.0    NaN
7   8   Henrique   19               NaT    9.5  False
8   9      Ivana   11        2023-03-10    0.0    NaN
9  10       José    0        2022-11-25    6.7   True

Informações do DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   id                 10 non-null     int64         
 1   name               10 non-null     object        
 2   age                10 non-nul