# Trabalho Pr√°tico - DGT2823
## Tecnologias para Desenvolvimento de Solu√ß√µes de Big Data

**Objetivo:** Demonstrar o uso da biblioteca Pandas para leitura, manipula√ß√£o e limpeza de dados

**Autor:** Victor Pessoa  
**Data:** Novembro 2025

## Importa√ß√£o das Bibliotecas

In [None]:
import pandas as pd
import numpy as np
print("Bibliotecas importadas com sucesso!")
print(f"Vers√£o do Pandas: {pd.__version__}")
print(f"Vers√£o do NumPy: {np.__version__}")

## Microatividade 1: Leitura de Arquivo CSV

In [None]:
# Carregar os dados do arquivo CSV
dados = pd.read_csv('../dados/dados.csv', sep=';', engine='python', encoding='utf-8')
print("‚úÖ Dados carregados com sucesso!")
print(f"üìä Dimens√µes: {dados.shape[0]} linhas x {dados.shape[1]} colunas")
dados

## Microatividade 2: Cria√ß√£o de Subconjunto

In [None]:
# Criar subconjunto com 3 colunas
subconjunto = dados[['ID', 'Duration', 'Pulse']]
print(f"üìã Subconjunto criado com {subconjunto.shape[1]} colunas")
subconjunto

## Microatividade 3: Configura√ß√£o de Exibi√ß√£o

In [None]:
# Configurar n√∫mero m√°ximo de linhas
pd.set_option('display.max_rows', 9999)
print(f"Configura√ß√£o atual de max_rows: {pd.get_option('display.max_rows')}")
print("\nDataset completo:")
print(dados.to_string())

## Microatividade 4: Visualiza√ß√£o de Primeiras e √öltimas Linhas

In [None]:
# Primeiras 10 linhas
print("üìà Primeiras 10 linhas:")
dados.head(10)

In [None]:
# √öltimas 10 linhas
print("üìâ √öltimas 10 linhas:")
dados.tail(10)

## Microatividade 5: Informa√ß√µes Gerais

In [None]:
# Informa√ß√µes gerais do dataset
print("üìä Informa√ß√µes gerais:")
dados.info()

In [None]:
# Estat√≠sticas espec√≠ficas
print(f"Total de linhas: {dados.shape[0]}")
print(f"Total de colunas: {dados.shape[1]}")
print("\nDados nulos por coluna:")
print(dados.isnull().sum())
print("\nTipos de dados:")
print(dados.dtypes)
print(f"\nMem√≥ria utilizada: {dados.memory_usage(deep=True).sum():,} bytes")

## Trabalho Pr√°tico: Limpeza de Dados

### Etapa 1: Cria√ß√£o de C√≥pia dos Dados

In [None]:
# Criar c√≥pia dos dados originais
dados_tratados = dados.copy()
print("‚úÖ C√≥pia dos dados criada com sucesso!")
print(f"üìä Dados a serem tratados: {dados_tratados.shape}")

### Etapa 2: Tratamento de Valores Nulos em 'Calories'

In [None]:
# Verificar valores nulos em Calories
print(f"Valores nulos em Calories antes: {dados_tratados['Calories'].isnull().sum()}")

# Substituir NaN por 0
dados_tratados['Calories'] = dados_tratados['Calories'].fillna(0)

print(f"Valores nulos em Calories depois: {dados_tratados['Calories'].isnull().sum()}")
print("\nLinhas onde Calories = 0:")
dados_tratados[dados_tratados['Calories'] == 0]

### Etapa 3: Tratamento de Valores Nulos em 'Date'

In [None]:
# Verificar valores nulos em Date
print(f"Valores nulos em Date antes: {dados_tratados['Date'].isnull().sum()}")

# Substituir NaN por '1900/01/01'
dados_tratados['Date'] = dados_tratados['Date'].fillna('1900/01/01')

print(f"Valores nulos em Date depois: {dados_tratados['Date'].isnull().sum()}")
print("\nLinhas onde Date = '1900/01/01':")
dados_tratados[dados_tratados['Date'] == '1900/01/01']

### Etapa 4: Convers√£o de Datas - Primeira Tentativa

In [None]:
# Primeira tentativa de convers√£o (erro esperado)
try:
    dados_tratados['Date'] = pd.to_datetime(dados_tratados['Date'], format='%Y/%m/%d')
    print("‚úÖ Convers√£o realizada com sucesso!")
except Exception as e:
    print(f"‚ö†Ô∏è Erro esperado: {str(e)}")
    print("Motivo: O valor '1900/01/01' n√£o est√° no formato correto")

### Etapa 5: Corre√ß√£o do Valor Problem√°tico

In [None]:
# Substituir '1900/01/01' por NaN
dados_tratados['Date'] = dados_tratados['Date'].replace('1900/01/01', np.nan)
print("‚úÖ Valor '1900/01/01' substitu√≠do por NaN")

# Segunda tentativa (ainda teremos erro)
try:
    dados_tratados['Date'] = pd.to_datetime(dados_tratados['Date'], format='%Y/%m/%d')
    print("‚úÖ Convers√£o realizada com sucesso!")
except Exception as e:
    print(f"‚ö†Ô∏è Segundo erro esperado: {str(e)}")
    print("Motivo: O valor '20201226' n√£o est√° no formato '%Y/%m/%d'")

### Etapa 6: Corre√ß√£o do Formato de Data

In [None]:
# Corrigir o valor '20201226' para '2020/12/26'
mask = dados_tratados['Date'] == '20201226'
if mask.any():
    print(f"Valor problem√°tico encontrado na linha: {dados_tratados[mask].index.tolist()}")
    dados_tratados.loc[mask, 'Date'] = '2020/12/26'
    print("‚úÖ Valor '20201226' corrigido para '2020/12/26'")

# Convers√£o final para datetime
dados_tratados['Date'] = pd.to_datetime(dados_tratados['Date'], format='%Y/%m/%d', errors='coerce')
print(f"‚úÖ Convers√£o final realizada! Tipo: {dados_tratados['Date'].dtype}")

### Etapa 7: Remo√ß√£o de Registros com Valores Nulos

In [None]:
# Verificar registros com Date nulo
print(f"Registros antes da remo√ß√£o: {len(dados_tratados)}")
print(f"Registros com Date nulo: {dados_tratados['Date'].isnull().sum()}")

# Mostrar linhas que ser√£o removidas
linhas_nulas = dados_tratados[dados_tratados['Date'].isnull()]
if not linhas_nulas.empty:
    print(f"\nLinhas que ser√£o removidas:")
    print(linhas_nulas)

# Remover registros com valores nulos
dados_limpos = dados_tratados.dropna(subset=['Date'])

print(f"\nRegistros ap√≥s remo√ß√£o: {len(dados_limpos)}")
print(f"Registros removidos: {len(dados_tratados) - len(dados_limpos)}")

### Etapa 8: Verifica√ß√£o Final

In [None]:
# Informa√ß√µes finais do dataset limpo
print("üìä Dataset final ap√≥s limpeza:")
dados_limpos.info()
dados_limpos

In [None]:
# Resumo das transforma√ß√µes
print("üìù RESUMO DAS TRANSFORMA√á√ïES REALIZADAS:")
print("=" * 60)
print("1. ‚úÖ Carregamento do arquivo CSV com separador ';'")
print("2. ‚úÖ Cria√ß√£o de c√≥pia dos dados originais")
print("3. ‚úÖ Substitui√ß√£o de valores nulos em 'Calories' por 0")
print("4. ‚úÖ Tratamento de valores nulos em 'Date'")
print("5. ‚úÖ Corre√ß√£o do formato de data '20201226' para '2020/12/26'")
print("6. ‚úÖ Convers√£o da coluna 'Date' para tipo datetime")
print("7. ‚úÖ Remo√ß√£o de registros com valores nulos em 'Date'")
print(f"8. ‚úÖ Dataset final: {len(dados_limpos)} registros v√°lidos")
print("=" * 60)