# Aula 1 - Limpeza e Tratamento dos dados

**Professores:**
- Jhonatan Ramos
- Vinícius "Mumu" Rodrigues

## 1. Contexto e motivação

### 1.1. De onde vêm os dados?

Você, membro do Insper Data e aluno do Ciclo Básico, naturalmente já passou noites em claro, suando frio e se questionando: “De onde vêm os dados? Onde vivem? O que comem? O que fazem?”. Embora o Globo Repórter ainda não esteja interessado em responder perguntas tão pertinentes (alô Sandra Annemberg, convida a gente), o Time Educacional do Insper Data não lhe deixará na mão.

Sem muito lero-lero, vamos direto ao assunto: **de onde vêm os dados?**

<div style="text-align: center;">
    <img src='./img/globo_reporter.png' style="width: 500px;">
    <p style="font-style: italic;">Jhonatan Ramos, Diretor Educacional, em mais um dia de trabalho desvendando os mistérios dos dados</p>
</div>

Embora pareça, os dados não vêm na caixa do Banco Imobiliário (pelo menos não do tipo em que estamos interessados). São resultados de coleta ativa e intencional, que pode ocorrer de maneira física, por meio de formulários ou pesquisas *in loco*, como no caso do IBGE ou da prova do ENEM, ou por meio de sistemas automatizados de monitoramento de atividade, como no registro de transações realizadas em uma loja online.

A determinação de quais dados coletar, em qual volume e por qual meio, decorre de uma análise minuciosa que pode envolver diversas partes interessadas em uma empresa ou na sociedade.

Independentemente das dúvidas que guiarão o processo de montagem do sistema de coleta, uma certeza prevalece: no momento em que esse sistema entrar em contato com o mundo real (e com pessoas reais) ele falhará.

Do ponto de vista da Ciência de Dados, essa falha se manifesta como ruído: respostas em branco, erros de digitação, categorias inconsistentes, registros duplicados, valores impossíveis ou medições imprecisas. Seja por interferência sistemática, seja por mero acaso, o dado nunca nasce perfeito.

Trataremos em profundidade, ao longo do Ciclo Básico, dos aspectos relativos à coleta, utilização e às partes interessadas no contexto de bases de dados. Porém, daremos início a essa jornada a partir do que é mais mundano, e mais inevitável, no mundo da Ciência de Dados: a sujeira.

### 1.2. A sujeira

<div style="text-align: center;">
    <img src="./img/sujeira.jpg" style="width: 500px;" />
    <p style="font-style: italic;">Aqui estão duas fotos. Uma é da sua base de dados e outra de um lixão nas Filipinas. Qual é qual?</p>
</div>

As origens da sujeira em bases de dados são diversas e podem ser motivadas tanto pelo design do sistema de coleta quanto por comportamentos fora do esperado — ou pela combinação de ambos.

Vamos supor que os membros do Insper Data desejem realizar uma pesquisa demográfica entre alunos do Insper. O presidente João Braga sugere as seguintes perguntas:

1. Qual a sua idade?
2. Qual o seu curso?
3. Qual seu estado de origem?
4. Qual sua cidade de origem?

Parece um questionário simples e imune a erros, certo? Errado.

Considere a primeira pergunta. Um respondente nascido em 11/03/2004 poderia responder “21”, “21 anos”, “vinte e um anos” ou até mesmo “vinte e um anos, onze meses e oito dias”, já que nenhuma especificação foi fornecida. Esse é um erro de design que inevitavelmente gerará inconsistência de formato na base de dados.

Percebendo o problema, o esperto Diretor de Pessoas, Sid, decide corrigir o questionário adicionando instruções claras:

1. Qual sua idade? (Em anos, apenas números. Exemplo: 21)
2. Qual o seu curso? (Assinale abaixo)

   * (a) Administração
   * (b) Ciência da Computação
   * (c) Direito
   * (d) Economia
   * (e) Engenharia da Computação
   * (f) Engenharia Mecânica
   * (g) Engenharia Mecatrônica
3. Qual seu estado de origem? (Apenas a sigla. Exemplo: “CE” para Ceará)
4. Qual sua cidade de origem?

Ainda assim, problemas permanecem. Alguns respondentes podem esquecer de responder uma pergunta, ignorar instruções ou cometer erros de digitação. Além disso, podemos deliberadamente criar perguntas de resposta opcional — como é comum em questões sobre sexualidade, por exemplo. Nesse caso, por design, estaríamos aceitando respostas vazias.

Isso ilustra um ponto central: a sujeira não é apenas um acidente. Ela é consequência natural de sistemas que interagem com o mundo real — e, em alguns casos, é uma escolha consciente de projeto.

Portanto, antes de qualquer análise, é essencial entender quais tipos de anomalias podem surgir nos dados e quais estratégias são adequadas para tratá-las.

## 2. Tipos comuns de "sujeira" nos dados

Vamos entrar no detalhe dos tipos de anomalias mais comuns em bases de dados. Antes disso, porém, vamos 

In [10]:
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
df = pd.read_csv('data/clientes.csv')
df.head(5)

Unnamed: 0,id_cliente,nome,email,idade,cidade,data_cadastro,telefone
0,679,GUSTAVO SLIVA,gustavo.sliva@gmail.com,32,rio de janeiro,2023-02-16 00:00:00,(70)92664-8803
1,880,Lucas dos Mendes,lucas.dos.mendes@empresa.com.br,41,sãopualo,2022-06-21 00:00:00,0000
2,901,pedro rocha,,44,Salvador,2021-07-26 00:00:00,(83)91748-8658
3,244,Diego Pinto,diego.pinto256@yahoo.com.br,32,Niteroi,2022-05-11 00:00:00,XXXXX
4,329,HELENA MOURA,helena.moura@hotmail.com,79,sãopaulo,2023-04-25 00:00:00,(50)93669-3911


In [7]:
df.shape

(1248, 7)

### 2.1. Valores faltantes

Este é, provavelmente, o problema mais frequente no contexto de limpeza dos dados. Datasets são representações de 

In [3]:
df['email'].isna().sum()

np.int64(111)

### 2.2. Dados inconsistentes

In [5]:
df['cidade'].value_counts()

cidade
BH                    42
POA                   34
rio de janeiro        32
bh                    32
sp                    32
                      ..
 rio de janeiro        1
  Manaus               1
  Brasília             1
  RIO DE JANEIRO       1
fotraleza              1
Name: count, Length: 373, dtype: int64

### 2.3. Tipos incorretos

In [15]:
df.dtypes

id_cliente       int64
nome               str
email              str
idade              str
cidade             str
data_cadastro      str
telefone           str
dtype: object

### 2.4. Duplicatas

In [17]:
df[df['id_cliente'].isin(df['id_cliente'].unique())].shape

(1248, 7)

### 2.5. Outliers

## 3. Técnicas de limpeza e tratamento

### 3.1. Tratando valores faltantes

### 3.2. Padronização

### 3.3. Conversão de tipos

### 3.4. Remoção de duplicatas

### 3.5. Remoção de outliers

## 4. Mão na massa