# Tratamento de Dados

## O que é?

O tratamento de dados, também conhecido como pré-processamento de dados, é uma etapa essencial na área de Data Science, onde os dados brutos são preparados para análise. Vamos pensar em um exemplo simples para ilustrar isso:

Imagine que você está organizando uma festa e precisa criar uma lista com o nome dos convidados, o que eles vão trazer, e se eles confirmaram presença. No entanto, quando você começa a coletar essas informações, percebe que algumas delas estão incompletas ou desorganizadas. Alguns convidados escreveram seus nomes de forma errada, outros não disseram o que vão trazer, e alguns nem responderam se vão à festa.

Antes de usar essa lista para saber o que ainda precisa comprar, você precisará "tratar" esses dados. Isso envolve:

**Limpeza dos dados**: Corrigir erros nos nomes, remover informações duplicadas, e preencher ou remover dados ausentes. Por exemplo, se alguém escreveu "An" em vez de "Ana", você corrige para "Ana". Se um convidado não disse o que vai trazer, você pode tentar adivinhar com base no que ele trouxe em outras festas ou simplesmente perguntar de novo.

**Transformação dos dados**: Colocar as informações em um formato mais útil para análise. Por exemplo, você pode decidir que todos os nomes devem estar em letras maiúsculas para evitar duplicação de entradas como "Ana" e "ana".

**Integração dos dados**: Se você tiver informações sobre os convidados de várias fontes (como diferentes listas de festas anteriores), você pode combinar essas listas em uma única para ter uma visão completa.

**Normalização e padronização**: Ajustar os dados para que todos sigam o mesmo padrão. Por exemplo, se as pessoas escreveram "Sim" ou "sim" para confirmar a presença, você pode padronizar para que todos usem "Sim".

Depois de realizar esses passos, sua lista de convidados estará limpa, organizada e pronta para ser usada de forma eficaz. Da mesma maneira, na Data Science, o tratamento de dados prepara o conjunto de dados para que ele possa ser analisado com precisão, permitindo a criação de modelos que gerem insights valiosos.

Em resumo, o tratamento de dados é como arrumar e organizar sua casa antes de uma festa: é trabalhoso, mas necessário para garantir que tudo corra bem. Sem ele, seria difícil fazer uma análise confiável e tomar decisões baseadas nos dados.

## Motivos para Tratar

**Precisão**: Dados que não são tratados podem conter erros, como valores fora de um intervalo esperado, informações duplicadas, ou até mesmo dados ausentes. Se você não tratar esses dados, as análises podem levar a conclusões erradas. É como usar um ingrediente estragado que estraga o sabor do prato.

**Consistência**: Dados desorganizados ou com formatos diferentes dificultam a análise. Imagine tentar somar o preço de produtos onde alguns estão em dólares, outros em reais, e outros com a vírgula no lugar errado. Tratar os dados garante que todos sigam um padrão consistente, assim como um chef que mede cada ingrediente corretamente.

**Eficiência**: Dados limpos e organizados permitem que os algoritmos e modelos funcionem melhor e mais rápido. Se os dados estiverem bagunçados, o processo de análise será mais lento e trabalhoso, como tentar cozinhar em uma cozinha desorganizada.

**Confiabilidade**: Quando os dados são tratados adequadamente, você pode confiar nos resultados obtidos. Isso é crucial em qualquer projeto de Data Science, onde decisões importantes podem ser baseadas nesses resultados.

## Invalidação é um Problema!

A validação de dados é como um filtro que garante que somente informações corretas, consistentes e seguras entrem no sistema. Sem esse filtro, o sistema fica vulnerável a uma série de problemas, desde erros simples e inconsistências até falhas graves de segurança e decisões equivocadas. Portanto, a validação é essencial para garantir a integridade, segurança, e confiabilidade de qualquer aplicação ou sistema de dados.

### Metodos Que Podem Ser Utilizados Para Tratamento

In [2]:
import pandas as pd

data = {
    'cidade': ['São Paulo', 'Rio de Janeiro', 'Curitiba', 'Belo Horizonte', 'Salvador'],
    'estado': ['SP', 'RJ', 'PR', 'MG', 'BA'],
    'população': [12.33, 6.72, 1.96, 2.52, 2.88],
    'sexo': ['M', 'F', 'M', 'F', 'M'],
    'preço': [None, 10.5, 20.0, None, 30.0]
}

df = pd.DataFrame(data)


In [3]:
# .replace()
'''
O que faz: Substitui valores específicos em uma série ou DataFrame por novos valores. 
Pode substituir valores únicos ou múltiplos, com base em condições.

Por que usar: Útil para limpar ou padronizar dados, como substituir valores ausentes ou corrigir valores incorretos.
'''
df['estado'].replace('SP', 'São Paulo')

0    São Paulo
1           RJ
2           PR
3           MG
4           BA
Name: estado, dtype: object

In [4]:
# .map()

'''
O que faz: Aplica uma função ou mapeamento (como um dicionário) a cada elemento de uma série.

Por que usar: Útil para transformar dados de forma simples, como converter valores 
categóricos em numéricos, ou aplicar uma transformação personalizada.
'''

df['sexo'].map({'M': 'Masculino', 'F': 'Feminino'})


0    Masculino
1     Feminino
2    Masculino
3     Feminino
4    Masculino
Name: sexo, dtype: object

In [11]:
# .filter()
''' 
O que faz: Filtra o DataFrame com base em critérios, como rótulos de colunas ou condições específicas.

Por que usar: Essencial para selecionar subconjuntos de dados com base em colunas 
específicas ou condições aplicadas nas linhas.
'''
cidades = df.filter(like='cidade')#Filtrar colunas que contenham a palavra 'cidade':
cidades


Unnamed: 0,cidade
0,São Paulo
1,Rio de Janeiro
2,Curitiba
3,Belo Horizonte
4,Salvador


In [9]:
# .apply()

'''
O que faz: Aplica uma função personalizada a cada elemento, linha ou coluna em uma série ou DataFrame.
Por que usar: Fornece flexibilidade máxima ao permitir aplicar funções complexas a dados, 
seja por elemento, por linha, ou por coluna.
'''

df['preço_com_imposto'] = df['preço'].apply(lambda x: x * 1.2)