# Preparação de Dados - Análise Exploratória

### Este notebook faz parte do portfólio acadêmico do curso de Análise de Dados - EBAC.


#### Aqui realizamos a limpeza e estruturação inicial do dataset `clientes-v2.csv`.
#### Isso inclui leitura, conversão de tipos, tratamento de valores nulos e duplicados, além de uma análise estatística inicial.

## 1. Leitura dos Dados
Importamos bibliotecas essenciais e carregamos o dataset.

In [None]:

import pandas as pd
from pathlib import Path

data_path = Path('../data/clientes-v2.csv')
df = pd.read_csv(data_path)

df.head()



### Exibição das primeiras e últimas linhas completas do DataFrame
- `head()` - mostra as 5 primeiras linhas da tabela.
- `tail()` - mostra as 5 últimas linhas.
- `to_string()` - garante que a visualização seja completa no terminal (sem cortes).

In [None]:
print(df.head().to_string())
print(df.tail().to_string())

## 2. Conversão de Datas
Convertendo a coluna data para o tipo datetime, usando o formato dia/mês/ano.

- `errors='coerce`' - transforma datas inválidas em NaT (Not a Time).
- NaT - Not a Time é um valor nulo para dados de data e hora no Pandas, assim como NaN - Not a Number em números, NaT é um dado ausente ou inválido.

In [None]:
df['data'] = pd.to_datetime(df['data'], format='%d/%m/%Y', errors='coerce')

## 3. Verificação Inicial
Verificação dos tipos de dados, quantidade de linhas e colunas e valores nulos.

`info()` - mostra detalhes como quantidade de linha e colunas,
o tipo de dado e quantidade de valores nulos.

In [None]:
df.info()

## 4. Análise de Dados Nulos
Identificação e porcentagem de valores nulos por coluna

- `isnull()` - identifica quais células estão nulas.
- `sum().sum()` - soma dos valores nulos em todo o DataFrame.
- `mean()` * 100 - calcula a porcentagem de valores nulos por coluna.

In [None]:
print('Total de dados nulos:', df.isnull().sum().sum())
print('Porcentagem de dados nulos por coluna:\n', df.isnull().mean() * 100)

### Remoção de Dados Nulos

`inplace=True` - altera o df diretamente.

In [None]:
df.dropna(inplace=True)
print('Dados nulos após remoção:', df.isnull().sum().sum())

## 5. Análise de Duplicatas e Unicidade

- `duplicated()` - retorna uma série booleana indicando se cada linha é uma duplicata de uma anterior.
- `sum()` - conta quantas linhas são duplicadas no DataFrame.
- Útil para identificar redundâncias que podem distorcer análises estatísticas.
- `nunique()` - retorna o número de valores únicos por coluna.

In [None]:
print('Linhas duplicadas:', df.duplicated().sum())
print('Valores únicos por coluna:\n', df.nunique())

## 6. Estatísticas Descritivas

- `describe()` - gera estatísticas descritivas para colunas numéricas por padrão.
- Inclui contagem, média, desvio padrão, valores mínimos, máximos e quartis.
- Dá para entender a distribuição e detectar outliers ou variáveis com baixa variância.

In [None]:
df.describe()

## 7. Seleção de Colunas Relevantes
Mantemos apenas as colunas úteis para a análise posterior.

In [None]:
df = df[['idade', 'data', 'estado', 'salario', 'nivel_educacao', 'numero_filhos', 'estado_civil', 'area_atuacao']]
df.head()

## 8. Salvando o DataFrame Tratado

- `to_csv()`  - salva o DataFrame em um arquivo CSV.
- `index=False` - evita que o índice número do DataFrame seja salvo como uma coluna no arquivo.


In [None]:
df.to_csv('clientes-v2-tratados.csv', index=False)