## Pacotes Python Usados no Projeto

In [1]:
# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")

## Carregando os Dados

In [None]:
# Carrega o dataset
df_dsa = pd.read_csv("dataset.csv") 

In [None]:
# Shape
df_dsa.shape

In [None]:
# Amostra
df_dsa.head()

In [None]:
# Colunas
df_dsa.columns

## Análise Exploratória Antes da Limpeza

In [None]:
# Info
df_dsa.info()

In [None]:
# Há valore ausentes? Sim ou Não?
df_dsa.isna().any()

In [None]:
# Há valore ausentes? Quantos?
df_dsa.isna().sum()

In [None]:
# Calculando a soma dos valores ausentes por coluna
valores_ausentes = df_dsa.isna().sum()

# Calculando o número total de linhas
total_linhas = len(df_dsa)

# Calculando a proporção de valores ausentes por coluna
proporcao_valores_ausentes = (valores_ausentes / total_linhas)*100

# Exibindo a proporção em % de valores ausentes
print(proporcao_valores_ausentes)

### Visualizações

<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->

**Distribuição dos Valores dos Lançamentos**: Histograma que mostra a distribuição dos valores monetários dos lançamentos. A linha de densidade (KDE) ajuda a entender a forma da distribuição.

In [None]:
# Gráfico 1: Distribuição dos valores dos lançamentos
plt.figure(figsize = (10, 5))
sns.histplot(df_dsa['valor'], kde = True, bins = 30)
plt.title('Distribuição dos Valores dos Lançamentos')
plt.xlabel('Valor')
plt.ylabel('Frequência')
plt.show()

**Valores dos Lançamentos ao Longo do Tempo**: Um gráfico de linhas que exibe como os valores dos lançamentos variaram ao longo do tempo. Isso pode ajudar a identificar tendências ou padrões sazonais nos dados.

In [None]:
# Gráfico 2: Valores dos lançamentos ao longo do tempo
plt.figure(figsize = (12, 5))
df_dsa['data_lancamento'] = pd.to_datetime(df_dsa['data_lancamento'])
sns.lineplot(x = 'data_lancamento', y = 'valor', data = df_dsa)
plt.title('Valores dos Lançamentos ao Longo do Tempo')
plt.xlabel('Data do Lançamento')
plt.ylabel('Valor')
plt.xticks(rotation = 45)
plt.show()

**Boxplot dos Impostos**: Este boxplot fornece uma visão sobre a distribuição dos valores dos impostos, destacando a mediana, quartis e possíveis outliers.

In [None]:
# Gráfico 3: Boxplot dos impostos
plt.figure(figsize = (8, 5))
sns.boxplot(x = df_dsa['impostos'])
plt.title('Boxplot dos Impostos')
plt.xlabel('Impostos')
plt.show()

**Contagem de Operações por Moeda**: Um gráfico de barras mostrando o número de operações realizadas em diferentes moedas. Isso pode ser útil para entender a predominância de certas moedas nas operações.

In [None]:
# Gráfico 4: Contagem de operações por moeda
plt.figure(figsize = (6, 4))
sns.countplot(x = 'moeda', data = df_dsa)
plt.title('Contagem de Operações por Moeda')
plt.xlabel('Moeda')
plt.ylabel('Contagem')
plt.show()

## Tratamento de Valores Ausentes

**1. Tratamento de Valores Ausentes Para Variável Numérica**

Para variáveis numéricas, como 'valor' ou 'impostos', uma abordagem comum é substituir os valores ausentes pela média ou mediana da coluna. A escolha entre média ou mediana geralmente depende da distribuição dos dados.

In [None]:
# Há valores ausentes?
df_dsa['impostos'].isna().sum()

In [None]:
# Distribuição dos valores dos impostos
plt.figure(figsize = (10, 5))
sns.histplot(df_dsa['impostos'], kde = True, bins = 30)
plt.title('Distribuição dos Valores dos Impostos')
plt.xlabel('Valor')
plt.ylabel('Frequência')
plt.show()

In [None]:
# Média
df_dsa['impostos'].mean()

In [None]:
# Mediana
df_dsa['impostos'].median()

In [None]:
# Substituindo valores ausentes em 'impostos' pela mediana
df_dsa['impostos'].fillna(df_dsa['impostos'].median(), inplace = True)

In [None]:
# Há valores ausentes?
df_dsa['impostos'].isna().sum()

<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
**2. Tratamento de Valores Ausentes Para Variável Categórica**

Para variáveis categóricas, como 'moeda', você pode substituir os valores ausentes pelo valor mais frequente (moda) ou categorizar como 'Desconhecido'.

In [None]:
# Há valore ausentes? Quantos?
df_dsa.isna().sum()

In [None]:
# Há valores ausentes?
df_dsa['moeda'].isna().sum()

In [None]:
# Calcula a moda
df_dsa['moeda'].mode()[0]

In [None]:
# Substituindo valores ausentes em 'moeda' pela moda
df_dsa['moeda'].fillna(df_dsa['moeda'].mode()[0], inplace = True)

In [None]:
# Há valores ausentes?
df_dsa['moeda'].isna().sum()

In [None]:
# Há valores ausentes?
df_dsa.isna().sum()

In [None]:
# Calculando a soma dos valores ausentes por coluna
valores_ausentes = df_dsa.isna().sum()

# Calculando o número total de linhas
total_linhas = len(df_dsa)

# Calculando a proporção de valores ausentes por coluna
proporcao_valores_ausentes = valores_ausentes / total_linhas

# Exibindo a proporção de valores ausentes
print(proporcao_valores_ausentes)

In [None]:
# Preenchendo valores ausentes em 'taxa_conversao' com a categoria 'Outro'
df_dsa['taxa_conversao'].fillna('Outro', inplace = True)

In [None]:
# Preenchendo valores ausentes em 'documento' com a categoria 'Outro'
df_dsa['documento'].fillna('Outro', inplace = True)

In [None]:
# Preenchendo valores ausentes em 'natureza_operacao' com bfill
# Este método preenche cada valor ausente com o valor imediatamente posterior na mesma coluna (andamos par atrás)
df_dsa['natureza_operacao'].fillna(method = 'bfill', inplace = True)

In [None]:
df_dsa.head()

**3. Tratamento de Valores Ausentes Quando Não Parece Valor Ausente**

Às vezes, os valores ausentes podem estar disfarçados com marcadores como 'N/A', '?', 'Desconhecido', ou até '0' em contextos onde '0' não é um valor válido. Identifique esses casos e trate-os como valores ausentes.

In [None]:
# Verificando se há o caracter '?' na coluna conta_credito (Método 1)
tem_valor_pergunta = df_dsa['conta_credito'].isin(['?']).any()
print(tem_valor_pergunta)

In [None]:
# Contando a frequência de cada valor na coluna (Método 2)
contagem_valores = df_dsa['conta_credito'].value_counts()

# Verificando se '?' está na contagem e obtendo seu número de ocorrências
numero_ocorrencias_pergunta = contagem_valores.get('?', 0)

# Imprime o número de ocorrências de '?'
print(numero_ocorrencias_pergunta)

In [None]:
# Identificar colunas categóricas (Método 3)
colunas_categoricas = df_dsa.select_dtypes(include = ['object', 'category']).columns

# Verificar a presença do valor "?" em cada coluna categórica
for coluna in colunas_categoricas:
    tem_valor_pergunta = df_dsa[coluna].isin(['?']).any()
    print(f"A coluna '{coluna}' contém '?'? {tem_valor_pergunta}")

In [None]:
# Substituindo '?' por NaN e depois preenchendo os valores ausentes
df_dsa['conta_credito'].replace('?', np.nan, inplace = True)

# Este método preenche cada valor ausente com o valor imediatamente anterior na mesma coluna (andamos par frente)
df_dsa['conta_credito'].fillna(method = 'ffill', inplace = True)

In [None]:
# Há valores ausentes?
df_dsa['conta_credito'].isna().sum()

In [None]:
# Há valores ausentes?
df_dsa.isna().sum()