#  Projeto 4 - Foramção Analísta de Dados (DSA)
## Projeto de Análise de Dados com Linguagem Python
### Técnicas de Análise Exploratoria e Interpretação de Gráficos Estatísticos 

Este projeto trabalhará com dados de contabilidade, realizando análise exploratória antes e depois da limpeza de dados, realização de tratamento de valores ausentes com diferentes técnicas, tratamento de outliers para então darmos ênfase na interpretação dos gráficos estatísticos. Quando mais trática, mais aprendizado.

O objetivo deste projeto é detectar eventuais problemas nos dados, revolvê-los e então analisar o comportamento de algumas variáveis, o que será feito interpretando os gráficos.

Os dados são fictícios, mas a definição das variáveis representa informação real da área de contabilidade.

## Dicionário de Dados

- id: Identificador único para cada lançamento.
- data_lancamento: A data em que o lançamento contável está sem feito.
- conta_debito: Conta Contábil a ser debitáda.
- conta_credito: Conta Contábil a ser creditada.
- valor: Valor monetário do lançamento.
- documento: Documentação comprobatória da operação.
- natureza_operacao: Descrição do evento contábel.
- centro_custo: Setor ou departamento responsável pela operação.
- impostos: Impostos e tributos envolvidos, se aplicável.
- moeda: Moeda utilizada na operação, se aplicável.
- taxa_conversao: Taxa de conversão para a moeda nacional, se aplicável.
 

## Pacotes Python Usados neste Projeto

In [1]:
!pip install -q -U watermark

In [2]:
# imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")

In [3]:
%reload_ext watermark
%watermark -a "Leonardo da Silva Neves"

Author: Leonardo da Silva Neves



## Carregando os Dados

In [5]:
# Carregando o arquivo de uma subpasta
csv = 'Cap07/dataset.csv'

In [7]:
# Carregando o dataset e atribindo a variável df
df = pd.read_csv(csv)

In [9]:
# Shape
df.shape

(1200, 11)

In [10]:
# Amostra
df.head()

Unnamed: 0,id,data_lancamento,conta_debito,conta_credito,valor,documento,natureza_operacao,centro_custo,impostos,moeda,taxa_conversao
0,1,2022-02-27,DWAVRL,CIOVQ6,5533.25,DOCPAXGQ,OP7JDVK,CC5FYA2,444.13252,,3.475606
1,2,2022-05-11,D8TF53,CV9Y0V,7180.37,DOCBXZXG,OPXSY64,CCLH4R9,471.09236,EUR,3.523287
2,3,2020-03-23,D0TZCE,CELQSH,6067.36,DOCF5ITC,OPTDE9B,CCDG8CJ,326.49988,JPY,3.523287
3,4,2021-06-14,DOGLK7,CDFEMS,5494.34,DOCZRS1U,,CC98G2K,471.09236,JPY,3.523287
4,5,2022-11-13,DHL0I5,CRU97G,4294.18,,OP62LG1,CCZD80Y,154.26398,EUR,3.523287


In [11]:
# Colunas
df.columns

Index(['id', 'data_lancamento', 'conta_debito', 'conta_credito', 'valor',
       'documento', 'natureza_operacao', 'centro_custo', 'impostos', 'moeda',
       'taxa_conversao'],
      dtype='object')

## Análise Exploratória Antes da limpeza

In [12]:
# Info
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1200 entries, 0 to 1199
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   id                 1200 non-null   int64  
 1   data_lancamento    1200 non-null   object 
 2   conta_debito       1200 non-null   object 
 3   conta_credito      1200 non-null   object 
 4   valor              1200 non-null   float64
 5   documento          1078 non-null   object 
 6   natureza_operacao  1080 non-null   object 
 7   centro_custo       1200 non-null   object 
 8   impostos           1020 non-null   float64
 9   moeda              947 non-null    object 
 10  taxa_conversao     982 non-null    float64
dtypes: float64(3), int64(1), object(7)
memory usage: 103.3+ KB


In [13]:
# Há valores ausentes? Sim (False) ou Não (True)? 
df.isna().any()

id                   False
data_lancamento      False
conta_debito         False
conta_credito        False
valor                False
documento             True
natureza_operacao     True
centro_custo         False
impostos              True
moeda                 True
taxa_conversao        True
dtype: bool

In [14]:
# Há valores ausentes? Quantos?
df.isna().sum()

id                     0
data_lancamento        0
conta_debito           0
conta_credito          0
valor                  0
documento            122
natureza_operacao    120
centro_custo           0
impostos             180
moeda                253
taxa_conversao       218
dtype: int64

In [25]:
# Calculando a soma de valores ausentes por coluna
valores_ausentes = df.isna().sum()
# Calculando o número total de linhas
total_linhas = len(df)
# Calculando a proporção de valores ausentes por coluna
proporcao_valores_ausentes = valores_ausentes / total_linhas
# Exibindo a proporção de valores ausentes
print(proporcao_valores_ausentes)

id                   0.000000
data_lancamento      0.000000
conta_debito         0.000000
conta_credito        0.000000
valor                0.000000
documento            0.101667
natureza_operacao    0.100000
centro_custo         0.000000
impostos             0.150000
moeda                0.210833
taxa_conversao       0.181667
dtype: float64
