# **ANÁLISE EXPLORATÓRIA**

In [None]:
"""
    Vamos aprender a como utilizar as principais funcionalidades do Pandas
    para entender melhor os dados que iremos analisar (identificar problemas).

    Preparação de dados (DataPrep)

    - Valores faltantes: valores nulos
    - Valores duplicados
    - Conversão de tipos de dados (int, float, object ou string, bool)
    - Transposição (colunas > linhas; linhas > colunas)
"""

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('base_vendas.csv')
df.head()

In [None]:
# retorna as últimas cinco linhas
df.tail()

In [None]:
# tipo DataFrame
# estrutura de dados do Pandas
# uma matriz que possui 2 dimensões (linhas e colunas)
# pode ter diversos tipos de dados (string, num, data, bool)
# cada coluna possui apenas um tipo de dado (ex: todas as linhas de uma coluna são decimais)
# é mutável: é possível manipular, criar, inserir, excluir, entre outros
# é composto por colunas, índices e valores

type(df)

In [None]:
# acessar uma coluna específica
df.matricula_funcionario

In [None]:
# acessar uma coluna sem padronização
# problema identificado: não há padronização no nome das colunas

df['Nome Funcionario']

In [None]:
# tipo series
type(df['Nome Funcionario'])

In [None]:
# índices
df.index

In [None]:
# traz o nome de todas as colunas
df.columns

In [None]:
# list: []

colunas = ['matricula_funcionario', 'nome_funcionario', 'cargo', 'codigo_loja',
       'nome_loja', 'codigo_produto', 'descricao_produto', 'categoria',
       'preco_custo', 'valor_unitario', 'quantidade', 'comissao', 'dt_venda',
       'dt_entrega']
type(colunas)

In [None]:
# modificar o nome das colunas

df.columns = colunas
df.head()

In [None]:
# total de linhas e colunas
# tuple: ()
# imutável

type(df.shape)

In [None]:
qtd_linhas = df.shape[0]
qtd_colunas = df.shape[1]

In [None]:
# análise do negócio
# problema em comissão
# criar uma nova coluna para o valor de faturamento > valor_unitario * quantidade
# converter objeto para inteiro

df.info()

In [None]:
# primeiras estatísticas dos dados
# somente variáveis númericas
# maior e menor juros cadastrados
# mean: média
# std: desvio padrão
# quartiz: 25% de X vendas tem Y quantidade vendida
# especialista de negócio

df.describe().round(1)

In [None]:
# estatísticas com variáveis de texto
# unique: deduzir que são 12 funcionários
# top: mais se repete > José Maria
# freq: com que frequência se repete > 280
# uma coluna não tem relação com a outra > loja matriz não tem relação com aspirador de pó

df.describe(include = object)

In [None]:
# analisar coluna específica
df.quantidade.describe().round(2)

In [None]:
df[['quantidade', 'matricula_funcionario']].describe().round(1)

In [None]:
# valores nulos - isna() ou isnull()
# somar a quantidade de registros nulos
# percentual de dados faltantes

df.isnull().sum() / qtd_linhas * 100

In [None]:
# valores duplicados - duplicated()
df.duplicated().sum()

In [None]:
# repetição na quantidade
# mesmo funcionário vendeu produtos com a mesma quantidade

df[['quantidade', 'matricula_funcionario']].duplicated().sum()

In [None]:
# vendas por produto
df.quantidade.value_counts()

In [None]:
# conversão
df.info()

In [None]:
df.valor_unitario