<a href="https://colab.research.google.com/github/moraesleonardo/Analise_Exploratoria_de_Dados_para_Machine_Learning/blob/main/Analise_Exploratoria_de_Dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análise Exploratória de Dados
## Iris Dataset

Fonte: Dados ao Cubo (adaptado)

### Variáveis

Durante o processo de amostragem(retirar uma parte da base), não coletamos apenas a informação do que realmente temos interesse, mas também muitas outras informações que nos ajudarão no entendimento dos dados e do resultado que desejamos alcançar.

Cada uma das características da população amostrada, como peso, altura, sexo ou idade, é denominada de uma variável. As variáveis podem assumir valores distintos, que basicamente podemos separá-los em  Numéricos (variáveis quantitativas) ou Categóricos (variáveis qualitativas).

### Classificação de variáveis

As variáveis numéricas podem ser dos tipos:

**Discretas**: possuem apenas valores inteiros. Ex.: número de irmãos, número de passageiros.

**Contínuas**: possuem qualquer valor, incluindo  números reais(float). Ex.: peso, altura.

Já as variáveis categóricas podem ser dos tipos:

**Nominais**: quando as categorias não são ordenadas de alguma maneira. Ex.: nomes, cores, sexo.

**Ordinais**: nesse caso as categorias podem ser ordenadas. Ex.: tamanho (pequeno, médio, grande), classe social (baixa, média, alta), grau de instrução (básico, médio, graduação, pós-graduação).

### Análise Exploratória de Dados ou Exploratory Data Analysis (EDA)

In [1]:
# Importando bilbiotecas

import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns 

In [2]:
# Importando o dataset iris e executando algumas funções de análise dos dados

# Carregando a base
iris = pd.read_csv('iris.data', names=['sepal length (cm)','sepal width (cm)','petal length (cm)','petal width (cm)','species'])

FileNotFoundError: ignored

In [3]:
iris

NameError: ignored

In [4]:
# Retornando uma amostra aleatória de X

iris.sample(10) 

NameError: ignored

In [5]:
# Retorna uma descrição estatistica do dataset

iris.describe() 

NameError: ignored

In [6]:
# Avaliando as características do dataframe

iris.info()

NameError: ignored

### Calculando as medidas estatísticas individualmente

In [7]:
# Média da coluna 'sepal length (cm)'

media = iris['sepal length (cm)'].mean() 
print("Média ", media)

NameError: ignored

In [None]:
# Mediana da coluna 'sepal length (cm)'

mediana = iris['sepal length (cm)'].median() 
print("Mediana ", mediana)

In [None]:
# Moda da coluna 'sepal length (cm)'

moda = iris['sepal length (cm)'].mode() 
print("Moda ", moda[0])

In [None]:
# Variância da coluna 'sepal length (cm)'

variancia = iris['sepal length (cm)'].var() 
print("Variância ", variancia)

In [None]:
# Desvio padrão da coluna 'sepal length (cm)'

desvio = iris['sepal length (cm)'].std() 
print("Desvio padrão ", desvio)

### Criando algumas visualizações básicas

### Boxplot e histograma por variável

#### Sepal length

In [8]:
sns.boxplot(data=iris, x='species', y='sepal length (cm)')

NameError: ignored

In [None]:
sns.histplot(data=iris, x='sepal length (cm)', bins=30, kde=True) 

**Dica**: podemos e devemos sempre "experimentar"  com a quantidade de caixinhas do histograma, para termos uma melhor ideia do comportamento estatístico efetivo da variável.

#### Sepal width

In [None]:
sns.boxplot(data=iris, x='species', y='sepal width (cm)')

In [None]:
sns.histplot(data=iris, x='sepal width (cm)', bins=30, kde=True) 

#### Petal length

In [None]:
sns.boxplot(data=iris, x='species', y='petal length (cm)')

In [None]:
sns.histplot(data=iris, x='petal length (cm)', bins=30, kde=True) 

#### Petal width

In [9]:
sns.boxplot(data=iris, x='species', y='petal width (cm)')

NameError: ignored

In [None]:
sns.histplot(data=iris, x='petal width (cm)', bins=30, kde=True) 

#### Podemos colocar todos os dados em um único histograma, mantendo a legibilidade?

In [None]:
sns.histplot(data=iris, x='petal length (cm)', bins=30, kde=True, hue='species', element="step")

#### Fazendo uma Matriz de Diagramas de Dispersão

In [None]:
sns.pairplot(data=iris, hue='species')

#### Finalmente, utilizando uma biblioteca que nos ajuda automatizando o processo do EDA, a **SweetViz**.

In [None]:
# Instalando o SweetViz no ambiente do Colab

!pip install sweetviz

In [None]:
import sweetviz as sv

iris_report = sv.analyze(iris)

iris_report.show_html()

# Análise Exploratória de Dados
## AdventureWorks Dataset

Autor: Tiago Dias (adaptado)

Aqui, vamos fazer a manipulação e análise dos dados de um dataset de vendas, onde temos informações de vendas dos anos 2008 e 2009.

In [None]:
# Importando bibliotecas

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Importando dados com pandas direto do GitHub

df = pd.read_excel('AdventureWorks.xlsx')

In [None]:
# Exibindo os primeiros registros

df.head()

## Análise da Estrutura dos Dados

Vamos fazer uma verificação na estrutura dos dados carregados. Analisar os tipos de dados, o tamanho do dataset e os dados nulos.

In [None]:
# Verificando as colunas do dataset

df.columns

In [None]:
# Consultando detalhes do dataframe

df.info()

In [None]:
# Tamanho do dataset

df.shape

In [None]:
print('O dataset possui',df.shape[0], 'registros e', df.shape[1], 'atributos.')

In [None]:
# Descrição estatística básica das variáveis numéricas
df.describe()

In [None]:
# Verificando a existëncia de dados nulos

df.isna().sum()

## Análise para Enriquecimento dos Dados

Com todos os atributos que vimos acima referente as vendas dos produtos, podemos identificar novos atributos que vão enriquecer a nossa exploração dos dados. Vamos criar algumas novas colunas no dataset com base nas colunas existentes.

In [None]:
# Verificando a linha 1 do dataframe
df.head(1)

In [None]:
# Dias de envio da compra
df['Dias de Envio'] = df['Data Envio'] - df['Data Venda']

In [None]:
# Custo total do produto
df['Custo Total'] = df['Custo Unitário'] * df['Quantidade']

In [None]:
# Lucro bruto da venda
df['Lucro Bruto'] = df['Valor Venda'] - df['Custo Total']

In [None]:
# Lucro líquido da venda
df['Lucro Líquido'] = df['Lucro Bruto'] - df['Valor Desconto']

In [None]:
# Percentual do Lucro bruto da venda
df['% Lucro Bruto'] = ( 1 - ( df['Custo Total'] / df['Valor Venda'] ) ) * 100

In [None]:
# Percentual do Lucro líquido da venda
df['% Lucro Líquido'] = ( 1 - ( df['Custo Total'] / ( df['Valor Venda'] - df['Valor Desconto'] ) ) )*100

In [None]:
# Verificando novamente as primeiras observações

df.head()

## Análise para o Negócio

Se os dados não resolverem problemas do negócio, eles não estão sendo coletados corretamente ou estamos olhando para os dados errados. Sendo assim, os dados precisam conseguir responder algumas dúvidas do negócio. Então, vamos criar algumas perguntas sobre os dados que estamos explorando.

### Quais são os produtos?

In [None]:
# Contagem de venda por produto

df['Produto'].value_counts()

In [None]:
# Contagem de produtos vendidos

df.groupby('Produto')['Quantidade'].sum().sort_values(ascending=False)

### Quais são as lojas?

In [None]:
# Lojas únicas
df['ID Loja'].unique()

### Quantas lojas temos?

In [None]:
# Quantidade de lojas únicas
len(df['ID Loja'].unique())

### Qual a primeira e última datas de venda?

In [None]:
# Menor data no conjuto de dados
df['Data Venda'].min()

In [None]:
# Maior data no conjuto de dados
df['Data Venda'].max()

### Quais são os valores médios por produto?

In [None]:
# Agrupamento dos valores médios por produtos
valores = ['Produto', 'Valor Desconto', 'Valor Venda', 
           'Custo Total', 'Lucro Bruto', 'Lucro Líquido',
           '% Lucro Bruto', '% Lucro Líquido']
df[valores].groupby(['Produto']).mean()

### Quais são os valores totais?

In [None]:
# Somando os valores totais
total_descontos = df['Valor Desconto'].sum()
total_vendas = df['Valor Venda'].sum()
total_custos = df['Custo Total'].sum()
total_lucro_bruto = df['Lucro Bruto'].sum()
total_lucro_liquido = df['Lucro Líquido'].sum()

In [None]:
# Usando a função currency da biblioteca locale para formatar o valor
import locale
locale.setlocale(locale.LC_MONETARY, 'en_US.utf8')

print('Total de descontos foi ---->',locale.currency(total_descontos, grouping=True))
print('Total de vendas foi ------->',locale.currency(total_vendas, grouping=True))
print('Total de custos foi ------->',locale.currency(total_custos, grouping=True))
print('Lucro bruto foi ----------->',locale.currency(total_lucro_bruto, grouping=True))
print('Lucro líquido foi --------->',locale.currency(total_lucro_liquido, grouping=True))

## Análise Gráfica dos Dados

Nada mais claro para entender os dados e gerar insights do que visualizações gráficas. Então vamos criar alguns gráficos para continuar a nossa exploração dos dados. Agora as bibliotecas gráficas do Python vão ser muito úteis.

In [None]:
# Configurações dos gráficos

plt.rcParams['figure.figsize'] = (15,10)
plt.rcParams['xtick.labelsize'] = 10
plt.rcParams['ytick.labelsize'] = 10
plt.rcParams['font.size'] = 15 
plt.rcParams['axes.titlesize'] = 20

In [None]:
# Identificando outliers nos valores de vendas

sns.boxplot(x = df['Valor Venda'])

In [None]:
# Identificando as quantidades dos dias de envio

x = df['Dias de Envio'].value_counts().values
y = df['Dias de Envio'].value_counts().index
sns.barplot(x=x, y=y) 

In [None]:
# Mapa de correlação das variáveis numéricas

sns.heatmap(df.corr(), annot=True, cmap="PiYG")

In [None]:
#Selecionando apenas as vendas de 2008

df_2008 = df[df["Data Venda"].dt.year == 2008]

#Selecionando apenas as vendas de 2009

df_2009 = df[df["Data Venda"].dt.year == 2009]

In [None]:
# Comparativo de lucro bruto por mês

df_2008.groupby(df_2008["Data Venda"].dt.month)["Lucro Bruto"].sum().plot(color='red', label='Ano 2008')
df_2009.groupby(df_2009["Data Venda"].dt.month)["Lucro Bruto"].sum().plot(color='green', label='Ano 2009')
plt.title("Lucro x Mês")
plt.xlabel("Mês")
plt.ylabel("Lucro Bruto")
plt.legend()