# Python para data science na prática
---

## Análise exploratória de dados (EDA)

A análise exploratória de dados (EDA) é uma etapa crucial no processo de análise de dados, que envolve explorar e entender a natureza dos dados antes de aplicar qualquer modelo estatístico ou algoritmo de machine learning. 

A linguagem Python, junto da biblioteca Pandas, oferece uma ampla gama de ferramentas poderosas para realizar EDA de forma eficiente e eficaz.

### Preparando dados para EDA 

Antes de analisar dados em tabelas ou dataframes, é fundamental preparar esses dados para garantir resultados precisos. Essa preparação pode incluir a transformação, agregação ou limpeza dos dados. Não existe uma abordagem única para todas as situações; as etapas de preparação dependem da estrutura específica dos nossos dados, como linhas, colunas, tipos e valores de dados. 

Algumas técnicas comuns de preparação de dados necessárias para EDA são: 
- Agrupamento de dados 
- Anexação de dados 
- Concatenação de dados 
- Mesclagem de dados 
- Classificação de dados 
- Categorização de dados 
- Remoção de dados duplicados 
- Eliminação de linhas e colunas de dados 
- Substituição de dados dados
- Alterar um formato de dados
- Lidar com valores ausentes

#### Agrupamento de dados

Agrupar dados implica agregar informações por categorias, o que é especialmente útil para obter uma visão geral de um conjunto de dados detalhado. 

Para realizar essa operação, geralmente identificamos a coluna ou categoria pela qual queremos agrupar, a coluna que queremos agregar e o tipo específico de agregação a ser aplicado. Normalmente, a coluna de agrupamento é categórica, enquanto a coluna a ser agregada é numérica. 

As agregações podem incluir contagem, soma, mínimo, máximo, entre outras. Também é possível realizar agregações diretamente na coluna categórica usada para o agrupamento, como contar os valores presentes.

No `pandas`, o método para agrupar dados é `groupby`.

In [183]:
# exemplo de agrupação de dados
import pandas as pd

In [None]:
df_empregado = pd.read_csv('data/employees.csv', sep=',')
df_empregado.head()

Visualizar só colunas com dados relevantes

In [None]:
# Mostra dos nomes das colunas
df_empregado.keys()

In [None]:
df_dados_relavantes = df_empregado[['First Name','Gender','Salary']]
df_dados_relavantes.head()

In [None]:
# usar transpota para mostrar informação
df_dados_relavantes.head(2).T

Usando o método `groupby` em pandas para obter o número médio do salario dos empregados de uma loja com base no género dos empregados.

In [None]:
# agrupos por salario
agrupados_salario = df_dados_relavantes.groupby('Gender')['Salary'].mean()
agrupados_salario

#### Anexação de dados

Às vezes, precisamos analisar múltiplos datasets com estruturas semelhantes ou amostras do mesmo dataset. Nesse processo, pode ser necessário juntar esses conjuntos em um único dataset. Ao anexar datasets, os unimos ao longo das linhas.
 
Por exemplo, se temos dois conjuntos com 2.000 linhas e 30 colunas cada, o conjunto resultante terá 4.000 linhas e 30 colunas. Normalmente, as linhas aumentam, enquanto as colunas permanecem constantes. Embora os conjuntos de dados possam ter um número diferente de linhas, geralmente devem ter o mesmo número de colunas para evitar erros na anexação.

Em `pandas`, o método `concat` ajuda a acrescentar dados.

In [None]:
# leitura dos dataset
wine1 = pd.read_excel('data/Wine1.xlsx')
print(wine1.shape)
wine2 = pd.read_excel('data/Wine2.xlsx')
print(wine2.shape)

In [None]:
# verifica os tipos
print(wine1.dtypes)
print('------')
print(wine2.dtypes)

Anexando (Append datasets)

In [None]:
# append wine1 + wine2
appende_wine = pd.concat([wine1,wine2])
appende_wine.head()

In [None]:
# mostrando as dimensões
print(appende_wine.shape)

In [None]:
# ver as informações da transposta
appende_wine.head(4).T

#### Concatenação de dados

Às vezes, é necessário unir vários conjuntos de dados ou amostras do mesmo dataset por colunas, em vez de por linhas. Nesse caso, realizamos a concatenação dos dados. Enquanto anexar dados adiciona linhas, concatenar colunas cria um único dataset. 

Por exemplo, se tivermos dois datasets, cada um com 5.000 linhas e 10 colunas, após a concatenação teremos 5.000 linhas e 20 colunas. 

Normalmente, as colunas aumentam, enquanto as linhas permanecem as mesmas. Os datasets podem ter diferentes números de colunas, mas geralmente devem ter o mesmo número de linhas para evitar erros após a concatenação.

No `pandas`, o método `concat` nos ajuda a concatenar dados.

In [None]:
# usaremos os dataset wine1 e wine2 usando no exemplo anterior
# axis = 0 (linha) ou axis = 1 (coluna)
concat_wine = pd.concat([wine1, wine2], axis = 1)
concat_wine.head()

In [None]:
# Mostra as dimensões
concat_wine.shape

In [None]:
# ver informações
concat_wine.head(5).T

#### Mesclagem de dados

Combinar dados pode se assemelhar à concatenação de datasets, mas é bem diferente. Para combinar datasets, é necessário um campo comum em ambos para realizar a junção. Se conhece alguns comandos SQL ou `join`, provavelmente já está familiarizado com o conceito de combinação de dados. Os dados de bancos de dados relacionais frequentemente exigem operações de junção, pois eles geralmente contêm dados tabulares e representam uma parte significativa dos dados em várias organizações.

Alguns conceitos essenciais para operações de junção incluem:
- `Coluna-chave de junção`: A coluna comum em ambos os datasets, onde há valores correspondentes. As colunas não precisam ter o mesmo nome, apenas valores correspondentes.
- `Tipo de junção`: Existem diferentes tipos de junções que podem ser feitas em datasets:
    - `Junção à esquerda`: Mantemos todas as linhas do dataframe à esquerda. Valores do dataframe à direita que não correspondem ao da esquerda são adicionados como `NaN` no resultado, com base na coluna-chave de junção.
    - `Junção à direita`: Mantemos todas as linhas do dataframe à direita. Valores do dataframe à esquerda que não correspondem ao da direita são adicionados como `NaN` no resultado, com base na coluna-chave de junção.
    - `Junção interna`: Retemos apenas os valores comuns em ambos os dataframes, sem valores `NaN`.
    - `Junção externa completa`: Mantemos todas as linhas dos dataframes à esquerda e à direita. Valores não correspondentes são adicionados como `NaN` no resultado.

![Merge datasets](images/merge_datasets.png)
Fonte: [Oluleye, 2023]

No `pandas`, o método `merge` é usado para mesclar dataframes.

In [None]:
# usando os datasets wine1 e wine2
print('dataset1:',wine1.shape)
print('dataset2:',wine2.shape)

Para mesclar os datasets `wine1` e `wine2`. Usar o método `merge` da biblioteca pandas para mesclar os datasets

In [None]:
# leitira dataset 3
wine3 = pd.read_excel('data/Wine3.xlsx')
print(wine3.shape)

In [199]:
# merge wine1 e wine2
merge_wines = pd.merge(wine1,wine3,on='Alcohol')

In [None]:
merge_wines.head()

In [None]:
# mostra as dimensões
merge_wines.shape

Usar how = `inner`. Para ter uma interseção exata entre os datasets

In [None]:
wine_inner = pd.merge(wine1, wine2, how ='inner', on = 'Alcohol')
wine_inner.head(10)

In [None]:
wine_inner.shape

Usar how = `outer` para todas as informações, de ambos datasets.

In [None]:
#
wine_outer = pd.merge(wine1,wine2, how = 'outer')
wine_outer.head()

In [None]:
# dimesões
wine_outer.shape

Usar how = `left` ou how= `right` depende de qual tabela se deixa na direita ou esquerda. 

Para o seguinte exemplo faremos um merge do tipo `left`. Mas o mesmo resultado pode ser obtido com um merge `right` trocando a posição das tabelas no método `merge`.

In [None]:
## Obtém o mesmo resultado 
wine_left = pd.merge(wine2, wine1, how = 'left', on = 'Alcohol')
print('left:',wine_left.shape)
wine_right = pd.merge(wine1, wine2, how = 'right', on = 'Alcohol')
print('right:',wine_right.shape)

*Observação*: A chave usada para o merge sendo `Alcohol`, todas outras colunas iguais entre as tabelas são separadas em _x e _y, onde:
- `_x` corresponde aos valores que existiam no dataset da esquerda (wine1).
- `_y` Corresponde aos valores que existiam no dataset da direita (wine2).

#### Classificação de dados

Ao classificarmos dados, organizamos eles em uma ordem específica, o que facilita a identificação rápida de padrões. Para realizar a classificação de um conjunto de dados, precisamos definir uma ou mais colunas a serem usadas como base, além de especificar se a ordem será crescente ou decrescente. 

No pandas, o método `sort_values` ​​pode ser usado para classificar os elemntos de um dataset.

In [None]:
# verificando os nomes das colunas
df_empregado.keys()

In [None]:
# sorting data- exemplo
Empregado_sort = df_empregado.sort_values('Salary', ascending=False)
Empregado_sort[['Gender','Salary']].head(10)

#### Categorizando dados 

Ao nos referirmos à categorização de dados, estamos falando da divisão ou agrupamento de um conjunto de dados. A categorização consiste em organizar os valores numéricos em intervalos menores, chamados compartimentos. Quando fazemos isso, cada compartimento se torna um valor categórico. 

Os compartimentos são bastante úteis porque nos fornecem insights que seriam difíceis de detectar trabalhando com valores numéricos individuais. Os intervalos dos compartimentos não precisam ser iguais; a criação deles depende da nossa compreensão do conjunto de dados.

O *binning* também pode ser usado para lidar com valores discrepantes ou reduzir o efeito de erros de observação. *Outliers* são pontos de dados extremamente altos ou baixos que se distanciam dos outros valores no datatset, muitas vezes causando anomalias na análise. A categorização pode mitigar esse efeito ao incluir esses valores discrepantes em intervalos específicos, tornando-os valores categóricos. 

Um exemplo comum é a conversão de idades em grupos etários. Idades atípicas, como `0` ou `150` anos, podem ser incluídas em categorias como menores de 18 anos e maiores de 80 anos, respectivamente. 

No `pandas`, podemos usar o método `cut` para armazenar um dataset.

In [None]:
# escolhendo colunas relevantes
empregado_cat = df_empregado[['First Name', 'Gender', 'Salary','Bonus %']]
empregado_cat.head()

In [None]:
#mostrando dimensoes
empregado_cat.shape

Categorizamos o % do bonus em categorias zero, baixo, médio, alto, muito alto.

In [211]:
# categorizando
pd.options.mode.copy_on_write = True 
#
empregado_cat['bins'] = pd.cut(x=empregado_cat['Bonus %'],bins=[0,1,3,5,7,10], labels=
                               ['zero','baixo','médio','alto','Muito alto'])

In [None]:
empregado_cat[['Bonus %','bins']].head()

#### Removendo dados duplicados 

Dados duplicados podem distorcer os resultados e nos levar a conclusões erradas sobre padrões e distribuição. Por isso, é crucial abordar a questão dos dados duplicados antes de iniciar qualquer análise. 

Realizar uma verificação rápida de duplicatas é uma boa prática na Análise Exploratória de Dados (EDA). 

Ao lidar com datasets tabulares, podemos identificar valores duplicados em colunas específicas ou registros duplicados em várias colunas. Compreender bem o dataset e o seu contexto ajuda a definir o que deve ser considerado duplicado.

No `pandas`, o método `drop_duplicates` pode nos ajudar a lidar com valores ou registros duplicados nos datasets.

In [None]:
# duplicatas
empregado_dup = df_empregado[['First Name', 'Gender', 'Salary','Senior Management', 'Team']]
empregado_dup.head()

In [None]:
empregado_dup.shape

In [None]:
# remover duplicatas
empreado_duplicata = empregado_dup.drop_duplicates()
empreado_duplicata.head()

In [None]:
empreado_duplicata.shape

In [None]:
Produtos =['iphone','iphone','ipad','aipod','Motorola','iphone']
Precos = [1200,1300,500, 600,1000,1200]
compras = pd.DataFrame({'produtos': Produtos, 'precos':Precos})
compras.head(6)

In [None]:
# remove duplicates
duplicates = compras.drop_duplicates()
duplicates.head(6)

In [None]:
duplicates.shape

#### Eliminando linhas e colunas de dados 

Ao lidar com dados tabulares, pode ser necessário remover algumas linhas ou colunas do dataset. Isso pode ocorrer quando as colunas ou linhas são incorretas ou irrelevantes. 

A biblioteca Pandas, tem a flexibilidade para eliminar uma única linha ou coluna, ou várias delas de uma vez.

Se pode usar o método `drop` para eliminar linhas ou colunas.

In [None]:
# eliminar 
compras.head(6)

In [None]:
# eliminar a linha 1
drop_linha1 = compras.drop(labels=[1],axis=0)
drop_linha1.head()

In [None]:
# mostrando colunas
empreado_duplicata.head()

In [None]:
# eliminar uma coluna
drop_coluna = empreado_duplicata.drop(labels=['Senior Management'],axis=1)
drop_coluna.head()

#### Substituindo dados 

Trocar/substituir valores em linhas ou colunas é uma prática comum ao trabalhar com dados tabulares. Há várias razões pelas quais podemos precisar substituir valores específicos em um dataset. 

O Python tem a flexibilidade para substituir tanto valores únicos quanto múltiplos valores nos datasets.

Podemos usar o método `replace` para substituir dados.

In [None]:
# visualizar o dataset
df_empregado.head()

Verificar as linhas e colunas em busca de anomalias 

In [225]:
# add coluna nula
df_empregado['Married']='0'

In [None]:
df_empregado.head()

In [None]:
df2 = df_empregado.replace('Douglas','Jorge')
df2.head()

In [None]:
df2['Married']=df2['Married'].replace('0','S')
df2.head()

#### Alterar um formato de dados 

Ao analisar ou explorar dados, o tipo de análise depende muito dos formatos ou tipos presentes no dataset. Geralmente, dados numéricos exigem técnicas analíticas específicas, enquanto dados categóricos precisam de abordagens diferentes. 

Portanto, é essencial que os tipos de dados sejam corretamente identificados antes do início da análise.

No `pandas`, o atributo `dtypes` nos ajuda a inspecionar os tipos de dados em datasets, enquanto o atributo `astype` nos ajuda a converter os datasets entre vários tipos de dados.

In [None]:
#
df_data = df2[['First Name','Gender','Salary','Bonus %']]
df_data['Married']='0'
df_data.head()

In [None]:
# mostra os tipos antes
df_data.dtypes

In [None]:
# add linha zero
df_data['Married'] = df_data['Married'].astype(int)
df_data.head()

In [None]:
# mostra os tipos depois
df_data.dtypes

In [None]:
df_data['Salary'] = df_data['Salary'].astype('Float64')
df_data.dtypes

---
Python para data science na prática &copy; Jorge Zavaleta, 2024