# Minicurso - Introdução ao Pandas
--------------------

## A Biblioteca e os Dataframes
------------------------

### A Biblioteca
-------------------------------

A biblioteca Pandas é uma ferramenta poderosa de manipulação e análise de dados em Python. Ela facilita a leitura, a escrita, a manipulação e a visualização de dados de forma eficiente, permitindo realizar operações complexas com poucas linhas de código.

Para realizar a importação, é atribuído comumente o apelido `pd` a ela, sendo esta uma boa prática dentro do escopo de análise e ciência de dados.

In [87]:
import pandas as pd

### Os Dataframes
----------------------------

Um `DataFrame` é uma estrutura de dados bidimensional oferecida pelo Pandas, semelhante a uma tabela em uma planilha ou a um banco de dados. Ele é composto de linhas e colunas, onde cada coluna pode conter um tipo de dado diferente (números, strings, datas, etc.).

**Principais Utilizações dos DataFrames:**
- **Leitura de Dados:** Importar dados de várias fontes como CSV, Excel, SQL, JSON, entre outros.

- **Manipulação de Dados:** Filtrar, agrupar, reformatar e realizar operações matemáticas ou estatísticas sobre os dados.

- **Limpeza de Dados:** Tratar valores nulos, duplicados ou inconsistências nos dados.

- **Análise de Dados:** Explorar e resumir dados utilizando métodos descritivos e estatísticos.

- **Visualização de Dados:** Criar gráficos e visualizações para entender melhor os dados.

## Criando ou Importando o Primeiro DataFrame
----------------------------

### Criando DataFrame
------------------------

Para criar um DataFrame do zero, é comum a utilização de dicionários python para a definição de colunas e linhas. A chave do dicionário em questão será o nome da coluna atribuída, e os valores das linhas são dispostos em listas ligadas a estas chaves.

> Nota: Um Dataframe deve ter o mesmo número de linhas para cada uma das colunas!

In [88]:
import pandas as pd

# Atribuindo os dados ao DataFrame

dados = {
    'Nome': ['Ana', 'Bruno', 'Carlos'],
    'Idade': [23, 35, 45],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte']
}

# Criando o Dataframe

dataset = pd.DataFrame(dados)

#Visualizando o Dataframe Criado

display(dataset)

Unnamed: 0,Nome,Idade,Cidade
0,Ana,23,São Paulo
1,Bruno,35,Rio de Janeiro
2,Carlos,45,Belo Horizonte


### Importando Bases de Dados
--------------------------------

A importação de bases depende do tipo de arquivo da base em questão, ou em casos mais complexos, exige ainda o conhecimento de descrição de queries para realizar a extração diretamente do banco de dados.

De maneira simples, é possível realizar a importação de arquivos utilizando o caminho onde os mesmos se encontram. A sintaxe se dá da forma a seguir:

In [89]:
dataset = pd.read_csv(r'C:\Users\Dizz\Downloads\Dataset_Exemplo.csv')

display(dataset)

Unnamed: 0,ID,Nome,Idade,Cidade,Salário,Departamento
0,1,Ana,23.0,São Paulo,5000.0,Vendas
1,2,Bruno,35.0,Rio de Janeiro,,TI
2,3,Carlos,45.0,Belo Horizonte,7000.0,RH
3,4,Daniela,28.0,Salvador,6200.0,Financeiro
4,5,Eduardo,30.0,Recife,6500.0,Marketing
5,6,Fernanda,32.0,Belo Horizonte,5500.0,TI
6,1,Ana,23.0,São Paulo,5000.0,Vendas
7,3,Carlos,45.0,Belo Horizonte,7000.0,RH
8,8,,30.0,Curitiba,4800.0,Logística
9,9,Gabriel,29.0,Porto Alegre,5200.0,TI


### Backup Base de Dados
-----------------------------

In [90]:
def database():
    dataset = pd.read_csv(r'C:\Users\Dizz\Downloads\Dataset_Exemplo.csv')
    return dataset

## Localizando Dados
---------------------------

No Pandas existem dois métodos principais de se localizar dados, são eles:

 - pd.iloc
 - pd.loc

Abaixo iremos explorar suas diferenças e posteriormente aplicá-los na prática:

**<u>pd.iloc:</u>** É utilizado para acessar dados utilizando-se os índices inteiros de linhas e colunas

**<u>pd.loc:</u>** É utilizado quando deseja-se acessar os dados utilizando-se os rótulos de dados de linhas e colunas

### Utilizando o iloc
------------------------------

Como estamos trabalhando com o `iloc`, devemos especificar as linhas e colunas a serem consultadas. Deste modo, a sintaxe geral deste método se dá por:

$$\text{df.iloc[linhas, colunas]}$$

Analogamente, podemos ainda definir o início e fim de cada parãmetro:

$$\text{df.iloc}[\text{inicio:fim , inicio:fim}]$$

Podemos ainda, selecionar todas as linhas ou colunas, utilizando simplesmente o operador `:`

In [91]:
# Selecionando uma linha específica

display(dataset.iloc[5])

ID                           6
Nome                  Fernanda
Idade                     32.0
Cidade          Belo Horizonte
Salário                 5500.0
Departamento                TI
Name: 5, dtype: object

In [92]:
# 2. Selecionando um elemento específico

display(dataset.iloc[4, 1])

'Eduardo'

In [93]:
# 3. Selecionar múltiplas linhas
print("\nDuas primeiras linhas:")
display(dataset.iloc[:2])

# 4. Selecionar múltiplas colunas
print("Todas as linhas e primeiras três colunas:")
display(dataset.iloc[:, :3])

# 5. Selecionar um intervalo de linhas e colunas
print("\nDuas primeiras linhas e duas primeiras colunas:")
display(dataset.iloc[:2, :2])


Duas primeiras linhas:


Unnamed: 0,ID,Nome,Idade,Cidade,Salário,Departamento
0,1,Ana,23.0,São Paulo,5000.0,Vendas
1,2,Bruno,35.0,Rio de Janeiro,,TI


Todas as linhas e primeiras três colunas:


Unnamed: 0,ID,Nome,Idade
0,1,Ana,23.0
1,2,Bruno,35.0
2,3,Carlos,45.0
3,4,Daniela,28.0
4,5,Eduardo,30.0
5,6,Fernanda,32.0
6,1,Ana,23.0
7,3,Carlos,45.0
8,8,,30.0
9,9,Gabriel,29.0



Duas primeiras linhas e duas primeiras colunas:


Unnamed: 0,ID,Nome
0,1,Ana
1,2,Bruno


In [94]:
# 6. Selecionar linhas com passo (step)
print("\nTodas as linhas com passo 2:")
display(dataset.iloc[::2])

# 7. Usar índices negativos
print("\nÚltima linha:")
display(dataset.iloc[-1])


Todas as linhas com passo 2:


Unnamed: 0,ID,Nome,Idade,Cidade,Salário,Departamento
0,1,Ana,23.0,São Paulo,5000.0,Vendas
2,3,Carlos,45.0,Belo Horizonte,7000.0,RH
4,5,Eduardo,30.0,Recife,6500.0,Marketing
6,1,Ana,23.0,São Paulo,5000.0,Vendas
8,8,,30.0,Curitiba,4800.0,Logística
10,10,Heloisa,33.0,Florianópolis,6100.0,Marketing
12,12,Joana,27.0,Manaus,6800.0,Vendas
14,14,Laura,29.0,Natal,5900.0,Logística
16,9,Gabriel,29.0,Porto Alegre,5200.0,TI
18,14,Laura,33.0,Natal,5900.0,Logística



Última linha:


ID                      8
Nome                Vitor
Idade                30.0
Cidade           Curitiba
Salário            4800.0
Departamento    Logística
Name: 21, dtype: object

In [95]:
# Selecionando apenas as 3 primeiras colunas do dataset

display(dataset.iloc[:, :3])

Unnamed: 0,ID,Nome,Idade
0,1,Ana,23.0
1,2,Bruno,35.0
2,3,Carlos,45.0
3,4,Daniela,28.0
4,5,Eduardo,30.0
5,6,Fernanda,32.0
6,1,Ana,23.0
7,3,Carlos,45.0
8,8,,30.0
9,9,Gabriel,29.0


### Utilizando o loc
-------------------

A utilização do `loc` se dá da mesma maneira do `iloc`, porém, como vimos anteriormente, esta ferramenta permite a utilização de rótulos, e não apenas índices, o que a torna bem útil em casos que veremos mais adiante. A sintaxe do `loc`, também funciona de maneira análoga ao `iloc`:

$$\text{df.loc[linhas,colunas]}$$

Porém, agora, ao selecionar dados, podemos utilizar os rótulos de coluna para encontrá-los:

$$\text{df.loc[início:fim, nome da coluna]}$$

In [96]:
# 2. Selecionando um elemento específico (linha 2, coluna 'Nome')

display(dataset.loc[4, "Nome"])

'Eduardo'

Podemos ainda utilizar vários rótulos para realizar a busca desejada:

In [97]:
# 4. Selecionar múltiplas colunas pelo nome
print("\nTodas as linhas e colunas 'Nome' e 'Idade':")
display(dataset.loc[:, ['Nome', 'Idade']])

# 5. Selecionar um intervalo de linhas e colunas pelo rótulo
print("\nLinhas de 0 a 2 e colunas 'Nome' e 'Idade':")
display(dataset.loc[0:2, ['Nome', 'Idade']])


Todas as linhas e colunas 'Nome' e 'Idade':


Unnamed: 0,Nome,Idade
0,Ana,23.0
1,Bruno,35.0
2,Carlos,45.0
3,Daniela,28.0
4,Eduardo,30.0
5,Fernanda,32.0
6,Ana,23.0
7,Carlos,45.0
8,,30.0
9,Gabriel,29.0



Linhas de 0 a 2 e colunas 'Nome' e 'Idade':


Unnamed: 0,Nome,Idade
0,Ana,23.0
1,Bruno,35.0
2,Carlos,45.0


### Estocando valores em listas
-----------------------------------

Ao realizar uma busca de valores em um DataFrame, podemos estocá-los em listas para serem posteriormente utilizados, ou realizar outros tipos de manipulações desejadas. Para isto, basta que utilizemos o método `values`:

$$\text{df.loc[linhas, colunas].values}$$



In [98]:
dataset.loc[:, "Salário"].values

array([5000.,   nan, 7000., 6200., 6500., 5500., 5000., 7000., 4800.,
       5200., 6100.,   nan, 6800., 7100., 5900., 6000., 5200., 6800.,
       5900., 5000.,   nan, 4800.])

## Manipulação de Dados
-------------------------------

A manipulação de dados pode ser realizada com a finalidade de atingir variados objetivos dentro do processo de análise. Em suma, é uma etapa crucial para atingir certos objetivos e é amplamente utilizada durante este processo.

Manipulações de Dados vão muito além de realizar filtros e operações matemáticas entre as linhas e colunas de DataFrames, porém, neste mincurso iremos nos ater aos princípios básicos, e como um bônus, algumas manipulações de nível mais intermediário.

### Filtros
------------------------

A utilização de filtros de dados é útil em vários cenários, mas particularmente, é bem empregada naqueles que vizam a redução do conjunto de dados em que há interesse de se manipular. Desta forma, somos capazes de otimizar o código além de sermos mais assertivos em nossas operações.

Outro caso amplo em que esta técnica é empregada, é na visualização de dados, a qual não será abordada neste curso de maneira mais expressiva.

Para filtrar um conjunto de dados no pandas, devemos utilizar o método `loc`, anteriormente apresentado. A lógica por trás da sintaxe se resume a localizar dentro do conjunto de dados, o próprio conjunto, atendidas as condições desejadas. Deste modo:

<br>

$$\text{df.loc[df["Filtro"] == Condição]}$$

</br>

> Nota: Podemos utilizar qualquer tipo de operador condicional, como: `==`, `!=`, `>=`, `<=`, `>`, `<`. Além disso, podemos ainda atribuir várias condições a serem obedecidas, utilizando os operadores lógicos: `and`, `or`, `not`. Porém, vale lembrar que estes operadores funcionam de maneira distinta à lógica Python convencional no pandas. Para utilizar estes operadores, devemos usar respectivamente `&`, `|`, `~`.

Para filtros onde mais de uma condição deve ser seguida, podemos utilizar, dentro da sintaxe Pandas, os operadores lógicos citados na nota anterior, assim:

$$\text{df.loc[(df["Filtro 1"] == Condição 1) | (df["Filtro 2"] == Condição 2)]}$$

Vamos agora conferir como filtrar um Dataset no pandas:

In [99]:
#Filtrando Todas as linhas onde com idades maiores ou iguais a 30 anos

dataset.loc[dataset["Idade"] >= 30]

Unnamed: 0,ID,Nome,Idade,Cidade,Salário,Departamento
1,2,Bruno,35.0,Rio de Janeiro,,TI
2,3,Carlos,45.0,Belo Horizonte,7000.0,RH
4,5,Eduardo,30.0,Recife,6500.0,Marketing
5,6,Fernanda,32.0,Belo Horizonte,5500.0,TI
7,3,Carlos,45.0,Belo Horizonte,7000.0,RH
8,8,,30.0,Curitiba,4800.0,Logística
10,10,Heloisa,33.0,Florianópolis,6100.0,Marketing
11,11,Igor,31.0,Brasília,,Financeiro
13,13,Kleber,41.0,Fortaleza,7100.0,RH
15,15,Marcos,36.0,Goiânia,6000.0,TI


In [100]:
#Filtrando os salários maiores que 5000 e menores ou iguais a 6000

dataset.loc[(dataset["Salário"] > 5000) & (dataset["Salário"] <= 6000)]

Unnamed: 0,ID,Nome,Idade,Cidade,Salário,Departamento
5,6,Fernanda,32.0,Belo Horizonte,5500.0,TI
9,9,Gabriel,29.0,Porto Alegre,5200.0,TI
14,14,Laura,29.0,Natal,5900.0,Logística
15,15,Marcos,36.0,Goiânia,6000.0,TI
16,9,Gabriel,29.0,Porto Alegre,5200.0,TI
18,14,Laura,33.0,Natal,5900.0,Logística


In [101]:
#Filtrando pessoas com pelo menos 30 anos e salários menores que 6000

dataset.loc[(dataset["Idade"] >= 30) & (dataset["Salário"] < 6000)]

Unnamed: 0,ID,Nome,Idade,Cidade,Salário,Departamento
5,6,Fernanda,32.0,Belo Horizonte,5500.0,TI
8,8,,30.0,Curitiba,4800.0,Logística
18,14,Laura,33.0,Natal,5900.0,Logística
21,8,Vitor,30.0,Curitiba,4800.0,Logística


### Agrupamentos
----------------------------

O método `groupby` do Pandas é uma ferramenta essencial para a análise de dados que permite agrupar um DataFrame com base em uma ou mais colunas. Após o agrupamento, você pode aplicar operações de agregação, transformação ou filtragem para obter insights detalhados e sumarizados sobre os dados.

Este método, requer que alguns parâmetros sejam passados a ele:

$$\text{df.groupby(by="Coluna a agrupar").operação()}$$

Vamos supor, que queremos saber o valor bruto de salários por cidade:

In [102]:
salarios = dataset.groupby(by="Cidade").count()
display(salarios)

Unnamed: 0_level_0,ID,Nome,Idade,Salário,Departamento
Cidade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Belo Horizonte,3,3,3,3,3
Brasília,1,1,1,0,1
Curitiba,2,1,2,2,2
Florianópolis,1,1,1,1,1
Fortaleza,1,1,1,1,1
Goiânia,1,1,1,1,1
Manaus,2,2,2,2,2
Natal,2,2,2,2,2
Porto Alegre,2,2,2,2,2
Recife,1,1,1,1,1


Note que o resultado é uma tabela com as cidades agrupadas, e cada uma das demais colunas com seus respectivos resultados a partir deste primeiro.

Mas, e se tivermos interesse em apenas uma dessas colunas? Basta selecioná-la:

In [103]:
salarios = dataset.groupby(by="Cidade")["Salário"].sum()
display(salarios)

Cidade
Belo Horizonte    19500.0
Brasília              0.0
Curitiba           9600.0
Florianópolis      6100.0
Fortaleza          7100.0
Goiânia            6000.0
Manaus            13600.0
Natal             11800.0
Porto Alegre      10400.0
Recife             6500.0
Rio de Janeiro        0.0
Salvador           6200.0
São Paulo         15000.0
Name: Salário, dtype: float64

## Alterações em DataFrames
--------------------------

### Renomeando Colunas
----------------------------

É bem possível que em algum momento, seja necessário realizar alterações nos nomes das colunas, por qualquer situação que seja. Para isso, devemos nos lembrar de como DataFrames são estruturados, utilizando dicionários!

Para renomear uma coluna no Pandas, usamos um dicionário que dispõe de todos os cabeçalhos que desejamos alterar, bem como os novos nomes que queremos atribuir. Estes, serão respectivamente as chaves e valores do nosso dicionário:

$$\text{\{"Nome Atual":"Nome Novo"\}}$$

Esta é a estrutura que armazena as modificações que desejamos fazer. para aplicá-las, devemos urilizar o método `rename` do Pandas:

$$\text{df.rename(columns=\{"Nome Atual":"Nome Novo"\})}$$

Como exemplo, vamos renomear a coluna `ID` de nosso DataFrame para `Identificador`:

In [104]:
#Renomeando Coluna ID para Identificador

dataset.rename(columns={"ID":"Identificador"})

Unnamed: 0,Identificador,Nome,Idade,Cidade,Salário,Departamento
0,1,Ana,23.0,São Paulo,5000.0,Vendas
1,2,Bruno,35.0,Rio de Janeiro,,TI
2,3,Carlos,45.0,Belo Horizonte,7000.0,RH
3,4,Daniela,28.0,Salvador,6200.0,Financeiro
4,5,Eduardo,30.0,Recife,6500.0,Marketing
5,6,Fernanda,32.0,Belo Horizonte,5500.0,TI
6,1,Ana,23.0,São Paulo,5000.0,Vendas
7,3,Carlos,45.0,Belo Horizonte,7000.0,RH
8,8,,30.0,Curitiba,4800.0,Logística
9,9,Gabriel,29.0,Porto Alegre,5200.0,TI


### Atualizando Linhas
-----------------------------

A partir de todo o conhecimento que acumulamos até aqui, somos também capazes de realizar alterações em linhas dentro do DataFrame. Para tal, vamos mais uma vez fazer o uso dos Filtros:

$$\text{df.loc[df["Coluna"] == Condição, Alteração] = Valor}$$

> Nota: Se tratando de DataFrames, devemos evitar ao máximo loops de repetição como `for` e `while`. Dada a dinâmica de funcionamento destes, esta é a opção menos performática em termos de código. Existem maneiras mais eficientes de se realizar operações que impõem a necessidade de alteração de vários elementos em conjunto (formas vetorizadas) e estas, são mais performáticas.

Como exemplo, vamos alterar o departamento da funcionária Heloisa de Vendas, para Financeiro:

In [105]:
#Atualizando o Departamento de um funcionário

print("Antes da Alteração:")
display(dataset.loc[dataset["Nome"] == "Heloisa"])

#alteração
dataset.loc[dataset["Nome"] == "Heloisa", "Departamento"] = "Financeiro"

print("\nApós a Alteração:")
display(dataset.loc[dataset["Nome"] == "Heloisa"])

#Restaurando Dataset para o formato original

dataset = database()


Antes da Alteração:


Unnamed: 0,ID,Nome,Idade,Cidade,Salário,Departamento
10,10,Heloisa,33.0,Florianópolis,6100.0,Marketing



Após a Alteração:


Unnamed: 0,ID,Nome,Idade,Cidade,Salário,Departamento
10,10,Heloisa,33.0,Florianópolis,6100.0,Financeiro


### Excluindo Colunas
------------------------------------

Em Análise e Ciência de Dados, pode ser que em algum momento, precisemos realizar a deleção de uma coluna. Para ambos os casos, utilizamos o método `drop`. A sintaxe em si, permanece a mesma, diferindo-se apenas a depender de quem desejamos excluir.

> Nota: Estamos trabalhando com um Dataset **FICTÍCIO**, em casos reais, devemos avaliar as possibilidades para tomar decisões que não impactem em nossas análises.

In [106]:
#Deletando a Coluna ID

dataset = dataset.drop(columns="ID")
display(dataset)

#Resetando Dataset para o Original
dataset = database()

Unnamed: 0,Nome,Idade,Cidade,Salário,Departamento
0,Ana,23.0,São Paulo,5000.0,Vendas
1,Bruno,35.0,Rio de Janeiro,,TI
2,Carlos,45.0,Belo Horizonte,7000.0,RH
3,Daniela,28.0,Salvador,6200.0,Financeiro
4,Eduardo,30.0,Recife,6500.0,Marketing
5,Fernanda,32.0,Belo Horizonte,5500.0,TI
6,Ana,23.0,São Paulo,5000.0,Vendas
7,Carlos,45.0,Belo Horizonte,7000.0,RH
8,,30.0,Curitiba,4800.0,Logística
9,Gabriel,29.0,Porto Alegre,5200.0,TI


Podemos também deletar várias colunas de uma só vez, basta passar uma lista como argumento do parâmetro `columns` do método drop.

O inverso também é verdade, podemos criar uma lista apenas com as colunas que queremos manter no DataFrame.

Vamos ver cada um deles em ação:

In [107]:
# Deletando colunas em uma lista

print("Deletando Múltiplas Colunas:")
dataset.drop(columns=["Idade", "Cidade"])

Deletando Múltiplas Colunas:


Unnamed: 0,ID,Nome,Salário,Departamento
0,1,Ana,5000.0,Vendas
1,2,Bruno,,TI
2,3,Carlos,7000.0,RH
3,4,Daniela,6200.0,Financeiro
4,5,Eduardo,6500.0,Marketing
5,6,Fernanda,5500.0,TI
6,1,Ana,5000.0,Vendas
7,3,Carlos,7000.0,RH
8,8,,4800.0,Logística
9,9,Gabriel,5200.0,TI


In [108]:
# Deletando colunas NÃO Presentes na Lista
print("\nDeletando Colunas Fora da Lista:")

manter = ["Nome", "Salário"]
dataset.columns.intersection(manter)

dataset = dataset[manter]
display(dataset)

#Resetando Dataset
dataset = database()


Deletando Colunas Fora da Lista:


Unnamed: 0,Nome,Salário
0,Ana,5000.0
1,Bruno,
2,Carlos,7000.0
3,Daniela,6200.0
4,Eduardo,6500.0
5,Fernanda,5500.0
6,Ana,5000.0
7,Carlos,7000.0
8,,4800.0
9,Gabriel,5200.0


### Deletando Linhas
---------------------------------

Este tipo de manipulação é menos comum, porém podem existir casos em que torne-se necessária a sua aplicação. Para a exclusão de linhas, iremos utilizar o mesmo método, o `drop`, todavia, nosso interesse não se trata mais de colunas, e sim de linhas. Para atingir este objetivo, então, faremos uso de outro parãmetro da função, o parâmetro `index`.

Supondo que queremos deletar todas as linhas entre 5 e 10:

> Nota: Podemos também utilizar listas para denotar quais são as linhas a serem excluídas.

In [109]:
dataset.drop(index= range(5,11))

Unnamed: 0,ID,Nome,Idade,Cidade,Salário,Departamento
0,1,Ana,23.0,São Paulo,5000.0,Vendas
1,2,Bruno,35.0,Rio de Janeiro,,TI
2,3,Carlos,45.0,Belo Horizonte,7000.0,RH
3,4,Daniela,28.0,Salvador,6200.0,Financeiro
4,5,Eduardo,30.0,Recife,6500.0,Marketing
11,11,Igor,31.0,Brasília,,Financeiro
12,12,Joana,27.0,Manaus,6800.0,Vendas
13,13,Kleber,41.0,Fortaleza,7100.0,RH
14,14,Laura,29.0,Natal,5900.0,Logística
15,15,Marcos,36.0,Goiânia,6000.0,TI


## Tratamento de Dados
---------------------------------------------------

O tratamento de dados é um conjunto de processos e técnicas aplicados para preparar dados brutos para análise. Esse tratamento é essencial para garantir a qualidade, a consistência e a usabilidade dos dados. Neste minicuros, cobriremos sucintamente o básico desta etapa.

O tratamento adequado dos dados é crucial para garantir resultados precisos e insights valiosos nas análises subsequentes. Com dados limpos e bem preparados, as organizações podem tomar decisões mais informadas, identificar tendências importantes e melhorar a eficiência operacional.

### Análise Exploratória de Dados
-------------------------------------

A Análise Exploratória de Dados (EDA) é uma etapa fundamental no processo de análise de dados, que tem como objetivo entender melhor a estrutura, as características e os padrões de um conjunto de dados. Durante a EDA, utilizam-se técnicas estatísticas e ferramentas de visualização para investigar os dados de maneira detalhada e identificar informações relevantes.

Dentro de nosso escopo, vamos nos ater às análises necessárias para o tratamento dos dados e casos mais simples de aplicação.

#### Análises Preliminares
------------------------------

A fim de conhecer e entender os dados com os quais iremos trabalhar, faremos uma análise rápida do Dataset que nos foi disposto. Com isto, nosso objetivo é entender a estrutura, organização e parâmetros estatísticos que podem nos auxiliar no decorrer das análises posteriormente.

Para esta etapa, iremos conhecer mais algumas ferramentas como:

 - `df.head`: Apresenta as n primeiras linhas do Dataframe em questão;
 - `df.tail`: Apresenta as n últimas linhas do Dataframe em questão;
 - `df.info`: Apresenta informações acerca da estrutura dos dados;
 - `df.describe`: Apresenta um sumário estatístico dos dados.

 Vamos ao primeiro exemplo de utilização, para conhecimento dos dados, vamos supor que queremos ver as 5 primeiras e as 5 últimas linhas do nosso dataframe:

In [110]:
#UTILIZANDO O df.tail E O df.head

# Vizualizando as primeiras 5 linhas do DataFrame
print("Primeiras 5 Linhas: ")
display(dataset.head(5))

# Vizualizando as últimas 5 linhas do DataFrame
print("\nÚltimas 5 Linhas: ")
display(dataset.tail(5))

Primeiras 5 Linhas: 


Unnamed: 0,ID,Nome,Idade,Cidade,Salário,Departamento
0,1,Ana,23.0,São Paulo,5000.0,Vendas
1,2,Bruno,35.0,Rio de Janeiro,,TI
2,3,Carlos,45.0,Belo Horizonte,7000.0,RH
3,4,Daniela,28.0,Salvador,6200.0,Financeiro
4,5,Eduardo,30.0,Recife,6500.0,Marketing



Últimas 5 Linhas: 


Unnamed: 0,ID,Nome,Idade,Cidade,Salário,Departamento
17,12,Joana,27.0,Manaus,6800.0,Vendas
18,14,Laura,33.0,Natal,5900.0,Logística
19,1,Ana,23.0,São Paulo,5000.0,Vendas
20,2,Bruno,35.0,Rio de Janeiro,,TI
21,8,Vitor,30.0,Curitiba,4800.0,Logística


Agora, vamos analisar a estrutura do nosso conjunto de dados, utilizando a ferramenta `info`:

In [111]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22 entries, 0 to 21
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   ID            22 non-null     int64  
 1   Nome          21 non-null     object 
 2   Idade         22 non-null     float64
 3   Cidade        22 non-null     object 
 4   Salário       19 non-null     float64
 5   Departamento  22 non-null     object 
dtypes: float64(2), int64(1), object(3)
memory usage: 1.2+ KB


Note que o Pandas nos forneceu insights valiosos acerca de nosso conjunto de dados. Agora temos a disposição os nomes, bem como o número de colunas total do nosso DataFrame, além disso, ele nos trás informações do número de linhas presente, bem como a quantidade de valores não nulos em cada uma das colunas e seus respectivos tipos.

Por último, vamos gerar o sumário estatístico:

In [112]:
dataset.describe()

Unnamed: 0,ID,Idade,Salário
count,22.0,22.0,19.0
mean,7.409091,31.545455,5884.210526
std,4.797411,6.17003,815.313953
min,1.0,23.0,4800.0
25%,3.0,28.25,5100.0
50%,8.0,30.0,5900.0
75%,11.75,34.5,6650.0
max,15.0,45.0,7100.0


Note agora, que temos métricas de todas as colunas numéricas do nosso dataset. Outros parâmetros podem ser consultados, mas este não será alvo do nosso minicurso.

### Pré-Processamento dos Dados
--------------------------------------

A etapa de Pré-Processamento é crucial pra garantir que os dados estejam prontos para análise. Assim, ao final desta etapa, devemos ter um conjunto de dados limpo e íntegro. Vamos conferir agora algumas técnicas de limpeza e realizá-las em conjunto.

Tendo em vista o tamanho reduzido de nosso DataFrame, vamos imprimí-lo por completo no terminal:

In [113]:
display(dataset)

Unnamed: 0,ID,Nome,Idade,Cidade,Salário,Departamento
0,1,Ana,23.0,São Paulo,5000.0,Vendas
1,2,Bruno,35.0,Rio de Janeiro,,TI
2,3,Carlos,45.0,Belo Horizonte,7000.0,RH
3,4,Daniela,28.0,Salvador,6200.0,Financeiro
4,5,Eduardo,30.0,Recife,6500.0,Marketing
5,6,Fernanda,32.0,Belo Horizonte,5500.0,TI
6,1,Ana,23.0,São Paulo,5000.0,Vendas
7,3,Carlos,45.0,Belo Horizonte,7000.0,RH
8,8,,30.0,Curitiba,4800.0,Logística
9,9,Gabriel,29.0,Porto Alegre,5200.0,TI


De antemão, podemos notar que existem valores nulos em várias colunas, além de valores duplicados. Estes valores devem ser tratados para que possamos realizar as análises futuras.

Para dar sequência, vamos primeiramente realizar o tratamento das duplicatas.

#### Removendo Duplicatas
--------------------------------

Ao remover duplicatas com o Pandas, a ferramenta utilizada, considera que todos os campos de uma mesma linhas são repetidos, sendo assim, não precisamos nos preocupar em remover linhas importantes para a integridade de nosso DataFrame. Para realizar esta operação, iremos usar a ferramenta `drop_duplicates`. Este, é mais um dos métodos de exclusão, vistos anteriormente.

In [114]:
dataset = dataset.drop_duplicates()
display(dataset)

Unnamed: 0,ID,Nome,Idade,Cidade,Salário,Departamento
0,1,Ana,23.0,São Paulo,5000.0,Vendas
1,2,Bruno,35.0,Rio de Janeiro,,TI
2,3,Carlos,45.0,Belo Horizonte,7000.0,RH
3,4,Daniela,28.0,Salvador,6200.0,Financeiro
4,5,Eduardo,30.0,Recife,6500.0,Marketing
5,6,Fernanda,32.0,Belo Horizonte,5500.0,TI
8,8,,30.0,Curitiba,4800.0,Logística
9,9,Gabriel,29.0,Porto Alegre,5200.0,TI
10,10,Heloisa,33.0,Florianópolis,6100.0,Marketing
11,11,Igor,31.0,Brasília,,Financeiro


Percebam que o tamanho do nosso DataFrame diminuiu, isto significa que haviam linhas duplicadas, agora, excluídas.

> **Dica:** Para visualizar melhor a redução do DataFrame, tente aplicar o método `info`!

#### Tratamento de Valores Nulos
---------------------------------------

Em nossas análises preliminares, foi póssível constatar a existência de valores nulos em nosso conjunto de dados. Estes valores precisam ser tratados antes do processo de análise, pois podem impactar nos resultados. O caminho e o tipo de tratamento a ser realizado, deve ser decidido pelo analista em questão.

Vamos começar o tratamento pela coluna `[Nome]`:

In [115]:
#TRATANDO OS DADOS DA COLUNA NOME

display(dataset.loc[dataset["ID"] == 8]) #Constatado a existência de uma linha "irmã"

#Excluindo linha com Valor Nulo

dataset = dataset.drop(index=8)
display(dataset.loc[dataset["ID"] == 8])

Unnamed: 0,ID,Nome,Idade,Cidade,Salário,Departamento
8,8,,30.0,Curitiba,4800.0,Logística
21,8,Vitor,30.0,Curitiba,4800.0,Logística


Unnamed: 0,ID,Nome,Idade,Cidade,Salário,Departamento
21,8,Vitor,30.0,Curitiba,4800.0,Logística


Agora, vamos tratar o valor correspondente aos salários:

In [116]:
#TRATANDO DOS DADOS DA COLUNA SALÁRIO
import numpy as np
display(dataset)

#Checando onde existem valores nulos de Salários

display(dataset.loc[dataset["Salário"].isnull()])

Unnamed: 0,ID,Nome,Idade,Cidade,Salário,Departamento
0,1,Ana,23.0,São Paulo,5000.0,Vendas
1,2,Bruno,35.0,Rio de Janeiro,,TI
2,3,Carlos,45.0,Belo Horizonte,7000.0,RH
3,4,Daniela,28.0,Salvador,6200.0,Financeiro
4,5,Eduardo,30.0,Recife,6500.0,Marketing
5,6,Fernanda,32.0,Belo Horizonte,5500.0,TI
9,9,Gabriel,29.0,Porto Alegre,5200.0,TI
10,10,Heloisa,33.0,Florianópolis,6100.0,Marketing
11,11,Igor,31.0,Brasília,,Financeiro
12,12,Joana,27.0,Manaus,6800.0,Vendas


Unnamed: 0,ID,Nome,Idade,Cidade,Salário,Departamento
1,2,Bruno,35.0,Rio de Janeiro,,TI
11,11,Igor,31.0,Brasília,,Financeiro


In [117]:
#Descobrindo a Média dos Salários por Departamento

grupos = dataset.groupby(by="Departamento")["Salário"].mean()
display(grupos)

Departamento
Financeiro    6200.000000
Logística     5533.333333
Marketing     6300.000000
RH            7050.000000
TI            5566.666667
Vendas        5900.000000
Name: Salário, dtype: float64

In [118]:
#Atualizando os valores das linhas
dataset.loc[(dataset["Salário"].isnull()) & (dataset["Departamento"] == "TI"), "Salário"] = grupos["TI"]
dataset.loc[(dataset["Salário"].isnull()) & (dataset["Departamento"] == "Financeiro"), "Salário"] = grupos["Financeiro"]

#Checando Novo Dataset
display(dataset)

Unnamed: 0,ID,Nome,Idade,Cidade,Salário,Departamento
0,1,Ana,23.0,São Paulo,5000.0,Vendas
1,2,Bruno,35.0,Rio de Janeiro,5566.666667,TI
2,3,Carlos,45.0,Belo Horizonte,7000.0,RH
3,4,Daniela,28.0,Salvador,6200.0,Financeiro
4,5,Eduardo,30.0,Recife,6500.0,Marketing
5,6,Fernanda,32.0,Belo Horizonte,5500.0,TI
9,9,Gabriel,29.0,Porto Alegre,5200.0,TI
10,10,Heloisa,33.0,Florianópolis,6100.0,Marketing
11,11,Igor,31.0,Brasília,6200.0,Financeiro
12,12,Joana,27.0,Manaus,6800.0,Vendas


## Bônus
-----------------------------------------

### Métodos Iterativos com o Pandas
--------------------------------------------

Tratando-se do Pandas, e de conjuntos de dados volumosos, torna-se inviável a utilização de `loops` de repetição explícitos, como o `for` e o `while`. Isso acontece pricipalmente dada a natureza de aplicação destes métodos com relação a arquitetura de computadores. Neste caso, para realizarmos `loops`, quando necessário, podemos nos basear em ferramentas dispostas pela própria biblioteca, mais otimizadas para estes casos. 

Alguns métodos que veremos a seguir são denominados `métodos vetorizados`, sendo estes, os mais eficientes para aplicação em datasets.

> NOTA: Existem situações em que o uso de loops explícitos é necessária, mas sempre que possível, devemos evitá-los.

Para fins de demonstração das ferramentas, iremos utilizar um dataset diferente. O dataset em questão é o `Iris`, disponível na biblioteca `seaborn`. Este é um dataset muito famoso utilizado por iniciantes em Machine Learning. O objetivo, é criar um modelo de predição capaz de prever a espécie de uma flor, com base em algumas medidas relacionadas a ela. Para fazer isso, precisamos converter os valores da coluna species do DataFrame em um formato numérico. Esse processo é conhecido como `label encoding`. Apesar d eexistirem ferramentas que realizam este processo automaticamente, iremos realizá-lo de forma manual no exemplo.

> NOTA: A célula abaixo serve apenas para importar a nova base de dados, e pode ser ignorada.

In [119]:
import seaborn as sns
iris = sns.load_dataset('iris').head(5) #Importando apenas as 5 primeiras linhas para conhecimento do dataset

display(iris)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


#### Método 1: Iterrows
----------------------------------------


O `iterrows` é o método mais simples para iterar sobre as linhas. Este método retorna o índice de uma linha, bem como a própria linha. Além disso, para melhorar a legibilidade, se você não se importar com o valor do índice, pode descartá-lo.

A utilização do `iterrows` em combinação com um DataFrame cria o que é conhecido como um gerador. Um gerador é um objeto iterável, o que significa que podemos percorrê-lo em um loop.

**Prós:** 

- Simples de ser utilizado, configura-se como o método mais direto ao ponto.

**Contras:** 

- É o mais lento dos métodos iterativos disponíveis entre as opções;
- A natureza de seu processamento pode ocasionar em soluções mais trabalhosas para desempacotamento de resultados, caso os índices não sejam utilizados.

Vamos ver o método em funcionamento:

In [120]:
#PREPARANDO O CODIFICADOR
iris = sns.load_dataset('iris') # Utilizando todo o dataset

print(iris['species'].unique()) #Mostrando todas as espécies de flores (excluindo repetições)

labels = {'setosa': 0, 'versicolor': 1, 'virginica': 2}

['setosa' 'versicolor' 'virginica']


In [121]:
#APLICANDO O ITERROWS
for index, row in iris.iterrows():
    
    label = labels[row['species']] # Puxando os identificadores corretos para cada espécie
    iris['species'].at[index] = label # Atualizando linhas

# Checando as atualizações
print(iris['species'].unique())

[0 1 2]


#### Método 2: Itertuples
-------------------------------------------

Uma excelente alternativa ao `iterrows` é o `itertuples`, funcionando de maneira muito semelhante ao `iterrows`, seu principal diferencial é retornar o que chamamos de named tuples (tuplas nomeadas). Com uma ntupla nomeada, podemos acessar valores específicos como se fossem um atributo. Assim, no contexto do Pandas, podemos acessar os valores de uma linha para uma determinada coluna sem precisar desempacotar a tupla primeiro.

**Prós**

- Preferível ao `iterrows` por ser um método mais ágil

**Contras**

- Apesar de ser um método mais performático que o `iterrows` ainda é lento se comparado a outros métodos.

In [122]:
#PREPARANDO O CODIFICADOR
iris = sns.load_dataset('iris') # Resetando DataFrame
labels = {'setosa': 0, 'versicolor': 1, 'virginica': 2}

In [123]:
#UTILIZANDO O ITERTUPLES
for row in iris.itertuples():
    label = labels[row.species]
    iris['species'].at[row.Index] = label # Atualizando linhas

print(iris['species'].unique()) # Checando as atualizações

[0 1 2]


#### Método 3: Apply
---------------

Ao usar o `apply` e especificar o eixo, podemos executar uma função em cada linha de um DataFrame. Essa solução também utiliza loop para realizar a tarefa, porém o `apply` é mais otimizado do que o iterrows, resultando em tempos de execução mais rápidos. 

O `apply` é tipicamente utlizado para realizar operações mais complexas que podem envolver múltiplas colunas ou linhas. É mais flexível e poderoso do que o métoso `map`, que veremos adiante.

- **Escopo de aplicação:** Pode ser usado tanto em Series quanto em DataFrames. Quando aplicado a um DataFrame, podemos escolher se a função será aplicada a cada coluna, a cada linha ou até mesmo a cada elemento individualmente, dependendo do valor do parâmetro `axis`.

- **Entrada esperada:** Espera uma função como argumento.

- **Versatilidade:** Pode ser utilizado para executar funções que retornam valores simples, Series ou até DataFrames, permitindo transformações complexas.

Como vimos, este método espera uma função a ser aplicada como argumento. Em Python, para definirmos uma função, não necessáriamente precisamos utilizar o método `def`. Em casos como a aplicação do método `apply` do Pandas, podemos utilizar funções `lambda`, que veremos a seguir.

##### Funções Lambda
-----------------------------------------

Funções lambda são funções anônimas, ou seja, funções que não têm um nome definido, criadas para realizar operações simples em uma única linha de código. Elas são utilizadas principalmente quando precisamos de uma função pequena e rápida, que será usada apenas uma ou poucas vezes, sem a necessidade de definir uma função completa utilizando o `def`.

> NOTA: Caso necessário, o método `apply` aceita tanto funções `def` quanto `lambda`.

A sintaxe deste tipo de função se dá da seguinte forma:

$$ \text{lambda argumentos: expressão} $$

- **Argumentos:** Parâmetros que a função recebe, assim como em uma função regular.

- **Expressão:** Uma expressão única que é avaliada e retornada como resultado da função.

Abaixo, um exemplo simples de aplicação deste tipo de função:

In [124]:
#Utilizando def
def soma_def(x,y):
    return x + y

print(f"def: {soma_def(2,3)}")

#Utilizando Lambda
soma_lbd = lambda x, y: x + y
print(f"lambda: {soma_lbd(2,3)}")

def: 5
lambda: 5


Retomando agora, com o exemplo de aplicação do método `apply`:

In [125]:
#PREPARANDO O CODIFICADOR
iris = sns.load_dataset('iris') # Resetando DataFrame
labels = {'setosa': 0, 'versicolor': 1, 'virginica': 2}

In [126]:
#UTILIZANDO O APPLY
iris['species'] = iris.apply(lambda row: labels[row['species']], axis=1)

print(iris.species.unique()) # Checando atualizações

[0 1 2]


Neste exemplo, utilizamos o parâmetro `axis` para especificar onde a função será aplicada, no caso, a cada linha. Para conhecimento:

**<u>axis=0 ou axis='index':</u>** A função será aplicada ao longo das colunas, ou seja, para cada coluna, a função será executada em todos os elementos dessa coluna. Este é o comportamento padrão do `apply` se o parâmetro `axis` não for especificado.

**<u>axis=1 ou axis='columns':</u>** A função é aplicada ao longo das linhas, ou seja, para cada linha, a função será executada em todos os elementos dessa linha.

#### Método 4: Map
------------------------------------

Outra opção que temos para implementar uma soluções vetorizadas é o `map`. Podemos utilizá-lo em Series (como uma coluna de um DataFrame, por exemplo). Ao fornecer um dicionário como argumento, este método tratará os valores da coluna como chaves do dicionário, transformando-os em seus valores correspondentes dentro dele.

O `map` é tipicamente utilizado para substituição de valores em uma Serie com base em um dicionário ou realizar operações simples e elementares em cada valor.

- **Escopo de aplicação:** É usado apenas em Series, ou seja, ele aplica uma função ou mapeamento a cada elemento individualmente dentro dela.

- **Entrada esperada:** Aceita uma função, um dicionário ou uma Serie/array para mapeamento.

- **Comportamento com valores não mapeados:** Se um valor da Series **<u>não</u>** estiver presente no dicionário fornecido a `map`, ele será substituído por `NaN`.

Vamos conferir abaixo a aplicação deste método:

In [127]:
#PREPARANDO O CODIFICADOR
iris = sns.load_dataset('iris') # Resetando DataFrame
labels = {'setosa': 0, 'versicolor': 1, 'virginica': 2}

In [128]:
#UTILIZANDO O MAP
iris['species'] = iris['species'].map(labels)

print(iris['species'].unique()) # Checando atualizações

[0 1 2]


#### Comparando os Métodos
-------------------------------

Todos os métodos apresentados, apresentam suas vantagens e desvantagens, porém, cabe a cada um de nós definir quando e como utilizar cada um deles, visando sempre o melhor cenário possível. Agora, para fins de comparação de performance destes métodos, iremos aplicar cada um deles ao dataset `iris`, realizando as mesmas operações anteriores em toda a extensão do DataFrame.

Para fins de agilidade, os testes já foram realizados, e abaixo, constam os resultados obtidos:

![image.png](attachment:image.png)

> NOTA: Ao comparar os resultados, lembre-se de que este é um dataset pequeno em comparação com datasets de casos reais. Sendo assim, a diferença na prática é muito maior do que a exemplificada acima.

