<a href="https://colab.research.google.com/github/GuilhermePelegrina/Mackenzie/blob/main/Aulas/An%C3%A1lise%20de%20Dados/Aula_04_Pandas_Selecao_Manipulacao.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/logo_mackenzie.png'>


# **Seleção e manipulação de dados.**

Nesta aula, retomaremos os códigos sobre seleção de dados. Na aula passada, falamos um pouco sobre seleção de colunas. Nesta aula, também veremos como selecionar dados com base em linhas. Além disso, aprenderemos como selecionar um subconjunto de dados a partir de linhas e colunas específicas.

## Importando a biblioteca Pandas e lendo os dados

Vamos usar como exemplo desta o mesmo conjunto de dados da aula anterior ([Bank Marketing](https://archive.ics.uci.edu/dataset/222/bank+marketing))

In [None]:
import pandas as pd

# Bank Marketing

df1 = pd.read_csv("https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Datasets/data_bank_marketing.csv", sep = ';')
df1

# Relembrando: Seleção de colunas

Lembre-se que há basicamente duas formas de seleção de uma única coluna de maneira que os dados resultantes são guardados em uma `Series`. Ambas produzem o mesmo resultado, mas a segunda é recomendada quando o nome da coluna que quer selecionar possui caracteres especiais ou espaços.

Esse tipo de seleção é indicado quando apenas um atributo é interessante para a Análise de Dados em questão (o que dificilmente será o caso).


In [None]:
idade1 = df1.age

print(idade1)

In [None]:
idade2 = df1['age']

print(idade2)

In [None]:
print(type(idade1), type(idade2))

Além dos códigos acima para selecionar uma única coluna, também podemos usar a seguinte estrutura para a mesma tarefa. No entanto, o conjunto de dados resultante é um `DataFrame` ao invés de uma `Series`.

In [None]:
idade3 = df1[['age']]

print(idade3)

In [None]:
print(type(idade3))

Essa diferenciação entre extrair uma `Series` ou uma `DataFrame` é importante pois algumas operações são específicas para `Series`, não sendo portanto aplicáveis às `DataFrames` do Pandas.

In [None]:
# Exemplo: .to_list() é válido apenas para Series

print(idade1.to_list())

In [None]:
print(df1.to_list())

Além de selecionar uma única coluna, podemos também estar interessados em extrair um conjunto de colunas do conjunto de dados. Essa operação é mais utilizada em Análise de Dados, uma vez que procuramos interpretar as informações contidas em vários atributos. Com isso, podemos relacionar os dados, extrair estatísticas e comparar as informações coletadas.

Para isso, usamos os códigos abaixo.

In [None]:
# Nomes das colunas

df1.columns

In [None]:
# Selecionando as colunas

df2 = df1[['age', 'marital', 'loan']]
df2.head()

Veja que, neste caso, quando selecionamos um conjunto de colunas temos como resultado um `DataFrame` ao invés de uma `Series`.

In [None]:
print(type(df2))

# Seleção de linhas

Até agora, vimos apenas como selecionar colunas. Essa tarefa talvez seja bem intuitiva uma vez que essa seleção leva em conta um conjunto de dados que já possui um nome (o nome da coluna).

No entanto, também é muito útil selecionar dados com base valores das linhas. Por exemplo, você poderia estar interessado em analisar apenas os clientes (que estão nas linhas) que possuem 45 anos ou mais. Ou ainda, os clientes que são casados.

Percebam que as linhas não possuem nomes (como no caso das colunas). Então, a seleção com base em linhas necessita de um predicado lógico. Ele é utilizado da seguinte forma:

`df[ condição de seleção ]`

Exemplos:

`df[ nome_coluna == valor ]`, onde `==` indica uma igualdade

`df[ nome_coluna != valor ]`, onde `!=` indica uma diferença

`df[ nome_coluna > valor ]`, onde `!=` indica uma desigualdade

Veja os exemplos abaixo:


In [None]:
# Selecionando clientes com idade de no mínimo 45 anos

df3 = df1[df1.age >= 45]
df3.head()

In [None]:
# Selecionando clientes casados

df4 = df1[df1.marital == 'married']
df4.head()

Note que a quantidade de linhas nesse novo `DataFrame` ao selecionar apenas clientes casados é equivalente à frequência associada à categoria `married` calculada na aula anterior.

In [None]:
# Calculando a frequência de cada categoria

df1.marital.value_counts()

In [None]:
# Selecionando linhas e calculando o número de linhas resultantes

print(len(df1[df1.marital == 'married']))

Ou, ainda, podemos calcular a porcentagem de pessoas casadas nessa base de dados.

In [None]:
# Calculando a porcentagem das pessoas casadas

print(len(df1[df1.marital == 'married'])/len(df1))

# Seleção de linhas e colunas

Na seleção de linhas que acabamos de ver, temos como resultado todas as colunas cujas linhas respeitam uma certa condição. Mas há a opção de selecionarmos um subconjunto de colunas com base em condições sobre as linhas. Esse procedimento resulta em um *Slice* (ou fatia) dos dados. Via de regra, primeiro fazemos a seleção das linhas e, em seguida (mas na mesma linha de código), as colunas. A sintaxe é dessa forma:

df [ condição de seleção ].nome_coluna (o resultado é uma `Series`)

df [ condição de seleção ]['nome_coluna'] (o resultado é uma `Series`)

df [ critério de seleção ][ [lista-de-colunas] ] (o resultado é um `DataFrame`)

Com isso, podemos analisar os dados fragmentando as informações e extraindo resultados específicos para subconjunto de dados.

In [None]:
# Dos clientes maiores de 60 anos, qual foi a duração média das ligações?

print('A duração média das ligações foi de', df1[df1.age > 60].duration.mean())

In [None]:
# Dos clientes de no máximo de 30 anos, qual foi a duração média das ligações?

print('A duração média das ligações foi de', df1[df1.age <= 30].duration.mean())

In [None]:
# Quantos anos tem a pessoa solteira mais velha desse conjunto de dados?

print(df1[df1.marital == 'single'].age.max(), 'anos')

In [None]:
# Quantos anos tem a pessoa casada mais nova desse conjunto de dados?

print(df1[df1.marital == 'married'].age.min(), 'anos')

# Usando condicionais para seleção de linhas e colunas

Também podemos combinar condições de seleção de linhas empregando os operadores lógicos & (AND) ou '|' (OR). Para isso, precisamos incluir parênteses nas seleções, separando cada condicional.

In [None]:
# Selecionado casados que contrataram o pacote oferecido

df5 = df1[(df1.marital == 'married') & (df1.y == 'yes')]
df5

In [None]:
# Selecionado casados ou solteiros que contrataram o pacote oferecido

df6 = df1[(df1.marital == 'married') | (df1.marital == 'single') & (df1.y == 'yes')]
df6

Também podemos usar o operador `.isin()`, para indicar a pertinência de um valor a uma lista.

In [None]:
# Selecionando clientes que contrataram o pacote e possuem um emprego do tipo 'management	' ou 'technician'

df7 = df1[ (df1.y == 'yes') & (df1.job.isin(['management	','technician'])) ]
df7