<a href="https://colab.research.google.com/github/GuilhermePelegrina/Mackenzie/blob/main/Aulas/TIC/Aula_03_Revisao_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/logo_mackenzie.png'>


# **Revisão: Comandos básicos do Pandas**

Nesta aula, revisaremos os principais comandos / funções em Pandas que serão usados nesta disciplina. Esses comandos / funções são muito úteis quando criamos um projeto de Ciência de Dados, ou seja, que são usados tanto para Análise de Dados quanto para Aprendizado de Máquina.

# Importando bibliotecas

In [None]:
import numpy as np # Coleção de funções matemáticas para manipulações algébricas
import pandas as pd # Manipulação de Data Frames
import matplotlib.pyplot as plt # Criação de ferramentas para visualização de dados, como gráficos

## Listas (List)

Lista (**list**) é uma coleção que é **ordenada** e **mutável**. Permite membros **duplicados**. Associada a lista você encontra uma série de métodos que implementam funções úteis para esses objetos.

In [None]:
mylist = ['A', 'B', 'C', 'A', 'B']
print(len(mylist))

cont = mylist.count('B')
print(cont)

mylist.append('D')
print(mylist)

mylist.sort()
print(mylist)

mylist.insert(1,'X')
print(mylist)

mylist[1] = 'ZZ'
print(mylist)

del mylist[0:1]
print(mylist)

In [None]:
mylist = [1,2,7,5,8,7]
print(len(mylist))

cont = mylist.count(7)
print(cont)

mylist.append(2)
print(mylist)

mylist.sort()
print(mylist)

mylist.insert(1,10)
print(mylist)

mylist[1] = 2
print(mylist)

del mylist[0:1]
print(mylist)

## Percorrendo uma lista *

Existem basicamente duas forma de percorrer uma lista.

* **Por índice**, empregue quando precisar do índice (posição) ou alterar os elementos
* **Por iterador**, empregue apenas para recuperar (ler) os elementos

In [None]:
for i in range(len(mylist)):
    print(i, mylist[i])

## Dicionário (Dictionary)

Dicionário (**dictionary**) é uma coleção desordenada, mutável e indexada. Nenhum membro duplicado.

In [None]:
mydict = {'Beatriz':1978, 'Aline':1987, 'Adriana':1984, 'Daniel':1996}
print(mydict.keys())
print(mydict['Adriana'])

## Percorrendo um Dicionário

In [None]:
for item in mydict:
    print(item, mydict[item])

# Pandas

O `Pandas` é uma API (biblioteca) em Python para manipulação e análise de dados orientada a colunas. Ela permite organizar dados em dois tipos de estruturas, Séries e DataFrames, e operar seleções e transformações sobre essas coleções de dados.

Comece vendo um resumo dos comandos Pandas aqui [Pandas Cheat Sheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf).


* **DataFrame**: você pode imaginar como uma tabela de dados relacionais, com linhas e colunas nomeadas, como no Excel ou SQL.
* **Series**: é uma única coluna de dados, e o DataFrame contém um ou mais Series com um nome para cada uma delas.

Você pode ler e gravar dados de diferentes fontes como arquivos .csv, .json, .xlsx e arquivos de bancos de dados sql, Mongo etc.


| Format        | Read           | Save          |
| ------------- |:--------------:| ----------------:|
| csv           | `pd.read_csv()`  |`df.to_csv()`     |
| json          | `pd.read_json()` |`df.to_json()`    |
| xlsx          | `pd.read_excel()`|`df.to_excel()`   |
| hdf           | `pd.read_hdf()`  |`df.to_hdf()`     |
| sql           | `pd.read_sql()`  |`df.to_sql()`     |

Vamos discutir funções e seleção de dados usando como exemplo a base de dados [Bank Marketing](https://archive.ics.uci.edu/dataset/222/bank+marketing).

In [None]:
df = pd.read_csv("https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Datasets/data_bank_marketing.csv", sep = ';')
df.head()

Informações sobre o conjunto de dados:

- age (numeric)
- job : type of job (categorical: "admin.","unknown","unemployed","management","housemaid","entrepreneur","student", "blue-collar","self-employed","retired","technician","services")
- marital : marital status (categorical: "married","divorced","single"; note: "divorced" means divorced or widowed)
- education (categorical: "unknown","secondary","primary","tertiary")
- default: has credit in default? (binary: "yes","no")
- balance: average yearly balance, in euros (numeric)
- housing: has housing loan? (binary: "yes","no")
- loan: has personal loan? (binary: "yes","no")

Related with the last contact of the current campaign:

- contact: contact communication type (categorical: "unknown","telephone",- day: last contact day of the month (numeric)
- month: last contact month of year (categorical: "jan", "feb", "mar", ..., "nov", "dec")
- duration: last contact duration, in seconds (numeric)
   
Other attributes:

- campaign: number of contacts performed during this campaign and for this client (numeric, includes last contact)
- pdays: number of days that passed by after the client was last contacted from a previous campaign (numeric, -1 means client was not previously contacted)
- previous: number of contacts performed before this campaign and for this client (numeric)
- poutcome: outcome of the previous marketing campaign (categorical: "unknown","other","failure","success")

Output variable (desired target):

- y - has the client subscribed a term deposit? (binary: "yes","no")

### Explorando os dados

É importante na primeira análise extrair informações sobre a estrutura dos dados, isto é, verificar o tipo de variáveis, número de linhas, colunas, etc.

In [None]:
# Funções interessantes

#df.head()
#df.tail()
#df.columns
#df.shape
df.info()

A função `describe()` do pandas é uma ferramenta muito útil para obter um resumo estatístico de um DataFrame.

In [None]:
df.describe()

### Seleção de Colunas, Linhas e Linhas e Colunas

<img src="https://pandas.pydata.org/docs/_images/03_subset_columns.svg" width=320, align="center">
<img src="https://pandas.pydata.org/docs/_images/03_subset_rows.svg" width=320, align="center">
<img src="https://pandas.pydata.org/docs/_images/03_subset_columns_rows.svg" width=320, align="center">

**Selecionando colunas**

No pandas, você pode selecionar colunas de um DataFrame de várias maneiras diferentes. Aqui estão as duas formas mais comuns de fazer isso:

In [None]:
# As duas opções retornam o mesmo resultado.
df.age  # Opção 1
df['age'] # Opção 2

**Removendo colunas**

In [None]:
df2 = df.drop('age',axis=1)
df2.head()

Se você quiser calcular estatísticas específicas pode usar as seguintes funções:  `mean()` para a média, `std()` para o desvio padrão, `min()` e `max()` para os valores mínimo e máximo, etc.

In [None]:
# valores descritivos da variável "temp"

print(df.age.max())  # valor máximo
print(df.age.min())  # valor mínimo
print(df.age.mean()) # média
print(df.age.std())  # desvio padrão
print(df.age.quantile()) # Exibe a mediana
print(df.age.quantile([0, 0.25, 0.5, 0.9])) # exibindo diferentes percentis

**Variáveis categóricas (não numéricas)**

Variáveis categóricas são aquelas que representam categorias ou grupos distintos, em vez de valores numéricos contínuos. Elas são comuns em dados que envolvem características não numéricas, como gênero, cor, tipo de animal, estado civil, etc.

In [None]:
est_civil = df.marital.to_list() # Converter marital em uma lista
est_civil.count('married')    # Contar o número de vezes que aparece "married"

In [None]:
# Funções úteis

#df.marital.value_counts() # valores diferentes e suas quantidades
#df.marital.unique()       # Mostra os valores únicos
df.marital.nunique()      # Número de valores únicos

**Selecionando várias colunas**

Para selecionar várias colunas em um DataFrame do pandas, você pode passar uma lista com os nomes das colunas que deseja selecionar. Lembre-se de que, ao selecionar várias colunas, o resultado será um novo DataFrame contendo apenas as colunas selecionadas.

In [None]:
# Selecionando várias colunas

df[["age",	"marital",	"default"]]

In [None]:
# Outras funções úteis

#df.dropna() # Remove missing values
#df.isna()  # Detect missing values
df.nsmallest(5,'age')  # Exibe os n menores valores segundo certa determinada variável

**Selecionando linhas**

Para selecionar linhas em um DataFrame do pandas podemos usar os colchetes com base em critérios específicos:

In [None]:
# Selecionando linhas
df[df.marital=="married"]

Para combinar critérios de seleção você pode empregar os operadores lógicos & (AND), '|' (OR) ou '!' (NOT), sendo necessário a inclusão de parênteses nas seleções.

In [None]:
# Usando AND (%)
df[(df.marital=="married") & (df.age>70)]

In [None]:
# Usando OR (|)

df[(df.marital=='married') | (df.marital=='divorced')]

In [None]:
# Usando NOT (!)

df[(df.marital!="married")]

**Selecionando colunas e linhas**

Podemos selecionar primeiro as linhas (segundo uma condição) e depois selecionar as colunas desejadas.

In [None]:
# Uma única coluna

df[df.marital=="married"].age

In [None]:
# Várias colunas

df[df.marital=="married"][["age","job","education"]]

# Visualização de dados

Além da análise dos dados, também é importante usar métodos para a visualização dos mesmos. Há diversas formas de representar dados graficamente, cada uma com seu objetivo específico. Em Python, temos bibliotecas com funções úteis para a criação de gráficos, como o *mtplotlib*.

In [None]:
# Histograma

plt.hist(df.age, bins=df.age.max()-df.age.min())
plt.title('Histograma', fontsize=14, weight='bold')
plt.show()

In [None]:
# Gráfico de barra

plt.bar(df.marital.unique(),df.marital.value_counts(),color=['c','g','y'],alpha=0.5)
plt.title('Bar plot', fontsize=14, weight='bold')

# **Exercício**

Na construção de um modelo de Aprendizado de Máquina, é comum (e recomendado) gerar dados de treinamento (usados para treinar o modelo) e dados de teste (usados para avaliar o modelo treinado).

Há um comando em Python (dentro da biblioteca do scikit-learn) que faz essa tarefa. Procure e use essa biblioteca para gerar um conjunto de treinamento com 80% dos dados e um conjunto de teste com os 20% dos dados restantes.

Considere o mesmo conjunto de dados usado na aula.

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df.drop('y',axis=1), df.y, test_size=0.20)
print(X_train.shape, X_test.shape)
print(y_train.shape, y_test.shape)
