# 🎯 Aula 1 - Introdução ao Pandas - dados tabulares 🎯<br>


Na aula de hoje veremos com trabalhar com dados tabulares em alto nível, usando a biblioteca [pandas](https://pandas.pydata.org/).

O [Pandas](https://pandas.pydata.org/) é uma das bibliotecas mais usadas em **ciência de dados**.

Esta biblioteca, construída a partir do Numpy, possibilita a estruturação e manipulação de dados de maneira simples e eficiente.

Como os dados são a matéria prima de todo projeto de Data Science, manipulá-los é fundamental! Por isso, utilizaremos o Pandas em quase todas as aulas daqui pra frente!

____
[Guia do pandas](https://pandas.pydata.org/docs/user_guide/index.html#user-guide)

____
Nesta primeira aula, avaliaremos:
- O que são Séries e DataFrames;
- Alguns dos principais métodos para operar com Séries;
- Leitura e gravação de conjuntos de dados com pandas.

____
Até então trabalhamos em análises de dados utilizando listas, dicionários, etc...
Mas pensando em observar dados de tabelas, qual a primeira ferramenta que vem a mente?

Em que situações utilizamos esta ferramenta? E quais suas desvantagens em relação a visualização e manipulação de dados?

# Instalando e importando o Pandas

Primeiro passo para utilizarmos o Pandas (package de manipulação de dados do python). Escreva o comando abaixo no terminal associado ao enviroment do python que estás a usar:

``` sh
pip install pandas
```
<br>
Em seguida, rodamos o comando abaixo no notebook para importar o pandas 

```python
import pandas
```

Caso a etapa anterior não tenha dado certo, surgirá um erro ao importar.

In [34]:
#importar o pandas com alias pd
import pandas as pd

# Séries

Antes de falarmos das potencialidades do *Pandas*, precisamos falar das suas estruturas básicas.

O objeto fundamental do Pandas são as **Series**. As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como numpy arrays!

A diferença é que a série possui um **índice associado as linhas**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos que serão super úteis para nossas análises e manipulações de dados.

## Gerando uma Series
Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`:

In [35]:
#Criando uma lista
lista = [4,6,3,7,25]
lista
# Série a partir de uma lista
# os índices das linhas são automaticamente definidos
serie = pd.Series(lista)

In [36]:
serie

0     4
1     6
2     3
3     7
4    25
dtype: int64

Os números à esquerda são os **índices** da série, e, aqueles à direita, são seus **valores**. Podemos também acessá-los separadamente.

In [37]:
# valores
serie.values

array([ 4,  6,  3,  7, 25], dtype=int64)

In [38]:
# índices
serie.index

RangeIndex(start=0, stop=5, step=1)

A obtenção de itens de uma Series é muito similar à maneira de como fazemos com listas:

In [39]:
serie[0]

4

Também podemos realizar slicing nas Series, tal como fazemos nas listas.

## Extra: Operações com séries

Como são gerados como numpy arrays, de modo semelhante, operações com séries são realizadas elemento a elemento. E assim podemos somar, multiplicar, realizar qualquer cálculo com as Series.


In [40]:
# Criando duas Series de listas de mesmo tamanho
series1 = pd.Series(range(1,10))
series2 = pd.Series([0,1,100]*3)

In [41]:
# Operações aritméticas básicas funcionam elemento a elemento
# soma
series1+5

0     6
1     7
2     8
3     9
4    10
5    11
6    12
7    13
8    14
dtype: int64

In [42]:
# soma de series
series1+series2

0      1
1      3
2    103
3      4
4      6
5    106
6      7
7      9
8    109
dtype: int64

In [43]:
# multiplicacao
serie*5

0     20
1     30
2     15
3     35
4    125
dtype: int64

In [44]:
# multiplicacao
series1 * series2

0      0
1      2
2    300
3      0
4      5
5    600
6      0
7      8
8    900
dtype: int64

In [45]:
# Condicionais / verificaçoes
# numeros pares
series1 % 2 == 0

0    False
1     True
2    False
3     True
4    False
5     True
6    False
7     True
8    False
dtype: bool

In [46]:
# numeros maiores que 10
series2 > 10

0    False
1    False
2     True
3    False
4    False
5     True
6    False
7    False
8     True
dtype: bool

E com dados de formatos diferentes?

In [47]:
s_texto = pd.Series(['a','b','c'])
s_numero = pd.Series([1,2,3])

O que acontecia com strings mutiplicadas por números inteiros mesmo?

In [48]:
# Com strings
print('a'*1)
print('b'*2)
print('c'*3)

a
bb
ccc


O mesmo efeito acontece entre a multiplicação de series entre strings e números

In [49]:
# Mesmo efeito para as séries
s_texto*s_numero

0      a
1     bb
2    ccc
dtype: object

# DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**. <br>
Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela** do excel. <br>

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).
Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum).

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir. Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente.

**Obs.:** As colunas dos DataFrames são Series. Assim, tudo que vimos para as séries se aplica para cada coluna do DataFrame!

In [50]:
# Gerando uma matriz (5,3) de números inteiros
nrows = 5
ncols = 3
matriz = [[item*r for item in range(1,ncols+1)] for r in range(1,nrows+1)]
matriz

[[1, 2, 3], [2, 4, 6], [3, 6, 9], [4, 8, 12], [5, 10, 15]]

In [51]:
#Transformando essa matriz em um DF
pd.DataFrame(matriz)

Unnamed: 0,0,1,2
0,1,2,3
1,2,4,6
2,3,6,9
3,4,8,12
4,5,10,15


In [52]:
# Conseguimos definir nomes pros índices e colunas
df = pd.DataFrame(matriz,
                               index = ['aluno1','aluno2','aluno3','aluno4','aluno5'],
                               columns=['id','nota','aulas_presente'])

In [53]:
df

Unnamed: 0,id,nota,aulas_presente
aluno1,1,2,3
aluno2,2,4,6
aluno3,3,6,9
aluno4,4,8,12
aluno5,5,10,15


## Acessando posições do dataframe

- .loc(): acessamos os rótulos com os **nomes** das linhas e colunas;
- .iloc(): acessamos os índices numéricos das linhas e colunas.

In [55]:
# acessar a nota do aluno4
df.loc['aluno4','nota']

8

In [56]:
# o mesmo acima usando iloc
df.iloc[3,1]

8

Podemos selecionar uma coluna específica ou colunas específicas do DF.

In [57]:
# uma col
df['aulas_presente']

aluno1     3
aluno2     6
aluno3     9
aluno4    12
aluno5    15
Name: aulas_presente, dtype: int64

In [58]:
#multiplas cols
df[['id','aulas_presente']]

Unnamed: 0,id,aulas_presente
aluno1,1,3
aluno2,2,6
aluno3,3,9
aluno4,4,12
aluno5,5,15


In [59]:
# slicing de linhas e cols
df.loc['aluno2':'aluno4','nota':]

Unnamed: 0,nota,aulas_presente
aluno2,4,6
aluno3,6,9
aluno4,8,12


In [60]:
# utilizando o iloc
df.iloc[1:4,1:]

Unnamed: 0,nota,aulas_presente
aluno2,4,6
aluno3,6,9
aluno4,8,12


Analogamente, podemos usar o `iloc` para obter os mesmos dados utilizando os índices (fica como tarefa para você demonstrar isto).

As colunas do dataframe são séries. Assim, tudo que vimos para as séries, se estende individualmente para cada coluna!

# Outros métodos para DataFrames

Como uma coluna de um DF é uma Série, a maioria dos métodos que veremos para DataFrames também são aplicados as Series.

Veremos 2 que trazem informações sobre nosso DF: `info`() e `dtypes` e `shape`.

## shape

In [61]:
df.shape

(5, 3)

## info()

In [62]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, aluno1 to aluno5
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype
---  ------          --------------  -----
 0   id              5 non-null      int64
 1   nota            5 non-null      int64
 2   aulas_presente  5 non-null      int64
dtypes: int64(3)
memory usage: 332.0+ bytes


também podemos acessar os tipos de dados por coluna separadamente utilizando o `dtypes`

In [63]:
df.dtypes

id                int64
nota              int64
aulas_presente    int64
dtype: object

Podemos ainda, trocar o tipo de alguma variável. Exemplo, trocar uma coluna de inteiro para decimal:

In [64]:
df['nota'] = df['nota'].astype(float)

## head()

In [65]:
#Ver as primeiras 5 linhas
df.head()

Unnamed: 0,id,nota,aulas_presente
aluno1,1,2.0,3
aluno2,2,4.0,6
aluno3,3,6.0,9
aluno4,4,8.0,12
aluno5,5,10.0,15


In [66]:
# Ver as primeiras 7 linhas
df.head(7)

Unnamed: 0,id,nota,aulas_presente
aluno1,1,2.0,3
aluno2,2,4.0,6
aluno3,3,6.0,9
aluno4,4,8.0,12
aluno5,5,10.0,15


## tail()

In [67]:
#Ver as últimas 5 linhas (análogo ao `head` pode-se alterar a quantidade de linhas)
df.tail()

Unnamed: 0,id,nota,aulas_presente
aluno1,1,2.0,3
aluno2,2,4.0,6
aluno3,3,6.0,9
aluno4,4,8.0,12
aluno5,5,10.0,15


# Máscara booleana

A máscara booleana é uma técnica no Pandas para filtrar dados com base em condições. Vamos aprender como criar e usar máscaras booleanas para selecionar partes específicas dos dados.<br>
Utilizaremos ela também em outras funções, como `loc[]`.

Imagine que queiramos filtrar somente os alunos com `nota` maiores que 5 no DataFrame. 

Primeiro aplicamos uma condição na coluna (Series) em que traz somente `True` ou `False`:

In [68]:
mask = df['nota'] > 5

Em seguida aplicamos este resultado no DataFrame. Isto significa que só queremos exibir as linhas em que a condição é satisfeita (também podemos aplicar no `loc` a mesma condição):

In [69]:
df[mask]
df.loc[mask]

Unnamed: 0,id,nota,aulas_presente
aluno3,3,6.0,9
aluno4,4,8.0,12
aluno5,5,10.0,15


Caso o filtro aplicado não seja tão complexo, não há problema escrever a condição da máscara booleana inteira.

```python
df[df['nota'] > 5]
```

# Importando dados

A forma mais comum de se construir um dataframe é a partir da **leitura de um arquivo** (.csv, .xls, .xlsx, .ods, .txt, .json, etc.)

O pandas é capaz de ler todos esses formatos, com funções específicas!

## Arquivos CSV

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

Vamos ler os dados do avaliaçãoes de restaurantes de New York do arquivo `Cuisine_ratings.csv` na pasta `data` e criar um DataFrame:

In [70]:
#import
import pandas as pd

# Lendo um arquivo CSV e criando um DataFrame
df_rating = pd.read_csv('./data/Cuisine_rating.csv')

In [71]:
df_rating

Unnamed: 0,User ID,Area code,Location,Gender,YOB,Marital Status,Activity,Budget,Cuisines,Alcohol,Smoker,Food Rating,Service Rating,Overall Rating,Often A S
0,1,153,"Upper East Side,NY",Female,2006,Single,Professional,3,Japanese,Never,Never,5,4,4.5,No
1,2,123,"St. George,NY",Female,1991,Married,Student,3,Indian,Never,Socially,1,1,1.0,No
2,3,122,"Upper West Side,NY",Male,1977,Single,Student,5,Seafood,Often,Often,5,5,5.0,Yes
3,4,153,"Upper East Side,NY",Female,1956,Married,Professional,5,Japanese,Never,Socially,3,1,2.0,No
4,5,129,"Central Park,NY",Male,1997,Single,Student,4,Filipino,Socially,Never,2,4,3.0,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
195,196,175,"St. George,NY",Female,1982,Single,Professional,4,French,Never,Socially,1,2,1.5,No
196,197,170,"Upper West Side,NY",Female,2000,Married,Student,4,Chinese,Never,Often,1,2,1.5,No
197,198,160,"St. George,NY",Female,2006,Single,Professional,5,Japanese,Never,Often,5,2,3.5,No
198,199,130,"St. George,NY",Male,2002,Married,Student,3,Filipino,Never,Socially,3,2,2.5,No


Podemos aplicar todos os métodos vistos anteriormente para analisar o dataset carregado acima. 

## EXTRA: Planilha Excel (XLS ou XLSX)

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html

Vamos criar um dataframe com os dados da Selic vindos de uma planilha de excel `selic.xlsx` na pasta `data`

In [None]:
#pip install openpyxl -- pode ser necessário instalar openpyxl, mas tente rodar o exemplo abaixo primeiro

In [72]:
df_selic = pd.read_excel('./data/selic.xlsx')

In [73]:
df_selic

Unnamed: 0.1,Unnamed: 0,data,valor
0,0,01/06/1986,1.27
1,1,01/07/1986,1.95
2,2,01/08/1986,2.57
3,3,01/09/1986,2.94
4,4,01/10/1986,1.96
...,...,...,...
446,446,01/08/2023,1.14
447,447,01/09/2023,0.97
448,448,01/10/2023,1.00
449,449,01/11/2023,0.92


**Leitura com seleção de planilha**

Podemos também carregar somente uma determinada sheet utilizando o param `sheet_name` na função `read_excel`

In [74]:
df_titanic = pd.read_excel('./data/titanic.xlsx',sheet_name='Sheet1')

In [75]:
df_titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0.0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1.0,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1.0,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1.0,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0.0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
1304,1305,,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
1305,1306,,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C
1306,1307,,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
1307,1308,,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


___
# Hands-on

Neste Hands-on vamos realizar alguns passos do EDA no step 0 `Reconhecimento dos dados` e alguns insights também.

1. Carregar os dados de pedidos de empréstimos pessoais `Projectdata_Bank_Personal_Loan_Modelling.csv`

In [76]:
import pandas as pd
df_loan = pd.read_csv('./data/Projectdata_Bank_Personal_Loan_Modelling.csv')

2. Ver os primeiros 7 dados do topo e do fim do dataset.

In [77]:
df_loan.head(7)

Unnamed: 0,ID,Age,Experience,Income,ZIP Code,Family,CCAvg,Education,Mortgage,Personal Loan,Securities Account,CD Account,Online,CreditCard
0,1,25,1,49,91107,4,1.6,1.0,0,0,1,0,0.0,0
1,2,45,19,34,90089,3,1.5,1.0,0,0,1,0,0.0,0
2,3,39,15,11,94720,1,1.0,1.0,0,0,0,0,0.0,0
3,4,35,9,100,94112,1,2.7,2.0,0,0,0,0,0.0,0
4,5,35,8,45,91330,4,1.0,2.0,0,0,0,0,0.0,1
5,6,37,13,29,92121,4,0.4,2.0,155,0,0,0,1.0,0
6,7,53,27,72,91711,2,1.5,2.0,0,0,0,0,1.0,0


3. Exibir todas as possíveis informações basicas do dataset (tamanho, tipos de dados, ...)

In [78]:
# info
df_loan.info()
# describe
df_loan.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5178 entries, 0 to 5177
Data columns (total 14 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   ID                  5178 non-null   int64  
 1   Age                 5178 non-null   int64  
 2   Experience          5178 non-null   int64  
 3   Income              5178 non-null   int64  
 4   ZIP Code            5178 non-null   int64  
 5   Family              5178 non-null   int64  
 6   CCAvg               5178 non-null   float64
 7   Education           5138 non-null   float64
 8   Mortgage            5178 non-null   int64  
 9   Personal Loan       5178 non-null   int64  
 10  Securities Account  5178 non-null   int64  
 11  CD Account          5178 non-null   int64  
 12  Online              5129 non-null   float64
 13  CreditCard          5178 non-null   int64  
dtypes: float64(3), int64(11)
memory usage: 566.5 KB


Unnamed: 0,ID,Age,Experience,Income,ZIP Code,Family,CCAvg,Education,Mortgage,Personal Loan,Securities Account,CD Account,Online,CreditCard
count,5178.0,5178.0,5178.0,5178.0,5178.0,5178.0,5178.0,5138.0,5178.0,5178.0,5178.0,5178.0,5129.0,5178.0
mean,2501.99382,45.296253,20.062186,73.653341,93148.713017,2.394361,1.932837,1.881082,56.74102,0.096176,0.104867,0.059482,0.594463,0.294129
std,1444.527705,11.448312,11.456867,46.011838,2111.707635,1.145804,1.749178,0.839499,101.9035,0.294861,0.306411,0.236548,0.491044,0.455694
min,1.0,23.0,-3.0,8.0,9307.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,1250.25,35.0,10.0,39.0,91910.0,1.0,0.7,1.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,2506.5,45.0,20.0,64.0,93407.0,2.0,1.5,2.0,0.0,0.0,0.0,0.0,1.0,0.0
75%,3754.75,55.0,30.0,98.0,94608.0,3.0,2.5,3.0,101.0,0.0,0.0,0.0,1.0,1.0
max,5000.0,67.0,43.0,224.0,96651.0,4.0,10.0,3.0,635.0,1.0,1.0,1.0,1.0,1.0


4. Filtre o dataframe entre clientes que possuem e não possuem CDB na column `CD Account` com as categorias `1` e `0`, respectivamente.<br>
Salve os filtros (máscaras booleanas) em variáveis diferentes.

In [79]:
mask_noCDB = df_loan['CD Account']==0
mask_hasCDB = df_loan['CD Account']==1

5. Filtre novamente o DataFrame, porém agora entre clientes que são solteiros e que possuem mais de um mebro na família (analise o dataset para descobrir como fazê-lo).<br>
Salve os filtros (máscaras booleanas) em variáveis diferentes.

In [80]:
mask_single = df_loan['Family']==1
mask_family_more_than_1 = df_loan['Family']>1

6. Realize o mesmo que no exer anterior, porém somente com a Educação dos clientes.
Salve o filtro (máscaras booleanas) em uma variável.

In [81]:
mask_graduation = df_loan['Education']=1
mask_postgraduation = df_loan['Education']=2
mask_professional = df_loan['Education']=3

7. Utilizando os filtros salvos em variaveis nos exer 4,5 e 6, filtre o dataset para mostrar somente os clientes profissionais que não possuem CDB e que são solteiros. Não é preciso salvar o filtro aplicado.

In [82]:
df_filtrado = df_loan[mask_professional & mask_noCDB & mask_single]

8. Sobre o dataset filtrado, quantos clientes utilizam serviços digitais (online)?

In [83]:
df_filtrado[df_filtrado['Online']==1]

Unnamed: 0,ID,Age,Experience,Income,ZIP Code,Family,CCAvg,Education,Mortgage,Personal Loan,Securities Account,CD Account,Online,CreditCard
15,16,60,30,22,95054,1,1.50,3,0,0,0,0,1.0,1
22,23,29,5,62,90277,1,1.20,3,260,0,0,0,1.0,0
27,28,46,20,158,90064,1,2.40,3,0,0,0,0,1.0,1
28,29,56,30,48,94539,1,2.20,3,0,0,0,0,1.0,1
30,31,59,35,35,93106,1,1.20,3,122,0,0,0,1.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5135,4590,31,7,13,93727,1,0.50,3,0,0,0,0,1.0,0
5142,4727,34,10,38,95039,1,1.33,3,0,0,1,0,1.0,0
5145,2860,35,11,188,94596,1,0.90,3,282,1,0,0,1.0,0
5152,979,52,26,68,92068,1,0.80,3,0,0,0,0,1.0,1


9. Filtre sobre o resultado anterior somente os clientes que aceitaram o empréstimo oferecido. Quantos clientes foram filtrados em relação ao total? O que se pode notar com o resultado obtido sobre os tipos de cliente?

In [84]:
df_filtrado[(df_filtrado['Online']==1) & (df_filtrado['Personal Loan']==1)]

Unnamed: 0,ID,Age,Experience,Income,ZIP Code,Family,CCAvg,Education,Mortgage,Personal Loan,Securities Account,CD Account,Online,CreditCard
316,317,57,31,165,95054,1,1.6,3,0,1,0,0,1.0,0
365,366,57,32,174,90089,1,6.8,3,466,1,0,0,1.0,0
442,443,58,28,122,95136,1,3.0,3,115,1,0,0,1.0,0
473,474,64,39,182,93955,1,1.2,3,547,1,0,0,1.0,0
537,538,44,20,131,90717,1,4.9,3,0,1,0,0,1.0,0
596,597,48,22,152,94022,1,3.5,3,0,1,0,0,1.0,0
681,682,34,9,164,94720,1,6.0,3,0,1,0,0,1.0,0
813,814,50,25,130,94720,1,1.1,3,0,1,0,0,1.0,0
940,941,61,36,193,94303,1,4.7,3,203,1,0,0,1.0,0
1022,1023,27,3,118,95605,1,3.3,3,0,1,0,0,1.0,0
