# üéØ Aula 1 - Introdu√ß√£o ao Pandas - dados tabulares üéØ<br>


Na aula de hoje veremos com trabalhar com dados tabulares em alto n√≠vel, usando a biblioteca [pandas](https://pandas.pydata.org/).

O [Pandas](https://pandas.pydata.org/) √© uma das bibliotecas mais usadas em **ci√™ncia de dados**.

Esta biblioteca, constru√≠da a partir do Numpy, possibilita a estrutura√ß√£o e manipula√ß√£o de dados de maneira simples e eficiente.

Como os dados s√£o a mat√©ria prima de todo projeto de Data Science, manipul√°-los √© fundamental! Por isso, utilizaremos o Pandas em quase todas as aulas daqui pra frente!

____
[Guia do pandas](https://pandas.pydata.org/docs/user_guide/index.html#user-guide)

____
Nesta primeira aula, avaliaremos:
- O que s√£o S√©ries e DataFrames;
- Alguns dos principais m√©todos para operar com S√©ries;
- Leitura e grava√ß√£o de conjuntos de dados com pandas.

____
At√© ent√£o trabalhamos em an√°lises de dados utilizando listas, dicion√°rios, etc...
Mas pensando em observar dados de tabelas, qual a primeira ferramenta que vem a mente?

Em que situa√ß√µes utilizamos esta ferramenta? E quais suas desvantagens em rela√ß√£o a visualiza√ß√£o e manipula√ß√£o de dados?

# Instalando e importando o Pandas

Primeiro passo para utilizarmos o Pandas (package de manipula√ß√£o de dados do python). Escreva o comando abaixo no terminal associado ao enviroment do python que est√°s a usar:

``` sh
pip install pandas
```
<br>
Em seguida, rodamos o comando abaixo no notebook para importar o pandas 

```python
import pandas
```

Caso a etapa anterior n√£o tenha dado certo, surgir√° um erro ao importar.

In [None]:
#importar o pandas com alias pd
import pandas as pd

# S√©ries

Antes de falarmos das potencialidades do *Pandas*, precisamos falar das suas estruturas b√°sicas.

O objeto fundamental do Pandas s√£o as **Series**. As Series s√£o as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como numpy arrays!

A diferen√ßa √© que a s√©rie possui um **√≠ndice associado as linhas**, permitindo o acesso aos conte√∫dos dessa estrutura por ele, como um dicion√°rio.

Al√©m disso, as s√©ries t√™m m√©todos espec√≠ficos que ser√£o super √∫teis para nossas an√°lises e manipula√ß√µes de dados.

## Gerando uma Series
Podemos criar uma s√©rie **a partir de uma lista**, usando a fun√ß√£o do pandas `pd.Series()`:

In [None]:
#Criando uma lista
lista = [4,6,3,7,25]
lista
# S√©rie a partir de uma lista
# os √≠ndices das linhas s√£o automaticamente definidos
serie = pd.Series(lista)

In [None]:
serie

Os n√∫meros √† esquerda s√£o os **√≠ndices** da s√©rie, e, aqueles √† direita, s√£o seus **valores**. Podemos tamb√©m acess√°-los separadamente.

In [None]:
# valores
serie.values

In [None]:
# √≠ndices
serie.index

A obten√ß√£o de itens de uma Series √© muito similar √† maneira de como fazemos com listas:

In [None]:
serie[0]

Tamb√©m podemos realizar slicing nas Series, tal como fazemos nas listas.

## Extra: Opera√ß√µes com s√©ries

Como s√£o gerados como numpy arrays, de modo semelhante, opera√ß√µes com s√©ries s√£o realizadas elemento a elemento. E assim podemos somar, multiplicar, realizar qualquer c√°lculo com as Series.


In [None]:
# Criando duas Series de listas de mesmo tamanho
series1 = pd.Series(range(1,10))
series2 = pd.Series([0,1,100]*3)

In [None]:
# Opera√ß√µes aritm√©ticas b√°sicas funcionam elemento a elemento
# soma
series1+5

In [None]:
# soma de series
series1+series2

In [None]:
# multiplicacao
serie*5

In [None]:
# multiplicacao
series1 * series2

In [None]:
# Condicionais / verifica√ßoes
# numeros pares
series1 % 2 == 0

In [None]:
# numeros maiores que 10
series2 > 10

E com dados de formatos diferentes?

In [3]:
s_texto = pd.Series(['a','b','c'])
s_numero = pd.Series([1,2,3])

O que acontecia com strings mutiplicadas por n√∫meros inteiros mesmo?

In [None]:
# Com strings
print('a'*1)
print('b'*2)
print('c'*3)

O mesmo efeito acontece entre a multiplica√ß√£o de series entre strings e n√∫meros

In [None]:
# Mesmo efeito para as s√©ries
s_texto*s_numero

# DataFrame

Agora que conhecemos as s√©ries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**. <br>
Como veremos a seguir, o DataFrame √© uma estrutura que se assemalha a uma **tabela** do excel. <br>

Estruturalmente, o DataFrame nada mais √© que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo √≠ndice, que ir√£o indexar as linhas).
Veremos depois como **ler um dataframe a partir de um arquivo** (que √© provavelmente a forma mais comum).

H√° muitas formas de construir um DataFrame do zero. Todas elas fazem uso da fun√ß√£o **pd.DataFrame()**, como veremos a seguir. Se quisermos especificar os √≠ndices de linha, o nome das colunas, e os dados, podemos pass√°-los separadamente.

**Obs.:** As colunas do dataframes s√£o s√©ries. Assim, tudo que vimos para as s√©ries se aplica para cada coluna do DataFrame!

In [8]:
# Gerando uma matriz (5,3) de n√∫meros inteiros
nrows = 5
ncols = 3
matriz = [[item*r for item in range(1,ncols+1)] for r in range(1,nrows+1)]
matriz

[[1, 2, 3], [2, 4, 6], [3, 6, 9], [4, 8, 12], [5, 10, 15]]

In [None]:
#Transformando essa matriz em um DF
pd.DataFrame(matriz)

In [None]:
# Conseguimos definir nomes pros √≠ndices e colunas
df = pd.DataFrame(matriz,
                               index = ['aluno1','aluno2','aluno3','aluno4','aluno5'],
                               columns=['id','nota','aulas_presente'])

In [None]:
df

## Acessando posi√ß√µes do dataframe

- .loc(): acessamos os r√≥tulos com os **nomes** das linhas e colunas;
- .iloc(): acessamos os √≠ndices num√©ricos das linhas e colunas.

In [None]:
# acessar a nota do aluno4
df.loc['aluno4','col2']

In [None]:
# o mesmo acima usando iloc
df.iloc[3,1]

Podemos selecionar uma coluna espec√≠fica ou colunas espec√≠ficas do DF.

In [None]:
# uma col
df['aulas_presente']

In [None]:
#multiplas cols
df[['id','aulas_presente']]

In [None]:
# slicing de linhas e cols
df.loc['aluno2':'aluno4','nota':]

In [None]:
# utilizando o iloc
df.iloc[1:4,1:]

Analogamente, podemos usar o `iloc` para obter os mesmos dados utilizando os √≠ndices (fica como tarefa para voc√™ demonstrar isto).

As colunas do dataframe s√£o s√©ries. Assim, tudo que vimos para as s√©ries, se estende individualmente para cada coluna!

# Outros m√©todos para DataFrames

Como uma coluna de um DF √© uma S√©rie, a maioria dos m√©todos que veremos para DataFrames tamb√©m s√£o aplicados as Series.

Veremos 2 que trazem informa√ß√µes sobre nosso DF: `info`() e `dtypes` e `shape`.

## shape

In [None]:
df.shape

## info()

In [None]:
df.info()

tamb√©m podemos acessar os tipos de dados por coluna separadamente utilizando o `dtypes`

In [None]:
df.dtypes

Podemos ainda, trocar o tipo de alguma vari√°vel. Exemplo, trocar uma coluna de inteiro para decimal:

In [None]:
df['col2'] = df['col2'].astype(float)

## head()

In [None]:
#Ver as primeiras 5 linhas
df.head()

In [None]:
# Ver as primeiras 7 linhas
df.head(7)

## tail()

In [None]:
#Ver as √∫ltimas 5 linhas (an√°logo ao `head` pode-se alterar a quantidade de linhas)
df.tail()

# M√°scara booleana

A m√°scara booleana √© uma t√©cnica no Pandas para filtrar dados com base em condi√ß√µes. Vamos aprender como criar e usar m√°scaras booleanas para selecionar partes espec√≠ficas dos dados.<br>
Utilizaremos ela tamb√©m em outras fun√ß√µes, como `loc[]`.

Imagine que queiramos filtrar somente os alunos com `nota` maiores que 5 no DataFrame. 

Primeiro aplicamos uma condi√ß√£o na coluna (Series) em que traz somente `True` ou `False`:

In [None]:
mask = df['nota'] > 5

Em seguida aplicamos este resultado no DataFrame. Isto significa que s√≥ queremos exibir as linhas em que a condi√ß√£o √© satisfeita (tamb√©m podemos aplicar no `loc` a mesma condi√ß√£o):

In [None]:
df[mask]
df.loc[mask]

Caso o filtro aplicado n√£o seja t√£o complexo, n√£o h√° problema escrever a condi√ß√£o da m√°scara booleana inteira.

```python
df[df['nota'] > 5]
```

# Importando dados

A forma mais comum de se construir um dataframe √© a partir da **leitura de um arquivo** (.csv, .xls, .xlsx, .ods, .txt, .json, etc.)

O pandas √© capaz de ler todos esses formatos, com fun√ß√µes espec√≠ficas!

## Arquivos CSV

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

Vamos ler os dados do avalia√ß√£oes de restaurantes do arquivo `Cuisine_ratings.csv` na pasta `data` e criar um DataFrame:

In [None]:
#import
import pandas as pd

# Lendo um arquivo CSV e criando um DataFrame
df_rating = pd.read_csv('./data/Cuisine_rating.csv')

In [None]:
df_rating

Podemos aplicar todos os m√©todos vistos anteriormente para analisar o dataset carregado acima. 

## EXTRA: Planilha Excel (XLS ou XLSX)

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html

Vamos criar um dataframe com os dados da Selic vindos de uma planilha de excel `selic.xlsx` na pasta `data`

In [None]:
#pip install openpyxl -- pode ser necess√°rio instalar openpyxl, mas tente rodar o exemplo abaixo primeiro

In [None]:
df_selic = pd.read_excel('./data/selic.xlsx')

In [None]:
df_selic

**Leitura com sele√ß√£o de planilha**

Podemos tamb√©m carregar somente uma determinada sheet utilizando o param `sheet_name` na fun√ß√£o `read_excel`

In [None]:
df_titanic = pd.read_excel('./data/titanic.xlsx',sheet_name='Sheet1')

In [None]:
df_titanic

___
# Hands-on

Neste Hands-on vamos realizar alguns passos do EDA no step 0 `Reconhecimento dos dados` e alguns insights tamb√©m.

1. Carregar os dados de avalia√ß√µes de cozinha `Cuisine_rating.csv`

2. Ver os primeiros 7 dados do topo e do fim do dataset.

3. Exibir todos os poss√≠veis informa√ß√µes do dataset (tamanho, tipos de dados, ...)

4. Filtre o dataframe entre clientes estudantes e profissionais na column `Activity` com as categorias `Student` e `Professional`, respectivamente.<br>
Salve os filtros (m√°scaras booleanas) em vari√°veis diferentes.

5. Filtre novamente o DataFrame, por√©m agora entre clientes casados e solteiros (analise o dataset para descobrir como faz√™-lo).<br>
Salve os filtros (m√°scaras booleanas) em vari√°veis diferentes.

6. Realize o mesmo que no exer anterior, por√©m somente com restaurantes indiano, italiano e japon√™s.
Salve o filtro (m√°scaras booleanas) em uma vari√°vel.

7. Utilizando os filtros salvos em variaveis nos exer 4,5 e 6, filtre o dataset para mostrar somente os clientes profissionais e casados que gostam de restaurantes indiano, italiano e japon√™s. N√£o precisa salvar o filtro aplicado.

8. Sobre o dataset filtrado, quantos clientes deram avalia√ß√£o para a comida mais de 3 estrelas?

In [None]:
9. Compare agora o resultado com a quantidade de clientes que deram avalia√ß√£o geral mais que 3 estrelas