# 🎯 Aula 1 - Introdução ao Pandas - dados tabulares 🎯<br>


Na aula de hoje veremos com trabalhar com dados tabulares em alto nível, usando a biblioteca [pandas](https://pandas.pydata.org/).

O [Pandas](https://pandas.pydata.org/) é uma das bibliotecas mais usadas em **ciência de dados**.

Esta biblioteca, construída a partir do Numpy, possibilita a estruturação e manipulação de dados de maneira simples e eficiente.

Como os dados são a matéria prima de todo projeto de Data Science, manipulá-los é fundamental! Por isso, utilizaremos o Pandas em quase todas as aulas daqui pra frente!

____
[Guia do pandas](https://pandas.pydata.org/docs/user_guide/index.html#user-guide)

____
Nesta primeira aula, avaliaremos:
- O que são Séries e DataFrames;
- Alguns dos principais métodos para operar com Séries;
- Leitura e gravação de conjuntos de dados com pandas.

____
Até então trabalhamos em análises de dados utilizando listas, dicionários, etc...
Mas pensando em observar dados de tabelas, qual a primeira ferramenta que vem a mente?

Em que situações utilizamos esta ferramenta? E quais suas desvantagens em relação a visualização e manipulação de dados?

# Instalando e importando o Pandas

Primeiro passo para utilizarmos o Pandas (package de manipulação de dados do python). Escreva o comando abaixo no terminal associado ao enviroment do python que estás a usar:

``` sh
pip install pandas
```
<br>
Em seguida, rodamos o comando abaixo no notebook para importar o pandas 

```python
import pandas
```

Caso a etapa anterior não tenha dado certo, surgirá um erro ao importar.

In [None]:
#importar o pandas com alias pd
import pandas as pd

# Séries

Antes de falarmos das potencialidades do *Pandas*, precisamos falar das suas estruturas básicas.

O objeto fundamental do Pandas são as **Series**. As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como numpy arrays!

A diferença é que a série possui um **índice associado as linhas**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos que serão super úteis para nossas análises e manipulações de dados.

## Gerando uma Series
Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`:

In [None]:
#Criando uma lista
lista = [4,6,3,7,25]
lista
# Série a partir de uma lista
# os índices das linhas são automaticamente definidos
serie = pd.Series(lista)

In [None]:
serie

Os números à esquerda são os **índices** da série, e, aqueles à direita, são seus **valores**. Podemos também acessá-los separadamente.

In [None]:
# valores
serie.values

In [None]:
# índices
serie.index

A obtenção de itens de uma Series é muito similar à maneira de como fazemos com listas:

In [None]:
serie[0]

Também podemos realizar slicing nas Series, tal como fazemos nas listas.

## Extra: Operações com séries

Como são gerados como numpy arrays, de modo semelhante, operações com séries são realizadas elemento a elemento. E assim podemos somar, multiplicar, realizar qualquer cálculo com as Series.


In [None]:
# Criando duas Series de listas de mesmo tamanho
series1 = pd.Series(range(1,10))
series2 = pd.Series([0,1,100]*3)

In [None]:
# Operações aritméticas básicas funcionam elemento a elemento
# soma
series1+5

In [None]:
# soma de series
series1+series2

In [None]:
# multiplicacao
serie*5

In [None]:
# multiplicacao
series1 * series2

In [None]:
# Condicionais / verificaçoes
# numeros pares
series1 % 2 == 0

In [None]:
# numeros maiores que 10
series2 > 10

E com dados de formatos diferentes?

In [3]:
s_texto = pd.Series(['a','b','c'])
s_numero = pd.Series([1,2,3])

O que acontecia com strings mutiplicadas por números inteiros mesmo?

In [None]:
# Com strings
print('a'*1)
print('b'*2)
print('c'*3)

O mesmo efeito acontece entre a multiplicação de series entre strings e números

In [None]:
# Mesmo efeito para as séries
s_texto*s_numero

# DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**. <br>
Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela** do excel. <br>

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).
Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum).

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir. Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente.

**Obs.:** As colunas do dataframes são séries. Assim, tudo que vimos para as séries se aplica para cada coluna do DataFrame!

In [8]:
# Gerando uma matriz (5,3) de números inteiros
nrows = 5
ncols = 3
matriz = [[item*r for item in range(1,ncols+1)] for r in range(1,nrows+1)]
matriz

[[1, 2, 3], [2, 4, 6], [3, 6, 9], [4, 8, 12], [5, 10, 15]]

In [None]:
#Transformando essa matriz em um DF
pd.DataFrame(matriz)

In [None]:
# Conseguimos definir nomes pros índices e colunas
df = pd.DataFrame(matriz,
                               index = ['aluno1','aluno2','aluno3','aluno4','aluno5'],
                               columns=['id','nota','aulas_presente'])

In [None]:
df

## Acessando posições do dataframe

- .loc(): acessamos os rótulos com os **nomes** das linhas e colunas;
- .iloc(): acessamos os índices numéricos das linhas e colunas.

In [None]:
# acessar a nota do aluno4
df.loc['aluno4','col2']

In [None]:
# o mesmo acima usando iloc
df.iloc[3,1]

Podemos selecionar uma coluna específica ou colunas específicas do DF.

In [None]:
# uma col
df['aulas_presente']

In [None]:
#multiplas cols
df[['id','aulas_presente']]

In [None]:
# slicing de linhas e cols
df.loc['aluno2':'aluno4','nota':]

In [None]:
# utilizando o iloc
df.iloc[1:4,1:]

Analogamente, podemos usar o `iloc` para obter os mesmos dados utilizando os índices (fica como tarefa para você demonstrar isto).

As colunas do dataframe são séries. Assim, tudo que vimos para as séries, se estende individualmente para cada coluna!

# Outros métodos para DataFrames

Como uma coluna de um DF é uma Série, a maioria dos métodos que veremos para DataFrames também são aplicados as Series.

Veremos 2 que trazem informações sobre nosso DF: `info`() e `dtypes` e `shape`.

## shape

In [None]:
df.shape

## info()

In [None]:
df.info()

também podemos acessar os tipos de dados por coluna separadamente utilizando o `dtypes`

In [None]:
df.dtypes

Podemos ainda, trocar o tipo de alguma variável. Exemplo, trocar uma coluna de inteiro para decimal:

In [None]:
df['col2'] = df['col2'].astype(float)

## head()

In [None]:
#Ver as primeiras 5 linhas
df.head()

In [None]:
# Ver as primeiras 7 linhas
df.head(7)

## tail()

In [None]:
#Ver as últimas 5 linhas (análogo ao `head` pode-se alterar a quantidade de linhas)
df.tail()

# Máscara booleana

A máscara booleana é uma técnica no Pandas para filtrar dados com base em condições. Vamos aprender como criar e usar máscaras booleanas para selecionar partes específicas dos dados.<br>
Utilizaremos ela também em outras funções, como `loc[]`.

Imagine que queiramos filtrar somente os alunos com `nota` maiores que 5 no DataFrame. 

Primeiro aplicamos uma condição na coluna (Series) em que traz somente `True` ou `False`:

In [None]:
mask = df['nota'] > 5

Em seguida aplicamos este resultado no DataFrame. Isto significa que só queremos exibir as linhas em que a condição é satisfeita (também podemos aplicar no `loc` a mesma condição):

In [None]:
df[mask]
df.loc[mask]

Caso o filtro aplicado não seja tão complexo, não há problema escrever a condição da máscara booleana inteira.

```python
df[df['nota'] > 5]
```

# Importando dados

A forma mais comum de se construir um dataframe é a partir da **leitura de um arquivo** (.csv, .xls, .xlsx, .ods, .txt, .json, etc.)

O pandas é capaz de ler todos esses formatos, com funções específicas!

## Arquivos CSV

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

Vamos ler os dados do avaliaçãoes de restaurantes do arquivo `Cuisine_ratings.csv` na pasta `data` e criar um DataFrame:

In [None]:
#import
import pandas as pd

# Lendo um arquivo CSV e criando um DataFrame
df_rating = pd.read_csv('./data/Cuisine_rating.csv')

In [None]:
df_rating

Podemos aplicar todos os métodos vistos anteriormente para analisar o dataset carregado acima. 

## EXTRA: Planilha Excel (XLS ou XLSX)

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html

Vamos criar um dataframe com os dados da Selic vindos de uma planilha de excel `selic.xlsx` na pasta `data`

In [None]:
#pip install openpyxl -- pode ser necessário instalar openpyxl, mas tente rodar o exemplo abaixo primeiro

In [None]:
df_selic = pd.read_excel('./data/selic.xlsx')

In [None]:
df_selic

**Leitura com seleção de planilha**

Podemos também carregar somente uma determinada sheet utilizando o param `sheet_name` na função `read_excel`

In [None]:
df_titanic = pd.read_excel('./data/titanic.xlsx',sheet_name='Sheet1')

In [None]:
df_titanic

___
# Hands-on

Neste Hands-on vamos realizar alguns passos do EDA no step 0 `Reconhecimento dos dados` e alguns insights também.

1. Carregar os dados de avaliações de cozinha `Cuisine_rating.csv`

2. Ver os primeiros 7 dados do topo e do fim do dataset.

3. Exibir todos os possíveis informações do dataset (tamanho, tipos de dados, ...)

4. Filtre o dataframe entre clientes estudantes e profissionais na column `Activity` com as categorias `Student` e `Professional`, respectivamente.<br>
Salve os filtros (máscaras booleanas) em variáveis diferentes.

5. Filtre novamente o DataFrame, porém agora entre clientes casados e solteiros (analise o dataset para descobrir como fazê-lo).<br>
Salve os filtros (máscaras booleanas) em variáveis diferentes.

6. Realize o mesmo que no exer anterior, porém somente com restaurantes indiano, italiano e japonês.
Salve o filtro (máscaras booleanas) em uma variável.

7. Utilizando os filtros salvos em variaveis nos exer 4,5 e 6, filtre o dataset para mostrar somente os clientes profissionais e casados que gostam de restaurantes indiano, italiano e japonês. Não precisa salvar o filtro aplicado.

8. Sobre o dataset filtrado, quantos clientes deram avaliação para a comida mais de 3 estrelas?

In [None]:
9. Compare agora o resultado com a quantidade de clientes que deram avaliação geral mais que 3 estrelas