# Aula 2 - Leitura de dados e Métodos úteis

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 1) Leitura de dados (read_csv, read_excel, read_clipboard)
- 2) Métodos úteis (drop, rename, sort_values, sort_index, reset_index, max, min, mean, median, sum, cumsum, quantile, describe, value_counts, unique, nunique)
- 3) Algumas formas de filtrar os dados
- 4) Salvar dados (to_csv, to_excel, read_clipboard)

______________

### Objetivos

Apresentar as várias formas de como ler e salvar de dados; alguns métodos que nos permitem aprofundar no conhecimento dos nossos dados e como filtrá-los.
______________


### Habilidades a serem desenvolvidas nessa aula

Ao final da aula o aluno deve:

- Saber como ler um arquivo com o pandas (csv, excel, etc.), criando DataFrames;
- Como salvar esses dados
- Deep dive nos dados
- Como filtrar as informações


____
____
____

# Projeto
_____________
_____________
_____________

## Titanic

O arquivo que usaremos hoje é relativo ao Titanic! Essa é uma das bases mais famosas de ciência de dados. Você pode saber mais sobre estes dados [clicando aqui!](https://www.kaggle.com/c/titanic)

## Leitura de dados
[Documentação](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)

| Data | Reader | Writer|
|------|--------|-------|
| CSV	| read_csv | to_csv |
| JSON	| read_json | to_json |
| HTML	| read_html | to_html |
| XML	| read_xml | to_xml |
| Local clipboard |	read_clipboard | to_clipboard
| MS Excel	|read_excel	| to_excel |
| OpenDocument|	read_excel	| |
| HDF5 |	read_hdf |	to_hdf |
| Parquet | read_parquet | to_parquet |
| SAS	|read_sas	| |
| SPSS	|read_spss	| |
| Python Pickle |	read_pickle | to_pickle| 
| SQL	|read_sql|	to_sql |
| Google BigQuery|	read_gbq | to_gbq |


### `.read_csv()`

### `.read_excel()` 
Para ler e salvar os dados em excel é preciso instalar mais uma biblioteca: a `openpyxl`. Caso você não a tenha, escreva o comando seguinte em uma célula de código: <br>
` !pip install openpyxl `
<br>

### `.read_clipboard()`
Nesse caso eu precisei instalar a biblioteca `PyQt5`com `!pip install PyQt5`.

Dê CRTL+C nessa matriz: <br> <br>
  A B C <br>
x 1 4 p <br>
y 2 5 q <br>
z 3 6 r <br>

Agora que temos uma base mais complexa, vamos aproveitar para ver agora algumas outras funcionalidades do Pandas!

## Atributos
Atributos são as propriedades de um objeto, no caso um df.

### `.shape`
Retorna um array com a quantidade de linhas e colunas do df. Esse na verdade é um atributo do df.

### `.size`
Retorna a quantidade de elementos do df. Também pode ser obtido pela multiplicação 
$$df.shape[0]*df.shape[1]$$

### `.columns`
Retorna o nome das colunas e pode ser usado para renomear as colunas

### `.index`
Retorna o index do df

### `.dtypes`

O pandas tenta reconhecer automaticamente os tipos das colunas.

## Métodos
Métodos são as ações que um objeto pode realizar.
O pandas possui alguns métodos para entendermos melhor a estrutura dos dados:

### `.head()` e `.tail()`
`.head()` retorna as primeiras linhas do df e `.tail()` retorna as últimas.

### `.describe()`
`.describe(include='all')` descreve **estatísticas básicas** sobre todas as colunas, inclusive as que são objetos como strings e timestamp. Nesse caso, *top* representará o valor mais comum enquanto *freq* será a frequência em que apareceu esse valor.


Link para a [documentação](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html).

### `.info()`
Fornece a quantidade de valores não nulos, o tipo de cada coluna e uso de memória.

### `.astype()`
Converte o tipo da coluna.


### `.value_counts()`
Traz a contagem de elementos pra cada valor distinto da coluna em que está sendo aplicado.

### `.unique()`
Retorna quem são os valores únicos da sua coluna. Equivalente ao DISTINCT column no SQL

### `nunique()`
Retorna a quantidade de valores únicos da sua coluna. Equivalente ao COUNT (DISTINCT column) no SQL

### `.rename()`
Com esse método é possível renomear tanto o nome das colunas quanto o índice alterando o parâmetro axis. É um dos métodos que aceita o parâmetro `inplace`.

### `.drop()`
Permite deletar linhas ou colunas inteiras dependendo do parâmetro `axis`. É um dos métodos que aceita o parâmetro `inplace`.

### `.sort_values()`
O método é utilizado para ordenar os dados baseado em uma ou mais colunas. Para retornar a ordem reversa utilize o argumento `ascending=True`. É um dos métodos que aceita o parâmetro `inplace`.

Para ordernar colunas distintas em ordens distintas é preciso passar uma lista booleana para o argumento ascending com a mesma quantidade de colunas.

###  `.memory_usage()`
Retorna a quantidade de memória utilizada por cada coluna em bytes.

###  `.set_index()` e `.reset_index()`
Como vimos na aula anterior, o `.set_index()` é utilizado para utilizar uma das colunas do df como index enquanto o `.reset_index()` enumera as linhas de 0 até o tamanho do df -1, convertendo o antigo index em uma coluna.

___________________
___________________
**Exercício:** <br>

a) Dropar as colunas SibSp, Parch, Embarked, Cabin. <br>
b) Deixe o nome das colunas todas em minúsculo e seguindo o padrão da documentação python de deixar palavras separadas por _ . Exemplo: PassengerId -> passenger_id <br>
c) Ordene por idade (decrescente) e nome (crescente)

___________________
___________________

## Filtros

Podemos **fazer filtros** muito facilmente

Basta explicitarmos **condições sobre os valores das colunas**, e utilizar isso como indexador do dataframe!

Se quisermos fazer filtros mais complexos (filtros compostos, em mais de uma coluna), podemos fazer **conjunções entre filtros**, utilizando os **operadores lógicos de conjunção**.

Obs.: temos os seguintes operadores lógicos:

- &     - corresponde ao "and"
- |     - corresponde ao "or"
- ~     - corresponde ao "not"

### Outras formas de filtrar: 
#### `.query()`

#### `.between()`

#### `.isin()`

#### `.str.contains()`

_____________
_____________
**Exercício:** Quantas crianças com menos de 5 anos sobreviveram?

______________
______________

## Salvando dados
Podemos salvar os dados em vários formatos como csv, xlsx, parquet...

#### `.to_csv()`

#### `.to_excel()` 

## Pandas profiling

!pip install pandas-profiling[notebook]

## Exercícios

1. Considere a existência de três tabelas distintas:
* customer.csv : Possui a informação dos clientes em duas colunas: customer id  customer name
* products.csv : Contém informação dos produtos vendidos pela empresa em três colunas - p_id (product id), product (name) e price
* sales.csv : Contém informações das vendas realizadas em seis colunas - sale_id, c_id (customer id), p_id (product_id), qty (quantity sold), store (name)

Conhecendo as bases responda:

a) Quais foram os produtos vendidos? 


b) E os não vendidos?

c) Quais foram as cinco maiores vendas? Salve essas vendas em um arquivo excel.

d) Liste a quantidade vendida de cada produto. Utilize um loop for para isso.

e) Liste a quantidade vendida de cada loja.

f) Liste a quantidade vendida de cada produto por loja.

## Referências
[Leitura de dados](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html) <br>
[Seleção dos dados](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html) <br>
[Lista de atributos e métodos](https://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.DataFrame.html)