# Aula 2 - Leitura de dados e Métodos úteis

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 1) Leitura de dados (read_csv, read_excel, read_clipboard)
- 2) Métodos úteis (drop, rename, sort_values, sort_index, reset_index, max, min, mean, median, sum, cumsum, quantile, describe, value_counts, unique, nunique)
- 3) Algumas formas de filtrar os dados
- 4) Salvar dados (to_csv, to_excel, read_clipboard)

______________

### Objetivos

Apresentar as várias formas de como ler e salvar de dados; alguns métodos que nos permitem aprofundar no conhecimento dos nossos dados e como filtrá-los.
______________


### Habilidades a serem desenvolvidas nessa aula

Ao final da aula o aluno deve:

- Saber como ler um arquivo com o pandas (csv, excel, etc.), criando DataFrames;
- Como salvar esses dados
- Deep dive nos dados
- Como filtrar as informações


____
____
____

# Projeto
_____________
_____________
_____________

## Titanic

O arquivo que usaremos hoje é relativo ao Titanic! Essa é uma das bases mais famosas de ciência de dados. Você pode saber mais sobre estes dados [clicando aqui!](https://www.kaggle.com/c/titanic)

## Leitura de dados
[Documentação](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)

| Data | Reader | Writer|
|------|--------|-------|
| CSV	| read_csv | to_csv |
| JSON	| read_json | to_json |
| HTML	| read_html | to_html |
| XML	| read_xml | to_xml |
| Local clipboard |	read_clipboard | to_clipboard
| MS Excel	|read_excel	| to_excel |
| OpenDocument|	read_excel	| |
| HDF5 |	read_hdf |	to_hdf |
| Parquet | read_parquet | to_parquet |
| SAS	|read_sas	| |
| SPSS	|read_spss	| |
| Python Pickle |	read_pickle | to_pickle| 
| SQL	|read_sql|	to_sql |
| Google BigQuery|	read_gbq | to_gbq |


In [1]:
import pandas as pd

### `.read_csv()`

In [None]:
# lê dataframe do arquivo ./data/titanic.csv


### `.read_excel()` 
Para ler e salvar os dados em excel é preciso instalar mais uma biblioteca: a `openpyxl`. Caso você não a tenha, escreva o comando seguinte em uma célula de código: <br>
` !pip install openpyxl `
<br>

In [None]:
# ./data/titanic.xlsx


### `.read_clipboard()`
Nesse caso eu precisei instalar a biblioteca `PyQt5`com `!pip install PyQt5`.

Dê CRTL+C nessa matriz: <br> <br>
  A B C <br>
x 1 4 p <br>
y 2 5 q <br>
z 3 6 r <br>

In [None]:
df_clipboard = pd.read_clipboard()
df_clipboard

Agora que temos uma base mais complexa, vamos aproveitar para ver agora algumas outras funcionalidades do Pandas!

## Atributos
Atributos são as propriedades de um objeto, no caso um df.

### `.shape`
Retorna um array com a quantidade de linhas e colunas do df. Esse na verdade é um atributo do df.

### `.size`
Retorna a quantidade de elementos do df. Também pode ser obtido pela multiplicação 
$$df.shape[0]*df.shape[1]$$

### `.columns`
Retorna o nome das colunas e pode ser usado para renomear as colunas

### `.index`
Retorna o index do df

### `.dtypes`

O pandas tenta reconhecer automaticamente os tipos das colunas.

## Métodos
Métodos são as ações que um objeto pode realizar.
O pandas possui alguns métodos para entendermos melhor a estrutura dos dados:

### `.head()` e `.tail()`
`.head()` retorna as primeiras linhas do df e `.tail()` retorna as últimas.

### `.describe()`
`.describe(include='all')` descreve **estatísticas básicas** sobre todas as colunas, inclusive as que são objetos como strings e timestamp. Nesse caso, *top* representará o valor mais comum enquanto *freq* será a frequência em que apareceu esse valor.


Link para a [documentação](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html).

In [None]:
# repare que nesse caso o próprio pandas fez o trabalho de reconhecer quais colunas são as numéricas


### `.info()`
Fornece a quantidade de valores não nulos, o tipo de cada coluna e uso de memória.

### `.astype()`
Converte o tipo da coluna.


In [None]:
df[['Pclass', 'Survived']] = df[['Pclass', 'Survived']].astype('int8')
df.dtypes

### `.value_counts()`
Traz a contagem de elementos pra cada valor distinto da coluna em que está sendo aplicado.

In [None]:
# Valores para Pclass


### `.unique()`
Retorna quem são os valores únicos da sua coluna. Equivalente ao DISTINCT column no SQL

In [None]:
# Encontrar únicos para coluna Embarked


### `nunique()`
Retorna a quantidade de valores únicos da sua coluna. Equivalente ao COUNT (DISTINCT column) no SQL

### `.rename()`
Com esse método é possível renomear tanto o nome das colunas quanto o índice alterando o parâmetro axis. É um dos métodos que aceita o parâmetro `inplace`.

In [None]:
# vamos criar uma cópia do df
df_copy = df.copy()
df_copy.rename({'Age':'Idade', 'Name':'Nome'}, axis=1, inplace=True)
df_copy.head()

### `.drop()`
Permite deletar linhas ou colunas inteiras dependendo do parâmetro `axis`. É um dos métodos que aceita o parâmetro `inplace`.

In [None]:
# drop de colunas


In [None]:
# drop de linhas
df_copy.drop([0,1])

### `.sort_values()`
O método é utilizado para ordenar os dados baseado em uma ou mais colunas. Para retornar a ordem reversa utilize o argumento `ascending=True`. É um dos métodos que aceita o parâmetro `inplace`.

Para ordernar colunas distintas em ordens distintas é preciso passar uma lista booleana para o argumento ascending com a mesma quantidade de colunas.

In [None]:
df.sort_values(['Pclass','Fare'], ascending=[True, False])

###  `.memory_usage()`
Retorna a quantidade de memória utilizada por cada coluna em bytes.

In [None]:
df.memory_usage()

###  `.set_index()` e `.reset_index()`
Como vimos na aula anterior, o `.set_index()` é utilizado para utilizar uma das colunas do df como index enquanto o `.reset_index()` enumera as linhas de 0 até o tamanho do df -1, convertendo o antigo index em uma coluna.

___________________
___________________
**Exercício:** <br>

a) Dropar as colunas SibSp, Parch, Embarked, Cabin. <br>
b) Deixe o nome das colunas todas em minúsculo e seguindo o padrão da documentação python de deixar palavras separadas por _ . Exemplo: PassengerId -> passenger_id <br>
c) Ordene por idade (decrescente) e nome (crescente)

In [2]:
import pandas as pd
data=pd.read_csv("titanic.csv")
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [2]:
data.drop(["SibSp", "Parch", "Embarked", "Cabin"], axis=1, inplace=True)
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,Ticket,Fare
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,A/5 21171,7.25
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,PC 17599,71.2833
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,STON/O2. 3101282,7.925
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,113803,53.1
4,5,0,3,"Allen, Mr. William Henry",male,35.0,373450,8.05


In [13]:
data.columns=data.columns.str.lower()
data.rename({"passengerid":"passenger_id", "pclass":"p_class"}, axis=1, inplace=True)
data.columns

Index(['passenger_id', 'survived', 'p_class', 'name', 'sex', 'age', 'ticket',
       'fare'],
      dtype='object')

In [15]:
data.sort_values(["age", "name"], ascending=[False, True], inplace=True)
data.head()

Unnamed: 0,passenger_id,survived,p_class,name,sex,age,ticket,fare
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,27042,30.0
851,852,0,3,"Svensson, Mr. Johan",male,74.0,347060,7.775
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,PC 17609,49.5042
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,PC 17754,34.6542
116,117,0,3,"Connors, Mr. Patrick",male,70.5,370369,7.75


___________________
___________________

## Filtros

Podemos **fazer filtros** muito facilmente

Basta explicitarmos **condições sobre os valores das colunas**, e utilizar isso como indexador do dataframe!

In [None]:
df[df["Fare"] > 260]

Se quisermos fazer filtros mais complexos (filtros compostos, em mais de uma coluna), podemos fazer **conjunções entre filtros**, utilizando os **operadores lógicos de conjunção**.

Obs.: temos os seguintes operadores lógicos:

- &     - corresponde ao "and"
- |     - corresponde ao "or"
- ~     - corresponde ao "not"

In [None]:
# filtar df para Fare >= 230 e Sex == 'female'
df[(df["Fare"] >= 260) & (df["Sex"] == 'female')]

In [None]:
# filtar df para Fare >= 260 e Age < 1
df[(df["Fare"] >= 260) | (df["Age"] < 1)]

In [None]:
# Podemos criar um novo df diretamento do filtro
df_novo = df[(df["Fare"] >= 260) | (df["Age"] < 1)].copy()
df_novo

### Outras formas de filtrar: 
#### `.query()`

In [None]:
df.query('Fare >= 260 and Sex=="female" ')

#### `.between()`

In [None]:
df[df['Fare'].between(100,120)]

#### `.isin()`

In [None]:
df[df['Name'].isin(['Newell, Miss. Madeleine', 'Fleming, Miss. Margaret'])]

In [None]:
df[df['Age'].isin([1,2])]

#### `.str.contains()`

In [None]:
df[df.Name.str.contains('Newell')]

In [None]:
df[df.Name.str.contains('Newell|Fleming')]

_____________
_____________
**Exercício:** Quantas crianças com menos de 5 anos sobreviveram?

______________
______________

## Salvando dados
Podemos salvar os dados em vários formatos como csv, xlsx, parquet...

#### `.to_csv()`

In [None]:
# salvando em csv


#### `.to_excel()` 

In [None]:
# salvando dados em xlsx


## Pandas profiling

!pip install pandas-profiling[notebook]

In [None]:
import pandas_profiling as pp
pp.ProfileReport(df, explorative=True)

## Exercícios

1. Considere a existência de três tabelas distintas:
* customer.csv : Possui a informação dos clientes em duas colunas: customer id  customer name
* products.csv : Contém informação dos produtos vendidos pela empresa em três colunas - p_id (product id), product (name) e price
* sales.csv : Contém informações das vendas realizadas em seis colunas - sale_id, c_id (customer id), p_id (product_id), qty (quantity sold), store (name)

Conhecendo as bases responda:

a) Quais foram os produtos vendidos? 


In [3]:
customer=pd.read_csv("customer.csv")
customer.head()

Unnamed: 0,c_id,Customer
0,1,Rabi
1,2,Raju
2,3,Alex
3,4,Rani
4,5,King


In [4]:
products=pd.read_csv("products.csv")
products.head()

Unnamed: 0,p_id,product,price
0,1,Hard Disk,80
1,2,RAM,90
2,3,Monitor,75
3,4,CPU,55
4,5,Keyboard,20


In [5]:
sales=pd.read_csv("sales.csv")
sales.head()

Unnamed: 0,sale_id,c_id,p_id,product,qty,store
0,1,2,3,Monitor,2,ABC
1,2,2,4,CPU,1,DEF
2,3,1,3,Monitor,3,ABC
3,4,4,2,RAM,2,DEF
4,5,2,3,Monitor,3,ABC


In [6]:
import numpy as np
np.unique(sales["product"])

array(['CPU', 'Monitor', 'RAM'], dtype=object)

b) E os não vendidos?

In [7]:
products["product"][~products["product"].isin(sales["product"])]

0       Hard Disk
4        Keyboard
5           Mouse
6     Motherboard
7    Power supply
Name: product, dtype: object

c) Quais foram as cinco maiores vendas? Salve essas vendas em um arquivo excel.

In [16]:
# refazer com merge
unido=customer.merge(sales, how="inner", on="c_id")
unido=unido.merge(products, how="inner", on="p_id")
unido.drop(["product_x"], axis=1, inplace=True)
unido.rename({"product_y":"product"}, axis=1, inplace=True)
unido.head()

Unnamed: 0,c_id,Customer,sale_id,p_id,qty,store,product,price
0,1,Rabi,3,3,3,ABC,Monitor,75
1,2,Raju,1,3,2,ABC,Monitor,75
2,2,Raju,5,3,3,ABC,Monitor,75
3,2,Raju,9,3,2,ABC,Monitor,75
4,3,Alex,6,3,2,DEF,Monitor,75


In [17]:
unido["sale_total"]=unido["qty"]*unido["price"]
unido.sort_values("sale_total", ascending=False)[0:5]

Unnamed: 0,c_id,Customer,sale_id,p_id,qty,store,product,price,sale_total
6,2,Raju,7,2,3,ABC,RAM,90,270
0,1,Rabi,3,3,3,ABC,Monitor,75,225
2,2,Raju,5,3,3,ABC,Monitor,75,225
7,3,Alex,8,2,2,DEF,RAM,90,180
8,4,Rani,4,2,2,DEF,RAM,90,180


d) Liste a quantidade vendida de cada produto. Utilize um loop for para isso.

In [60]:
for p in np.unique(sales["product"]):
    n=sales.loc[sales["product"]==p, "qty"].sum()
    print(f"O produto {p} foi vendido {n} vezes")

O produto CPU foi vendido 1 vezes
O produto Monitor foi vendido 12 vezes
O produto RAM foi vendido 7 vezes


e) Liste a quantidade vendida de cada loja.

In [20]:
unido.groupby("store")["qty"].sum()

store
ABC    13
DEF     7
Name: qty, dtype: int64

f) Liste a quantidade vendida de cada produto por loja.

In [21]:
unido.groupby(["store", "product"])["qty"].sum()

store  product
ABC    Monitor    10
       RAM         3
DEF    CPU         1
       Monitor     2
       RAM         4
Name: qty, dtype: int64

## Referências
[Leitura de dados](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html) <br>
[Seleção dos dados](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html) <br>
[Lista de atributos e métodos](https://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.DataFrame.html)