# Aula 2 - Leitura de dados e Métodos úteis

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 1) Leitura de dados (read_csv, read_excel, read_clipboard)
- 2) Métodos úteis (drop, rename, sort_values, sort_index, reset_index, max, min, mean, median, sum, cumsum, quantile, describe, value_counts, unique, nunique)
- 3) Algumas formas de filtrar os dados
- 4) Salvar dados (to_csv, to_excel, read_clipboard)

______________

### Objetivos

Apresentar as várias formas de como ler e salvar de dados; alguns métodos que nos permitem aprofundar no conhecimento dos nossos dados e como filtrá-los.
______________


### Habilidades a serem desenvolvidas nessa aula

Ao final da aula o aluno deve:

- Saber como ler um arquivo com o pandas (csv, excel, etc.), criando DataFrames;
- Como salvar esses dados
- Deep dive nos dados
- Como filtrar as informações


____
____
____

# Projeto
_____________
_____________
_____________

## Titanic

O arquivo que usaremos hoje é relativo ao Titanic! Essa é uma das bases mais famosas de ciência de dados. Você pode saber mais sobre estes dados [clicando aqui!](https://www.kaggle.com/c/titanic)

## Leitura de dados
[Documentação](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)

| Data | Reader | Writer|
|------|--------|-------|
| CSV	| read_csv | to_csv |
| JSON	| read_json | to_json |
| HTML	| read_html | to_html |
| XML	| read_xml | to_xml |
| Local clipboard |	read_clipboard | to_clipboard
| MS Excel	|read_excel	| to_excel |
| OpenDocument|	read_excel	| |
| HDF5 |	read_hdf |	to_hdf |
| Parquet | read_parquet | to_parquet |
| SAS	|read_sas	| |
| SPSS	|read_spss	| |
| Python Pickle |	read_pickle | to_pickle| 
| SQL	|read_sql|	to_sql |
| Google BigQuery|	read_gbq | to_gbq |


In [4]:
import pandas as pd

In [5]:
import os

In [6]:
os.getcwd() # acha o caminho que vc tá agora (cwd = current working directory)

'C:\\Users\\Vladimir\\1_notebook_jupyter\\DS_module_4\\Curso_DS_Degree_Vladimir\\Aula 3 - Pandas'

In [8]:
os.listdir() # lista os diretórios da sua pasta

['.ipynb_checkpoints',
 'Aula_1_-_Criação_df_loc_iloc.ipynb',
 'Aula_2_-_Leitura_Filtragem_Dados_Métodos_ùteis.ipynb',
 'concat_exemplo_colunas.png',
 'concat_exemplo_linhas.png',
 'data',
 'groupby.png',
 'join_exemplo.png',
 'melt.png',
 'notas.xlsx',
 'pandas-data-structure.svg',
 'pandas_2_markdown.jpeg',
 'saida_iris.csv',
 'tabela_processada.xlsx',
 'variaveis_categoricas.jpeg']

### `.read_csv()`

In [4]:
# lê dataframe do arquivo ./data/titanic.csv
df = pd.read_csv("./data/titanic.csv")
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


### `.read_excel()` 
Para ler e salvar os dados em excel é preciso instalar mais uma biblioteca: a `openpyxl`. Caso você não a tenha, escreva o comando seguinte em uma célula de código: <br>
` !pip install openpyxl `
<br>

In [11]:
# ./data/titanic.xlsx
df = pd.read_excel("./data/titanic.xlsx")
df


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


### `.read_clipboard()`
Nesse caso eu precisei instalar a biblioteca `PyQt5`com `!pip install PyQt5`.

Dê CRTL+C nessa matriz: <br> <br>
  A B C <br>
x 1 4 p <br>
y 2 5 q <br>
z 3 6 r <br>

In [None]:
df_clipboard = pd.read_clipboard()
df_clipboard

Agora que temos uma base mais complexa, vamos aproveitar para ver agora algumas outras funcionalidades do Pandas!

## Atributos
Atributos são as propriedades de um objeto, no caso um df.

### `.shape`
Retorna um array com a quantidade de linhas e colunas do df. Esse na verdade é um atributo do df.

In [13]:
df.shape

TypeError: 'tuple' object is not callable

In [15]:
df.shape[0] #linhas

891

In [16]:
df.shape[1] #colunas

12

### `.size`
Retorna a quantidade de elementos do df. Também pode ser obtido pela multiplicação 
$$df.shape[0]*df.shape[1]$$

In [17]:
df.size

10692

### `.columns`
Retorna o nome das colunas e pode ser usado para renomear as colunas

In [19]:
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [22]:
df.columns = ['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']

In [21]:
df.columns

Index(['Passenger_Id', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

### `.index`
Retorna o index do df

In [23]:
df.index

RangeIndex(start=0, stop=891, step=1)

### `.dtypes`

In [24]:
df.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

O pandas tenta reconhecer automaticamente os tipos das colunas.

## Métodos
Métodos são as ações que um objeto pode realizar.
O pandas possui alguns métodos para entendermos melhor a estrutura dos dados:

### `.head()` e `.tail()`
`.head()` retorna as primeiras linhas do df e `.tail()` retorna as últimas.

In [25]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [26]:
df.tail(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
881,882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.05,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.125,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


### `.describe()`
`.describe(include='all')` descreve **estatísticas básicas** sobre todas as colunas, inclusive as que são objetos como strings e timestamp. Nesse caso, *top* representará o valor mais comum enquanto *freq* será a frequência em que apareceu esse valor.


Link para a [documentação](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html).

In [27]:
# repare que nesse caso o próprio pandas fez o trabalho de reconhecer quais colunas são as numéricas
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### `.info()`
Fornece a quantidade de valores não nulos, o tipo de cada coluna e uso de memória.

In [28]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### `.astype()`
Converte o tipo da coluna.


In [29]:
df[['Pclass', 'Survived']] = df[['Pclass', 'Survived']].astype('int8')
df.dtypes

PassengerId      int64
Survived          int8
Pclass            int8
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

### `.value_counts()`
Traz a contagem de elementos pra cada valor distinto da coluna em que está sendo aplicado.

In [30]:
# Valores para Pclass
df.Pclass.value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64

### `.unique()`
Retorna quem são os valores únicos da sua coluna. Equivalente ao DISTINCT column no SQL

In [32]:
# Encontrar únicos para coluna Embarked
df.Embarked.unique()

array(['S', 'C', 'Q', nan], dtype=object)

### `nunique()`
Retorna a quantidade de valores únicos da sua coluna. Equivalente ao COUNT (DISTINCT column) no SQL

In [33]:
df.Embarked.nunique()

3

### `.rename()`
Com esse método é possível renomear tanto o nome das colunas quanto o índice alterando o parâmetro axis. É um dos métodos que aceita o parâmetro `inplace`.

In [34]:
# vamos criar uma cópia do df
df_copy = df.copy()
df_copy.rename({'Age':'Idade', 'Name':'Nome'}, axis=1, inplace=True)
df_copy.head()

Unnamed: 0,PassengerId,Survived,Pclass,Nome,Sex,Idade,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### `.drop()`
Permite deletar linhas ou colunas inteiras dependendo do parâmetro `axis`. É um dos métodos que aceita o parâmetro `inplace`.

In [37]:
# drop de colunas
df.drop(['PassengerId', 'SibSp'], axis = 1)

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Parch,Ticket,Fare,Cabin,Embarked
0,0,3,"Braund, Mr. Owen Harris",male,22.0,0,A/5 21171,7.2500,,S
1,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,0,PC 17599,71.2833,C85,C
2,1,3,"Heikkinen, Miss. Laina",female,26.0,0,STON/O2. 3101282,7.9250,,S
3,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,0,113803,53.1000,C123,S
4,0,3,"Allen, Mr. William Henry",male,35.0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...
886,0,2,"Montvila, Rev. Juozas",male,27.0,0,211536,13.0000,,S
887,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,112053,30.0000,B42,S
888,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,2,W./C. 6607,23.4500,,S
889,1,1,"Behr, Mr. Karl Howell",male,26.0,0,111369,30.0000,C148,C


In [38]:
# drop de linhas
df_copy.drop([0,1])

Unnamed: 0,PassengerId,Survived,Pclass,Nome,Sex,Idade,SibSp,Parch,Ticket,Fare,Cabin,Embarked
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


### `.sort_values()`
O método é utilizado para ordenar os dados baseado em uma ou mais colunas. Para retornar a ordem reversa utilize o argumento `ascending=True`. É um dos métodos que aceita o parâmetro `inplace`.

In [41]:
df.sort_values(['Age'], ascending = False)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0000,A23,S
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.7750,,S
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.7500,,Q
...,...,...,...,...,...,...,...,...,...,...,...,...
859,860,0,3,"Razi, Mr. Raihed",male,,0,0,2629,7.2292,,C
863,864,0,3,"Sage, Miss. Dorothy Edith ""Dolly""",female,,8,2,CA. 2343,69.5500,,S
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5000,,S
878,879,0,3,"Laleff, Mr. Kristo",male,,0,0,349217,7.8958,,S


Para ordernar colunas distintas em ordens distintas é preciso passar uma lista booleana para o argumento ascending com a mesma quantidade de colunas.

In [None]:
df.sort_values(['Pclass','Fare'], ascending=[True, False])

###  `.memory_usage()`
Retorna a quantidade de memória utilizada por cada coluna em bytes.

In [None]:
df.memory_usage()

###  `.set_index()` e `.reset_index()`
Como vimos na aula anterior, o `.set_index()` é utilizado para utilizar uma das colunas do df como index enquanto o `.reset_index()` enumera as linhas de 0 até o tamanho do df -1, convertendo o antigo index em uma coluna.

___________________
___________________
**Exercício:** <br>

a) Dropar as colunas SibSp, Parch, Embarked, Cabin. <br>
b) Deixe o nome das colunas todas em minúsculo e seguindo o padrão da documentação python de deixar palavras separadas por _ . Exemplo: PassengerId -> passenger_id <br>
c) Ordene por idade (decrescente) e nome (crescente)

In [44]:
df_copy = df.drop(['SibSp', 'Parch', 'Embarked', 'Cabin'], axis = 1)

In [53]:
df_copy.columns
new_columns = []
for column in df_copy.columns:
    column = column.lower()
    new_columns.append(column)
    
df_copy.columns = new_columns
df_copy

Unnamed: 0,passengerid,survived,pclass,name,sex,age,ticket,fare
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,A/5 21171,7.2500
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,PC 17599,71.2833
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,STON/O2. 3101282,7.9250
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,113803,53.1000
4,5,0,3,"Allen, Mr. William Henry",male,35.0,373450,8.0500
...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,211536,13.0000
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,112053,30.0000
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,W./C. 6607,23.4500
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,111369,30.0000


In [56]:
df_copy.sort_values(['age', 'name'], ascending = [False, True])

Unnamed: 0,passengerid,survived,pclass,name,sex,age,ticket,fare
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,27042,30.0000
851,852,0,3,"Svensson, Mr. Johan",male,74.0,347060,7.7750
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,PC 17609,49.5042
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,PC 17754,34.6542
116,117,0,3,"Connors, Mr. Patrick",male,70.5,370369,7.7500
...,...,...,...,...,...,...,...,...
55,56,1,1,"Woolner, Mr. Hugh",male,,19947,35.5000
354,355,0,3,"Yousif, Mr. Wazli",male,,2647,7.2250
495,496,0,3,"Yousseff, Mr. Gerious",male,,2627,14.4583
240,241,0,3,"Zabour, Miss. Thamine",female,,2665,14.4542


___________________
___________________

## Filtros

Podemos **fazer filtros** muito facilmente

Basta explicitarmos **condições sobre os valores das colunas**, e utilizar isso como indexador do dataframe!

In [None]:
df[df["Fare"] > 260]

Se quisermos fazer filtros mais complexos (filtros compostos, em mais de uma coluna), podemos fazer **conjunções entre filtros**, utilizando os **operadores lógicos de conjunção**.

Obs.: temos os seguintes operadores lógicos:

- &     - corresponde ao "and"
- |     - corresponde ao "or"
- ~     - corresponde ao "not"

In [None]:
# filtar df para Fare >= 230 e Sex == 'female'
df[(df["Fare"] >= 260) & (df["Sex"] == 'female')]

In [None]:
# filtar df para Fare >= 260 e Age < 1
df[(df["Fare"] >= 260) | (df["Age"] < 1)]

In [None]:
# Podemos criar um novo df diretamento do filtro
df_novo = df[(df["Fare"] >= 260) | (df["Age"] < 1)].copy()
df_novo

### Outras formas de filtrar: 
#### `.query()`

In [None]:
df.query('Fare >= 260 and Sex=="female" ')

#### `.between()`

In [6]:
df[df['Fare'].between(100,120)]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
215,216,1,1,"Newell, Miss. Madeleine",female,31.0,1,0,35273,113.275,D36,C
306,307,1,1,"Fleming, Miss. Margaret",female,,0,0,17421,110.8833,,C
307,308,1,1,"Penasco y Castellana, Mrs. Victor de Satode (M...",female,17.0,1,0,PC 17758,108.9,C65,C
390,391,1,1,"Carter, Mr. William Ernest",male,36.0,1,2,113760,120.0,B96 B98,S
393,394,1,1,"Newell, Miss. Marjorie",female,23.0,1,0,35273,113.275,D36,C
435,436,1,1,"Carter, Miss. Lucile Polk",female,14.0,1,2,113760,120.0,B96 B98,S
505,506,0,1,"Penasco y Castellana, Mr. Victor de Satode",male,18.0,1,0,PC 17758,108.9,C65,C
537,538,1,1,"LeRoy, Miss. Bertha",female,30.0,0,0,PC 17761,106.425,,C
544,545,0,1,"Douglas, Mr. Walter Donald",male,50.0,1,0,PC 17761,106.425,C86,C
550,551,1,1,"Thayer, Mr. John Borland Jr",male,17.0,0,2,17421,110.8833,C70,C


#### `.isin()`

In [5]:
df[df['Name'].isin(['Newell, Miss. Madeleine', 'Fleming, Miss. Margaret'])]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
215,216,1,1,"Newell, Miss. Madeleine",female,31.0,1,0,35273,113.275,D36,C
306,307,1,1,"Fleming, Miss. Margaret",female,,0,0,17421,110.8833,,C


In [None]:
df[df['Age'].isin([1,2])]

#### `.str.contains()`

In [7]:
df[df.Name.str.contains('Newell')]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
215,216,1,1,"Newell, Miss. Madeleine",female,31.0,1,0,35273,113.275,D36,C
393,394,1,1,"Newell, Miss. Marjorie",female,23.0,1,0,35273,113.275,D36,C
659,660,0,1,"Newell, Mr. Arthur Webster",male,58.0,0,2,35273,113.275,D48,C


In [None]:
df[df.Name.str.contains('Newell|Fleming')]

_____________
_____________
**Exercício:** Quantas crianças com menos de 5 anos sobreviveram?

______________
______________

## Salvando dados
Podemos salvar os dados em vários formatos como csv, xlsx, parquet...

#### `.to_csv()`

In [58]:
# salvando em csv
df.to_csv('./data/.transformed_titanic.csv', sep = ';', index = False)

#### `.to_excel()` 

In [59]:
# salvando dados em xlsx
df.to_excel('./data/.transformed_titanic.xlsx', index = False)

## Pandas profiling

!pip install pandas-profiling[notebook]

In [72]:
import pandas_profiling as pp
pp.ProfileReport(df, explorative=True)

ModuleNotFoundError: No module named 'pandas_profiling'

## Exercícios

1. Considere a existência de três tabelas distintas:
* customer.csv : Possui a informação dos clientes em duas colunas: customer id  customer name
* products.csv : Contém informação dos produtos vendidos pela empresa em três colunas - p_id (product id), product (name) e price
* sales.csv : Contém informações das vendas realizadas em seis colunas - sale_id, c_id (customer id), p_id (product_id), qty (quantity sold), store (name)

Conhecendo as bases responda:

a) Quais foram os produtos vendidos? 


In [6]:
df_products = pd.read_csv("./data/products.csv")
df_customer = pd.read_csv('./data/customer.csv')
df_sales = pd.read_csv('./data/sales.csv')

In [70]:
df_products['product'].unique()
sold = df_sales['product'].unique()
sold

array(['Monitor', 'CPU', 'RAM'], dtype=object)

b) E os não vendidos?

In [71]:
all_items = df_products['product'].unique()
all_items_list = all_items.tolist()
sold_list = sold.tolist()
not_sold = [item for item in all_items_list if item not in sold_list]
not_sold

['Hard Disk', 'Keyboard', 'Mouse', 'Motherboard', 'Power supply']

c) Quais foram as cinco maiores vendas? Salve essas vendas em um arquivo excel.

In [96]:
df_sales = df_sales.merge(df_products, on='p_id', how = 'left')
# df_sales['total_sold'] = df_sales['qty'] * df_sales['price']
df_sales['total'] = (df_sales['qty'] * df_sales['price'])

df_sales

Unnamed: 0,sale_id,c_id,p_id,product_x,qty,store,product_y,price,total
0,1,2,3,Monitor,2,ABC,Monitor,75,150
1,2,2,4,CPU,1,DEF,CPU,55,55
2,3,1,3,Monitor,3,ABC,Monitor,75,225
3,4,4,2,RAM,2,DEF,RAM,90,180
4,5,2,3,Monitor,3,ABC,Monitor,75,225
5,6,3,3,Monitor,2,DEF,Monitor,75,150
6,7,2,2,RAM,3,ABC,RAM,90,270
7,8,3,2,RAM,2,DEF,RAM,90,180
8,9,2,3,Monitor,2,ABC,Monitor,75,150


In [79]:
df_sales.sort_values(['total'], ascending = False, inplace = True)
top_5 = df_sales.iloc[0:5,:]
top_5.to_excel('./data/.top_5_sold.xlsx', index = False)

d) Liste a quantidade vendida de cada produto. Utilize um loop for para isso.

In [23]:
df_sales

Unnamed: 0,sale_id,c_id,p_id,product,qty,store
0,1,2,3,Monitor,2,ABC
1,2,2,4,CPU,1,DEF
2,3,1,3,Monitor,3,ABC
3,4,4,2,RAM,2,DEF
4,5,2,3,Monitor,3,ABC
5,6,3,3,Monitor,2,DEF
6,7,2,2,RAM,3,ABC
7,8,3,2,RAM,2,DEF
8,9,2,3,Monitor,2,ABC


In [10]:
# df_amount_sold = 
# for i in range df_sales(0,9):
total_sold = {}
for row in range(0,9):
    if str(df_sales.loc[row, ['product']]) not in total_sold.keys():
        total_sold[df_sales.loc[row, ['product']]] = df_sales.loc[row, ['qty']]
    else:
        df_sales.loc[row, ['product']] += df_sales.loc[row, ['qty']]
        
        

TypeError: 'Series' objects are mutable, thus they cannot be hashed

In [22]:
for row in range(0,9):
    print ((df_sales.loc[row, ["product"]]))

TypeError: 'Series' objects are mutable, thus they cannot be hashed

e) Liste a quantidade vendida de cada loja.

True

f) Liste a quantidade vendida de cada produto por loja.

## Referências
[Leitura de dados](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html) <br>
[Seleção dos dados](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html) <br>
[Lista de atributos e métodos](https://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.DataFrame.html)

perguntas

* 'Series' objects are mutable, thus they cannot be hashed
    total_sold = {}
    for row in range(0,9):
        if df_sales.loc[row, ['product']] not in total_sold.keys():
            total_sold[df_sales.loc[row, ['product']]] = df_sales.loc[row, ['qty']]
        else:
            df_sales.loc[row, ['product']] += df_sales.loc[row, ['qty']]
        
    pq isso não funciona e dá esse erro. Os products n são str pq?