# Introdução ao `pandas`

**Objetivo**: Apresentar essa fantástica ferramenta para trabalhar com dados tabulares com a linguagem Python

In [4]:
# !pip3 install numpy
# !pip3 install pandas
# !pip3 install openpyxl

## Entendendo lista e Vetores (Array)

Para trabalhar com dados heterogêneos, podemos usar listas

In [6]:
ary = [1,2,4,5,6, 'a', 3.4]

print(ary)

[1, 2, 4, 5, 6, 'a', 3.4]


Para trabalhar com dados homogêneos e economizar memória, temos o **objeto** array.

In [14]:
from array import array

ary = array('i', [1,2,3,4,5,6])

print(ary)

array('i', [1, 2, 3, 4, 5, 6])


![Diferença entre Lista e Array](../img/listaxarray.png "Lista x Array")

* Arrays são mais performáticos na memória e podem nos dar mais possibilidade de trabalhar com vários dados.

* Já as listas podem ocupar um espaço maior na memória.

In [18]:
from array import array
from sys import getsizeof

lt = list(range(10_000_000))

ary = array('i', lt)

print(getsizeof(lt) / 1024 / 1024, "Mb")
print(getsizeof(ary) / 1024 / 1024 , "Mb")

76.29399871826172 Mb
38.14703369140625 Mb


In [40]:
vetor = [1,2,4,5,6,7]

matriz = [
    [1,2,3,4,5,6,7],
    [7,6,5,4,3,2,1],
    [0,9,8,7,6,5,4]
]

In [42]:
matriz

[[1, 2, 3, 4, 5, 6, 7], [7, 6, 5, 4, 3, 2, 1], [0, 9, 8, 7, 6, 5, 4]]

* Operações algébricas não são suportadas na biblioteca padrão do python

In [45]:
ary = array('i', [1,2,3])
ary = ary * 2
print(ary)

try:
    print(ary / 2)
except TypeError as error:
    print(error)

array('i', [1, 2, 3, 1, 2, 3])
unsupported operand type(s) for /: 'array.array' and 'int'


In [46]:
vetor = [1,2,3]
vetor = vetor * 2
print(vetor)

try:
    print(vetor / 2)
except TypeError as error:
    print(error)

[1, 2, 3, 1, 2, 3]
unsupported operand type(s) for /: 'list' and 'int'


* Para isso usamos o *Numpy*, uma biblioteca para trabalhar com arrays e operações algébricas
- Homgêneo, mutável e algébrico

In [47]:
from numpy import array

ary = array([1,2,4,5,6])

print(ary.dtype)

ary = ary * 2
print(ary)

ary = ary / 3
print(ary)


# além de outras funcionalidades
print(ary.min())
print(ary.max())

int64
[ 2  4  8 10 12]
[0.66666667 1.33333333 2.66666667 3.33333333 4.        ]
0.6666666666666666
4.0


* a mesma operação funciona para matrizes

In [63]:
matriz = array([[1,2,3],
                [4,5,6],
                [7,8,9]])

print(matriz, '\n')

matriz = matriz * 2
print(matriz, '\n')

matriz = matriz.T
print(matriz, '\n')

[[1 2 3]
 [4 5 6]
 [7 8 9]] 

[[ 2  4  6]
 [ 8 10 12]
 [14 16 18]] 

[[ 2  8 14]
 [ 4 10 16]
 [ 6 12 18]] 



In [64]:
# Acessando valores

print(matriz, '\n')

#primeira linha
print(matriz[:, 0], '\n')

#primeira coluna
print(matriz[0, :], '\n')

#dois primeiros valores da primeira linha
print(matriz[0, 0:2], '\n')

#dois primeiros valores da segunda coluna
print(matriz[0:2, 1], '\n')

[[ 2  8 14]
 [ 4 10 16]
 [ 6 12 18]] 

[2 4 6] 

[ 2  8 14] 

[2 8] 

[ 8 10] 



Ta mais e o Pandas?

o Pandas nasce principalmente para resolver problemas de acesso a esses tipos de dados tornando a operação em matriz ou dados tabulares mais fácil.

- Pandas é uma biblioteca que nasce em 2008 criado por *Wes McKinney* enquanto trabalhava como analista quantitativo na AQR Capital Management.
- Se torna de código aberto em 2009.
- É a primeira grande biblioteca a inserir o conceito de DataFrame.
- Escrita em Python, Cython e C.
- Tem como base o Numpy
- Tem integração com os formatos de tabelas de mercado
    - csv
    - excel
    - banco relacionais
    - tipos para big Data (parquet)

<img src="../img/pandas_dtypes.png" height="400" />

In [1]:
import pandas as pd

l = [[1,2,4], [4,5,6], [7,8,9]]

print(l)

df = pd.DataFrame(l, columns=['A', 'B', 'C'])

df

[[1, 2, 4], [4, 5, 6], [7, 8, 9]]


Unnamed: 0,A,B,C
0,1,2,4
1,4,5,6
2,7,8,9


In [4]:
#Acessando primeira coluna
print(df['A'],'\n')

#Acessando primeira linha
print(df.loc[0].values,'\n')

0    1
1    4
2    7
Name: A, dtype: int64 

[1 2 4] 



As tabelas no Pandas são DataFrames, e o que são DataFrames?

- estrutura Homogênea por coluna (dados do mesmo tipo)
- estrutura Heterogênea por linha (dados de tipo diferente)
- Apresentam operações algébricas
- São bi-dimensionais

Toda coluna é uma Série

In [21]:
df = pd.DataFrame([['a', 1, 5.5], ['b', 2, 7.6], ['c', 3, 8.7]], columns=['A', 'B', 'C'])
print(df, '\n')
print(df.dtypes)
print(df.info())

   A  B    C
0  a  1  5.5
1  b  2  7.6
2  c  3  8.7 

A     object
B      int64
C    float64
dtype: object
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       3 non-null      object 
 1   B       3 non-null      int64  
 2   C       3 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 200.0+ bytes
None


In [15]:
df = pd.DataFrame([['a', 1, 'a'], ['b', 2, 7.6], ['c', 3, 8.7]], columns=['A', 'B', 'C'])
print(df, '\n')
print(df.dtypes)

   A  B    C
0  a  1    a
1  b  2  7.6
2  c  3  8.7 

A    object
B     int64
C    object
dtype: object


In [19]:
df['B'] = df['B'].astype('int32')

In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   A       3 non-null      object
 1   B       3 non-null      int32 
 2   C       3 non-null      object
dtypes: int32(1), object(2)
memory usage: 188.0+ bytes


Todo DataFrame pandas é composto por Séries, Séries são os arrays (colunas) que compõem a matriz panda DataFrame.

- A performance do pandas é especialmente ligada ao tipo de estrutura que as séries são compostas
- Séries pandas são similares a hash

In [53]:
# o que é uma estrutura bi-dimensional com index e valores? DICIONÁRIOS

array = {
    'A': 1,
    'B': 2,
    'C': 3,
    'D': 4,
}

array

{'A': 1, 'B': 2, 'C': 3, 'D': 4}

In [54]:
from pandas import Series

s = pandas.Series(array)
s

A    1
B    2
C    3
D    4
dtype: int64

In [55]:
s.describe()

count    4.000000
mean     2.500000
std      1.290994
min      1.000000
25%      1.750000
50%      2.500000
75%      3.250000
max      4.000000
dtype: float64

In [56]:
s

A    1
B    2
C    3
D    4
dtype: int64

In [63]:
import numpy as np

lista = []
for value in range(1,20):
    lista.append(np.random.randint(0,100))


[np.random.randint(0,100) for value in range(1,20)]

[83, 4, 91, 21, 45, 16, 12, 79, 17, 98, 56, 49, 43, 16, 98, 90, 76, 2, 33]

In [64]:
s[lambda x: x >= 3]

C    3
D    4
dtype: int64

In [65]:
df = pd.DataFrame(s)
df

Unnamed: 0,0
A,1
B,2
C,3
D,4


## Dados Tabulares

* Primeira linha: Cabeçalho (*Header*)
* Cada coluna: uma variável
* Cada linha: uma observação
* Cada Tabela/arquivo: um nível de observação

<img src='../img/dados-tabulares.png' width=1000px/>

## Importando Dados no `pandas`

![pandas-io](../img/pandas-io.svg)


| Formato   | Input                 | Output            | Observação                     |
| --------- | --------------------- | ----------------- | ------------------------------ |
| CSV       | `pd.read_csv()`       | `.to_csv()`       | Arquivo Texto CSV, TSV, etc    |
| XLS/XLSX  | `pd.read_excel()`     | `.to_excel()`     | Planilha                       |
| HDF       | `pd.read_hdf()`       | `.to_hdf()`       | HDF5 database                  |
| SQL       | `pd.read_sql()`       | `.to_sql()`       | SQL table                      |
| JSON      | `pd.read_json()`      | `.to_json()`      | JavaScript Object Notation     |
| MSGPACK   | `pd.read_msgpack()`   | `.to_msgpack()`   | Portable binary format         |
| HTML      | `pd.read_html()`      | `.to_html()`      | código HTML                    |
| GBQ       | `pd.read_gbq()`       | `.to_gbq()`       | Google Big Query format        |
| DTA       | `pd.read_stata()`     | `.to_stata()`     | Stata                          |
| Parquet   | `pd.read_parquet()`   | `.to_parquet()`   | Apache Parquet                 |
| Feather   | `pd.read_feather()`   | `.to_feather()`   | Apache Arrow                   |
| Qualquer  | `pd.read_clipboard()` | `.to_clipboard()` | Ex., de pág HTML               |
| Qualquer  | `pd.read_pickle()`    | `.to_pickle()`    | (Structured) Python object     |

## Importando `CSV`

Se atentar com os seguintes argumentos de [`pd.read_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html):

* Caminho (`path`)
* `sep`: `','`, para europeu/brasileiro use `';'`
* `decimal`: `'.'`, para europeu/brasileiro use `','`
* `header`: `pandas` tenta adivinhar
* `index_col`: `None`, mas pode ser uma coluna do arquivo (ex: 2ª coluna use `index_col=2`)
* `names`: `None`, mas pode ser uma lista dos nomes das variáveis (colunas)
* `skip_rows`: `None` (pular linhas)
* `na_values`: `None`, mas pode ser qualquer string (ex: `'NA'`)
* `thousands`: `None` mas pode ser `','` ou `'.'`
* `encoding`
    - `'utf8'`: padrão
    - `'latin1'`: ç à é î ã

## Importando Planilhas `Excel`

Se atentar com os seguintes argumentos de [`pd.read_excel()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html):
* Caminho (`path`)
* `sheet_name`: `0`, mas pode ser qualquer `string` ou `int`
    - `sheet_name=0`: Primeira aba da planilha
    - `sheet_name=2`: Terceira aba da planilha
    - `sheet_name='Plan1'`: Primeira aba da planilha
    - `sheet_name='nome_que_usuário_colocou'`

## Exportando dados

* `CSV`: [`.to_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html)
* `Excel`: [`.to_excel()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html)

# Carregando e explorando Dados



## Titanic

A [Kaggle](https://www.kaggle.com) possui um dataset de Coronavirus. 

Clique [aqui](https://www.kaggle.com/competitions/titanic/data) para saber mais!

In [66]:
df = pd.read_csv('../data/titanic/train.csv', sep=',')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Informações sobre os tipos de dados

In [67]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### Método mais simples e objetivo como no python

In [68]:
df.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

In [69]:
df.shape

(891, 12)

### Inspecionando o DataFrame - método head() somente os cinco primeiros registros e tail() os últimos 5 registros

In [70]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [71]:
df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


## Selecionando e Filtrando

* `DataFrame['Coluna']` = retorna uma *Series*
* `DataFrame[['Coluna']]` = retorna um *DataFrame*
* `DataFrame[['Coluna_1, 'Coluna_2']]` = multíplas Colunas
* `DataFrame.query()`

Tanto para *DataFrame* quanto para *Series*

* `.loc[]` filtro baseado em posição e string
* `.iloc[]` filtro baseado em index
* `.where()` operação bool

In [72]:
# filtrando e retornando uma Series
df['Age']

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64

In [254]:
# filtrando e retornando uma DataFrame
df[['Age']]

Unnamed: 0,Age
0,22.0
1,38.0
2,26.0
3,35.0
4,35.0
...,...
886,27.0
887,19.0
888,
889,26.0


In [88]:
# filtrando e retornando uma Series
df[['Age', 'Sex']]

# df['Age', 'Sex'] # gera um error

Unnamed: 0,Age,Sex
0,22.0,male
1,38.0,female
2,26.0,female
3,35.0,female
4,35.0,male
...,...,...
886,27.0,male
887,19.0,female
888,,female
889,26.0,male


### Utilização do loc, iloc

<img src='../img/locxiloc.png' width=1000px>

In [101]:
# retorna uma Serie baseada em Index
df.loc[1]

# df.index

PassengerId                                                    2
Survived                                                       1
Pclass                                                         1
Name           Cumings, Mrs. John Bradley (Florence Briggs Th...
Sex                                                       female
Age                                                         38.0
SibSp                                                          1
Parch                                                          0
Ticket                                                  PC 17599
Fare                                                     71.2833
Cabin                                                        C85
Embarked                                                       C
Name: 1, dtype: object

In [102]:
df.iloc[1]

PassengerId                                                    2
Survived                                                       1
Pclass                                                         1
Name           Cumings, Mrs. John Bradley (Florence Briggs Th...
Sex                                                       female
Age                                                         38.0
SibSp                                                          1
Parch                                                          0
Ticket                                                  PC 17599
Fare                                                     71.2833
Cabin                                                        C85
Embarked                                                       C
Name: 1, dtype: object

In [105]:
# Slicing
df.iloc[1:4]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S


In [106]:
# Slicing
df.iloc[1:3, 2:5]

Unnamed: 0,Pclass,Name,Sex
1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female
2,3,"Heikkinen, Miss. Laina",female


In [260]:
# Filtrando e Retornando um DataFrame
df[df['Age'] > 30]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...,...
873,874,0,3,"Vander Cruyssen, Mr. Victor",male,47.0,0,0,345765,9.0000,,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
881,882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q


In [261]:
df.where(df.Age > 20, other='NA')


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,,,,,,,,,,,,
888,,,,,,,,,,,,
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C


In [262]:
df.query('Age <= 19')

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
14,15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,,S
16,17,0,3,"Rice, Master. Eugene",male,2.0,4,1,382652,29.1250,,Q
...,...,...,...,...,...,...,...,...,...,...,...,...
855,856,1,3,"Aks, Mrs. Sam (Leah Rosen)",female,18.0,0,1,392091,9.3500,,S
869,870,1,3,"Johnson, Master. Harold Theodor",male,4.0,1,1,347742,11.1333,,S
875,876,1,3,"Najib, Miss. Adele Kiamie ""Jane""",female,15.0,0,0,2667,7.2250,,C
877,878,0,3,"Petroff, Mr. Nedelio",male,19.0,0,0,349212,7.8958,,S


In [263]:
df.query( "Age <= 19 & Sex == 'male'")

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
16,17,0,3,"Rice, Master. Eugene",male,2.0,4,1,382652,29.1250,,Q
27,28,0,1,"Fortune, Mr. Charles Alexander",male,19.0,3,2,19950,263.0000,C23 C25 C27,S
50,51,0,3,"Panula, Master. Juha Niilo",male,7.0,4,1,3101295,39.6875,,S
59,60,0,3,"Goodwin, Master. William Frederick",male,11.0,5,2,CA 2144,46.9000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
841,842,0,2,"Mudd, Mr. Thomas Charles",male,16.0,0,0,S.O./P.P. 3,10.5000,,S
844,845,0,3,"Culumovic, Mr. Jeso",male,17.0,0,0,315090,8.6625,,S
850,851,0,3,"Andersson, Master. Sigvard Harald Elias",male,4.0,4,2,347082,31.2750,,S
869,870,1,3,"Johnson, Master. Harold Theodor",male,4.0,1,1,347742,11.1333,,S


In [264]:
df.loc[(df['Age'] >= 30) & (df['Pclass'] == 3)]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
13,14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.2750,,S
18,19,0,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female,31.0,1,0,345763,18.0000,,S
25,26,1,3,"Asplund, Mrs. Carl Oscar (Selma Augusta Emilia...",female,38.0,1,5,347077,31.3875,,S
40,41,0,3,"Ahlin, Mrs. Johan (Johanna Persdotter Larsson)",female,40.0,1,0,7546,9.4750,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
860,861,0,3,"Hansen, Mr. Claus Peter",male,41.0,2,0,350026,14.1083,,S
873,874,0,3,"Vander Cruyssen, Mr. Victor",male,47.0,0,0,345765,9.0000,,S
881,882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q


In [265]:
# Filtrando e Retornando um DataFrame com .loc

df.loc[(df['Age'].between(10, 20))]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
12,13,0,3,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.0500,,S
14,15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,,S
22,23,1,3,"McGowan, Miss. Anna ""Annie""",female,15.0,0,0,330923,8.0292,,Q
27,28,0,1,"Fortune, Mr. Charles Alexander",male,19.0,3,2,19950,263.0000,C23 C25 C27,S
...,...,...,...,...,...,...,...,...,...,...,...,...
855,856,1,3,"Aks, Mrs. Sam (Leah Rosen)",female,18.0,0,1,392091,9.3500,,S
875,876,1,3,"Najib, Miss. Adele Kiamie ""Jane""",female,15.0,0,0,2667,7.2250,,C
876,877,0,3,"Gustafsson, Mr. Alfred Ossian",male,20.0,0,0,7534,9.8458,,S
877,878,0,3,"Petroff, Mr. Nedelio",male,19.0,0,0,349212,7.8958,,S


In [270]:
df['Adulto'] = df['Age'].apply(lambda x: 1 if x > 18 else 0)
df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Adulto
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,1


In [273]:
df['Sex/Cabin'] = df['Sex'] + '-' + df['Cabin']
df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Adulto,Sex/Cabin
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,1,
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1,female-C85
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,1,


## `pandas` `pd.cut()` e `pd.qcut()`

* `pd.cut()`: ordena valores em *bins* (faixas de valores)
    - `bins=x`: quantidade de faixas de valores desejada 
        * 3: tercis
        * 4: quantis
        * 5: quintis
        * 10: decis

In [276]:
# 4 faixas (Quantis)
pd.cut(df['Age'], bins=4)

0      (20.315, 40.21]
1      (20.315, 40.21]
2      (20.315, 40.21]
3      (20.315, 40.21]
4      (20.315, 40.21]
            ...       
886    (20.315, 40.21]
887     (0.34, 20.315]
888                NaN
889    (20.315, 40.21]
890    (20.315, 40.21]
Name: Age, Length: 891, dtype: category
Categories (4, interval[float64, right]): [(0.34, 20.315] < (20.315, 40.21] < (40.21, 60.105] < (60.105, 80.0]]

In [280]:
df['Age'].quantile([.2, .3 , .4, .5, .6, .9])

0.2    19.0
0.3    22.0
0.4    25.0
0.5    28.0
0.6    31.8
0.9    50.0
Name: Age, dtype: float64

## Convertendo Valores

* `.to_numeric()`
* `.to_datetime()`
* `.astype()`
    - `'bool'`
    - `'int64'`
    - `'float64'`
    - `'str'`
    - `'category'`
* `.replace()`

In [284]:
df['Sex'].replace('male', 'M', inplace=True)
df.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Adulto,Sex/Cabin
0,1,0,3,"Braund, Mr. Owen Harris",M,22.0,1,0,A/5 21171,7.25,,S,1,
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1,female-C85


In [285]:
df['Sex'].replace('female', 'F', inplace=True)
df.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Adulto,Sex/Cabin
0,1,0,3,"Braund, Mr. Owen Harris",M,22.0,1,0,A/5 21171,7.25,,S,1,
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",F,38.0,1,0,PC 17599,71.2833,C85,C,1,female-C85


In [286]:
df['Sex'].unique()

array(['M', 'F'], dtype=object)

In [287]:
df['Sex'].value_counts()

Sex
M    577
F    314
Name: count, dtype: int64

In [306]:
clientes = pd.read_excel('../data/Tabela Clientes.xlsx')
produtos = pd.read_excel('../data/Tabela Produtos.xlsx')
vendas = pd.read_excel('../data/Tabela Vendas.xlsx')

In [311]:
clientes['Data de Nascimento'] = pd.to_datetime(clientes['Data de Nascimento'])
clientes.dtypes

Código do Cliente              int64
Primeiro Nome                 object
Sobrenome                     object
email                         object
Gênero                        object
Num Filhos                     int64
Data de Nascimento    datetime64[ns]
dtype: object

In [314]:
clientes[clientes['Data de Nascimento'] > '1900-01-01']

Unnamed: 0,Código do Cliente,Primeiro Nome,Sobrenome,email,Gênero,Num Filhos,Data de Nascimento
0,1,Adore,Crush,adore10@gmail.com,F,0,1976-01-13
1,2,Pegeen,Sanday,pegeen2@yahoo.com,F,3,1974-10-26
2,3,Brooks,Prahl,brooks4@uol.com,M,2,1978-09-18
3,4,Bethena,Allot,bethena1@yahoo.com,F,4,1950-10-06
4,5,Giordano,Minihan,giordano9@gmail.com,M,0,1969-06-04
...,...,...,...,...,...,...,...
95,96,Konstantine,Drewett,konstantine1@globo.com,M,0,1986-04-18
96,97,Brewer,Brogan,brewer1@yahoo.com,M,4,1994-09-18
97,98,Greg,Merwe,greg3@uol.com,M,0,1949-03-05
98,99,Skipp,Murby,skipp9@hotmail.com,M,0,1966-07-07


In [315]:
clientes[clientes['Data de Nascimento'].between('1994-01-01', '1995-01-01')]

Unnamed: 0,Código do Cliente,Primeiro Nome,Sobrenome,email,Gênero,Num Filhos,Data de Nascimento
9,10,Garvy,Ferrarese,garvy7@gmail.com,M,0,1994-07-28
96,97,Brewer,Brogan,brewer1@yahoo.com,M,4,1994-09-18


In [325]:
clientes['Mes'] = clientes['Data de Nascimento'].dt.month
clientes.head(3)

Unnamed: 0,Código do Cliente,Primeiro Nome,Sobrenome,email,Gênero,Num Filhos,Data de Nascimento,Mes
0,1,Adore,Crush,adore10@gmail.com,F,0,1976-01-13,1
1,2,Pegeen,Sanday,pegeen2@yahoo.com,F,3,1974-10-26,10
2,3,Brooks,Prahl,brooks4@uol.com,M,2,1978-09-18,9


In [326]:
clientes['Dia da semana'] = clientes['Data de Nascimento'].dt.dayofweek
clientes.head(3)

Unnamed: 0,Código do Cliente,Primeiro Nome,Sobrenome,email,Gênero,Num Filhos,Data de Nascimento,Mes,Dia da semana
0,1,Adore,Crush,adore10@gmail.com,F,0,1976-01-13,1,1
1,2,Pegeen,Sanday,pegeen2@yahoo.com,F,3,1974-10-26,10,5
2,3,Brooks,Prahl,brooks4@uol.com,M,2,1978-09-18,9,0


In [330]:
produtos['Custo de compra'].astype(float)

0      59.0
1      77.0
2      72.0
3     123.0
4      92.0
5      23.0
6     115.0
7      62.0
8      73.0
9     152.0
10     77.0
11    102.0
12    136.0
13    129.0
14     12.0
15     56.0
16     28.0
17     69.0
18    152.0
19     22.0
20     95.0
21    104.0
22     72.0
23      5.0
24     43.0
25     47.0
26     40.0
27     72.0
28    102.0
29     95.0
Name: Custo de compra, dtype: float64

In [331]:
produtos['Custo de compra'].astype(str)

0      59
1      77
2      72
3     123
4      92
5      23
6     115
7      62
8      73
9     152
10     77
11    102
12    136
13    129
14     12
15     56
16     28
17     69
18    152
19     22
20     95
21    104
22     72
23      5
24     43
25     47
26     40
27     72
28    102
29     95
Name: Custo de compra, dtype: object

## Ordenando e Rankeando

* `.sort_index()`
* `.sort_values()`: ordena de acordo com uma coluna
* `.rank()`: computa ranks numéricos ($1$ à $n$)

In [333]:
produtos.head(15)

Unnamed: 0,SKU,Tipo,Marca,Custo de compra,Valor de venda,Cor
0,1,Camisa,Reserva,59,143,Verde
1,2,Casaco,Reserva,77,207,Vermelho
2,3,Camiseta,Reserva,72,110,Laranja
3,4,Sandália,Reserva,123,183,Verde
4,5,Boné,Reserva,92,279,Preto
5,6,Meia,Reserva,23,40,Vermelho
6,7,Bota,Reserva,115,267,Preto
7,8,Chinelo,Reserva,62,97,Laranja
8,9,Sapato,Reserva,73,191,Vermelho
9,10,Camisa,Hering,152,220,Azul


In [335]:
produtos.sort_values(by=['Custo de compra'], ascending=False).head(15)

Unnamed: 0,SKU,Tipo,Marca,Custo de compra,Valor de venda,Cor
18,19,Camisa,Osklen,152,277,Verde
9,10,Camisa,Hering,152,220,Azul
12,13,Sandália,Hering,136,283,Azul
13,14,Boné,Hering,129,281,Verde
3,4,Sandália,Reserva,123,183,Verde
6,7,Bota,Reserva,115,267,Preto
21,22,Sandália,Osklen,104,273,Azul
28,29,Camisa,Osklen,102,176,Branco
11,12,Camiseta,Hering,102,176,Azul
20,21,Camiseta,Osklen,95,288,Laranja


## `pandas` - `merge()`

| Opção    | Comportamento                                                                       |
| -------- | ----------------------------------------------------------------------------------- |
| `inner`  | Usa somente as combinações de chaves (*keys*) observadas em ambos *DataFrames*      |
| `left`   | Usa todas as combinações de chaves (*keys*) encontradas no *DataFrames* da esquerda |
| `right`  | Usa todas as combinações de chaves (*keys*) encontradas no *DataFrames* da direita  |
| `output` | Usa todas as combinações de chaves (*keys*) observadas em ambos *DataFrames* juntos |

![pandas-join](http://www.datasciencemadesimple.com/wp-content/uploads/2017/09/join-or-merge-in-python-pandas-1.png)

In [338]:
produtos.head(1)

Unnamed: 0,SKU,Tipo,Marca,Custo de compra,Valor de venda,Cor
0,1,Camisa,Reserva,59,143,Verde


In [339]:
clientes.head(1)

Unnamed: 0,Código do Cliente,Primeiro Nome,Sobrenome,email,Gênero,Num Filhos,Data de Nascimento,Mes,Dia da semana
0,1,Adore,Crush,adore10@gmail.com,F,0,1976-01-13,1,1


In [340]:
vendas.head(1)

Unnamed: 0,SKU,Dia,Loja,Cliente,Quantidade,Forma de Pagamento
0,20,2018-01-01,Brasília,63,5,Cartão de Crédito


In [341]:
vendas = vendas.merge(produtos, how='left', left_on='SKU', right_on='SKU')
vendas.head()

Unnamed: 0,SKU,Dia,Loja,Cliente,Quantidade,Forma de Pagamento,Tipo,Marca,Custo de compra,Valor de venda,Cor
0,20,2018-01-01,Brasília,63,5,Cartão de Crédito,Casaco,Osklen,22,68,Preto
1,12,2018-01-02,Guarulhos,37,1,Dinheiro,Camiseta,Hering,102,176,Azul
2,19,2018-01-01,Brasília,62,1,Dinheiro,Camisa,Osklen,152,277,Verde
3,4,2018-01-04,Brasília,63,2,Cartão de Crédito,Sandália,Reserva,123,183,Verde
4,9,2018-01-01,Curitiba,40,1,Cartão de Débito,Sapato,Reserva,73,191,Vermelho


In [343]:
vendas = vendas.merge(clientes, how='left', left_on='Cliente', right_on='Código do Cliente')
vendas.head()

Unnamed: 0,SKU,Dia,Loja,Cliente,Quantidade,Forma de Pagamento,Tipo,Marca,Custo de compra,Valor de venda,Cor,Código do Cliente,Primeiro Nome,Sobrenome,email,Gênero,Num Filhos,Data de Nascimento,Mes,Dia da semana
0,20,2018-01-01,Brasília,63,5,Cartão de Crédito,Casaco,Osklen,22,68,Preto,63,Emmaline,Doelle,emmaline10@uol.com,F,0,1997-08-28,8,3
1,12,2018-01-02,Guarulhos,37,1,Dinheiro,Camiseta,Hering,102,176,Azul,37,Whittaker,Tattershall,whittaker7@hotmail.com,M,0,1991-12-11,12,2
2,19,2018-01-01,Brasília,62,1,Dinheiro,Camisa,Osklen,152,277,Verde,62,Madison,Labern,madison1@gmail.com,M,0,1981-04-01,4,2
3,4,2018-01-04,Brasília,63,2,Cartão de Crédito,Sandália,Reserva,123,183,Verde,63,Emmaline,Doelle,emmaline10@uol.com,F,0,1997-08-28,8,3
4,9,2018-01-01,Curitiba,40,1,Cartão de Débito,Sapato,Reserva,73,191,Vermelho,40,Analiese,Cracknell,analiese10@gmail.com,F,0,1974-10-06,10,6


In [344]:
vendas.to_csv('../data/vendas_preenchido.csv', sep=';', index=None)

## Pandas Estatísticas Descritivas

* `.min()`: mínimo
* `.max()`: máximo
* `.quantile(q=0.5)`: quantil (padrão `0.5`)
* `.sum()`: soma
* `.mean()`: média
* `.median()`: mediana
* `.mode()`: moda
* `.std()`: desvio padrão
* `.skew()`: assimetria
* `.kurt()`: curtose

In [353]:
print(vendas['Custo de compra'].mean())
print(vendas['Custo de compra'].median())
print(vendas['Custo de compra'].min())
print(vendas['Custo de compra'].max())
print(vendas['Custo de compra'].std())

75.24383561643836
72.0
5
152
38.67235301703499


In [349]:
vendas['Custo de compra'].describe()

count    730.000000
mean      75.243836
std       38.672353
min        5.000000
25%       47.000000
50%       72.000000
75%      102.000000
max      152.000000
Name: Custo de compra, dtype: float64

In [354]:
vendas['Custo de compra'].sum()

54928

## Pandas `.groupby`

*Pão com Manteiga* da análise de dados com pandas. Usado em situações que você quer dividir os dados em grupos e fazer *algo* com esses grupos.

Usa os seguintes argumentos:

* `by`: determina os grupos (chamados de *keys*), pode ser uma coluna específica ou uma lista de colunas
* `axis`: qual a lógica da quebra, `0` para linhas ou `1` para colunas. Padrão é `0`

Retorna um objeto chamado *DataFrameGroupBy* que pode ser usado com os seguintes métodos:

| Nome da Função       | Descrição                            |
| -------------------  | ------------------------------------ |
| `count()`            | Número de valores não-NA             |
| `sum()`              | Soma de valores não-NA               |
| `mean()`             | Média de valores não-NA              |
| `median()`           | Mediana Aritmética de valores não-NA |
| `std()`              | Desvio padrão de valores não-NA      |
| `min()`, `max()`     | Mínimo e Máximo de valores não-NA    |
| `first()`, `last()`  | Primeiro e Último de valores não-NA  |

In [368]:
vendas.groupby('Loja').count()

Unnamed: 0_level_0,SKU,Dia,Cliente,Quantidade,Forma de Pagamento,Tipo,Marca,Custo de compra,Valor de venda,Cor,Código do Cliente,Primeiro Nome,Sobrenome,email,Gênero,Num Filhos,Data de Nascimento,Mes,Dia da semana
Loja,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
Belo Horizonte,101,101,101,101,101,101,101,101,101,101,101,101,101,101,101,101,101,101,101
Brasília,97,97,97,97,97,97,97,97,97,97,97,97,97,97,97,97,97,97,97
Curitiba,96,96,96,96,96,96,96,96,96,96,96,96,96,96,96,96,96,96,96
Guarulhos,80,80,80,80,80,80,80,80,80,80,80,80,80,80,80,80,80,80,80
Nova Iguaçu,90,90,90,90,90,90,90,90,90,90,90,90,90,90,90,90,90,90,90
Rio Grande do Sul,79,79,79,79,79,79,79,79,79,79,79,79,79,79,79,79,79,79,79
Rio de Janeiro,89,89,89,89,89,89,89,89,89,89,89,89,89,89,89,89,89,89,89
São Paulo,98,98,98,98,98,98,98,98,98,98,98,98,98,98,98,98,98,98,98


In [366]:
vendas.groupby('Loja').agg({'Valor de venda': 'sum'})

Unnamed: 0_level_0,Valor de venda
Loja,Unnamed: 1_level_1
Belo Horizonte,17238
Brasília,14929
Curitiba,16738
Guarulhos,12013
Nova Iguaçu,14740
Rio Grande do Sul,11752
Rio de Janeiro,14241
São Paulo,16343


In [370]:
vendas.groupby('Loja').agg({'Custo de compra': 'sum'})

Unnamed: 0_level_0,Custo de compra
Loja,Unnamed: 1_level_1
Belo Horizonte,7977
Brasília,7048
Curitiba,7436
Guarulhos,5675
Nova Iguaçu,7238
Rio Grande do Sul,5441
Rio de Janeiro,6469
São Paulo,7644


In [373]:
vendas.groupby(['Loja', 'Forma de Pagamento']).agg({'Valor de venda': 'sum'})

Unnamed: 0_level_0,Unnamed: 1_level_0,Valor de venda
Loja,Forma de Pagamento,Unnamed: 2_level_1
Belo Horizonte,Boleto,4424
Belo Horizonte,Cartão de Crédito,5567
Belo Horizonte,Cartão de Débito,3201
Belo Horizonte,Dinheiro,4046
Brasília,Boleto,3843
Brasília,Cartão de Crédito,4796
Brasília,Cartão de Débito,3852
Brasília,Dinheiro,2438
Curitiba,Boleto,1906
Curitiba,Cartão de Crédito,5132


In [374]:
vendas.groupby(['Marca']).agg({'Valor de venda': 'sum'})

Unnamed: 0_level_0,Valor de venda
Marca,Unnamed: 1_level_1
Hering,45039
Osklen,35387
Reserva,37568


## Pandas `.corr()`

Traz correlações do *DataFrame* em formato de *DataFrame*. Por padrão exclui os `NaN` e `NA`. O output é um *DataFrame* quadrado $n \times n$ onde $n$ é o número de variáveis/colunas.

In [378]:
vendas[['Quantidade', 'Custo de compra', 'Valor de venda']].corr()

Unnamed: 0,Quantidade,Custo de compra,Valor de venda
Quantidade,1.0,-0.003108,-0.012932
Custo de compra,-0.003108,1.0,0.834551
Valor de venda,-0.012932,0.834551,1.0


## Pandas `pd.pivot_table()`

Retorna um *DataFrame* de uma "tabela dinâmica" (*pivot table*) usando linhas como `index`, colunas como `columns` e valores como `values`. Designa funções de agregação `aggfun` (padrão é `'mean'`):

| Nome da Função   | Descrição                            |
| ---------------  | ------------------------------------ |
| `count`          | Número de valores não-NA             |
| `sum`            | Soma de valores não-NA               |
| `mean`           | Média de valores não-NA              |
| `median`         | Mediana Aritmética de valores não-NA |
| `std`            | Desvio padrão de valores não-NA      |
| `min`, `max`     | Mínimo e Máximo de valores não-NA    |
| `first`, `last`  | Primeiro e Último de valores não-NA  |

Obs: usar `margins=True` para subtotais

### Exemplo único `index`

In [379]:
vendas

Unnamed: 0,SKU,Dia,Loja,Cliente,Quantidade,Forma de Pagamento,Tipo,Marca,Custo de compra,Valor de venda,Cor,Código do Cliente,Primeiro Nome,Sobrenome,email,Gênero,Num Filhos,Data de Nascimento,Mes,Dia da semana
0,20,2018-01-01,Brasília,63,5,Cartão de Crédito,Casaco,Osklen,22,68,Preto,63,Emmaline,Doelle,emmaline10@uol.com,F,0,1997-08-28,8,3
1,12,2018-01-02,Guarulhos,37,1,Dinheiro,Camiseta,Hering,102,176,Azul,37,Whittaker,Tattershall,whittaker7@hotmail.com,M,0,1991-12-11,12,2
2,19,2018-01-01,Brasília,62,1,Dinheiro,Camisa,Osklen,152,277,Verde,62,Madison,Labern,madison1@gmail.com,M,0,1981-04-01,4,2
3,4,2018-01-04,Brasília,63,2,Cartão de Crédito,Sandália,Reserva,123,183,Verde,63,Emmaline,Doelle,emmaline10@uol.com,F,0,1997-08-28,8,3
4,9,2018-01-01,Curitiba,40,1,Cartão de Débito,Sapato,Reserva,73,191,Vermelho,40,Analiese,Cracknell,analiese10@gmail.com,F,0,1974-10-06,10,6
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
725,24,2019-12-27,Nova Iguaçu,92,4,Boleto,Meia,Osklen,5,15,Branco,92,Nye,Wonfor,nye5@globo.com,M,0,1942-03-03,3,1
726,8,2019-12-28,Rio de Janeiro,80,1,Boleto,Chinelo,Reserva,62,97,Laranja,80,Rafaello,Stilldale,rafaello5@globo.com,M,2,1972-10-25,10,2
727,20,2019-12-29,Curitiba,4,1,Cartão de Crédito,Casaco,Osklen,22,68,Preto,4,Bethena,Allot,bethena1@yahoo.com,F,4,1950-10-06,10,4
728,8,2019-12-30,Rio de Janeiro,86,1,Dinheiro,Chinelo,Reserva,62,97,Laranja,86,Hugues,Yardley,hugues9@hotmail.com,M,2,1989-05-18,5,3


In [383]:
pd.pivot_table(vendas,
               values='Valor de venda',
               index='Loja',
               aggfunc='sum',
               margins=True)

Unnamed: 0_level_0,Valor de venda
Loja,Unnamed: 1_level_1
Belo Horizonte,17238
Brasília,14929
Curitiba,16738
Guarulhos,12013
Nova Iguaçu,14740
Rio Grande do Sul,11752
Rio de Janeiro,14241
São Paulo,16343
All,117994


# Atividade

Importar o arquivo `data/mtcars.csv`. É uma base de dados extraída da revista americana sobre carros *Motor Trend US* de 1974. Possui 32 carros(linhas) e 11 características (colunas)

## Características
* `mpg`: Milhas por Galão (consumo)
* `cyl`: Número de cilíndros
* `disp`: Cilindada (em polegada cúbica)
* `hp`: Cavalos de Potência (HP)
* `drat`: Relação do eixo traseiro
* `wt`:	Peso em (1,000 libras)
* `qsec`: Tempo que atinge 400m (1/4 de milha)
* `vs`: Motor (0 = Forma em V, 1 = Reto)
* `am`: Transmissão (0 = Automático, 1 = Manual)
* `gear`: Número de marchas
* `carb`: Número de carburadores

## Importar os dados

Use o `pd.read_csv()` para importar os dados, use o argumento `index_col=0` para que a primeira coluna (modelo) seja os índices do *DataFrame*

In [None]:
import pandas as pd

mtcars = pd.read_csv()

Inspeciona o *DataFrame* com `.info()` e veja se todas as variáveis possuem os valores apropriados. Também verifique se você possui dados faltantes (missing, `NA`, `NaN`).

## Ordenando

Use o `.sort_values()` para ordenar o dataset descrescente em cavalos de potência (`hp`). Se atente ao **descrescente**

Qual o carro com mais HP? Ele está muito mais a frente do segundo colocado?

In [None]:
mtcars.sort_values().head()

## Filtrando

1. Crie um *DataFrame* somente com os carros automáticos e use o `.shape` e veja quantos carros são dentre os 32
2. Crie um *DataFrame* somente com os carros que possuem motor em forma de V e use o `.shape` e veja quantos carros são dentre os 32

In [386]:
# am - Transmissão (0 = Automático, 1 = Manual)



In [387]:
# vs - Motor (0 = Forma em V, 1 = Reto)



## Selecionando aleatoriamente uma amostra do `mtcars`

1. Leia a documentação do [`pd.sample()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html)
2. Use o `.sample()` para selecionar aleatoriamente uma amostra de 10 carros. Se atente ao argumento `replace`.