# Introdução ao Python - Capítulo 6 - Pandas
<br>

[**Pandas**](https://pandas.pydata.org/) é uma ferramenta de manipulação de dados de alto nível, construída com base no pacote **NumPy**. O pacote Pandas possui estruturas de dados bastante interessantes (_Seires_ e *DataFrames*) para manipulação de dados e por isso é muito utilizado por cientistas de dados.

---
<br>

### Índice<a id='indice'></a>
1 - [Estruturas de dados](#1)<br>
2 - [Seleções com DataFrames](#2)<br>
3 - [Queries com DataFrames](#3)<br>
4 - [Iterando com DataFrames](#4)<br>
5 - [Tratamento de dados](#5)<br>
<br>

In [7]:
!python --version

Python 3.7.3


## 1. Estruturas de dados<a id='1'></a>
### 1.1. Series
Series são _arrays_ unidimensionais rotulados capazes de armazenar qualquer tipo de dado. Os rótulos das linhas são chamados de _**index**_. A forma básica de criação de uma Series é a seguinte:
```
s = pd.Series(dados, index = index)
```
O argumento _dados_ pode ser um dicionário, uma lista, um _array_ NumPy ou uma constante.

#### 1.1.1. Criando uma Series a partir de uma lista

In [2]:
import pandas as pd

In [4]:
carros = ['Gol 1.0', 'Palio 1.4', 'Fiesta 1.6']
print(type(carros), carros)

<class 'list'> ['Gol 1.0', 'Palio 1.4', 'Fiesta 1.6']


In [8]:
s = pd.Series(carros)
print('{}\n{}'.format(type(s), s))

<class 'pandas.core.series.Series'>
0       Gol 1.0
1     Palio 1.4
2    Fiesta 1.6
dtype: object


### 1.2. DataFrames
DataFrame é uma estrutura de dados tabular bidimensional com rótulos nas linhas e colunas. Como Series, os DataFrames são capzes de armazenar qualquer tipo de dados.
```
df = pd.DataFrame(dados, index = index, columns = columns)
```
O argumento _dados_ pode ser um dicionário, uma lista, um _array_ NumPy, uma Series ou outro DataFrame.

#### 1.2.1. Criando um DataFrame a partir de uma lista de dicionários

In [11]:
dados = [
    {'Nome': 'Gol', 'Motor': '1.0 Turbo', 'Ano': 1993, 'Quilometragem': 44410.0, 'Zero_km': False, 'Valor': 88078.64},
    {'Nome': 'Palio', 'Motor': 'Diesel', 'Ano': 1991, 'Quilometragem': 5712.0, 'Zero_km': False, 'Valor': 106161.94},
    {'Nome': 'Fiesta', 'Motor': 'Diesel V8', 'Ano': 1990, 'Quilometragem': 37123.0, 'Zero_km': False, 'Valor': 72832.16}
]
print('{}\n{}'.format(type(dados), dados))

<class 'list'>
[{'Nome': 'Gol', 'Motor': '1.0 Turbo', 'Ano': 1993, 'Quilometragem': 44410.0, 'Zero_km': False, 'Valor': 88078.64}, {'Nome': 'Palio', 'Motor': 'Diesel', 'Ano': 1991, 'Quilometragem': 5712.0, 'Zero_km': False, 'Valor': 106161.94}, {'Nome': 'Fiesta', 'Motor': 'Diesel V8', 'Ano': 1990, 'Quilometragem': 37123.0, 'Zero_km': False, 'Valor': 72832.16}]


In [17]:
df = pd.DataFrame(dados)
print('{}\n{}'.format(type(df), df))

<class 'pandas.core.frame.DataFrame'>
    Ano      Motor    Nome  Quilometragem      Valor  Zero_km
0  1993  1.0 Turbo     Gol        44410.0   88078.64    False
1  1991     Diesel   Palio         5712.0  106161.94    False
2  1990  Diesel V8  Fiesta        37123.0   72832.16    False


In [19]:
# é possível alterar a ordem em que as colunas são apresentadas
df[['Ano', 'Nome', 'Motor', 'Zero_km', 'Quilometragem', 'Valor']]

Unnamed: 0,Ano,Nome,Motor,Zero_km,Quilometragem,Valor
0,1993,Gol,1.0 Turbo,False,44410.0,88078.64
1,1991,Palio,Diesel,False,5712.0,106161.94
2,1990,Fiesta,Diesel V8,False,37123.0,72832.16


#### 1.2.2. Criando um DataFrame a partir de um dicionário

In [21]:
dados = {
    'Nome': ['Jetta Variant', 'Passat', 'Crossfox'], 
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8'],
    'Ano': [2003, 1991, 1990],
    'Quilometragem': [44410.0, 5712.0, 37123.0],
    'Zero_km': [False, False, False],
    'Valor': [88078.64, 106161.94, 72832.16]
}
print('{}\n{}'.format(type(dados), dados))

<class 'dict'>
{'Nome': ['Jetta Variant', 'Passat', 'Crossfox'], 'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8'], 'Ano': [2003, 1991, 1990], 'Quilometragem': [44410.0, 5712.0, 37123.0], 'Zero_km': [False, False, False], 'Valor': [88078.64, 106161.94, 72832.16]}


In [22]:
df = pd.DataFrame(dados)
print('{}\n{}'.format(type(df), df))

<class 'pandas.core.frame.DataFrame'>
            Nome            Motor   Ano  Quilometragem  Zero_km      Valor
0  Jetta Variant  Motor 4.0 Turbo  2003        44410.0    False   88078.64
1         Passat     Motor Diesel  1991         5712.0    False  106161.94
2       Crossfox  Motor Diesel V8  1990        37123.0    False   72832.16


<p style="text-align: right"> <a href="#indice">voltar ao topo </p>

#### 1.2.3. Criando um DataFrame a partir de um arquivo externo

In [4]:
dataset = pd.read_csv('data/db.csv', sep=';')

In [6]:
dataset.head()

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


In [9]:
dataset.dtypes

Nome              object
Motor             object
Ano                int64
Quilometragem    float64
Zero_km             bool
Acessórios        object
Valor            float64
dtype: object

In [11]:
dataset[['Quilometragem', 'Valor']].describe()

Unnamed: 0,Quilometragem,Valor
count,197.0,258.0
mean,58278.42132,98960.513101
std,35836.733259,29811.932305
min,107.0,50742.1
25%,27505.0,70743.5125
50%,55083.0,97724.38
75%,90495.0,124633.3025
max,119945.0,149489.92


In [12]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 258 entries, 0 to 257
Data columns (total 7 columns):
Nome             258 non-null object
Motor            258 non-null object
Ano              258 non-null int64
Quilometragem    197 non-null float64
Zero_km          258 non-null bool
Acessórios       258 non-null object
Valor            258 non-null float64
dtypes: bool(1), float64(2), int64(1), object(3)
memory usage: 12.4+ KB


##### 1.2.3.1. Definindo umas das colunas como índice do DataFrame
Passando o índice de uma coluna no parâmetro `index_col`, podemos alterar o índice do DataFrame:

In [23]:
dataset = pd.read_csv('data/db.csv', sep=';', index_col = 0)

In [25]:
dataset.head()

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


<p style="text-align: right"> <a href="#indice">voltar ao topo </p>

## 2. Seleções com DataFrames<a id='2'></a>
### 2.1. Selecioando colunas

### 2.2.  Selecionando linhas - [ i : j ] 

<font color=red>**Observação:**</font> A indexação tem origem no zero e nos fatiamentos (*slices*) a linha com índice i é **incluída** e a linha com índice j **não é incluída** no resultado.

### 2.3.  Utilizando .loc para seleções

<font color=red>**Observação:**</font> Seleciona um grupo de linhas e colunas segundo os rótulos ou uma matriz booleana.

### 2.4.  Utilizando .iloc para seleções

<font color=red>**Observação:**</font> Seleciona com base nos índices, ou seja, se baseia na posição das informações.

<p style="text-align: right"> <a href="#indice">voltar ao topo </p>

## 3. Queries com DataFrames<a id='3'></a>

### Utilizando o método query

<p style="text-align: right"> <a href="#indice">voltar ao topo </p>

## 4. Iterando com DataFrames<a id='4'></a>

<p style="text-align: right"> <a href="#indice">voltar ao topo </p>

## 5. Tratamento de dados<a id='5'></a>