# <font color=green> PYTHON PARA DATA SCIENCE - PANDAS
---

# <font color=green> 1. INTRODUÇÃO AO PYTHON
---

# 1.1 Introdução

> Python é uma linguagem de programação de alto nível com suporte a múltiplos paradigmas de programação. É um projeto *open source* e desde seu surgimento, em 1991, vem se tornando uma das linguagens de programação interpretadas mais populares. 
>
> Nos últimos anos Python desenvolveu uma comunidade ativa de processamento científico e análise de dados e vem se destacando como uma das linguagens mais relevantes quando o assundo é ciência de dados e machine learning, tanto no ambiente acadêmico como também no mercado.

# 1.2 Instalação e ambiente de desenvolvimento

### Instalação Local

### https://www.python.org/downloads/
### ou
### https://www.anaconda.com/distribution/

### Google Colaboratory

### https://colab.research.google.com

### Verificando versão

In [3]:
!python -V

Python 3.7.12


Python é uma linguagem de programação de alto nível, com suporte a múltiplos paradigmas de programação.

Python é um projeto Open Source

Python é uma linguagem de programação interpretada.

# 1.3 Trabalhando com dados

In [9]:
# montando o google drive
from google.colab import drive
drive.mount('/content/drive')
drive.mount("/content/drive", force_remount=True)
# Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Mounted at /content/drive


In [16]:
import pandas as pd
# pd.set_option('display.max_rows', 1000 ) # máximo de linhas
# pd.set_option('display.max_columns', 1000 ) # máximo de colunas

In [14]:
df = pd.read_csv('/content/db.csv', sep = ';')

In [18]:
df.dtypes # tipos de dados

Nome              object
Motor             object
Ano                int64
Quilometragem    float64
Zero_km             bool
Acessórios        object
Valor            float64
dtype: object

In [21]:
# describe -> resumo estatístico descritivo do conjunto de dados
df[['Quilometragem', 'Valor']].describe() # passando lista para visualizar duas colunas

Unnamed: 0,Quilometragem,Valor
count,197.0,258.0
mean,58278.42132,98960.513101
std,35836.733259,29811.932305
min,107.0,50742.1
25%,27505.0,70743.5125
50%,55083.0,97724.38
75%,90495.0,124633.3025
max,119945.0,149489.92


In [22]:
# informações do dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 258 entries, 0 to 257
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Nome           258 non-null    object 
 1   Motor          258 non-null    object 
 2   Ano            258 non-null    int64  
 3   Quilometragem  197 non-null    float64
 4   Zero_km        258 non-null    bool   
 5   Acessórios     258 non-null    object 
 6   Valor          258 non-null    float64
dtypes: bool(1), float64(2), int64(1), object(3)
memory usage: 12.5+ KB


# <font color=green> 2. TRABALHANDO COM TUPLAS
---

# 2.1 Criando tuplas

Tuplas são sequências imutáveis que são utilizadas para armazenar coleções de itens, geralmente heterogêneos(tipos variados de dados). Podem ser construídas de várias formas:
```
- Utilizando um par de parênteses: ( )
- Utilizando uma vírgula à direita: x,
- Utilizando um par de parênteses com itens separados por vírgulas: ( x, y, z )
- Utilizando: tuple() ou tuple(iterador)
```

Também é importante ressaltar que a maioria das built-in functions (funções nativas) do Python, principalmente as que retornam mais de um valor, têm como retorno uma tupla.

In [None]:
() # tupla vazia

In [23]:
1, 2, 3

(1, 2, 3)

In [24]:
nome = 'Passat'
valor = 15300
(nome, valor)

('Passat', 15300)

In [28]:
nomes_carros = ['Jetta Variant', 'Passat', 'Crossfox', 'DS5']
type(nomes_carros)

list

In [30]:
# tuple -> permite criar tuplas, utilizando como argumento algum tipo de iterador
nomes_carros = tuple(nomes_carros)
type(nomes_carros)

tuple

# 2.2 Seleções em tuplas

In [35]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [32]:
nomes_carros[0]

'Jetta Variant'

In [36]:
nomes_carros[-1]

'DS5'

In [38]:
nomes_carros[1:3]

('Passat', 'Crossfox')

In [40]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))

In [42]:
nomes_carros[-1][-1]

'C4'

In [None]:
carros = (
    (
        'Jetta Variant',
        'Motor 4.0 Turbo',
        2003,
        False,
        ('Rodas de liga', 'Travas elétricas', 'Piloto automático')
    ),
    (
        'Passat',
        'Motor Diesel',
        1991,
        True,
        ('Central multimídia', 'Teto panorâmico', 'Freios ABS')
    )
)
print('{}   {}   {}'.format(carros[0][3], carros[-1][-1][-1], carros[0][-1][:2]))

# 2.3 Iterando em tuplas

In [49]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [51]:
for item in nomes_carros:
  print(item)

Jetta Variant
Passat
Crossfox
DS5


### Desempacotamento de tuplas

Com o desempacotamento de tuplas, é possível fazer declaraçõs conjuntas de variáveis e utilizar cada variável individualmente.



In [52]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [53]:
carro1, carro2, carro3, carro4 = nomes_carros
print('Carros: {}, {}, {}, {}'.format(carro1, carro2, carro3, carro4))

In [58]:
# utilizar apenas alguns valores
_, a, _, b = nomes_carros
print('Carros: {}, {}'.format(a, b))

Carros: Passat, DS5


In [59]:
# utilizar apenas alguns valores
_, c, *_ = nomes_carros
print('Carros: {}'.format(c))

Carros: Passat


## *zip()*

https://docs.python.org/3.6/library/functions.html#zip

In [60]:
carros = ['Jetta Variant', 'Passat', 'Crossfox', 'DS5']
carros

['Jetta Variant', 'Passat', 'Crossfox', 'DS5']

In [61]:
valores = [88078.64, 106161.94, 72832.16, 124549.07]
valores

[88078.64, 106161.94, 72832.16, 124549.07]

In [65]:
# make an iterator that aggregates elements from each of the iterables.
zip(carros, valores)

<class 'zip'>


In [64]:
list(zip(carros, valores))

[('Jetta Variant', 88078.64),
 ('Passat', 106161.94),
 ('Crossfox', 72832.16),
 ('DS5', 124549.07)]

Utilizamos a tupla como iterador de um laço for simples, ou aninhado, e conseguimos acesso a cada item individualmente.

In [66]:
for item in zip(carros, valores):
  print(item)

('Jetta Variant', 88078.64)
('Passat', 106161.94)
('Crossfox', 72832.16)
('DS5', 124549.07)


In [67]:
for carro, valor in zip(carros, valores):
  print(carro, valor)

Jetta Variant 88078.64
Passat 106161.94
Crossfox 72832.16
DS5 124549.07


In [69]:
for carro, valor in zip(carros, valores):
  if(valor > 100000):
    print(carro, valor)

Passat 106161.94
DS5 124549.07


## *ATIVIDADE*


In [71]:
carros = (
    (
        'Jetta Variant',
        'Motor 4.0 Turbo',
        2003,
        False,
        ('Rodas de liga', 'Travas elétricas', 'Piloto automático')
    ),
    (
        'Passat',
        'Motor Diesel',
        1991,
        True,
        ('Central multimídia', 'Teto panorâmico', 'Freios ABS')
    )
)

for tupla in carros:
  for item in tupla[-1]:
    print(item)

Rodas de liga
Travas elétricas
Piloto automático
Central multimídia
Teto panorâmico
Freios ABS


## *ATIVIDADE - A Função zip()*

In [4]:
nomes = ['Passat', 'Crossfox', 'DS5', 'C4', 'Jetta']
kms = [15000, 12000, 32000, 8000, 50000]

 Impressão dos nomes dos veículos com quilometragem abaixo de 20.000km?

In [6]:
for nome, km in zip(nomes, kms):
  if(km < 20000):
    print(nome)

Passat
Crossfox
C4


# <font color=green> 3. TRABALHANDO COM DICIONÁRIOS
---

# 3.1 Criando dicionários

Listas são coleções sequenciais, isto é, os itens destas sequências estão ordenados e utilizam índices (números inteiros) para acessar os valores.

Os dicionários são coleções um pouco diferentes. São estruturas de dados que representam um tipo de mapeamento. Mapeamentos são coleções de associações entre pares de valores onde o primeiro elemento do par é conhecido como chave (*key*) e o segundo como valor (*value*).

```
dicionario = {key_1: value_1, key_2: value_2, ..., key_n: value_n}
```

https://docs.python.org/3.6/library/stdtypes.html#typesmapping

In [None]:
carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

In [None]:
valores = [88078.64, 106161.94, 72832.16]
valores

### Criando dicionários com *zip()*

# 3.2 Operações com dicionários

## *dict[ key ]*

Retorna o valor correspondente à chave (*key*) no dicionário.

## *key in dict*

Retorna **True** se a chave (*key*) for encontrada no dicionário.

## *len(dict)*

Retorna o número de itens do dicionário.

## *dict[ key ] = value*

Inclui um item ao dicionário.

## *del dict[ key ]*

Remove o item de chave (*key*) do dicionário.

# 3.3 Métodos de dicionários

## *dict.update()*

Atualiza o dicionário.

## *dict.copy()*

Cria uma cópia do dicionário.

## *dict.pop(key[, default ])*

Se a chave for encontrada no dicionário, o item é removido e seu valor é retornado. Caso contrário, o valor especificado como *default* é retornado. Se o valor *default* não for fornecido e a chave não for encontrada no dicionário um erro será gerado.

## *dict.clear()*

Remove todos os itens do dicionário.

# 3.4 Iterando em dicionários

## *dict.keys()*

Retorna uma lista contendo as chaves (*keys*) do dicionário.

## *dict.values()*

Retorna uma lista com todos os valores (*values*) do dicionário.

## *dict.items()*

Retorna uma lista contendo uma tupla para cada par chave-valor (*key-value*) do dicionário.

# <font color=green> 4. FUNÇÕES E PACOTES
---
    
Funções são unidades de código reutilizáveis que realizam uma tarefa específica, podem receber alguma entrada e também podem retornar alguma resultado.

# 4.1 Built-in function

A linguagem Python possui várias funções integradas que estão sempre acessíveis. Algumas já utilizamos em nosso treinamento: type(), print(), zip(), len(), set() etc.

https://docs.python.org/3.6/library/functions.html

In [None]:
dados = {'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}
dados

# 4.2 Definindo funções sem e com parâmetros

### Funções sem parâmetros

#### Formato padrão

```
def <nome>():
    <instruções>
```

### Funções com parâmetros

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
```

# 4.3 Definindo funções que retornam valores

### Funções que retornam um valor

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
    return <resultado>
```

### Funções que retornam mais de um valor

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
    return (<resultado_1>, <resultado_2>, ..., <resultado_n>)
```

# <font color=green> 5. PANDAS BÁSICO
---

**versão: 0.25.2**
  
Pandas é uma ferramenta de manipulação de dados de alto nível, construída com base no pacote Numpy. O pacote pandas possui estruturas de dados bastante interessantes para manipulação de dados e por isso é muito utilizado por cientistas de dados.


## Estruturas de Dados

### Series

Series são arrays unidimensionais rotulados capazes de armazenar qualquer tipo de dado. Os rótulos das linhas são chamados de **index**. A forma básica de criação de uma Series é a seguinte:


```
    s = pd.Series(dados, index = index)
```

O argumento *dados* pode ser um dicionário, uma lista, um array Numpy ou uma constante.

### DataFrames

DataFrame é uma estrutura de dados tabular bidimensional com rótulos nas linha e colunas. Como a Series, os DataFrames são capazes de armazenar qualquer tipo de dados.


```
    df = pd.DataFrame(dados, index = index, columns = columns)
```

O argumento *dados* pode ser um dicionário, uma lista, um array Numpy, uma Series e outro DataFrame.

**Documentação:** https://pandas.pydata.org/pandas-docs/version/0.25/

# 5.1 Estruturas de dados

### Criando uma Series a partir de uma lista

### Criando um DataFrame a partir de uma lista de dicionários

In [None]:
dados = [
    {'Nome': 'Jetta Variant', 'Motor': 'Motor 4.0 Turbo', 'Ano': 2003, 'Quilometragem': 44410.0, 'Zero_km': False, 'Valor': 88078.64},
    {'Nome': 'Passat', 'Motor': 'Motor Diesel', 'Ano': 1991, 'Quilometragem': 5712.0, 'Zero_km': False, 'Valor': 106161.94},
    {'Nome': 'Crossfox', 'Motor': 'Motor Diesel V8', 'Ano': 1990, 'Quilometragem': 37123.0, 'Zero_km': False, 'Valor': 72832.16}
]

### Criando um DataFrame a partir de um dicionário

In [None]:
dados = {
    'Nome': ['Jetta Variant', 'Passat', 'Crossfox'], 
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8'],
    'Ano': [2003, 1991, 1990],
    'Quilometragem': [44410.0, 5712.0, 37123.0],
    'Zero_km': [False, False, False],
    'Valor': [88078.64, 106161.94, 72832.16]
}

### Criando um DataFrame a partir de uma arquivo externo

# 5.2 Seleções com DataFrames

### Selecionando colunas

### Selecionando linhas - [ i : j ] 

<font color=red>**Observação:**</font> A indexação tem origem no zero e nos fatiamentos (*slices*) a linha com índice i é **incluída** e a linha com índice j **não é incluída** no resultado.

### Utilizando .loc para seleções

<font color=red>**Observação:**</font> Seleciona um grupo de linhas e colunas segundo os rótulos ou uma matriz booleana.

### Utilizando .iloc para seleções

<font color=red>**Observação:**</font> Seleciona com base nos índices, ou seja, se baseia na posição das informações.

# 5.3 Queries com DataFrames

### Utilizando o método query

# 5.4 Iterando com DataFrames

# 5.5 Tratamento de dados