<a href="https://colab.research.google.com/github/Cidinha-dev/Python-para-Data-Science/blob/main/2_Python_para_Data_Science_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <font color=green> PYTHON PARA DATA SCIENCE - PANDAS
---

In [None]:
from google.colab import drive
drive.mount('/content/drive')

# 1.1 Introdução

> Python é uma linguagem de programação de alto nível com suporte a múltiplos paradigmas de programação. É um projeto *open source* e desde seu surgimento, em 1991, vem se tornando uma das linguagens de programação interpretadas mais populares.
>
> Nos últimos anos Python desenvolveu uma comunidade ativa de processamento científico e análise de dados e vem se destacando como uma das linguagens mais relevantes quando o assundo é ciência de dados e machine learning, tanto no ambiente acadêmico como também no mercado.

# 1.2 Instalação e ambiente de desenvolvimento

### Instalação Local

### https://www.python.org/downloads/
### ou
### https://www.anaconda.com/distribution/

### Google Colaboratory

### https://colab.research.google.com

### Verificando versão

In [None]:
!python -V

# <font color=green> 1 Trabalhando com dados

Criaremos uma variável dataset que receberá a chamada de pd.read_csv() - o apelido da biblioteca, pd, seguido da função read_csv(), que realiza a leitura de arquivos. Como parâmetro passaremos o arquivo que acabamos de subir, dv.csv.

In [None]:
import pandas as pd


In [None]:
dataset = pd.read_csv('db.csv' , sep=';')

In [None]:
dataset

Vamos supor que desejamos calcular uma estatística descritiva com esse conjunto. Em nosso exemplo, usaremos as colunas "quilometragem" e "valor". Usaremos a variável dataset, que contém o nosso conjunto, e passaremos entre dois colchetes (pois estamos passando mais de uma informação) as duas variáveis que possuem os dados desejados - Quilometragem e Valor). Por fim, adicionaremos um ponto (.) e a função describe().



In [None]:
dataset[['Quilometragem','Valor']].describe()

Com a função info() também podemos conseguir outras informações importantes. Por exemplo, acabamos de descobrir que temos menos ocorrências de Quilometragem do que de Valor.

In [None]:
dataset.info()

# <font color=green> 2. TRABALHANDO COM TUPLAS


# 2.1 Criando tuplas

Tuplas são sequências imutáveis que são utilizadas para armazenar coleções de itens, geralmente heterogêneos. Podem ser construídas de várias formas:
```
- Utilizando um par de parênteses: ( )
- Utilizando uma vírgula à direita: x,
- Utilizando um par de parênteses com itens separados por vírgulas: ( x, y, z )
- Utilizando: tuple() ou tuple(iterador)
```

In [None]:
()

In [None]:
1,2,3,4

In [None]:
(1,2,3)

Note que as tuplas, assim como as listas, podem armazenar tipos variados de dados, como strings, dados numéricos, listas ou mesmo outras tuplas. A última forma de criarmos tuplas é usando a função tuple(). Para testarmos, criaremos uma variável nomes_carros para qual atribuiremos a chamada dessa função, que por sua vez receberá como parâmetro uma lista com nomes de carros.

In [None]:
nome_carro= tuple(['Jetta Variant', 'Passat', 'Crossfox', 'DS5'])

In [None]:
type(nome_carro)

# 2.2 Seleções em tuplas

In [None]:
nomes_carros = tuple(['Jetta Variant', 'Passat', 'Crossfox', 'DS5'])
nomes_carros

In [None]:
nome_carro[0]

In [None]:
nome_carro[1]

In [None]:
nome_carro[-1]

In [None]:
nome_carro[1:3]

Em resumo, o primeiro item que passamos no fatiamento aparecerá na tupla resultante, mas o último não. Prosseguindo, é possível termos tuplas que contêm, em si, outras tuplas.

In [None]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))
nomes_carros

In [None]:
nomes_carros[-1]

Queremos o segundo item dessa tupla. Para isso, passaremos um novo par de colchetes contendo a sua posição, ou seja, 1.

In [None]:
nomes_carros[-1][1]

# 2.3 Iterando em tuplas

In [None]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nomes_carros

In [None]:
for itens in nomes_carros:
    print(itens)

# 2.4 Selecionando itens em tuplas

Em nosso primeiro treinamento de Python para Data Science, nós aprendemos como fazer seleções de itens em listas e em arrays Numpy. O procedimento para seleções em tuplas funciona da mesma forma. Considere a seguinte tupla:

In [None]:
carros = (
    (
        'Jetta Variant',
        'Motor 4.0 Turbo',
        2003,
        False,
        ('Rodas de liga', 'Travas elétricas', 'Piloto automático')
    ),
    (
        'Passat',
        'Motor Diesel',
        1991,
        True,
        ('Central multimídia', 'Teto panorâmico', 'Freios ABS')
    )
)

In [None]:
carros[0][3]

In [None]:
carros[-1][-1][-1]

In [None]:
carros[0][-1][:2]




 # 2.5 Laços for com tuplas

**Problema:** O procedimento de iteração em tuplas é o mesmo que aprendemos com listas, no treinamento anterior. Utilizamos a tupla como iterador de um laço for simples, ou alinhado, e conseguimos acesso a cada item individualmente.

In [None]:
carros = (
    (
        'Jetta Variant',
        'Motor 4.0 Turbo',
        2003,
        False,
        ('Rodas de liga', 'Travas elétricas', 'Piloto automático')
    ),
    (
        'Passat',
        'Motor Diesel',
        1991,
        True,
        ('Central multimídia', 'Teto panorâmico', 'Freios ABS')
    )
)

- Rodas de liga
- Travas elétricas
- Piloto automático
- Central multimídia
- Teto panorâmico
- Freios ABS

In [None]:
for tupla in carros:
    for item in tupla[-1]:
        print(item)

# 2.6 Desempacotamento de tuplas

In [None]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nomes_carros

Conseguimos varrer cada um dos itens e imprimi-los. O próximo conceito que iremos abordar é o desempacotamento de tuplas, o recurso que citamos anteriormente. Basicamente, é possível atribuirmos cada valor dentro de uma tupla a uma variável específico. Nesse primeiro exemplo, usaremos as variáveis carro_1, carro_2, carro_3 e carro_4 separadas por vírgula. Essa sequência receberá o conteúdo de nomes_carros.



In [None]:
carro_1, carro_2, carro_3, carro_4 = nomes_carros


In [None]:
carro_1

In [None]:
carro_2

Queremos somente o segundo e o último valor da tupla nomes_carros (a primeira posição e a terceira). Para isso, podemos usar o recurso do underscore (ou "underline"), da mesma forma que vimos nas listas.

In [None]:
_,A,_,D = nomes_carros

In [None]:
A

In [None]:
_, C, *_ = nomes_carros


Pegar um iten expecifico dentro de uma tupla, podemos ignorar o primeiro valor com underscore, receber o segundo com uma variável (por exemplo C) e finalizar com asterisco seguido de underscore (*_). Dessa forma ignoraremos todos os valores posteriores.



In [None]:
nomes_pessoas=('Fernanda','Jonathas','Geovana','Raul','Keiko')

In [None]:
*_,pessoa,_ = nomes_pessoas

In [None]:
pessoa

# <font color=green> 3. A função zip()

https://docs.python.org/3.6/library/functions.html#zip

Existe também uma nova função nativa do Python, chamada zip(), que cria um iterador com tuplas (de maneira semelhante à função range()), e vamos entender como ela funciona. Para nossos testes, inicializaremos duas listas: carros, contendo os modelos de alguns veículos; e valores, com seus preços.

In [None]:
carros = ['Jetta Variant', 'Passat', 'Crossfox', 'DS5']
carros

In [None]:
valores = [88078.64, 106161.94, 72832.16, 124549.07]
valores

In [None]:
# Chamaremos então a função zip() passando como parâmetros nossas duas listas.

zip(carros , valores)

In [None]:
# Com o auxílio da função list(), podemos transformar esse iterador em uma lista de modo a visualizá-lo.

list(zip(carros , valores))

In [None]:
for item in zip(carros , valores):
    print(item)

In [None]:
for carro, valor in zip(carros , valores):
    print(carro, valor)


In [None]:
# condicional if que imprime somente os carros cujo valor é maior do que 100000.

for carro, valor in zip(carros, valores):
  if(valor > 100000):
    print(carro)

In [None]:
# desempacotamento de tuplas, é possível fazer declarações conjuntas de variáveis
# e utilizar cada variável individualmente

nome, valor = ('Passat', 100000.0)

In [None]:
# A função zip() permite gerar um iterador de tuplas

nomes = ['Passat', 'Crossfox']
valores = [100000.0, 75000.0]
list(zip(nomes, valores))

In [None]:
# Considerando as duas listas abaixo:

nomes = ['Passat', 'Crossfox', 'DS5', 'C4', 'Jetta']
kms = [15000, 12000, 32000, 8000, 50000]

In [None]:
# impressão dos nomes dos veículos com quilometragem abaixo de 20.000 km

for nome, km in zip(nomes, kms):
    if(km < 20000):
        print(nome)

# <font color=green> 4. TRABALHANDO COM DICIONÁRIOS
---

# **4.1 Criando dicionários**
Listas são coleções sequenciais, isto é, os itens destas sequências estão ordenados e utilizam índices (números inteiros) para acessar os valores.

Os dicionários são coleções um pouco diferentes. São estruturas de dados que representam um tipo de mapeamento. Mapeamentos são coleções de associações entre pares de valores onde o primeiro elemento do par é conhecido como chave (*key*) e o segundo como valor (*value*).

```
dicionario = {key_1: value_1, key_2: value_2, ..., key_n: value_n}
```

https://docs.python.org/3.6/library/stdtypes.html#typesmapping

In [None]:
# lista contendo os carros

carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

In [None]:
# lista com os valores dos carros

valores = [88078.64, 106161.94, 72832.16]
valores

In [None]:
# para acesar e saber o index de uma lista

carros.index('Crossfox')

In [None]:
# para acessar o index referente dentro de outra lista

valores[carros.index('Passat')]

In [None]:
# criando um dicionario manualmente

dados = {'Jetta Variant':88078.64, 'Passat':106161.94, 'Crossfox':72832.16}

In [None]:
type(dados)

### Criando dicionários com *zip()*

1) Listas são estruturas de dados que representam um tipo básico de sequência.

2) Mapeamentos são coleções sequenciais ordenadas, que utilizam índices para acessar os valores



In [None]:
# Criando uma lista de tuplas utilizando o Zip

list(zip(carros ,valores))


In [None]:
# Criando um dicionario com duas listas utilizando o Zip

dados = dict(zip(carros ,valores))

In [None]:
dados

# **4.2 Operações com dicionários**

## *dict[ key ]*

Retorna o valor correspondente à chave (*key*) no dicionário.

In [None]:
carros = {'Jetta Variant':88078.64, 'Passat':106161.94, 'Crossfox':72832.16}

In [None]:
carros['Crossfox']

## *key in dict*

Retorna **True** se a chave (*key*) for encontrada no dicionário.

In [None]:
'Passat' in carros

In [None]:
'Fusca' in carros

In [None]:
'Kombi' not in carros

## *len(dict)*

Retorna o número de itens do dicionário.

In [None]:
len(carros)

## *dict[ key ] = value*

Inclui um item ao dicionário.

In [None]:
carros['Kombi'] = 2000.23

In [None]:
carros

## *del dict[ key ]*

Remove o item de chave (*key*) do dicionário.

In [None]:
del carros['Jetta Variant']

In [None]:
carros

## *Operações básicas com dicionários*

In [None]:
dados = {
    'Passat': {
        'ano': 2012,
        'km': 50000,
        'valor': 75000,
        'acessorios': ['Airbag', 'ABS']
    },
    'Crossfox': {
        'ano': 2015,
        'km': 35000,
        'valor': 25000
    }
}

1) Testar se a chave acessorios existe no dicionário de informações do carro Crossfox (Resposta: False)

In [None]:
'acessorios' in dados['Crossfox']

2) Testar se a chave acessorios existe no dicionário de informações do carro Passat (Resposta: True)

In [None]:
'acessorios' in dados['Passat']

3) Obter o valor do carro Crossfox (Resposta: 25000)

In [None]:
dados['Crossfox']['valor']

4) Acessar o último acessório do carro Passat (Resposta: 'ABS')

In [None]:
dados['Passat']['acessorios'][-1]

# **4.3 Métodos de dicionários**

## *dict.update({})*

Atualiza o dicionário.

In [None]:
carros

In [None]:
# atualizando a Kombi

carros.update({'Kombi':8000.88})

In [None]:
# adicionando o Fusca

carros.update({'Fusca':2300.99})

In [None]:
carros

## *dict.copy()*

Cria uma cópia do dicionário.

In [None]:
carrosCopy = carros.copy()

In [None]:
del carrosCopy['Fusca']

In [None]:
carrosCopy

In [None]:
carros

## *dict.pop(key, erro )*

O método copy() pode receber um parâmetro "default" que permite uma espécie de **tratamento desse erro**

In [None]:
carrosCopy

In [None]:
carrosCopy.pop('Passat')

In [None]:
carrosCopy

In [None]:
carrosCopy.pop('Passat','Veiculo não encontrado')

In [None]:
carrosCopy.pop('DS5', 'Chave não encontrada')

In [None]:
carrosCopy.pop('Crossfox', 'Chave não encontrada')

## *dict.clear()*

Remove todos os itens do dicionário.

In [None]:
carrosCopy

In [None]:
carrosCopy.clear()

In [None]:
carrosCopy

## 4.4 Iterando em dicionários

In [None]:
dados = {'Crossfox': 72832.16, 'DS5': 124549.07,  'Fusca': 150000,  'Jetta Variant': 88078.64,  'Passat': 106161.95}
dados

## *dict.keys()*

Retorna uma lista contendo as chaves (*keys*) do dicionário.

In [None]:
# todas as chaves do dicionario

dados.keys()

In [None]:
# mostrar todas as chaves do dicionario

for key in dados.keys():
    print(key)

In [None]:
# mostrar dodos os valores das chaves

for valores in dados.keys():
    print(dados[valores])


## *dict.values()*

Retorna uma lista com todos os valores (*values*) do dicionário.

In [None]:
# retorna os valores

dados.values()

## *dict.items()*

Retorna uma lista contendo uma tupla para cada par chave-valor (*key-value*) do dicionário.

In [None]:
# parecido com o zip junta chave-valor

dados.items()

In [None]:
# mostrar os itens em tuplas

for item in dados.items():
    print(item)

In [None]:
# desempacotamento de tuplas

for key,valor in dados.items():
    print(key,'= ',valor)

In [None]:
# condicional mostrar a chave desse maior valor

for key, valor in dados.items():
    if(valor > 100000):
        print(key)

 ## Iterando em dicionários de dicionários

In [None]:
dados = {
    'Crossfox': {'valor': 72000, 'ano': 2005},
    'DS5': {'valor': 125000, 'ano': 2015},
    'Fusca': {'valor': 150000, 'ano': 1976},
    'Jetta': {'valor': 88000, 'ano': 2010},
    'Passat': {'valor': 106000, 'ano': 1998}
}

 1- imprime somente os nomes dos veículos com ano de fabricação maior ou igual a 2000.



In [None]:
# filtando o ano e mostrando a key

for item in dados.items():
    if(item[1]['ano'] >= 2000):
        print(item[0])

# <font color=green> 5. FUNÇÕES E PACOTES
---
    
Funções são unidades de código reutilizáveis que realizam uma tarefa específica, podem receber alguma entrada e também podem retornar alguma resultado.

## 5.1 Built-in function

A linguagem Python possui várias funções integradas que estão sempre acessíveis. Algumas já utilizamos em nosso treinamento: type(), print(), zip(), len(), set() etc.

https://docs.python.org/3.6/library/functions.html

In [None]:
dados = {'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}
dados

In [None]:
# mostar todos os valores

valores = []

for valor in dados.values():
    valores.append(valor)

valores


In [None]:
# mostrar os valores do dicionario com a function (list)

list(dados.values())

In [None]:
# somar todos os valores

somar = 0

for valor in dados.values():
    somar += valor

somar

In [None]:
subt = 10

for valor in dados.values():
    subt *= valor

subt

In [None]:
# somar os todos os valores contidos no dicionario com a function (sum)

sum(dados.values())

In [None]:
# somar os valores + um acrescimo

sum(dados.values() ,200000)

# 5.2 Definindo funções sem e com parâmetros

### Funções sem parâmetros

#### Formato padrão

```
def <nome>():
    <instruções>
```

In [None]:
def media():
    valor = (1+1+6) / 2
    print(valor)

media()

### Funções com parâmetros

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
```

In [None]:
# função que recebe 3 valores para somar e dividir

def media(nu_1,nu_2,nu_3):
    valor = (nu_1 + nu_2 + nu_3) / 2

    print(valor)

media(5,8,9)

In [None]:
# somar os numeros da lista e depois dividir pelo seu tamanho

def media(lista):
  valor = sum(lista) / len(lista)
  print(valor)

media([1,3,6])

In [None]:
resultado = media ([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
#  a variável na verdade não tem valor nenhum

type(resultado)

#### **Problema:** Quilometragem média de um veículo

In [None]:
dados = {
    'Crossfox': {'km': 35000, 'ano': 2005},
    'DS5': {'km': 17000, 'ano': 2015},
    'Fusca': {'km': 130000, 'ano': 1979},
    'Jetta': {'km': 56000, 'ano': 2011},
    'Passat': {'km': 62000, 'ano': 1999}
}

A estrutura a seguir é a definição de uma função que obtém e imprime a quilometragem média anual de cada veículo em um dicionário com a estrutura do dicionário dados acima:

In [None]:
def km_media(dataset, ano_atual):
    for item in dataset.items():
        result = item[1]['km'] / (ano_atual - item[1]['ano'])
        print(result)

# 4.3 Definindo funções que retornam valores

### Funções que retornam um valor

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
    return <resultado>
```

In [None]:
# return o valor e o tamanho

def media(lista):
    valor = sum(lista) / len(lista)
    return(valor, len(lista))

In [None]:
media([3,6,8,9,2])

In [None]:
# separando o resultado atribuindo em duas variaveis

valor_media, tamanho = media([3,6,8,9,2])

In [None]:
valor_media

In [None]:
tamanho

#### **Problema:** A estrutura a seguir é a definição de uma função que calcula as quilometragens médias anuais de cada veículo e retorna um dicionário com os nomes dos veículos como chaves e as quilometragens médias como valores:

In [None]:
dados = {
    'Crossfox': {'km': 35000, 'ano': 2005},
    'DS5': {'km': 17000, 'ano': 2015},
    'Fusca': {'km': 130000, 'ano': 1979},
    'Jetta': {'km': 56000, 'ano': 2011},
    'Passat': {'km': 62000, 'ano': 1999}
}

In [None]:
def km_media(dataset, ano_atual):
    result = {}

    for item in dataset.items():
        media = item[1]['km'] / (ano_atual - item[1]['ano'])
        result.update({ item[0]: media })

    return result

In [None]:
km_media(dados, 2019)

Elaborando um pouco mais a nossa função

In [None]:
dados = {
    'Crossfox': {'km': 35000, 'ano': 2005},
    'DS5': {'km': 17000, 'ano': 2015},
    'Fusca': {'km': 130000, 'ano': 1979},
    'Jetta': {'km': 56000, 'ano': 2011},
    'Passat': {'km': 62000, 'ano': 1999}
}

In [None]:
def km_media(dataset, ano_atual):
    result = {}

    for item in dataset.items():
        media = item[1]['km'] / (ano_atual - item[1]['ano'])
        item[1].update({ 'km_media': media })
        result.update({ item[0]: item[1] })

    return result

In [None]:
km_media(dados, 2019)

### Funções que retornam mais de um valor

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
    return (<resultado_1>, <resultado_2>, ..., <resultado_n>)
```

# <font color=green> 6. PANDAS BÁSICO
---

**versão: 0.25.2**
  
Pandas é uma ferramenta de manipulação de dados de alto nível, construída com base no pacote Numpy. O pacote pandas possui estruturas de dados bastante interessantes para manipulação de dados e por isso é muito utilizado por cientistas de dados.


## Estruturas de Dados

### Series

Series são arrays unidimensionais rotulados capazes de armazenar qualquer tipo de dado. Os rótulos das linhas são chamados de **index**. A forma básica de criação de uma Series é a seguinte:


```
    s = pd.Series(dados, index = index)
```

O argumento *dados* pode ser um dicionário, uma lista, um array Numpy ou uma constante.

### DataFrames

DataFrame é uma estrutura de dados tabular bidimensional com rótulos nas linha e colunas. Como a Series, os DataFrames são capazes de armazenar qualquer tipo de dados.


```
    df = pd.DataFrame(dados, index = index, columns = columns)
```

O argumento *dados* pode ser um dicionário, uma lista, um array Numpy, uma Series e outro DataFrame.

**Documentação:** https://pandas.pydata.org/pandas-docs/version/0.25/

## 6.1 Estruturas de dados

In [None]:
import pandas as pd

### Criando uma Series a partir de uma lista

In [None]:
# A primeira forma de criarmos uma series é a partir de uma lista

carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

In [None]:
#  chamaremos pd.Series() passando a nossa lista como argumento.

pd.Series(carros)

### Criando um DataFrame a partir de uma lista de dicionários

In [None]:
dados = [
    {'Nome': 'Jetta Variant', 'Motor': 'Motor 4.0 Turbo', 'Ano': 2003, 'Quilometragem': 44410.0, 'Zero_km': False, 'Valor': 88078.64},
    {'Nome': 'Passat', 'Motor': 'Motor Diesel', 'Ano': 1991, 'Quilometragem': 5712.0, 'Zero_km': False, 'Valor': 106161.94},
    {'Nome': 'Crossfox', 'Motor': 'Motor Diesel V8', 'Ano': 1990, 'Quilometragem': 37123.0, 'Zero_km': False, 'Valor': 72832.16}
]

In [None]:
# Criar uma variável dataset que receberá a chamada de pd.DataFrame() passando como parâmetro nossa lista dados

dataset = pd.DataFrame(dados)
dataset

In [None]:
# Se quisermos modificar a ordem das colunas desse dataframe [[]]

dataset[['Nome', 'Motor', 'Ano', 'Quilometragem', 'Zero_km', 'Valor']]

### Criando um DataFrame a partir de um dicionário

In [None]:
dados = {
    'Nome': ['Jetta Variant', 'Passat', 'Crossfox'],
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8'],
    'Ano': [2003, 1991, 1990],
    'Quilometragem': [44410.0, 5712.0, 37123.0],
    'Zero_km': [False, False, False],
    'Valor': [88078.64, 106161.94, 72832.16]
}

In [None]:
# trabalhando com um dicionário as chaves são os rótulos dos dados e os valores são uma lista com todas as informações

dataset = pd.DataFrame(dados)
dataset

### Criando um DataFrame a partir de uma arquivo externo

In [None]:
# importar o arquivi, dar um nome, pd.read_csv( ' ' , sep= ';' )

dataset = pd.read_csv('db.csv' , sep=';')
dataset

In [None]:
# transformar o index em rotulos

dataset = pd.read_csv('db.csv', sep = ';', index_col = 0)
dataset

#### **Problema:** Criando DataFrames quilometragem media de um veiculo

In [None]:
dados = {
    'Crossfox': {'km': 35000, 'ano': 2005},
    'DS5': {'km': 17000, 'ano': 2015},
    'Fusca': {'km': 130000, 'ano': 1979},
    'Jetta': {'km': 56000, 'ano': 2011},
    'Passat': {'km': 62000, 'ano': 1999}
}

In [None]:
def km_media(dataset, ano_atual):
    result = {}
    for item in dataset.items():
        media = item[1]['km'] / (ano_atual - item[1]['ano'])
        item[1].update({ 'km_media': media })
        result.update({ item[0]: item[1] })

    return result

In [None]:
km_media(dados, 2019)

In [None]:
# A propriedade .T é uma forma de acessar o método transpose() do DataFrame

carros = pd.DataFrame(km_media(dados, 2019)).T

carros


In [None]:
carros = pd.DataFrame(km_media(dados, 2019))

carros

# 6.2 Seleções com DataFrames

### Selecionando colunas

In [None]:
dataset.head()

In [None]:
# selecionar somente a coluna bastará passarmos o seu rótulo entre [''].

dataset['Valor']

In [None]:
# essa seleção de colunas nos retorna uma series do Pandas

type(dataset['Valor'])

In [None]:
# como selecionar uma única coluna e obter como retorno um dataframe par de [['']]

dataset[['Valor']]

In [None]:
type(dataset[['Valor']])

### Selecionando linhas - [ i : j ]

<font color=red>**Observação:**</font> A indexação tem origem no zero e nos fatiamentos (*slices*) a linha com índice i é **incluída** e a linha com índice j **não é incluída** no resultado.

In [None]:
# selecionar as linhas = 0,1,2

dataset[0:3]

### Utilizando .loc para seleções

<font color=red>**Observação:**</font> Seleciona um grupo de linhas e colunas segundo os rótulos ou uma matriz booleana.

In [None]:
dataset.loc['Passat']

In [None]:
# usando o loc eu estou usando os rotulos = loc[['','']]

dataset.loc[['Passat','Crossfox']]

In [None]:
# selecionando as linhas e as colunas = loc[['',''] , ['','']]

dataset.loc[['Passat','DS5'] , ['Motor','Valor']]


In [None]:
# selecionar todas as linas e escolher as colunas = .loc[: , ['','']]

dataset.loc[: , ['Motor','Valor']]

### Utilizando .iloc para seleções

<font color=red>**Observação:**</font> Seleciona com base nos índices, ou seja, se baseia na posição das informações.

In [None]:
# selecionando a linha pelo index

dataset.iloc[1:5]

In [None]:
# selecionado a linha e as colunas

dataset.iloc[0:3 , [2,5,1]]

In [None]:
dataset.iloc[[1,35,78,] , [1,5]]

In [None]:
# todas as linhas e colunas especificas

dataset.iloc[: , [1,5]]

#### **Problema:** Fatiamentos com DataFrames
código que seleciona somente as informações de Nome, Ano, Quilometragem e Valor dos carros Passat e Crossfox.

In [None]:
import pandas as pd

dados = {
    'Nome': ['Jetta', 'Passat', 'Crossfox', 'DS5', 'Fusca'],
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8', 'Motor 2.0', 'Motor 1.6'],
    'Ano': [2019, 2003, 1991, 2019, 1990],
    'Quilometragem': [0.0, 5712.0, 37123.0, 0.0, 120000.0],
    'Zero_km': [True, False, False, True, False],
    'Valor': [88000.0, 106000.0, 72000.0, 89000.0, 32000.0]
}

dataset = pd.DataFrame(dados)

In [None]:
dataset[1:3][['Nome', 'Ano', 'Quilometragem', 'Valor']]

In [None]:
#  Utilizando .loc e .iloc para seleções

import pandas as pd

dados = {
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8', 'Motor 2.0', 'Motor 1.6'],
    'Ano': [2019, 2003, 1991, 2019, 1990],
    'Quilometragem': [0.0, 5712.0, 37123.0, 0.0, 120000.0],
    'Zero_km': [True, False, False, True, False],
    'Valor': [88000.0, 106000.0, 72000.0, 89000.0, 32000.0]
}

dataset = pd.DataFrame(dados, index = ['Jetta', 'Passat', 'Crossfox', 'DS5', 'Fusca'])

In [None]:
# iloc

dataset.iloc[[1, 3], [0, -1]]

In [None]:
# loc

dataset.loc[['Passat', 'DS5'], ['Motor', 'Valor']]

# 6.3 Queries com DataFrames

In [None]:
# 1 importe as bibliotecas

import pandas as pd

In [None]:
# 2 importe os dados
# => nome=pd.read_csv('arquivo',sep=';',index_col=0)

dataset=pd.read_csv('db.csv', sep=';' , index_col=0)

In [None]:
# mostar só o cabeçalho
# => nome.head()

dataset.head(5)

In [None]:
# selecionar todas as ocorrências de "Motor Diesel" nesse conjunto retornara uma series
# => nome.local == ('')


dataset.Motor == ('Motor Diesel')

In [None]:
# atribuir a uma variavel

select = dataset.Motor == 'Motor Diesel'

In [None]:
# Ao passarmos a nova variável como parâmetro da nossa seleção,
# receberemos um dataframe contendo todos os veículso que possuem "Motor Diesel".

dataset[select]

In [None]:
type(select)

### Utilizando o método query

In [None]:
# queremos realizar uma query adicional, dessa vez verificando se esses veículos também são "Zero_km".
# => dataset[(==) & (==)]

dataset[(dataset.Motor == 'Motor Diesel') & (dataset.Zero_km == True)]

In [None]:
dataset[(dataset.Motor == 'Motor Diesel') | (dataset.Zero_km == True)]

In [None]:
# outra forma de fazermos queries nos dataframes do Pandas, que é por meio da função query()
# => dataset.query('col=="valor" and col==booleano')

dataset.query('Motor == "Motor Diesel" and Zero_km == True')


In [None]:
# Além do "and" (&), o operador "or" (|, "ou") também pode nos auxiliar nas nossas seleções.
# => dataset.query('col=="valor" or col==booleano')

dataset.query('Motor == "Motor Diesel" or Zero_km == True')


# 6.4 Iterando com DataFrames

In [None]:
dataset.head()

In [None]:
for item in dataset:
    print(item)

In [None]:
# forma com um indice contendo uma series tambem é iterador
# => list(dataset.iterrows())

list(dataset.iterrows())

In [None]:
# podemos usar o for ja que é um iterado, e o desempacotamento

for index, row in dataset.iterrows():
    if(2019 - row['Ano'] != 0):
        dataset.loc[index ,'Km_medio'] = row['Quilometragem'] / (2019 -row['Ano'])
    else:
        dataset.loc[index, 'Km_medio'] = 0
dataset


# 6.5 Tratamento de dados

Continuaremos a utilizar o dataset que importamos anteriormente. Uma das formas de verificarmos rapidamente as informações de um conjunto de dados é por meio da função info().

In [None]:

dataset.head()

In [None]:
#Uma das formas de verificarmos rapidamente as informações de um conjunto de dados é por meio da função info()

dataset.info()

In [None]:
# O Pandas nos oferece a possibilidade de selecionar informações nulas ou não: a função isna().

dataset.Quilometragem.isna()

# Ela nos devolve uma series booleana identificando quais valores são ou não "NA" (nulos, vazios e assim por diante).

In [None]:
#  são identificados na series como True. Essa pode ser uma ferramenta interessante para verificarmos como estão se comportando os nossos dados, por exemplo criando um seletor.

dataset[dataset.Quilometragem.isna()]

In [None]:
# O Pandas inclusive nos disponibiliza uma forma de preenchermos esses valores, que é a função fillna(0)

dataset.fillna(0)

Entretanto, essa alteração não refletirá no nosso dataset original, já que apenas modificamos a visualização dele. Para mantermos tal alteração, será necessário passarmos mais um parâmetro para a função fillna(), o inplace, que deverá ser definido como True.

O parâmetro inplace também é utilizado em diversas outras funções do Pandas.

In [None]:
dataset.fillna(0, inplace = True)

In [None]:
# Ou selecionando todos os veículos que possuem True como valor de "Zero_km".

dataset.query('Zero_km == True')

Agora se fizermos algum modelo, os veículos 0 km não serão eliminados da amostra, já que não estão mais com valores nulos. Antes de continuarmos, importaremos novamente o conjunto db.csv de modo a retornarmos ao seu estado original.

In [None]:
dataset = pd.read_csv('db.csv', sep = ';')

Fizemos isso para demonstrar outra ferramenta do Pandas que nos ajuda a eliminar os valores nulos de um dataframe, chamada dropna(). Chamaremos essa função a partir do nosso dataset e passaremos como parâmetro subset, que recebe a variável na qual queremos queremos buscar os valores nulos que serão eliminados.

In [None]:
dataset.dropna(subset = ['Quilometragem'])

Feito isso, nosso conjunto passará a ter somente 197 registros, diferente dos 258 anteriores. Aprendemos então duas abordagens diferentes para lidarmos com dados problemáticos nos nossos conjuntos: preencher os registros com alguma informação que faça mais sentido ou seja útil, ou simplesmente eliminá-los.

#### Identificando e tratando dados faltantes

1) isna() - Detecta valores faltantes. Retorna um DataFrame ou uma Series booleana, identificando se o registro é um NA

2) fillna() - Preenche os registros identificados com NA, utilizando um método específico

3) dropna() - Remove linhas com valores identificados como NA

