<a href="https://colab.research.google.com/github/guilhermeCorreia7/analise_de_dados_Python/blob/main/Python_para_Data_Science_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <font color=green> PYTHON PARA DATA SCIENCE - PANDAS
---

# <font color=green> 1. INTRODUÇÃO AO PYTHON
---

# 1.1 Introdução

> Python é uma linguagem de programação de alto nível com suporte a múltiplos paradigmas de programação. É um projeto *open source* e desde seu surgimento, em 1991, vem se tornando uma das linguagens de programação interpretadas mais populares. 
>
> Nos últimos anos Python desenvolveu uma comunidade ativa de processamento científico e análise de dados e vem se destacando como uma das linguagens mais relevantes quando o assundo é ciência de dados e machine learning, tanto no ambiente acadêmico como também no mercado.

# 1.2 Instalação e ambiente de desenvolvimento

### Instalação Local

### https://www.python.org/downloads/
### ou
### https://www.anaconda.com/distribution/

### Google Colaboratory

### https://colab.research.google.com

### Verificando versão

# 1.3 Trabalhando com dados

In [1]:
import pandas as pd
# pd.set_option('display.max_rows', 300)
# pd.set_option('display.max_columns', 300)

In [2]:
dataset = pd.read_csv('db.csv', sep = ';')

FileNotFoundError: ignored

In [None]:
dataset

In [None]:
dataset.dtypes

In [None]:
dataset[['Quilometragem', 'Valor']].describe()

In [None]:
dataset.info()

# <font color=green> 2. TRABALHANDO COM TUPLAS
---

# 2.1 Criando tuplas

Tuplas são sequências imutáveis que são utilizadas para armazenar coleções de itens, geralmente heterogêneos. Podem ser construídas de várias formas:
```
- Utilizando um par de parênteses: ( )
- Utilizando uma vírgula à direita: x,
- Utilizando um par de parênteses com itens separados por vírgulas: ( x, y, z )
- Utilizando: tuple() ou tuple(iterador)
```

In [None]:
()

In [None]:
1,2,3

In [None]:
nomes_carros = tuple(['Jetta Variant', 'Passat', 'Crossfox', 'DS5'])

# 2.2 Seleções em tuplas

In [None]:
nomes_carros

In [None]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))
nomes_carros

# 2.3 Iterando em tuplas

In [None]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nomes_carros

In [None]:
for item in nomes_carros:
  print(item)

### Desempacotamento de tuplas

In [None]:
carro_1, carro_2, carro_3, carro_4 = nomes_carros

In [None]:
carro_1

In [None]:
carro_2

In [None]:
carro_3

In [None]:
carro_4

In [None]:
_, A, _, B = nomes_carros

In [None]:
A

In [None]:
B

In [None]:
_, C, *_ = nomes_carros

In [None]:
C

## *zip()*

https://docs.python.org/3.6/library/functions.html#zip

In [None]:
carros = ['Jetta Variant', 'Passat', 'Crossfox', 'DS5']
carros

In [None]:
valores = [88078.64, 106161.94, 72832.16, 124549.07]
valores

In [None]:
list(zip(carros, valores))

In [None]:
for item in zip(carros, valores):
  print(item)

In [None]:
for carro, valor in zip(carros, valores):
  print(carro, valor)

In [None]:
for carro, valor in zip(carros, valores):
  if (valor > 100000):
    print(carro, valor)

# <font color=green> 3. TRABALHANDO COM DICIONÁRIOS
---

# 3.1 Criando dicionários

Listas são coleções sequenciais, isto é, os itens destas sequências estão ordenados e utilizam índices (números inteiros) para acessar os valores.

Os dicionários são coleções um pouco diferentes. São estruturas de dados que representam um tipo de mapeamento. Mapeamentos são coleções de associações entre pares de valores onde o primeiro elemento do par é conhecido como chave (*key*) e o segundo como valor (*value*).

```
dicionario = {key_1: value_1, key_2: value_2, ..., key_n: value_n}
```

https://docs.python.org/3.6/library/stdtypes.html#typesmapping

In [None]:
carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

In [None]:
valores = [88078.64, 106161.94, 72832.16]
valores

In [None]:
dados = {'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}
dados

### Criando dicionários com *zip()*

In [None]:
dados = dict(zip(carros, valores))
dados

# 3.2 Operações com dicionários

## *dict[ key ]*

Retorna o valor correspondente à chave (*key*) no dicionário.

In [None]:
dados['Passat']

## *key in dict*

Retorna **True** se a chave (*key*) for encontrada no dicionário.

In [None]:
'Passat' in dados

In [None]:
'Fusca' in dados

In [None]:
'Fusca' not in dados

## *len(dict)*

Retorna o número de itens do dicionário.

In [None]:
len(dados)

## *dict[ key ] = value*

Inclui um item ao dicionário.

In [None]:
dados['DS5'] = 124549.07

In [None]:
dados

## *del dict[ key ]*

Remove o item de chave (*key*) do dicionário.

In [None]:
dados

In [None]:
del dados['Passat']

In [None]:
dados

# 3.3 Métodos de dicionários

## *dict.update()*

Atualiza o dicionário.

In [None]:
dados.update({'Passat': 106161.94})

In [None]:
dados

In [None]:
dados.update({'Passat': 106161.95, 'Fusca': 150000})

## *dict.copy()*

Cria uma cópia do dicionário.

In [None]:
dados_copy = dados.copy()

In [None]:
dados_copy

In [None]:
del dados_copy['Fusca']

In [None]:
dados

## *dict.pop(key[, default ])*

Se a chave for encontrada no dicionário, o item é removido e seu valor é retornado. Caso contrário, o valor especificado como *default* é retornado. Se o valor *default* não for fornecido e a chave não for encontrada no dicionário um erro será gerado.

In [None]:
dados_copy

In [None]:
dados_copy.pop('Passat')

In [None]:
dados_copy

In [None]:
# dados_copy.pop('Passat')

In [None]:
dados_copy.pop('Passat', 'Chave não encontrada')

In [None]:
dados_copy.pop('DS5', 'Chave não encontrada')

In [None]:
dados_copy

## *dict.clear()*

Remove todos os itens do dicionário.

In [None]:
dados_copy.clear()

In [None]:
dados_copy

# 3.4 Iterando em dicionários

In [None]:
dados = {'Crossfox': 72832.16, 'DS5': 124549.07,  'Fusca': 150000,  'Jetta Variant': 88078.64,  'Passat': 106161.95}
dados

## *dict.keys()*

Retorna uma lista contendo as chaves (*keys*) do dicionário.

In [None]:
dados.keys()

In [None]:
for keys in dados:
  print(keys)

## *dict.values()*

Retorna uma lista com todos os valores (*values*) do dicionário.

In [None]:
dados.values()

## *dict.items()*

Retorna uma lista contendo uma tupla para cada par chave-valor (*key-value*) do dicionário.

In [None]:
dados.items()

In [None]:
for item in dados.items():
  print(item)

In [None]:
for key, values in dados.items():
  print(key, values)

In [None]:
for key, values in dados.items():
  if (values > 100000):
    print(key)

# <font color=green> 4. FUNÇÕES E PACOTES
---
    
Funções são unidades de código reutilizáveis que realizam uma tarefa específica, podem receber alguma entrada e também podem retornar alguma resultado.

# 4.1 Built-in function

A linguagem Python possui várias funções integradas que estão sempre acessíveis. Algumas já utilizamos em nosso treinamento: type(), print(), zip(), len(), set() etc.

https://docs.python.org/3.6/library/functions.html

In [None]:
dados = {'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}
dados

In [None]:
valores = []
for valor in dados.values():
  valores.append(valor)
valores

In [None]:
soma = 0
for valor in dados.values():
  soma += valor
soma

In [None]:
sum(dados.values())

In [None]:
help(print)

In [None]:
print?

# 4.2 Definindo funções sem e com parâmetros

### Funções sem parâmetros

#### Formato padrão

```
def <nome>():
    <instruções>
```

In [None]:
def media():
  valor = (1 + 2 + 3) / 3
  print(valor)

In [None]:
media()

### Funções com parâmetros

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
```

In [None]:
def media(number_1, number_2, number_3):
  valor = (number_1 + number_2 +number_3) / 3
  print(valor)

In [None]:
media(2, 3, 5)

In [None]:
media(1, 2, 3)

In [None]:
def media(lista):
  valor = sum(lista) / len(lista)
  print(valor)

In [None]:
resultado = media([1, 4, 56, 23, 2, 8, 254])

In [None]:
resultado

# 4.3 Definindo funções que retornam valores

### Funções que retornam um valor

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
    return <resultado>
```

In [None]:
def media(lista):
  valor = sum(lista) / len(lista)
  return valor

In [None]:
resultado = media([1, 4, 56, 23, 2, 8, 254])

In [None]:
resultado

### Funções que retornam mais de um valor

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
    return (<resultado_1>, <resultado_2>, ..., <resultado_n>)
```

In [None]:
def media(lista):
  valor = sum(lista) / len(lista)
  return (valor, len(lista))

In [None]:
media([1, 4, 56, 23, 2, 8, 254])

In [None]:
resultado, n = media([1, 4, 56, 23, 2, 8, 254])

In [None]:
resultado

In [None]:
n

# <font color=green> 5. PANDAS BÁSICO
---

**versão: 0.25.2**
  
Pandas é uma ferramenta de manipulação de dados de alto nível, construída com base no pacote Numpy. O pacote pandas possui estruturas de dados bastante interessantes para manipulação de dados e por isso é muito utilizado por cientistas de dados.


## Estruturas de Dados

### Series

Series são arrays unidimensionais rotulados capazes de armazenar qualquer tipo de dado. Os rótulos das linhas são chamados de **index**. A forma básica de criação de uma Series é a seguinte:


```
    s = pd.Series(dados, index = index)
```

O argumento *dados* pode ser um dicionário, uma lista, um array Numpy ou uma constante.

### DataFrames

DataFrame é uma estrutura de dados tabular bidimensional com rótulos nas linha e colunas. Como a Series, os DataFrames são capazes de armazenar qualquer tipo de dados.


```
    df = pd.DataFrame(dados, index = index, columns = columns)
```

O argumento *dados* pode ser um dicionário, uma lista, um array Numpy, uma Series e outro DataFrame.

**Documentação:** https://pandas.pydata.org/pandas-docs/version/0.25/

# 5.1 Estruturas de dados

In [None]:
import pandas as pd

### Criando uma Series a partir de uma lista

In [None]:
carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

In [None]:
pd.Series(carros)

### Criando um DataFrame a partir de uma lista de dicionários

In [None]:
dados = [
    {'Nome': 'Jetta Variant', 'Motor': 'Motor 4.0 Turbo', 'Ano': 2003, 'Quilometragem': 44410.0, 'Zero_km': False, 'Valor': 88078.64},
    {'Nome': 'Passat', 'Motor': 'Motor Diesel', 'Ano': 1991, 'Quilometragem': 5712.0, 'Zero_km': False, 'Valor': 106161.94},
    {'Nome': 'Crossfox', 'Motor': 'Motor Diesel V8', 'Ano': 1990, 'Quilometragem': 37123.0, 'Zero_km': False, 'Valor': 72832.16}
]

In [None]:
dataset = pd.DataFrame(dados)
dataset

In [None]:
dataset[['Nome', 'Motor', 'Ano', 'Quilometragem', 'Zero_km', 'Valor']]

### Criando um DataFrame a partir de um dicionário

In [None]:
dados = {
    'Nome': ['Jetta Variant', 'Passat', 'Crossfox'], 
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8'],
    'Ano': [2003, 1991, 1990],
    'Quilometragem': [44410.0, 5712.0, 37123.0],
    'Zero_km': [False, False, False],
    'Valor': [88078.64, 106161.94, 72832.16]
}

In [None]:
dataset = pd.DataFrame(dados)

In [None]:
dataset

### Criando um DataFrame a partir de uma arquivo externo

In [None]:
dataset = pd.read_csv('db.csv', sep = ';', index_col = 0)

In [None]:
dataset

# 5.2 Seleções com DataFrames

### Selecionando colunas

In [None]:
dataset['Valor']

In [None]:
dataset[['Valor']]

### Selecionando linhas - [ i : j ] 

<font color=red>**Observação:**</font> A indexação tem origem no zero e nos fatiamentos (*slices*) a linha com índice i é **incluída** e a linha com índice j **não é incluída** no resultado.

In [None]:
dataset[0:3]

### Utilizando .loc para seleções

<font color=red>**Observação:**</font> Seleciona um grupo de linhas e colunas segundo os rótulos ou uma matriz booleana.

In [None]:
dataset.loc['Passat']

In [None]:
dataset.loc[['Passat', 'DS5']]

In [None]:
dataset.loc[['Passat', 'DS5'], ['Motor', 'Valor']]

In [None]:
dataset.loc[:, ['Motor', 'Valor']]

### Utilizando .iloc para seleções

<font color=red>**Observação:**</font> Seleciona com base nos índices, ou seja, se baseia na posição das informações.

In [None]:
dataset.head()

In [None]:
dataset.iloc[[1]]

In [None]:
dataset.iloc[1:4]

In [None]:
dataset.iloc[1:4 , [0, 5, 2]]

In [None]:
dataset.iloc[[14, 30, 57] , [0, 5, 2]]

# 5.3 Queries com DataFrames

In [None]:
dataset.head()

In [None]:
dataset.Motor

In [None]:
select = dataset.Motor == 'Motor Diesel'

In [None]:
dataset[select]

In [None]:
dataset[(dataset.Motor == 'Motor Diesel') &(dataset.Zero_km == True)]

In [None]:
(dataset.Motor == 'Motor Diesel') &(dataset.Zero_km == True)

### Utilizando o método query

In [None]:
dataset.query('Motor == "Motor Diesel" and Zero_km == True')

# 5.4 Iterando com DataFrames

In [None]:
for item in dataset:
  print(item)

In [None]:
list(dataset.iterrows())

In [None]:
for index, row in dataset.iterrows():
  if (2019 - row['Ano'] != 0):
    dataset.loc[index, 'Km_media'] = row['Quilometragem'] / (2019 - row['Ano'])
  else:
    dataset.loc[index, 'Km_media'] = 0

dataset

# 5.5 Tratamento de dados

In [None]:
dataset.head()

In [None]:
dataset.info()

In [None]:
dataset.Quilometragem.isna()

In [None]:
dataset[dataset.Quilometragem.isna()]

In [None]:
dataset.fillna(0, inplace = True)

In [None]:
dataset

In [None]:
dataset.query('Zero_km == True')

In [None]:
dataset = pd.read_csv('db.csv', sep = ';')

In [None]:
dataset

In [None]:
dataset.dropna(subset = ['Quilometragem'], inplace = True)

In [None]:
dataset