# Aula 01: Introdução aos Pandas

### Q1) O que é Pandas?
Pandas é uma biblioteca de código fonte aberto escrita sobre o Numpy. Permite rápida visualização e limpeza de diferentes tipos de dados. Além de possuir diferentes métodos de visualização de dados, semelhante ao Excel.


### Q2) Que tipo de dados Pandas trabalha?
O pandas trabalha com uma estrutura bidiomencional chamada DataFrame que pode armazenar diferentes tipos de dados como strings, inteiros, pontos flutuantes dados categoricos entre outros. Cada coluna de um DataFrame é uma Series.


<img src='https://pandas.pydata.org/docs/_images/01_table_dataframe.svg'>

In [None]:
# Como importar bibliotecas no Python??
import numpy as np
import pandas as pd

In [None]:
print(f'Versão do Pandas: {pd.__version__}')
print(f'Versão do Numpy: {np.__version__}')

# 1. Series

O primeiro tipo de dado que aprenderemos é a Serie. Vamos importar Pandas e explorar tal objeto.

A Serie é muito semelhante a uma matriz NumPy (na verdade, ela é construída em cima do objeto de matriz NumPy). O que diferencia a matriz NumPy de uma Série, é que uma Serie pode ter rótulos de eixos, o que significa que pode ser indexado por um rótulo, em vez de apenas uma localização numérica. Também não precisa manter dados numéricos, ele pode conter qualquer objeto Python arbitrário.

Vamos explorar este conceito através de alguns exemplos:


- Sumário
    - 1. Criando series
    - 2. Operações em Series
    - 3. Ordenando e Reindexando Series

### 1.1 Criando uma Serie

Você pode converter uma lista, numpy array ou dicionário para uma serie:

In [None]:
minha_lista = [10,20,30]

In [None]:
pd.Series(data=minha_lista)

#### Definindo uma Series a partir de uma lista

In [None]:
# definindo array
labels = ['a','b','c']
pd.Series(data=minha_lista,index=labels)

#### Definindo uma Series através de um NumPy Arrays **

In [None]:
arr = np.array([1,2,3])

In [None]:
pd.Series(arr)

In [None]:
pd.Series(arr,labels)

#### Definindo uma Series a partir de Dicionários **

In [None]:
# definindo um dicionário
d = {'a':10,'b':20,'c':30}
pd.Series(d)

### 1.2 Criando uma série usando labels e objetos

Uma série de pandas pode conter uma variedade de tipos de objeto:

In [None]:
pd.Series(data=labels)

In [None]:
# Series também recebe funções (embora seja improvável que você usar isso)
pd.Series([sum,print,len])

### 1.3 Usando um Índice

A chave para usar uma Serie é entender seu índice. O Pandas faz uso desses nomes ou números de índice, permitindo pesquisas rápidas de informações (funciona como uma tabela de hash ou dicionário).

Vamos ver alguns exemplos de como pegar informações de uma Serie. Vamos criar duas Series, ser1 e ser2:

In [None]:
ser1 = pd.Series([1,2,3,4], index = ['EUA', 'Alemanha','USSR', 'Japão'])                                   

In [None]:
ser1

In [None]:
ser2 = pd.Series([1,2,5,4],index = ['EUA', 'Alemanha','Italia', 'Japão'])                                   

In [None]:
ser2

In [None]:
ser1['EUA']

### 1.4 Operações em Series

In [None]:
ser1 + ser2

In [None]:
ser1.min()

In [None]:
ser1.max()

In [None]:
ser1.describe()

### 1.5 Ordenando Series

In [None]:
ser1

In [None]:
ser1.sort_values(ascending=True)

### 2. Criando um DataFrame 

#### 2.1 Usando uma matriz randômica

In [None]:
from numpy.random import randn
np.random.seed(101)

In [None]:
'W X Y Z'.split()

In [None]:
matriz = randn(20,4)
matriz

In [None]:
df = pd.DataFrame(matriz,columns='W X Y Z'.split())

#### 2.2 Métodos principais para entendimento de dados

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.sample(10)

In [None]:
df.sample(frac=0.1)

In [None]:
df.info()

In [None]:
df.shape

#### 2.2 Leitura e saída de Dados CSV do disco

<img src='https://pandas.pydata.org/docs/_images/02_io_readwrite.svg'>

##### Saída de Dados

In [None]:
#CSV
df.to_csv('data/exemplo.csv', index=False)

In [None]:
#Excel
df.to_excel('data/exemplo.xlsx', index=False)

In [None]:
#JSON
df.to_json('data/exemplo.json', orient='table')

##### Leitura de Dados 

In [None]:
#CSV
df_csv = pd.read_csv('data/exemplo.csv')
df_csv.head()

In [None]:
#Excel
df_excel = pd.read_excel('data/exemplo.xlsx')
df_excel.head()

In [None]:
#JSON
df_json = pd.read_json('data/exemplo.json', orient='table')
df_json.head()

#### 2.3 Leitura de dados da internet

##### HTML
- Para usar o pd.read_html pode ser necessário instalar as seguintes dependências
    - conda install lxml -y
    - conda install html5lib
    - conda install BeautifulSoup4

In [None]:
url = 'https://en.wikipedia.org/wiki/Minnesota'
tables = pd.read_html(url)
df_html = tables[0]

In [None]:
df_html

### 3. Operações em Dataframes

### 3.1 Manipulando index

In [None]:
df.head()

In [None]:
df.index

In [None]:
list(df.index)

##### Selecionando um novo index

In [None]:
df.set_index('W')

In [None]:
##### Resetando o índice atual
df.reset_index(inplace=True)

In [None]:
df.set_index('W', inplace=True)
df

In [None]:
df.reset_index(inplace=True)

In [None]:
df.set_index('Z', inplace=True)
df

In [None]:
df.reset_index(inplace=True)

### 4. Seleção de Dados usando Pandas

<img src='https://pandas.pydata.org/docs/_images/03_subset_rows.svg'>

Existem quatro abordagens principais de seleção de dados usando um dataframe
- 1. Selecionando colunas
- 2. Seleção de dados usando `loc` e `iloc`
- 3. Seleção condicional
- 4. Seleção de dados por tipo de dados


#### 4.1 Selecionar por coluna

In [None]:
df['W']

In [None]:
# Sintaxe SQL (Não recomendado!)
df.W

In [None]:
#Selecionar mais de uma coluna
df[['W','Z']]

In [None]:
#Selecionar mais de uma coluna
df[['X','Z']]

#### 4.2 Selecão por index (loc) ou posição(iloc)

O método ``loc`` faz seleção usando o index do data frame, tanto para linha como para coluna. 

``df.loc[rows, cols]``

In [None]:
df.head()

In [None]:
df.loc[5:10]

In [None]:
df.loc[10:12, ['X','Z']]

O método ``iloc`` faz seleção usando a posição dos dados no data frame, tanto para linha como para coluna. 

In [None]:
df.iloc[2]

In [None]:
df.iloc[5:10]

In [None]:
df.iloc[5:10, 2]

#### Diferenciando LOC x ILOC

In [None]:
import random

In [None]:
n_rows = df.shape[0]
meses = ['jan', 'fev', 'mar', 'abr', 'mai', 'jun', 'jul', 'ago', 'out', 'nov', 'dez'] * 2
df['mes'] = random.sample(meses, n_rows)

In [None]:
%%time
df.set_index('mes', inplace=True)
df.head()

In [None]:
df.loc['fev', ['X','W']]

In [None]:
df.reset_index(inplace=True)

#### 4.3 Seleção condicional

In [None]:
df.head()

In [None]:
filter_W_positivo = df['W'] > 0
filter_W_negativo = df['W'] < 0

In [None]:
df[filter_W_positivo]

In [None]:
#o filtro pode ser passado diretamente
df[df['W'] > 0]

Para duas condições, você pode usar ``|`` e ``&`` com parênteses:

In [None]:
filter_W_Y_positivo = (df['W']>0) & (df['Y'] > 0)
df[filter_W_Y_positivo]

Você pode selecionar dados fazendo verificações de dados de texto baseado em regex

In [None]:
df[df['mes'].str.contains('a')]

In [None]:
#Mêses que começa com a ``letra a``
df[df['mes'].str.contains('^a')]

In [None]:
df[df['mes'].str.contains('^[a-z]')]

In [None]:
#seleção por conjunto de dados
lista_mes = ['jun', 'fev', 'jul']
df[df['mes'].isin(lista_mes)]

#### 4.4 Seleção por tipo de dados

In [None]:
df['J'] = df['W'].astype(int)

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df.select_dtypes(exclude=['object','int'])

In [None]:
df.select_dtypes(include='int')

In [None]:
df.select_dtypes(include='float')

# 5. Operações Básicas
- 5. Criando um Dataframe
    - 5.1 Operações Básicas
    - 5.2 Criando Colunas
    - 5.3 Removendo Colunas
    - 5.4 Removendo Linhas
    - 5.5 Alterando valores
    - 5.6 Renomeando colunas de um dataframe 
    - 5.7 Modificando index
    - 5.8 Ordenando Dados
    - 5.9 Multiindex
<img src='https://pandas.pydata.org/docs/_images/05_newcolumn_1.svg'>

In [None]:
df_sales = pd.read_csv('data/sales_clear.csv')

In [None]:
df_sales.head()

### 5.1 Operações Matemática

In [None]:
df_sales['2016'] + df_sales['2017']

In [None]:
df_sales['2016'] - df_sales['2017']

In [None]:
df_sales['2016'] / df_sales['2017']

In [None]:
df_sales['2016'] * df_sales['2017']

### 5.2 Criando uma coluna

In [None]:
df_sales.head()

In [None]:
df_sales['soma_2016_2017'] = df_sales['2016'] + df_sales['2017']

In [None]:
df_sales.head()

### 5.3 Removendo colunas

In [None]:
df_sales.drop('soma_2016_2017', axis=1)

In [None]:
df_sales.drop('soma_2016_2017', axis=1, inplace=True)

### 5.4 Removendo linhas

In [None]:
df_sales.head()

In [None]:
#drop rows
df_sales.drop([1,2], axis=0)

### 5.5 Alterando valores

In [None]:
df_sales.loc[1:5, 'Jan Units']

In [None]:
df_sales.loc[1:10, 'Jan Units'] = 0

### 5.6 Rename columns

In [None]:
df_sales

In [None]:
df_sales.rename(columns={'Start_Date':'date', 'Customer Name':'nome'})

### 5.7 Ordenação de Dados

#### Ordenação composta

In [None]:
df_sales.sort_values('Start_Date')

In [None]:
df_sales.sort_values(by='Start_Date', ascending=False)

#### Ordenação composta

In [None]:
df_sales.sort_values(by=['Customer Name','2017'], ascending=False)