# Treinando Pandas

## Links:

- Documentação.: https://pandas.pydata.org/pandas-docs/stable/index.html
- Básico..............: https://pandas.pydata.org/pandas-docs/stable/10min.html
- Receitas...........: https://pandas.pydata.org/pandas-docs/stable/cookbook.html#cookbook


In [16]:
%%html
<iframe width="500" height="300" src="https://www.youtube.com/embed/-NR-ynQg0YM" frameborder="0" allowfullscreen></iframe>

In [2]:
import pandas as pd
import numpy  as np  

## Criar uma series um Data Frame a partir de uma lista

In [None]:
frutas = ['maça', 'uva', 'banana']

print ('`---- Lista -----')
print(frutas)
print(type(frutas))

print('---- Séries -----')
pds_frutas = pd.Series(frutas)
print(pds_frutas)

print('------ Data Frame -----')
pd_frutas = pd.DataFrame(frutas)
print(pd_frutas)
print(type(pd_frutas))


## Criando DataFrame usando um index do time data e renomeando as colunas

In [3]:
datas = pd.date_range('20170301', periods = 6)

num = np.random.randn(6,4)


colunas = list('ABCD')

df = pd.DataFrame(num, index=datas, columns=colunas)

type(df)

df


Unnamed: 0,A,B,C,D
2017-03-01,0.025878,-0.27131,0.00683,0.33409
2017-03-02,0.382798,-1.177411,0.246431,-0.731652
2017-03-03,-0.166857,-0.48,-0.532676,-0.183686
2017-03-04,-0.4932,0.175186,-0.183041,-0.588225
2017-03-05,1.411982,0.325348,1.227649,-0.451903
2017-03-06,0.588062,0.465307,1.730571,1.612826


## Outras operações com DataFrame

In [None]:
# Copiando DataFrames
df2 = df.copy()
df2

In [None]:
# Adicionando colunas à um DataFrame

df2['E'] = ['1', '2','3','3','2','1']
df2

In [None]:
# Mostrando um resumo das features numéricas do DataFrame

# As features não númericas não são mostradas

df.describe()

In [None]:
#Mostrando o primeiros registros do dataFrame

df.head(3)

In [None]:
# Mostrando as últimas linhas da DataFrame

df.tail(2)

In [4]:
# Mostrando o tamanho do DataFrame em linhas e colunas, ou seja o shape do DataFrame
df.shape

(6, 4)

In [5]:
# Mostrando as colunas do DataFrame

df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [7]:
# Mostrando os tipos de dados das colunas

df.dtypes

A    float64
B    float64
C    float64
D    float64
dtype: object

In [None]:
# Mostrando a coluna de índice

df.index


In [None]:
# Mostrando os valores
df.values

In [None]:
df

In [None]:
# Pivotiando as colunas com as linhas do DataFrame

df.T

In [None]:
# Ordenando pelos nomes das colunas -> axis(1)
df.sort_index(axis=1, ascending=False)

In [None]:
# Ordenando pelas nomes das linhas -> axis(0)
df.sort_index(axis=0, ascending=False)

### Selecionando dados

In [None]:
# Ordenando por uma coluna de valor
df.sort_values(by='D')

In [None]:
# Selecionando apenas uma coluna

df['D'] # Equivalente a df.D


In [None]:
# Selecionando varias linhas pelo índice

# Selecionando as linhas 3a e 4a linhas
df[2:4]

In [None]:
# Selecionando varias linhas pelo nome do índice

# Selecionando as linhas 20170305 e 20170306
df['20170305':'20170306']

In [None]:
# Selecionando por rótulos

# Selecionando as colunas B e C
df.loc[:,['B','C']]

In [None]:
# Selecionando as colunas B e C interseção com as linhas 20170302 e 20170303

df.loc['20170302':'20170303',['B','C']]

In [None]:
# Selecionando um valor escalar
df.loc[datas[0],'A']

In [None]:
#Selecionando pela posição

# Selecionando o 3o item
df.iloc[2]

In [None]:
# Selecionando os itens 2 até 4 e as colunas B até C

In [None]:
df.iloc[1:4,1:3]

In [None]:
# Selecionando as linhas 3 ao fim e as colunas C e D
df.iloc[2:,-2:]

In [None]:
# Selecionando por uma condição

# Selecionando as linhas em que o valor da coluna A é maior que 0 (Zero)
df[df.A > 0]



In [None]:
# Selecionar os valores que satisfazem a uma condição
df[df > 0]

In [None]:
# Selecionando linhas com o operador isin

df2[df2['E'].isin(['2','3'])]

## Criando um DataFrame de um arquivo Excel

In [None]:
#Criando o arquivo
mdtr = pd.read_excel('mdtr_city.xlsx',header=1, index = 'CNPJ')

#Alterando o nome das colunas
mdtr.columns=['CNPJ','Outlet', 'Cidade', '2017/09', '2017/10',  '2017/11', 'Total']

#Exibindo o DataFrame
mdtr



## Criando um DataFrame de um arquivo CSV

In [None]:
mdtr_csv = pd.read_csv('mdtr_city.csv', sep=';')

In [None]:
mdtr_csv