### PANDAS

São bibliotecas muito utilizadas na análise de dados. Tem código aberto que fornece estruturas de dados de alta performance (baseadas em NumPy) e ferramentas para análise de dados.

A grande vantagem do pandas é fornecer o objeto DataFrame (baseado no R) que fornece uma estrutura semelhante a uma tabela em um banco SQL

Obs: Sempre que importar o Pandas, utilize a regra de convenção para identificar a biblioteca mais facilmente. Por regra, Pandas deve ser importado sob o nome de pd, assim:

In [10]:
import pandas as pd

Para testar se tudo ocorreu bem, faça um teste simples, veja:

In [11]:
#Importe a biblioteca e execute o bloco de código como no exemplo abaixo:
import pandas as pd
import numpy as np #padrao global de alias

num = pd.Series([1,3,5,6,'',8])
print (num)

import pandas as pd
num = pd.Series([1,3,5,6,'',8])
print (num)

0    1
1    3
2    5
3    6
4     
5    8
dtype: object
0    1
1    3
2    5
3    6
4     
5    8
dtype: object


#### Pandas, tem alguns elementos como datraframes e series: 
- Dataframes: são como uma planilha do Microsoft Excel, composto por linhas e colunas, e possuem diversas funcionalidades para tratamento e análise de dados, como agregação e contagens.

In [12]:
#### Criando um dataframe passando um array NumPy com um index de datas (datetime) e colunas nomeadas:
dates = pd.date_range(end=pd.Timestamp.now().date(), periods=6)
dates

df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
df

# Criando um DataFrame passando um dict de objetos que podem ser convertidos em Series:
df2 = pd.DataFrame({ 'A' : 1.,
                     'B' : pd.Timestamp('now').date(),
                     'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                     'D' : np.array([3] * 4,dtype='int32'),
                     'E' : pd.Categorical(["test","train","test","train"]),
                     'F' : 'foo' })
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2018-06-22,1.0,3,test,foo
1,1.0,2018-06-22,1.0,3,train,foo
2,1.0,2018-06-22,1.0,3,test,foo
3,1.0,2018-06-22,1.0,3,train,foo


Criando um DataFrame de um arquivo:

In [14]:
df3 = pd.read_csv('iris-dataset.csv', header=None, names=['sepal_length','sepal_width','petal_length','petal_width','class'])
df3

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa


In [None]:
#Criando um dataframe de um banco de dados:

conexão = sqlite3.connect('realestate.db')
df4 = pd.read_sql("select * from housing limit 100", conexão)
conexão.close()
df4

Coletando informações básicas sobre o DataFrame: 

- Quantidade de linhas e colunas do DataFrame: df.shape
- Descrição do Index: df.index 
- Colunas presentes no DataFrame:  df.columns 
- Contagem de dados não-nulos:  df.count()
- Criando uma nova coluna em um DataFrame: df['Nova Coluna'] = 0
- Renomeando colunas de um DataFrame: 
- Se seu DataFrame possui 3 colunas, passe 3 novos valores em uma lista df.columns = ['Coluna 1', 'Coluna 2', 'Coluna 3']

- Soma dos valores de um DataFrame:  df.sum()
- Menor valor de um DataFrame:  df.min()
- Maior valor: df.max()
- Index do menor valor:  df.idmin()
- Index do maior valor:  df.idmax()
- Resumo estatístico do DataFrame, com quartis, mediana, etc.: df.describe()
- Média dos valores:  df.mean()
- Mediana dos valores: df.median()
- Selecionando(.loc), indexando (.ix) e fatiando (iloc):

In [None]:
#Selecionando pelo nome da coluna: 
df['A'] 

#Selecionando pelo nome da coluna mas retornando um DataFrame ao invés de um Series: 
df[['A']]

#Selecionando um valor pelo índice e nome da coluna: 
df.loc[pd.Timestamp("now").date().strftime('%Y-%m-%d'), 'B']

#Selecionando apenas as linhas onde o valor de A é maior que zero: 
df.loc[df.A > 0, :]

#Selecionando duas colunas: 
df[['A', 'C']]

#Fatiando as duas primeiras linhas:  
df.iloc[:2, :]

#Plotando um boxplot dos preços das casas por status: 
_ = df4.boxplot(column='price', by='status')

#### Series: podem ser comparados com uma lista de valores e também possuem funções específicas.

In [None]:
#Criando um Series, o objeto mais básico do pandas
s = pd.Series([1,3,5,np.nan,6,8])
s

#Operações aritméticas em Series: 
s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])

#Somando todos os valores presentes na Series por 2:  
s.add(2)

#Subtraindo 2 de todos os valores:  
s.sub(2)

#Multiplicando todos os valores por 2: 
s.mul(2)

#Dividindo valores por 2: 
s.div(2)

#Alguns comandos para utilizar no Pandas
#Abrindo e escrevendo arquivos CSV:
#Para ler arquivos CSV codificados em ISSO: 
pd.read_csv('nome_do_arquivo.csv', encoding='ISO-8859-1')

Manipulando arquivos CSV

In [None]:
#Para escrever arquivos CSV: 
pd.to_csv('nome_do_arquivo_para_salvar.csv')

#Abrindo arquivos de Excel:
xlsx = pd.ExcelFile('seu_arquivo_excel.xlsx')
df = pd.read_excel(xlsx, 'Planilha 1')

#Removendo linhas e colunas: 
#Removendo linhas pelo index: s.drop([0, 1]) 
#Removendo colunas utilizando o argumento axis=1
df.drop('País', axis=1)

#Aplicando funções: 
#Aplicando uma função que substitui a por b: 
df.apply(lambda x: x.replace('a', 'b'))

Ordenando valores: 

In [None]:
#Ordenando em ordem crescente: 
df.sort_values()
#Ordenando em ordem decrescente: 
df.sort_values(ascending=False)

#Indexação por Boolean:
#Filtrando o DataFrame para mostrar apenas valores pares
df[df['População'] % 2 == 0]

#Selecionando valores: 
#Selecionando a primeira linha da coluna país
df.loc([0], ['País'])