# Pandas Tutorial

In [None]:
import pandas as pd

In [None]:
# verificando a versão do Pandas:
print(pd.__version__)


# Séries de dados: criando, manipulando, consultando e deletando:

In [None]:
# Criando uma série simples a partir de uma lista:

# Lista:
arr = [0, 1, 2, 3, 4]

# Criando o array:
s1 = pd.Series(arr)
s1

In [None]:
# Criando uma ordem para os índices começando em 1:
order = [1, 2, 3, 4, 5]
s2 = pd.Series( arr, order)
s2

In [None]:
# Integrando com numpy:
import numpy as np
# Criando um array numpy contendo 5 valores aleatórios:
n = np.random.randn(5)

my_index = ['a', 'b', 'c', 'd', 'e']

# Podemos criar pandas series a partir de numpy arrays:
s2 = pd.Series( n, index=my_index)
s2

In [None]:
# Criando uma série como um dicionário:
dictionary={'a':1, 'b':2, 'c':3, 'd':4, 'e':5}

s3 = pd.Series(dictionary)
s3


In [None]:
# Como último exemplo, modificando o índice de uma série:
print(s1)
# Inserindo um índice: 
s1.index = ['A', 'B', 'C', 'D', 'E']

print(s1)

# Seleção e visualização dos dados:


In [None]:
# Seleção básica de dados. Um pandas dataframe pode sempre sofrer seleções a partir do uso de [x:y]. Exemplos:

# Selecionar os primeiros 3 elementos do vetor (começa em 0, termina em 3, o 0 é opcional):
print(s1[0:3])

print(s1[:3])

print(s1[:-2])

In [None]:
# Selecionar os últimos 3 elementos do vetor (começa em 3, termina em 5, o 5 é opcional):
print(s1[3:5])

print(s1[3:])

print(s1[-2:])


In [None]:
# Adicionando dataframes. Cria s4 como s1 seguido de s3:
s4 = s1.append(s3) # << Versão antiga, deve ser evitada.

print(s4)

In [None]:
# Removendo elementos: remove o índice 'e' do dataframe:
s4.drop('e') # << Essa linha de código não muda a série de fato, já que é um elemento de consulta. 

In [None]:
print(s4)
# Para mudança efetiva de s4, temos que atribuir o novo dataframe à série original, como abaixo:
s4 = s4.drop('e')
print(s4)

# Operações com séries:

In [None]:
# Criando dois arrays como exemplos de entrada:
arr1=[0, 1, 2, 3, 4, 5 ,7]
arr2=[6, 7, 8, 9, 5]

# Transformando esses arrays em série pandas:
s5 = pd.Series(arr2)
print(s5)

s6 = pd.Series(arr1)
print(s6)


In [None]:
# Somando séries: como no nosso caso as séries são de tamanhos diferentes, será inserido o valor Not A Number (NAN)
# nas posições em que é impossível realizar a soma (repare que em numpy isso geraria um erro):
s6.add(s5)

In [None]:
# Como realizar subtração entre séries:
s6.sub(s5)

In [None]:
# Como realizar multiplicação:
s5.mul(s6)

In [None]:
# Como realizar divisão (repare que nesse caso, como temos uma divisão por 0, o valor resultante será inf):
s5.div(s6)

In [None]:
# Obtendo valores de máximo, média e mínimo (repare que valores NaN são desconsiderados):
s7 = s5.mul(s6)
print(s7)

# Máximo, média e mínimo:
print( 'Max:', s7.max())
print( "Min", s7.min())
print( 'Mean', s7.mean())

# Criando dataframes:

In [None]:
# Criando uma série onde os índices são formados por datas/horas de seis dias consecutivos a partir de hoje:
dates = pd.date_range('today', periods=6)
print(dates)

In [None]:
# Criando dataframe com os índices chamados A, B, C e D:
columns = ('A', 'B', 'C', "D") # << Aspas simples ou duplas são opcionais em python!!!

# Criando uma matrix de 6,4 com valores (aleatórios) para inserir no dataframe:
num_arr = np.random.randn(6,4)

# Criando o dataframe com índices (nomes das linhas) dado por 'dates', índexes (nomes das colunas) dador por
# columns, e valores por 'num_arr'
df1 = pd.DataFrame( num_arr, index=dates, columns=columns)
print( df1 )


In [None]:
# Outro exemplo de criação de um dataframe, mais completo e complexo:
data = { 'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'], 
         'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
         'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
         'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no'] }
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

# Criando o dataframe:
df2 = pd.DataFrame( data, index=labels)
print(df2)

In [None]:
# Como saber os tipos de dados do dataframe?
print(df2.dtypes)

In [None]:
# Facilidades: quando temos dataframes muito grande, vale imprimir as primeiras linhas somente:
print(df2.head(3))

In [None]:
# Também podemos criar um dataframe menor a partir de outro:
df3 = df2.head(3)

print(df3)

In [None]:
# O mesmo vale para as últimas linhas de um dataframe, usando tail ao invés de head:
df4 = df2.tail(3)

print(df4)

In [None]:
# Imprimindo o index (nomes das linhas):
print(df2.index)

# Imprimindo as colunas (nomes das colunas):
print(df2.columns)

# A função "values" dá uma boa forma de voltar um dataframe para o formato numpy:
print(df2.values)

In [None]:
# Examinando informações sobre um dataframe:
df3.describe()

In [None]:
# Podemos transpor um dataframe:
df5 = df2.T
print(df5)

In [None]:
# Podemos também ordenar um dataframe de acordo com uma de suas colunas:
df6= df2.sort_values(by='age')
print(df6)

In [None]:
# Fatiando um dataframe:
df7 = df2[2:4]
print(df7)

In [None]:
# Pegando somente as colunas que quisermos:
df8 = df2[['animal', 'age']]
print(df8)

In [None]:
# Alternativamente, podemos utilizar a função iloc (integer location):
df8 = df2.iloc[2:4]
print(df8)

In [None]:
# Criar uma cópia de um dataframe qualquer pode ser feito através da função 'copy':
df9 = df2.copy()
print(df9)

In [None]:
# Caso queiramos saber quais dos valores do dataframe são 'null', usamos a fução 'isnull':
print(df2.isnull())

In [None]:
# Para mudar o valor de uma posição, basta acessá-la através do seu nome:
df9.loc['d', 'age'] = 10
print(df9)

In [None]:
# Caso utilizemos a função 'mean' ela retornará a média somente para as colunas numéricas:
print(df9.mean())

In [None]:
# Lembre-se de que cada coluna equivale a um array. Portanto, podemos chamar as funções que vimos para arrays:
print(df9['visits'].sum())
print(df9['age'].mean())

# Operações específicas para valores faltantes: