# Aula 2 - Introdução ao Python e Pandas

### Random Walk (com loop)

In [None]:
def exemplo(x):
    return x * 2

def apply_to_list(some_list, f):
    return [f(x) for x in some_list]

ints = [4, 0, 1, 5, 6]
lista1 = apply_to_list(ints, lambda x: x * 2)
lista2 = apply_to_list(ints, exemplo)
print(lista1)
print(lista2)

In [None]:
# pip é um instalador de pacotes do python
# Instala alguns pacotes do python
#!pip install tabulate xlrd openpyxl PySUS names

In [None]:
import random # Biblioteca para gerar números aleatórios
import matplotlib.pyplot  as plt # Biblioteca para plotar gráficos
%matplotlib inline 

position = 0
walk = [position]
steps = 1000
for i in range(steps):
    # random.randint: Gera inteiros aleatórios no intervalo [0,1]
    step = 1 if random.randint(0, 1) else -1  # retorna 1 se o número aleatório for 1, e -1 caso contrário
    position += step # Dá um passo
    walk.append(position) # Registra o passo
plt.plot(walk[:100]) # Plota o gráfico


### Random Walk (sem loop)

In [None]:
import numpy as np
nsteps = 1000
draws = np.random.randint(0, 2, size=nsteps) # Gera inteiros aleatórios no intervalo [0,2)
steps = np.where(draws > 0, 1, -1) # Classifica os passos em 1 ou -1
walk = steps.cumsum() # cumsum: Aplica uma função de acumulação (soma cumulativa)
print(walk.min())
print(walk.max())
#argmax: Returns the indices of the maximum values along an axis. 
#        In case of multiple occurrences of the maximum values, the indices corresponding 
#        to the first occurrence are returned.
print((np.abs(walk) >= 5).argmax())


### Vários Random Walks de uma vez

In [None]:
nwalks = 5000
nsteps = 1000
draws = np.random.randint(0, 2, size=(nwalks, nsteps)) # Gera uma array 2d de inteiros aleat. no intervalo [0,2) 
steps = np.where(draws > 0, 1, -1) # Classifica os passos em 1 ou -1
walks = steps.cumsum(axis=1) # cumsum(axis=1): Aplica uma função de acumulação (soma cumulativa) no eixo 1
walks

In [None]:
walks.max()
walks.min()
# vec = np.abs(walks) >= 30
# print(vec)
hits30 = (np.abs(walks) >= 30).any(axis=1) # Verifiqua quais Walks passaram de 30 (ou -30) pelo menos uma vez
print(hits30)

In [None]:
hits30.sum() # Conta quantos Walks passaram de 30 (ou -30)

## Função Lambda

### Comparar a função lambda com uma função normal

In [None]:
# Considere as funções abaixo
def exemplo(x):
    return x * 2

def apply_to_list(some_list, f):
    return [f(x) for x in some_list]

ints = [4, 0, 1, 5, 6]
print(apply_to_list(ints, exemplo))

# Crie uma função lambda que faz o mesmo que a função exemplo, e aplique a lista ints
print(apply_to_list(ints, lambda x: x * 2))



### Criar uma função lambda para ordenar uma lista de strings
#### pelo tamanho dos seus elementos, do menor para o maior


In [None]:
#Considere a lista de strings abaixo
strings = ['card', 'bar', 'aaa2222a', 'foo', 'abasb']
# Ordene esta lista pelo tamanho das strings usando uma função lambda
strings.sort(key=lambda x: x[-1])
print(strings)

## Series

In [None]:
# Importe a biblioteca pandas
import pandas as pd

### Crie um objeto Series

In [None]:
# Crie uma Serie contendo os seguintes elementos [4, 7, -5, 3]
obj = pd.Series([4, 7, -5, 3])
obj

In [None]:
# Crie um objeto Series contendo [4, 7, -5, 3] e 
#   defina seu próprio array de índices como sendo ['d', 'b', 'a', 'c']
obj2 = pd.Series([4, 7, -5, 3, 'a'], index=['d', 'b', 'a', 'c', 'f'])
obj2

### Use o índice para acessar o valor

In [None]:
# Retorne o elemento de índice a
obj2['a']

In [None]:
# Atribua o valor 6 ao elemento de índice d
obj2['d'] = 6
obj2

In [None]:
# Retorne os valores de índice 'c', 'a' e 'd'
obj2[['c', 'a', 'd']]

### Pode ser usada em contextos onde você usaria um dicionário

In [None]:
# Verifique se o valor 'c' está presente na Serie criada no exercício anterior
'c' in obj2

In [None]:
# Verifique se o valor 'e' está presente na Serie criada no exercício anterior
'e' in obj2

### Use o operações semelhantes às operações NumPy

In [None]:
# Considere a seguinte serie
obj2 = pd.Series([6, 7, -5, 3], index=['d', 'b', 'a', 'c'])
# Retorne os elementos cujo valor seja maior que 0
# 
# obj2 > 0
obj2[obj2 > 4]

In [None]:
obj2

In [None]:
# Retorne os valores da Serie obj2 multiplicados por 2
obj2 * 2

In [None]:
# Retorne os valores da aplicação da função exponencial (exp) a Serie obj2
np.exp(obj2)

### Criando uma Serie com um dicionário

In [None]:
# Crie uma série como seguinte dicionário 
# {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3

### Criando uma Serie com um dicionário
#### mas especificando seu próprio índice separadamente

In [None]:
# Crie uma série como seguinte dicionário 
# sdata= {'Ohio': 35000, 'Texas': 71000, 'Oregon': None, 'Utah': None}
# mas especificando como índice este vetor ['California', 'Ohio', 'Oregon', 'Texas']
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

### Valores Ausentes/Indisponíveis (NA)

In [None]:
# Retorne quais valores da Serie anterior (obj4) tem valores NA
pd.isnull(obj4)

In [None]:
# Retorne quais valores da Serie anterior (obj4) não tem valores NA
pd.notnull(obj4)

In [None]:
# Retorne quais valores da Serie anterior (obj4) tem valores NA, usando a função da própria Serie
obj4.isnull()

### Aritmética com Series
#### Automaticamente alinha os valores pelo índice

In [None]:
# Some as séries criadas nos dois exercícios anteriores (obj3 e obj4)
obj3 + obj4

## DataFrame

In [None]:
# Crie um data frame a partir dos dados do seguinte dicionário, chame-o de frame
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
'year': [2000, 2001, 2002, 2001, 2002, 2003],
'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)
frame

### Mostre as primeiras linhas de um DataFrame

In [None]:
# Acesse as primeiras linhas do dataframe
frame.head()

### Uma coluna pode ser recuperada como uma Serie
#### A notação .nome_coluna não funciona quando o nome da coluna contém espaços
### Acostume-se a usar a notação ['nome_coluna']


In [None]:
# Acesse a coluna state usando a sintaxe com colchetes
frame['state']

In [None]:
# Acesse a coluna year com a sintaxe .nome
frame.year

### Colunas podem ser modificadas por atribuição
#### Atribuição de um valor único ou de um array numpy

In [None]:
# Atribua o valor 16.5 para todas as posições da coluna debt
# Quando a coluna não existir, o pandas cria ela pra você
frame['debt'] = 16.5
frame

In [None]:
# Atribua o valor um intervalo de 0 a 5 (float) na coluna debt
frame['debt'] = np.arange(6.)
frame

In [None]:
# Crie uma nova coluna chamada eastern com o valor True para 
#   as linhas cujo estado seja Ohio, e False caso contrário
frame['eastern'] = frame.state == 'Ohio'
frame

### del exclui as colunas (como em um dicionário)

In [None]:
# Delete a coluna eastern
del frame['eastern']
frame.columns

### Criar um DataFrame a partir de um dicionário de dicionários

In [None]:
# Crie um Dataframe a partir do seguinte dicionário:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
        'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = pd.DataFrame(pop)
frame3

### O atributo values retorna um array 2d com os valores

In [None]:
# retorne um array 2d com os valores do frame3
frame3.values

### Removendo entradas de uma Serie

In [None]:
# Considere a Serie abaixo
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

In [None]:
# Crie um novo objeto removendo o item c
new_obj = obj.drop('c')
new_obj

In [None]:
# Retorne a serie sem os itens c e d
obj.drop(['d', 'c'])

### Removendo entradas de um DataFrame
#### Pode-se remover linhas ou colunas

In [None]:
# Considere o dataframe abaixo
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

In [None]:
# Retorne um dataframe sem as colunas Colorado e Ohio
data.drop(['Colorado', 'Ohio'])

In [None]:
data.drop('two', axis=1)

### Atribuindo valor num DataFrame

In [None]:
# Considere o dataframe abaixo
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

In [None]:
# Retorne um dataframen contendo True para itens menores que 5, e False caso contrário
data < 5

In [None]:
# Atribua o valor zero onde os valores do dataframe são menores que 5
data[data < 5] = 0
data

### Filtro e Seleção

In [None]:
# Selecione as colunas three e one
data[['three', 'one']]

In [None]:
# Retorne as linhas do dataframe cujo valor da coluna three seja maior que 5
data[data['three'] > 5]

### Seleção com o Operador loc e iloc
#### Seleção de linhas ou linhas e colunas

In [None]:
# Retorne o subconjunto especificado pela linha colorado e colunas two e three
data.loc['Colorado', ['two', 'three']]

In [None]:
# Retorne o subconjunto especificado pela linha 2 e colunas 3, 0 e 1
data.iloc[2, [3, 0, 1]]

### Outros exemplos de loc, iloc e []

In [None]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
'year': [2000, 2001, 2002, 2001, 2002, 2003],
'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data, index=['a', 'b', 'c', 'd', 'e', 'f'])
frame

In [None]:
# Nome(s) de coluna(s)
print(frame.loc['a']) 
# Nome(s) de linha(s) e nomes de coluna(s)
print(frame.loc['a', 'pop'])
# Vetor de booleano e nome de coluna
print(frame.loc[[True, True, False, False, False, False], 'pop']) 
# Vetor(es) de booleano(s)
print(frame.loc[[True, True, False, False, False, False], [True, True, False]]) 
print(frame.iloc[0:2, 1]) # Indice(s) da(s) linha(s) e coluna(s)
print(frame['pop']) # Nome(s) da(s) colunas
print(frame[[True, True, False, False, False, False]]) # Vetor de booleano

### Função apply
#### Aplica uma função às linhas ou às colunas de um DataFrame

In [None]:
# Considere o dataframe abaixo
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
                        index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [None]:
# Crie uma função lambda para calcular a diferença 
#   entre o valor máximo e o valor mínimo de uma Serie, 
#   e aplique-a ao dataframe frame, fazendo o cálculo no eixo das linhas
f = lambda x: x.max() - x.min()
frame.apply(f)

In [None]:
# aplique afunção lambda ao dataframe frame, fazendo o cálculo no eixo das colunas
frame.apply(f, axis='columns')

### Função applymap
#### Aplica uma função a cada element (element-wise)

In [None]:
# Crie uma função lambda para formatar um número float com duas casas decimais,
#    e aplique-a ao dataframe frame
format = lambda x: '%.2f' % x
frame.applymap(format)

### Sumarização e Estatística Descritiva

In [None]:
# Considere o dataframe abaixo
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                    [np.nan, np.nan], [0.75, -1.3]],
                    index=['a', 'b', 'c', 'd'],
                    columns=['one', 'two'])
df

In [None]:
# Calcule a soma ao longo do eixo das linhas
df.sum()

In [None]:
# Calcule a soma ao longo do eixo das colunas
df.sum(axis='columns')

### mean (média)
#### Os valores de NA são excluídos, a menos que a fatia inteira linha ou coluna seja NA.
#### Isso pode ser desativado com a opção skipna

In [None]:
# Calcule a média ao longo do eixo das linhas desconsiderando valores NA
df.mean(axis='columns')

In [None]:
# Calcule a média ao longo do eixo das linhas 
#    retornando NA para colunas que tenham algum NA
df.mean(axis='columns', skipna=False)

### describe (resumo de várias estatísticas)

In [None]:
# Aplique um método para calcular várias estatísticas do dataframe df
df.describe()