# Dia 1 - Introdução às ferramentas

Nesse primeiro momento vamos apresentar os pacotes NumPy, Pandas, Matplotlib. 

## Numpy
- Pacote para computação científica

Tendo em vista a natureza das aplicações que vamos fazer, para manipulação de informações e dados iremos ver Arrays.

## Arrays

Vamos apresentar os arrays do Numpy, começando com alguns atributos que todo objeto desse tipo tem:

In [None]:
!pip install numpy
import numpy as np

In [None]:
a = np.arange(15).reshape(3, 5)
print(a)
print("--------------")

print(a.shape) # quantidade de linhas e colunas
print("--------------")

print(a.ndim) # número de dimensões
print("--------------")

print(a.dtype.name) # nome do tipo dos elementos
print("--------------")

print(a.size) # número total de elementos
print("--------------")

In [None]:
# Seguindo com algumas formas de declarar arrays
x = np.array([1, 2, 3])
print("x =", x)
print("--------------")

y = np.arange(2, 10, dtype = np.float)
print("y =", y)
print("--------------")

z = np.linspace(1., 4., 6.)
print("z =", z)
print("--------------")

Arrays com mais de uma dimensão podem também ser chamados de matrizes. Para matrizes temos algumas funções específicas.

In [None]:
# Todos os elementos 0
x = np.zeros((2, 3))
print("x =", x)
print("--------------")

# Todos os elementos 1
y = np.ones((2, 3))
print("y =", y)
print("--------------")

# Matriz identidade, primeiro argumento é o número de elementos em linha/coluna
# segundo argumento é o tipo dos elementos
z = np.identity(2, float)
print("z =", z)
print("--------------")

w = np.random.random((2, 3))
print("w =", w)
print("--------------")

In [None]:
# Acesso a elementos
# A manipulação de elementos é feita da mesma maneira que os arrays padrão de python
print(x[1][1])
# Ou então
print(x[1, 1])

In [None]:
# Imprimindo arrays
a = np.arange(6)                         # 1d array
print(a)
print("--------------")

# A função reshape é muito útil para mudar a forma de 
# um array ou matriz para a configuração que precisamos
# Note que a quantidade de elementos deve ser igual ao número de colunas pelo número de linhas
b = np.arange(12).reshape(4, 3)           # 2d array
print(b)
print("--------------")

c = np.arange(24).reshape(2, 3, 4)         # 3d array
print(c)
print("--------------")

In [None]:
print(b.ravel())
print("--------------")
print(c.ravel())

In [None]:
# Algumas operações básicas
a = np.array([20, 30, 40, 50])
b = np.arange(4)
c = a - b
print(c)
print("--------------")

print(b**2)
print("--------------")

print(10*np.sin(a))
print("--------------")

print(a < 35)
print("--------------")

print(a[a < 40])
print("--------------")

In [None]:
#Indexando, Cortando e Iterando sobre arranjos
a = np.arange(10)**3
print(a)
print(a[2])
print(a[2:5])
print(a[:-1])
print("--------------")

a[:6:2] = 0 # Muda todos os valores até o 6º, 2 a 2 para 0
print(a)

print("--------------")

#Reverse
a[]

In [None]:
z = [i for i in range(5) for j in range(np.random.randint(10))]
print(z)
unique, counts = np.unique(z, return_counts=True)
print("unique =", unique, "counts =", counts)

In [None]:
x, y = np.meshgrid(np.arange(1, 2, 0.25), np.arange(3, 4, 0.25))
print(x)
print(y)
print("--------------")

a = np.array([4., 2.])
b = np.array([2., 8.])

print(np.column_stack((a, b)))
# ou
print(np.c_[(a, b)])
print("--------------")

print(a[:, np.newaxis])  
print("--------------")

print(np.vstack((a[:, np.newaxis], b[:, np.newaxis])))
print("--------------")

### Exercício 1

Crie um array com 11 elementos e negue os elementos que estão entre 4 e 8.

In [None]:
# Solução

### Exercício 2

Dados os arrays v e w, gerar todas as combinações possíveis entre os elementos.

In [None]:
# Os arrays
v = np.arange(9, 10, 0.25)
w = np.arange(11, 12, 0.25)

# Solução

## Pandas

- É uma biblioteca para Python que fornece muitas funções para lidar com dados. 

In [None]:
!pip install pandas
import pandas as pd

In [None]:
# Você pode inicializar um objeto do tipo Series 
s = pd.Series([1, 3, 5, np.nan, 6, 8])

# Ou então um DataFrame
dates = pd.date_range('20130101', periods = 6)     # Cria datas a partir da data inicial especificada
df1 = pd.DataFrame(np.random.randn(6, 4), index = dates, columns = list('ABCD'))
print(df1)
print("--------------")

df2 = pd.DataFrame({'A' : 1.,
               'B' : pd.Timestamp('20130102'),
               'C' : pd.Series(1, index=list(range(4)), dtype='float32'),
               'D' : np.array([3] * 4, dtype='int32'),
               'E' : pd.Categorical(["test", "train", "test", "train"]),
               'F' : 'foo' })
print(df2)
print("--------------")

print(df2.dtypes)
print("--------------")

df2.info()

Vamos trabalhar com uma base de dados nova. 

Essa base trata-se dos alunos do BTI, contém informações a respeito das notas dos alunos nas disciplinas iniciais do curso, mas também inclui, por exemplo a nota do aluno (caso haja) no ENEM, usada para ingressar na Universidade. 

In [None]:
# Para abrir um cvs (que é transformado em DataFrame)
# sep é um argumento que devine qual é o separadador dos atributos
alunos_bti = pd.read_csv("dados/alunos-bti.csv", sep = ",")
print(type(alunos_bti))

alunos_bti.head()

In [None]:
alunos_bti.tail(3)

In [None]:
alunos_bti.index

In [None]:
alunos_bti.columns

In [None]:
alunos_bti.values

In [None]:
alunos_bti.sort_values(by = 'enem_redacao', ascending = False).head()

In [None]:
# Selecionando dados por coluna
print(alunos_bti['nota'].head())
print("--------------")

#Ou usando
print(alunos_bti.nota.head())

In [None]:
# Seleção por posição
print(alunos_bti.iloc[3])
print("--------------")

print(alunos_bti.iloc[1,1])
print("--------------")

In [None]:
# Uma função muito útil é groupby que separa a base usando uma coluna 
# e reunindo em um mesmo grupo todos que possuem o mesmo valor pra essa coluna
alunos_bti.groupby("ano_ingresso")["enem_nota"].mean()

In [None]:
# Quando queremos tirar colunas específicas podemos usar Drop
axis = ["a_ID", "CEP", "periodo_ingresso", "periodo_disciplina", "disciplina_ID", "status_disciplina", "ano_disciplina"]
alunos_bti.drop(axis, axis = 1).groupby("ano_ingresso").describe()
# std = desvio padrão

In [None]:
# Para inserir uma coluna
alunos_bti["idade"] = np.array([18] * len(alunos_bti))
alunos_bti.head()

In [None]:
alunos_bti[alunos_bti['ano_ingresso'] == 2014].head()

In [None]:
alunos_bti[(alunos_bti['ano_ingresso'] == 2014) & (alunos_bti['status_disciplina'] == 'Reprovado')].head()

### Exercício 3

Selecione a disciplina com id = 4 e calcule a média das notas de todos que pagaram e foram aprovados. 

In [None]:
# Solução

### Exercício 4
Selecione todos os alunos que ingressaram em 2015, agrupe a lista pelo a_ID e calcule a média, máximo e mínimo de das notas de cada um. 

In [None]:
# Solução

Podemos já começar a caminhar em direção a tarefas que são necessárias quando estamos lidando com base de dados. Chamamos de "limpeza" esse processo de tirar o que estiver faltando e que iria apenas nos atrapalhar.

Vamos trabalhar brevemente com uma base de animes do gênero mecha que foram retirados do site MyAnimeList.

In [None]:
mecha = pd.read_csv("mecha.csv", sep = ";")
mecha.head()

In [None]:
# Tira apenas as linhas que tem algum valor inválido
mecha.dropna(how = 'any').head()
# Quando informamos o parâmetro axis = 1, definimos que qualquer alteração passará
# a ser feita por coluna, teste executar

In [None]:
# Substitui o valor inválido pelo valor passado por parâmetro
mecha.fillna(value = -100).head()

In [None]:
pd.isnull(mecha).head()

### Exercício 5
Substitua apenas na coluna year os valores indefinidos por 2017.

In [None]:
# Solução

## Matplotlib

Uma vez que já abordamos duas maneiras de representar/manipular nossos dados, agora vamos ver uma maneira de visualização. 
- Matplotlib é uma biblioteca para plot 2D em Python.

In [None]:
# O pyplot é is um conjunto de comandos que fazem o matplotlib
# funcionar como o MATLAB
!pip install matplotlib
import matplotlib.pyplot as plt

In [None]:
# Vamos ao nosso primeiro exemplo básico
plt.plot([1,2,3,4])             # Primeiro informamos o que será plotado
plt.ylabel('alguns números')    # Podemos configurar algumas coisas opcionais como nome do eixo
plt.show()                      # Finalmente o comando para mostrar o plot

# Nota: quando vê só informa um array que deve ser plotado 
# o pyplot vai assumir alguns valores para o eixo X e interpretar
# os valores dados como eixo Y

In [None]:
# Vamos aprimorar nosso gráfico dando as devidas coordenadas que 
# queremos plotar e com um novo argumento 
# 'ro' que indica a cor usada (red) e o estilo do plot (com "pontos")
plt.plot([1,2,3,4], [1,4,9,16], 'ro')

plt.axis([0, 6, 0, 20])                     # Aqui estamos definindo [min_x, max_x, min_y, max_y]
# Outra possibilidade
# plt.xlim([1, 2, 3, 4].min(), [1, 2, 3, 4].max())
# plt.ylim([1, 4, 9, 16].min(), [1, 4, 9, 16].max())
plt.show()

In [None]:
import numpy as np
# Agoras vamos trabalhar com múltiplas imagens 

def f(t):
    return np.exp(-t) * np.cos(2*np.pi*t)

# Geramos dois vetores
t1 = np.arange(0.0, 5.0, 0.1)
t2 = np.arange(0.0, 5.0, 0.02)

plt.figure(1)
plt.subplot(211)                              # Esse comando especifica num da linha, num da coluna, num da figura
                                              # Usar vírgulas ou não é opcional no caso de linhas * colunas < 10
plt.plot(t1, f(t1), 'bo', t2, f(t2), 'k')

plt.subplot(212)
plt.plot(t2, np.cos(2*np.pi*t2), 'r--')
plt.show()

In [None]:
# Scatter plot é um estilo de plotagem onde 
# as coordenadas são visualizadas apenas como pontos
# Documentação: https://matplotlib.org/api/_as_gen/matplotlib.axes.Axes.scatter.html
data = [i for i in range(8) for j in range(np.random.randint(10))]
print("data = ", data)
x, y = np.array(data), np.array(data)
plt.scatter(x, y, alpha = .1, s = 400)      # alpha regura transparência, s regula tamanho de cada "ponto"
plt.show()

In [None]:
N = 50
x = np.random.rand(N)
y = np.random.rand(N)
colors = np.random.rand(N)
area = np.pi * (15 * np.random.rand(N))**2       # Geramos o tamanho de cada ponto

plt.scatter(x, y, s = area, c = colors, alpha = 0.5)
plt.show()

In [None]:
# O parâmetro marker determina o formato do "ponto"
# Tabela com vários formatos disponíveis: https://matplotlib.org/api/markers_api.html
plt.scatter(x, y, s = area, c = colors, alpha = 0.5, marker = '^')
plt.show()

In [None]:
# Lidando com cores
import matplotlib as mpl

fig = plt.figure(figsize=(8, 3))       # figsize é largura e algura em polegadas
ax = fig.add_axes([0.05, 0.80, 0.9, 0.15])

# Colormap são paletas de cores prédefinidas 
# https://matplotlib.org/users/colormaps.html
# Elas podem ser úteis para plotar informações com diferentes cores, 
# mas sem definir a mão cada cor
cmap = mpl.cm.inferno
norm = mpl.colors.Normalize(vmin = 5, vmax = 10)

# ColorbarBase coloca uma barra de cores em um dado eixo
cb = mpl.colorbar.ColorbarBase(ax, cmap = cmap,
                                norm = norm,
                                orientation = 'horizontal')
plt.show()

In [None]:
xx, yy = np.meshgrid(np.arange(1, 2, 0.2),
                     np.arange(4, 5, 0.2))
print(xx)
print(yy)

Z = np.array([np.random.randint(4) for j in range(len(xx)*len(yy))]).reshape(xx.shape)
print(Z)

plt.figure()
plt.pcolormesh(xx, yy, Z, cmap = mpl.cm.inferno) # Usado para pintar um grid 
plt.show()

In [None]:
# Iremos ver mais um tipo de gráfico, dessa vez Histograma
import matplotlib.mlab as mlab

mu, sigma = 100, 15
x = mu + sigma*np.random.randn(10000)

n, bins, patches = plt.hist(x, 20, normed = 1, facecolor = 'green', alpha = 0.75)

plt.axis([40, 160, 0, 0.03])
plt.grid(True)

plt.show()

Nós já estamos usando o Matplotlib com o Numpy, agora vamos também combinar ele com o Pandas e aumentar nosso potencial de visualização de dados.

In [None]:
import pandas as pd
alunos_bti = pd.read_csv("alunos-bti.csv", sep = ",")
# Voltando para a base de dados dos alunos do BTI
alunos_bti.head()

In [None]:
# Porém vamos usar apenas uma parte específica dos dados
axis = ['CEP', 'ano_disciplina', 'periodo_disciplina']
alunos_bti = alunos_bti.drop(axis, axis = 1)
alunos_bti.head()

In [None]:
# Calculando a média das notas das disciplinas que os alunos foram aprovados
alunos_mean = alunos_bti[alunos_bti['status_disciplina'] == 'Aprovado'].groupby('a_ID')['nota'].mean()
print(len(alunos_mean))
alunos_mean.head()

In [None]:
# Separando as notas do enem dos alunos
alunos_enem = alunos_bti[alunos_bti['status_disciplina'] == 'Aprovado'].groupby('a_ID')['enem_nota'].mean()
print(len(alunos_enem))
alunos_enem.head()

In [None]:
plt.scatter(alunos_mean, alunos_enem, marker = '.')
plt.ylabel("enem")
plt.xlabel("mean")
plt.show()

### Exercício 6
Calcule o total de aprovações e o total de reprovações no semestre 2016.1, separando os alunos por ano de ingresso. Faça o gráfico.

Dica 1: use a função count() para contar o número de linhas em uma dada coluna.

Dica 2: plt.xticks() e plt.yticks() podem ser úteis para determinar exatamente quais valores você quer que estejam nos eixos.

In [None]:
# Solução