# Roteiro de Aula: Python para Análise de Dados

## Guias Gerais
- Retomar conceitos de algoritmos e estruturas de dados
- Demonstrar instalação das bibliotecas pandas e numpy
- Utilizar dataset real para exemplificar (emendas parlamentares)
- Fazer uma análise exploratória dos dados, usando estatística básica (centralidade e dispersão)
- Pandas x Numpy
  - Altamente compatíveis, convivem em harmonia
  - Processamento Numérico: Numpy
  - Manipulação de dados: Pandas


Bibliografia principal (Open Access): https://wesmckinney.com/book/

Uma experiência de análise de dados com visualização: 

![Visualização: Bolha da IA?](ai_bubble_viz.webp)

Uma interpretação possível pode ser encontrada no post do substack:
https://broligarchy.substack.com/p/the-great-ai-bubble.


E o gráfico abaixo, que história ele conta?

![Taxa de reincidência de prisoneiros (1994)](prison_bad_viz.jpg)


Quais são os principais pecados cometidos pelo criador desse gráfico?
Vocês enxergam técnicas mais apropriadas para gerar a visualização desse cenário?

### Interpretadores 

Revisar as metodologias de execução de código python utilizadas nos semestres anteriores.

Ilustrar a execução de código no modelo escreve-compila, usando um editor de texto e executando via terminal. O mesmo pode ser feito para o notebook.

Apresentar o interpretador python via linha de comando, destacando os benefícios desse uso.

Introdução do interpretador ipython - 
``` pip install ipython ```

Vantagens:
- Possui um terminal do SO integrado ao interpretador python, facilitando a iteração e manipulação de datasets em tempo de desenvolvimento/exploração;
- Tab-completion: o terminal ipython possui auto-complete vinculado ao namespace sob o cursor, buscando variáveis, objetos e funções registradas. Também funciona para arquivos e elementos da área de trabalho do SO, agilizando a exploração inicial de datasets;
- Introspecção: utilizando o caractere ? após um nome de variável, biblioteca ou função exibe detalhes sobre o objeto diretamente no terminal.
- Stacktraces: ao executar um script python pelo interpretador `%run script.py` e encontrar uma exceção, o ipython exibe um stacktrace mais detalhado do que o interpretador padrão

Utilizar %history para recuperar o histórico de comandos do interpretador
Utilizar %load para carregar um script python

Exemplo prático: Acessar arquivos em locais distintos rapidamente:
```
cd code
ls
cd cd unisenai_BI_DV/
cd unisenai_BI_DV/
ls
cd "Aula 2 - Python para Análise de Dados"
ls
import pandas as pd
csv = pd.read_csv("EmendasParlamentares.csv")
csv = pd.read_csv("EmendasParlamentares.csv", encoding='iso-8859-1',sep=';')
csv
csv['Ano da Emenda']
csv[csv['Ano da Emenda']>2024]
```

## Numpy

Principal biblioteca para computação numérica em python. O nome deriva de Numerical Python. 
É formalmente reconhecida como a principal interface para armazenamento e troca de dados com sua implementação de arrays.

Sua principal força é na implementação eficiente de estruturas de arrays multidimensionais com expressões vetoriais embutidas. Pareada com operações matemáticas de alta performance (velocidade) voltadas à manipulação de arrays completos, a biblioteca assumiu destaque . Implementa também capacidades de álgebra linear, geração de números aleatórios e transformadas de Fourier. 


### Conceitos

ndarray: array multidimensional

Implementação para vetores de n-dimensões, o ndarray é um container robusto que implementa eficiência de memória e performance para operações vetoriais. Um dos grandes destaques do objeto é a expressão de operações aritméticas de forma direta:

In [None]:
import numpy as np
#Criação de um ndarray
data = np.array([1,2,3,4,5])
data_doubled = data * 2
data_summed = data + data_doubled


Características:
- Container de dados **homogêneos** (todos os dados devem possuir o mesmo tipo)
- Shape: descreve a forma do array através de uma tupla contendo o tamanho de cada dimensão
- Dtype: tipo dos dados contidos no array. Os tipos de dados do numpy possuem maior granularidade do que os tipos padrão do pyhton (por ex: int32, int64 vs int) 

A eficiência da implementação de arrays do numpy pode ser demonstrada pelos comandos a seguir.

```  
In [10]: %timeit my_arr2 = my_arr * 2
309 us +- 7.48 us per loop (mean +- std. dev. of 7 runs, 1000 loops each)
 In [11]: %timeit my_list2 = [x * 2 for x in my_list]
46.4 ms +- 526 us per loop (mean +- std. dev. of 7 runs, 10 loops each)
```

#### Inicializando Arrays

In [None]:
#Inicialização com dados existentes
array = np.array([1,2,3])
array2 = np.array({4,5,6})
array3 = np.array((7,8)) # Qualquer objeto tipo sequência
array4 = np.array([[10,11],[12,13]]) # Matriz 2x2

#Inicialização zerada ou unária
zeroes = np.zeros(10) # Array de 10 elementos, preenchido com 0
zeroes2 = np.zeros((3,5)) # Matriz 3x5, preenchida com 0
ones = np.ones(5) # Array de 5 posições, preenchido com 1

#Inicialização "vazia"
empty = np.empty((1,2)) #Matriz 1x2, com elementos não inicializados. Cuidado com o lixo!

#Inicialização por intervalos
range = np.arange(15) # Array com 15 elentos, igualmente distribuídos entre 0 e 15
range_10_10to20 = np.arange(10,20) # Array com 10 elementos, entre 10 e 20 [10, 20) 
range_5_10to20 = np.arange(10,20,2) # Array com 5 elementos, entre 10 e 20 [10, 20)

AttributeError: module 'numpy' has no attribute 'zeroes'

#### Aritmética

Operações aritméticas básicas entre arrays de mesmas dimensões são aplicadas elemento a elemento. É possível aplicar operações entre 2 arrays com dimensões diferentes através de *broadcasting* (mais complexo)

In [None]:
array = np.arange(10)
#Aplica a soma a cada elemento do vetor
array2 = array + 10
# Multiplicação elemento a elemento
array3 = array * array2
# Subtração elemento a elemento
array4 = array - array2

Também é possível realizar operações booleanas. Nesse caso, o retorno é um array contendo apenas valores booleanos, indicando o resultado da operação para cada elemento dos vetores originais.

#### Indícies e fatias (slices)

Elementos podem ser acessados da mesma maneira que arrays python, utilizando índices com base 0. Numpy também provê a sintaxe familiar de slices para obter um subconjunto dos dados. Um detalhe essencial aqui é que os slices funcionam como uma janela para os dados originais, sem gerar uma cópia como no array python. Isso significa que os dados originais podem ser manipulados através dos slices.



In [None]:
array = np.arange(10)

# Acesso de leitura
el0 = array[0]
# Modificação de elemento do array
array[5] = 50

# Subconjunto dos dados
slice = array[5:8]
# Alteração do elemento na posição 5 do array original
slice[0] = 60
# Broadcasting: atribui o valor 45 para **todas** as posições da fatia
slice = 45 
# Alteração dos valores de todo o array
array[:] = 0

#Cópias devem ser explícitas:
sep = array[5:8].copy()

Para arrays multidimensionais, o acesso pode ser feito a cada dimensão. Uma forma de se entender arrays multimensionais é compreender cada dimensão como um "eixo" em uma representação gráfica

In [None]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])

# Acesso via índices recursivos
num6 = arr3d[0][1][2]
# Equivalente ao acesso via lista de índices!
num6 = arr3d[0, 1, 2]

# A primeira posição do array 3D é um array de duas dimensões!
arr2d = arr3d[0]
# O mesmo é válido recursivamente!
arr1d = arr2d[0]

Fatias de arrays multimensionais são mais complicadas. A sintaxe de slices atua em cada "eixo" do array de múltiplas dimensões.

In [None]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])

# A fatia conterá 2 arrays de 2 dimensões!
slice = arr3d[0:2]

arr2d = arr3d[0]
# A fatia traz as duas primeiras "linhas" da matriz bidimensional
slice2 = arr2d[0:2]

#A sintaxe de slices pode ser combinada em uma única expressão:
slice3 = arr3d[0:2, 0:2]

#Slices podem ser combinados com índices!
slice4 = arr3d[0, 0:2]

#Como selecionar a as 2 primeiras colunas da primeira linha de um array bidimensional?

##### Indexação Booleana

Demonstramos acima que operações booleanas entre arrays numpy resultam em arrays booleanos. Uma propriedade útil destes arrays booleanos é que eles servem como "máscara" para selecionar elementos específicos dentro do array. Isso é feito utilizando o vetor booleano no lugar do índice:



In [None]:
a = np.array([1,2,3,4,5,6])
# Operações booleanas retornam um array booleano
b = a < 3

# Um array booleano pode ser utilizado como "máscara" para indexar os dados:
a[b] # Seleciona todos os elementos de a menores que 3 

#Operações booleanas podem ser encadeadas com os operadores lógicos & e |
a[ (a < 3)  & (a >= 0)] # Elementos de a entre 0 e 3 (cópia)

c = np.array(['joão','josé','maria','josé','joana','pablo'])
a[c == 'josé']
c[a < 6 ]

# Negação pode ser feita via condição ou pelo operador ~
a[~(c=='josé')]
a[ c!='josé']

#Elementos podem ser alterados via indexação booleana!
a[a < 3 ] = 0

Só é possível indexar via array booleano se ambos forem do mesmo tamanho. Um exemplo de caso de uso é no processamento de imagens:
  
  1. Uma imagem pode ser representada em código python através de um array bidimensional. Cada elemento é um array com 3 posições, representando as cores no formato RGB;
  2. Através do processamento podemos gerar uma versão em escala de cinza desta imagem, representada por um array bidimensional, onde cada elemento é a intensidade do cinza (0 a 255);
  3. Podemos utilizar esta segunda imagem como uma máscara para extrair detalhes da imagem original utilizando a indexação booleana!

Demonstrar `exemplo_processamento_imagem.py`

### Aplicações

#### Gerando distribuições pseudoaleatórias

A biblioteca contém funcionalidades para a geração de valores pseudoaleatórios em larga escala. Essa funcionalidade é útil quando precisamos escolher uma amostra dos dados, por exemplo, de acordo com uma determinada distribuição de probabilidade. 


In [None]:
# Matriz 4x4 contendo amostra de dados aleatórios na distribuição normal
sample = np.random.standard_normal(size=(4,4))

#Gerador padrãos
rng = np.random.default_rng()
# Valores aleatórios inteiros entre 1 e 40
sample = rng.integers(low=1, high=40, size=(4,4))

#Distribuição de probabilidade uniforme
sample = rng.uniform(size=(3,4))

#### Processando dados vetoriais

As operações vetorizadas da biblioteca não se resumem aos operadores algébricos. O processamento de todos elementos de um array é simplificado pela utilização de funções universais (*ufuncs*). 

In [None]:

arr = rng.standard_normal(8)
arr2 = rng.standard_normal(8)

# Retorna um novo array, contendo a raiz de cada elemento
result = np.sqrt(arr)

#Equivalente ao loop
result = np.zeros(8)
for i in range(0,8):
  result[i] = np.sqrt(arr[i])

#Recebe 2 arrays, retorna um array com o maior valor de cada posição
max = np.maximum(arr, arr2)

# Recebe 1 array de floats, retorna 2 arrays: parte fracionária e inteira de cada elemento
frac_part, int_part = np.modf(arr)

# O argumento out é opcional, podendo ser utilizado para atribuir o resultado a um array existente
np.maximum(arr, arr2, out=arr) #Modifica o array arr com o resultado da operação

  result = np.sqrt(arr)
  result[i] = np.sqrt(arr[i])


array([ 0.07357467,  1.33401368, -0.36736935, -0.53248286,  0.17702416,
        0.57500472,  0.05942853,  1.45190355])

Consulte as funções disponíveis na [Documentação](https://numpy.org/doc/stable/reference/ufuncs.html#available-ufuncs).

Além das transformações vetoriais, operações de agregação também são fornecidas pela biblioteca. Essas operações são de uso comum na estatística e matemática:


In [None]:
arr = rng.standard_normal(8)
arr2d = rng.standard_normal((5, 4))

# Calcula a média dos elementos do array
media = np.mean(arr)
# Soma de todos os elementos
soma = np.sum(arr2d) 

# Também é possível somar apenas 1 "eixo" de arrays multidimensionais.
# Estes métodos resultam em um novo array 
soma_col = np.sum(arr2d, axis=1) # Soma dos elementos por coluna
soma_lin = np.sum(arr2d, axis=0) # Soma dos elementos por linhas

O processamento vetorial nos permite expressar tarefas de processamento de dados de maneiras mais concisas, evitando a criação de loops explícitos. Devido às otimizações da biblioteca, essas expressões são também mais eficientes em termos de uso de memória e velocidade.

Por exemplo, uma tarefa comum no processamento de dados para machine learning é a normalização de valores em um intervalo pré-determinado. Uma técnica comum é a padronização em torno da z-score, cuja fórmula matemática é z = (x - mu)/ sigma

mu=média, sigma=desvio padrão

In [None]:
data = np.random.rand(100, 100)

#Cálculo das métricas estatísticas. Recebem um array e retornam um escalar
mu = np.mean(data) # média
sigma = np.std(data) # desvio padrão

# Operação vetorizada
z_scores = (data - mu) / sigma

In [None]:
#Exemplo de detecção de bordas extraído de https://stackoverflow.com/questions/63036809/how-do-i-use-only-numpy-to-apply-filters-onto-images
from PIL import Image
# Create a test image with a white square on black
rect = np.zeros((200,200), dtype=np.uint8)
rect[40:-40,40:-40] = 255

# Create a test image with a white circle on black
xx, yy = np.mgrid[:200, :200]
circle = (xx - 100) ** 2 + (yy - 100) ** 2
circle = (circle<4096).astype(np.uint8)*255

# Concatenate side-by-side to make our test image
im = np.hstack((rect,circle))
Image.fromarray(im).show()
# Calculate horizontal differences only finding increasing brightnesses
d = im[:,1:] - im[:,0:-1]
Image.fromarray(d).show()
# Calculate horizontal differences finding increasing or decreasing brightnesses
d = np.abs(im[:,1:].astype(np.int16) - im[:,0:-1].astype(np.int16))
Image.fromarray(d).show()

## Pandas

Principal biblioteca para o processamento de dados *heterogêneos* em python. Utiliza muitas das convenções estabelecidas pela processamento de arrays do numpy. 

### Conceitos

#### Series
  Uma série pandas é uma coleção de valores de um único tipo (numérico, strings, etc..), associado a um índice composto por um array de identificadores. O caso mais simples gera um índice automático composto por inteiros iniciados em 0:

In [None]:

import pandas as pd

# Série com índice default (["0","1","2","3"])
serie = pd.Series([1,2,3,4]) 

# Série com identificadores explícitos
serie_id = pd.Series([1,2,3,4], index=["a","b","c","d"]) 

O índice da série é utilizado para acessar os elementos de dados:

In [None]:
print(serie[0])
print(serie_id["a"])
#Também é possível selecionar múltiplos elementos:
print(serie_id[["a","c"]])

1
1
a    1
c    3
dtype: int64


Nas séries, o índice é preservado na transformação ou filtro dos dados

In [None]:
# Seleção dos elementos > 0
print( serie_id[serie_id > 0] )

As séries pandas são compatíveis com operações numpy:

In [None]:
print(np.sum(serie_id))
print(np.sqrt(serie_id))

Também é possível criar séries indexadas a partir de um dicionário python pre-existente. Nesse caso, o índice será composto pelas chaves do dicionário:

In [None]:

notas = {"Huguinho":9.2, "Zezinho":7.6, "Luizinho":8.3, "Leticia":9.5}
notas2 = {"Huguinho":5.6, "Zezinho":7.0, "Luizinho":5.3, "Leticia":9.0}

# A ordenação depende da ordem de inserção das chaves no dicionário!
n_serie = pd.Series(notas) 
print(n_serie)

# Para alterar a ordem da série, ou selecionar campos específicos, podemos passar um array ordenado
n_serie2 = pd.Series(notas2, index=["Huguinho","Leticia","Zezinho","Xavier"]) 
print(n_serie2) #NaN representa valor não existente (Not a Number)


Operações de múltiplas séries são automaticamente alinhadas pelos identificadores:

In [None]:
soma = n_serie + n_serie2
print(soma)
medias = soma / 2
print(medias)

#### DataFrames

Utilizados para representar dados tabulares na biblioteca, os dataframes são compostos por uma coleção de colunas nomeadas, cada uma delas de um tipo específico. Associado ao dataframe estão 2 índices: 1 índice para as linhas e 1 índice para as colunas. De forma abrangente, um dataframe é um conjunto de séries que compartilha o mesmo índice.

In [None]:
dados = {"nome":["Huguinho","Leticia","Luizinho","Zezinho"],
  "matricula":[10222, 10223, 10224, 10225],
  "n_1":[7.5, 8.2, 3.4, 9.5],
  "n_2":[2.3, 8.0, 7.6, 9.0],
}

# As colunas são indexadas pelas chaves do dicionário. Linhas tem o índice numérico padrão
frame = pd.DataFrame(dados)

# Podemos usar uma coluna específica como índice:
frame.set_index('matricula', inplace=True)


O acesso via índices é utilizado para recuperar as colunas do dataframe no formato de séries:

In [None]:
serie_n1 = frame["n_1"]
print(serie_n1)
#Ou equivalente:
print(frame.n_1)

Para acessar linhas devemos utilizar os métodos de localização:

In [None]:
# loc é utilizado para buscar pelo identificador da linha
frame.loc[10223]
# iloc é usado para buscar pela posição da linha (iniciado em 0)
frame.iloc[1]

# Podemos retornar apenas colunas específicas com este operador:
frame.loc([10223, ["n_1","n_2"]]) # Seleciona n1 e n2 da matrícula 10223 
frame.loc([[10223,10224], ["n_1","n_2"]]) # Seleciona n1 e n2 das matrículas 10223 e 10224

TypeError: unhashable type: 'list'

Para adicionar ou modificar colunas no dataframe, podemos utilizar a atribuição simples:

In [None]:
# Desde que o array possua o tamanho correto
frame["n_1"] = np.array([2.0,3.4,5.0,9.8])

# Se o valor atribuído é uma série, as modificações são alinhadas ao índice
# Valores ausentes são atribuídos NaN!
frame["n_1"] = pd.Series([7.5, 8.2, 7.9], index=[10222, 10223, 10224])

# Para criar uma nova coluna, podemos atribuir a série a um índice inexistente
frame["frequencia"] = pd.Series([0.5, 1.0, 0.85, 0.9], index=[10222, 10223, 10224, 10225])

# Podemos criar colunas com base no resultado de operações vetoriais:
frame["media"] = (frame["n_1"] + frame["n_2"]) / 2
frame["reprovado_freq"] = frame["frequencia"] < 0.75

# A exclusão de valores é feita pelo método drop
frame.drop(index=[10222,10223]) #Exclui as linhas
frame.drop(column="media") #Exclui a coluna


Uma documentação extensa das maneiras de criar um dataframe está disponível no [link](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)

### Aplicações

Series e dataframes são utilizados para a validação, análise e processamento de dados tabulares via scripts python. 

Podemos facilmente filtrar os valores das séreies/frames utilizando a indexação por array booleanos como no numpy:

In [None]:
# A indexação pode ser utilizada como no padrão numpy para filtrar os valores!
frame[frame["reprovado_freq"]] # Traz os alunos reprovados por frequência
frame[frame["media"] < 6] # Traz os alunos reprovados por nota


Um detalhe importante da operação entre series/dataframes é o tratamento de valores ausentes. Se fazemos uma operação entre 2 séries/dataframes, o resultado é a união dos índices das estruturas operadas.

In [None]:
n1 = {"Huguinho":9.2, "Zezinho":7.6, "Luizinho":8.3, "Leticia":9.5}
n2 = {"Huguinho":5.6, "Zezinho":7.0, "Leticia":9.0}

s1 = pd.Series(n1)
s2 = pd.Series(n2)

# A soma é alinhada pelos índices, porém Luizinho existe apenas em n1!
soma = s1 + s2

# O valor resultante da soma é NaN para Luizinho!
print(soma)

#O método de adição dos objetos provê um parâmetro opcional para substituir valores inexistentes:
soma = s1.add(s2, fill_value=0.0)
print(soma)


É importante tratar esses casos com mecanismos de limpeza de dados antes de realizar as operações entre os dados. 

As funções universais do numpy também são aplicáveis aos objetos do pandas. Um cuidado especial deve ser tomado quando os dataframes possuem dados heterogêneos

In [None]:
n1_serie = frame["n_1"]
np.round(n1_serie)

#Erro pois o frame contém dados do tipo string, que não possuem sqrt definida! 
np.sqrt(frame)
# Ok pois n_1 e n_2 são tipos numéricos
np.sqrt(frame[["n_1","n_2"]])


Também podemos aplicar funções customizadas a cada linha, coluna, ou elemento de um dataframe usando os métodos apply e applymap:

In [None]:

def max_val(x):
    return x.max() 

#Retorna maior valor de cada coluna
frame.apply(max_val)

#Retorna maior valor de cada linha. Cuidado quando as colunas tem tipos diferentes!
frame[["n_1","n_2"]].apply(max_val, axis='columns')

def append_(x):
  return f"{x}_"

#Para aplicar uma função em cada elemento usamos applymap
frame.applymap(append_)

### Exercícios

Utilizando pandas, processe o arquivo **EmendasParlamentares.csv**. 
Deste arquivo, obtenha as respostas para as perguntas a seguir:

1. Qual o valor total pago em emendas por ano? (Utiliza: groupby e sum na coluna Ano da Emenda e Valor Pago).
2. Qual é a média e o desvio padrão dos valores empenhados por região do Brasil? 
3. Quais são os 10 autores que mais destinaram recursos (valor empenhado) na história do dataset? 
4. Quantas emendas foram destinadas para o estado de Santa Catarina?
5. Destas emendas, quais municípios se destacam no recebimento dos recursos por tipo?

6. Existem emendas onde o valor liquidado é significativamente diferente do valor pago? 
7. Qual o percentual de recursos que ficaram como "Restos a Pagar Cancelados" em relação ao total empenhado por ano? 

8. Qual é a Subfunção mais comum para cada Região do país? 

9. Existem linhas com Cdigo Municpio IBGE ausente? Como isso afeta a análise por localidade? 
10. O campo Município possui nomes duplicados com grafias diferentes (ex: acentuação)? 

O exemplo abaixo ilustra como calcular a "Eficiência no Pagamento": a relação entre o valor pago e o valor empenhado(reservado) para a emenda

In [None]:
import pandas as pd
import numpy as np

df = pd.read_csv("EmendasParlamentares.csv",encoding="iso-8859-1",sep=';')
#Tentamos converter diretamente. Importante, os valores fracionados na planilha estão usando , como separador e pandas espera .
df['Valor Empenhado'] = df['Valor Empenhado'].str.replace(',','.')
df['Valor Pago'] = df['Valor Pago'].str.replace(',','.')
df['Valor Empenhado'] = pd.to_numeric(df['Valor Empenhado'])
df['Valor Pago'] = pd.to_numeric(df['Valor Pago'])

# Exemplo de criação de atributo (Feature Engineering)
df['Eficiencia_Pagamento'] = (df['Valor Pago'] / df['Valor Empenhado']) * 100

# Ranking dos autores mais eficientes em liberar recursos
ranking = df.groupby('Nome do Autor da Emenda')['Eficiencia_Pagamento'].mean().sort_values(ascending=False)
ranking

  df = pd.read_csv("EmendasParlamentares.csv",encoding="iso-8859-1",sep=';')


Nome do Autor da Emenda
COMISSAO DE DEFESA DO CONSUMIDOR - CDC        100.0
COMISSAO DE LEGISLACAO PARTICIPATIVA - CLP    100.0
DEP. ROSEANA SARNEY                           100.0
CLAUDIO PUTY                                  100.0
COMISSAO SENADO DO FUTURO - CSF               100.0
                                              ...  
CYRO MIRANDA                                    0.0
DALVA FIGUEIREDO                                0.0
COMISSAO DO ESPORTE - CESPO                     0.0
COMISSAO DE TURISMO - CTUR                      0.0
ACELINO POPO                                    0.0
Name: Eficiencia_Pagamento, Length: 1599, dtype: float64