<a href="https://colab.research.google.com/github/irajamuller/data_science/blob/main/Prepara%C3%A7%C3%A3o_de_Dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### NumPy

O `ndarray` é a estrutura de dados básica da biblioteca Numpy. Qualquer um dos métodos analíticos implementados pelo NumPy irá requerer que os dados estejam armazenados nesta estrutura. Por se tratar de uma estrutura voltada para alto desempenho, o ndarray é implementado como um nódulo de baixo nível escrito na linguagem C utilizando a API para interface com a linguagem Python. Este método de implmeentação é comumente utilizado por módulos que requerem operações de alto desempenho, as quais não são suportadas pelos métodos ou estruturas nativas da linguagem Python.

Em baixo nível, o ndarray é uma estrutura de dados alocada de forma contígua em memória, armazenando elementos de forma compacta e homogênea em memória. Diferentemente das estruturas básicas do Python, um ndarray armazena valores de um único tipo de dados, o qual é definido no momento em que a estrutura é instanciada. Há suporte para a maioria dos tipos inteiros e de ponto flutuante que estão disponíveis em linguagens de programação com tipagem forte (tal como o C). A informação do tipo de dados encontra-se armazenada em uma estrutura de cabeçalho, a qual também irá conter outros metadados da estrutura, tal como duas dimensões e tamanhos. Estas informações são utilizadas para controlar operações de leitura e escrita de dados na estrutura de forma eficiente por cálculos de deslocamento. A figura abaixo apresenta um diagrama que sumariza a estrutura de baixo nível do ndarray.

![Estrutura do ndarray](https://raw.githubusercontent.com/irajamuller/data_science/main/figs/ndarray_structure.jpg)

Por se tratar de uma estrutura simples e eficiente para manipulação de dados numéricos vetoriais, o ndarray é utilizado internamente por uma ampla gama de outras bibliotecas do Python que também tem o requisito de alto desempenho. Alguns exemplos incluem Pytorch e Tensorflow (duas bibliotecas amplamente utilizadas para trabalho com redes neurais profundas), OpenCV (biblioteca para trabalho com visão computacional), e a própria Pandas.

Neste notebook iremos aprender algumas das funções básicas disponíveis para a criação e manipulação de ndarrays. Antes de qualquer coisa, precisamos instalar a biblioteca NumPy em nosso ambiente Python e importar o NumPy para nosso notebook.

In [None]:
#!pip show numpy
import numpy as np

Com o a biblioteca NumPy importada, podemos utilizar os métodos disponíveis para a criação de ndarrays com diferentes características. Uma possibilidade é a criação de um ndarray com todos os valores inicializados com zero. Para isso, podemos utilizar o método `zeros`. O primeiro parâmetro para este método são as dimensões do ndarray, que no caso de duas dimensões será uma tupla `(linhas, colunas)`. Também utilizaremos o parâmetro `dtype` para especificar o tipo de dado que será armazenado, que no exemplo será um inteiro de 32 bits.

In [None]:
ndarray = np.zeros((3, 4), dtype=np.int32) # Cria um ndarray com dimensões 3 por 4
print(ndarray)

Neste caso, para alterar valores pontuais do ndarray, podemos utilizar indexação de arrays utilizando colchetes, como no exemplo abaixo. Repare que, assim como em outras linguagens de programação, a indexação de linhas e colunas inicia em $0$ e se estende até $n-1$ (onde $n$ é o limite da dimensão que está sendo acessada).

In [None]:
ndarray[1, 2] = 5 # Altera o valor do item na posição [2, 3] para 5
print(ndarray)

Outro método comumente utilizado para criar um ndarray é a partir de uma outra estrutura do Python, tal como uma lista com valores inteiros. Também podemos utilizar o encadeamento para criar um ndarray utilizando as listas tradicionais do Python, como realizado no exemplo abaixo, através do método `array`. Repare que este método também permite especificar o tipo de dado que será utilizado pelo ndarray.

In [None]:
lista_python = [ [1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12] ]
ndarray = np.array(lista_python, dtype=np.float32) # Cria um ndarray utilizando os dados contidos em uma lista do Python
print(ndarray)

Assim como no caso do Pandas, também podemos realizar a carga de dados para um ndarray a partir de um arquivo de texto no formato CSV. O exemplo abaixo utiliza o método `loadtxt` para ler um arquivo CSV, especificando o separador de cada coluna como uma vírgula. O método também permite especificar qual o tipo de dado que será utilizado para a conversão do array.

Observe que o ndarray é uma estrutura menos flexível que o Dataframe do Pandas. Enquanto o Dataframe permite converter cada coluna para um tipo de dados distinto, no ndarray espera que todos os valores pertençam ao mesmo tipo de dados.

In [None]:
temps = np.loadtxt('https://raw.githubusercontent.com/irajamuller/data_science/main/dataset/temperaturas_outono.csv'
, delimiter=',', dtype=np.float32) # Carrega os dados de um arquivo CSV para um ndarray
print(temps)

A biblioteca NumPy também permite salvar e carregar os dados de um ndarray de um arquivo binário. Este formato usualmente é referido com a extensão NPY e se trata de um formato binário específico para armazenar informações de um ndarray do NumPy. Este formato é suportado pelo próprio NumPy e por algumas bibliotecas do Python, como o Pandas.

In [8]:
np.save('temperaturas.npy', temps) # Salvar os dados contidos no ndarray em um arquivo binário

In [None]:
carregado = np.load('temperaturas.npy') # Carrega os dados contidos para um ndarray. O arquivo deve obedecer o formato binário esperado pelo NumPy
print(carregado)

O NumPy oferece alguns comandos básicos para analisar as propriedades básicas de um ndarray, tais como o tamanho, dimensões, e tipo dos dados. As células abaixo contém exemplos do uso desses comandos utilizando o ndarray que carregamos no último exemplo.

In [None]:
print(carregado.size) # propriedade contendo o número de itens armazenados no ndarray

In [None]:
print(carregado.dtype) # propriedade contendo o tipo de dado armazenado em cada um dos itens do ndarray

In [None]:
print(carregado.ndim) # propriedade contendo o número de dimensões contidas no ndarray

In [None]:
print(carregado.shape) # propriedade contendo uma tupla que especifica o tamanho de cada dimensão do ndarray

Um exemplo anterior já mostrou que podemos acessar elementos individuais de um ndarray utilizando o operador de indexação do Python (especificando a posição numérica entre colchetes). Podemos utilizar os operadores de indexação do Python para acessar diferentes porções do ndarray. As células abaixo apresentam algusn exemplos de operações de indexação.

In [None]:
print(carregado[0]) # acessa uma linha completa do array utilizando através da indexação de uma dimensão

In [None]:
print(carregado[0, :12]) # Acessa os 12 primeiros valores contidos na primeira linha

In [None]:
print(carregado[:, :12]) # Acessa os 12 primeiros valores contidos em cada uma das linhas

In [None]:
print(carregado[:, 0]) # Cria um ndarray com o primeiro valor de cada uma das linhas

Um ndarray também pode ser manipulado através de funções de divisão e agregação. Isso permite que, por exemplo, um ndarray seja dividido em um número especificado de partes iguais. As células abaixo apresentam exemplos dos métodos de divisão e concatenação.

In [None]:
por_dia = np.split(carregado, 7) # divide o ndarray em sete partes iguais na dimensão de mais alto nível
for dia in por_dia:
    print(dia) # Imprime cada um das divisões criadas pelo comando split.

In [None]:
concatenado = np.concatenate(por_dia)
print(concatenado)

### Pandas

O dataframe é a principal estrutura de dados disponibilizada pela biblioteca Pandas para o processamento e análise de dados. Todos os métodos disponíveis na bibloteca utilizam o Dataframe como estrutura básica para execução. O dataframe do pandas pode ser comparado com uma planilha de aplicativos como o Microsoft Excel, onde os dados são organizados de forma tabular. Cada linha da tabela representa um registro, identificado unicamente por um valor inteiro, e cada coluna representa um dos campos disponíveis no registro, identificada por uma string.

Cada coluna de um dataframe é representada como um objeto do tipo Series do Pandas. Em suma, uma Series é um array indexado por valores inteiros onde todos os elementos pertencem a um mesmo tipo. Cabe ressaltar que tanto o Dataframe quanto a Series são tipos de dados implementados de forma otimizada utilizanod extensões em linguagem de baixo nível de forma a apresentarem alto desempenho ao tratar grandes volumes de dados. A figura abaixo apresenta uma ilustração de como um Dataframe do Pandas é organizado.

![Estrutura de um Dataframe do Pandas](https://raw.githubusercontent.com/irajamuller/data_science/main/figs/pandas_structure.jpg)

Para utilizarmos um Dataframe, primeiramente precisamos importar a biblioteca Pandas no nosso código.

In [31]:
import pandas as pd

No exemplo abaixo, iremos criar um novo Dataframe utilizando os dados contidos em um dicionário do Python. Repare na forma como o diconário está organizado e como ele será estruturado na forma de um Dataframe.

In [37]:
data = {
    'Nome': ['Ana', 'João', 'Maria', 'Carlos', 'Paula'],
    'Idade': [23, 34, 45, 36, 27],
    'Cidade': ['SP', 'RJ', 'MG', 'RS', 'SP'],
    'Glicose': [85, 140, 95, 200, 105]
}

df = pd.DataFrame(data)
df # Jupyter Notebook irá formatar o Dataframe como uma planilha.

Unnamed: 0,Nome,Idade,Cidade,Glicose
0,Ana,23,SP,85
1,João,34,RJ,140
2,Maria,45,MG,95
3,Carlos,36,RS,200
4,Paula,27,SP,105


Com o Dataframe criado, podemos realizar diferentes atividades de seleção e manipulação dos dados nele contidos.

In [None]:
df.info() # imprime uma série de informações sobre a estrutura do Dataframe.

In [None]:
nomes = df['Idade'] # seleciona a Series contendo apenas os dados da coluna "Idade"
nomes

In [None]:
registros = df[ df['Glicose'] > 100 ] # Selecionar registros aplicando um filtro nos valores de uma coluna
registros # Jupyter Notebook irá formatar o Dataframe como uma planilha.

In [None]:
filtro = (df['Glicose'] > 100) & (df['Idade'] < 35) # Vamos definir um filtro com várias condições
registros = df[ filtro ] # Vamos selecionar os registros utilizando o filtro
registros # Jupyter Notebook irá formatar o Dataframe como uma planilha.

In [None]:
registro = df.iloc[2] # seleciona um registro em particular (uma das linhas) do Dataframe
registro

In [None]:
registro = registros.loc[4] # seleciona um registro em particular (uma das linhas) do Dataframe usando o label
registro

In [None]:
sample = df.sample() # Seleciona um registro aleatório (uma amostra ou "sample") do Dataframe.
sample # Jupyter Notebook irá formatar a amostra como uma planilha.

In [None]:
sorted_dataframe = df.sort_values('Idade') # Ordena os valores do Dataframe pela coluna passada como parâmetro.
sorted_dataframe # Jupyter Notebook irá formatar a amostra como uma planilha.

Para os próximos exemplos, precisaremos de um conjunto de dados com maior tamanho. Temos alguns conjuntos de dados de exemplo disponíveis na biblioteca Seaborn (biblioteca de visualização baseada na matplotlib), a qual também é ampalmente utilizada para tarefas de aprendizado de máquina e iremos estudar ao longo da disciplina. A célula abaixo irá carregar a biblioteca Seaborn e, em seguida, carregar um conjunto de dados com dados de gorjetas em restaurantes dos Estados Unidos.

In [90]:
import seaborn as sns

df = sns.load_dataset('tips')

As próximas células irão apresentar mais algumas funções básicas dos Dataframes.

In [None]:
df.head(10) # Imprime os primeiros registros contidos no Dataframe.

In [None]:
df.tail(10) # Imprime os últimos registros contidos no Dataframe.

In [None]:
df.describe() # Apresenta uma análise das tendências centrais dos atributos numéricos contidos no Dataframe.

Também podemos realizar a seleção de subconjuntos de dados de um Dataframe através de operadores de indexação. As células abaixo apresentam exemplos onde selecionamos um subconjunto de registros com todas as colunas e, após, a seleção de um subconjunto de registros de uma coluna específica.

In [None]:
df.loc[10:19]

In [None]:
df.loc[10:19, 'tip']