# Análise de Dados

## NumPy 

### Definições

A biblioteca `NumPy` é a biblioteca padrão para computação científica com Python pois ela fornece uma estrutura de dados chamado `ndarray` que permite realizar cálculos multidimensional de forma rápida e eficiente. Por esta razão, muitas bibliotecas de análise e visualização de dados foram construídas usando recursos do `NumPy`.

Por convenção, importamos a biblioteca `NumPy` da seguinte forma: 

In [None]:
import numpy as np

Para criarmos um objeto do tipo `ndarray` basta chamarmos a função `np.array` e passar uma lista de números.

In [None]:
arr = np.array([1,2,3])

print(arr)

Ao imprimir o tipo, vemos que é do tipo `numpy.ndarray`:

In [None]:
print(type(arr))

E o método `shape` nos mostra a dimensão do `array`:

In [None]:
print(arr.shape)

E podemos acessar os dados da mesma forma que fazemos com uma lista

In [None]:
print(arr[0], arr[1], arr[2])

Também é possível substituir uma entrada no nosso `array` da mesma forma que fazemos com listas:

In [None]:
arr[1] = 5
print(arr)

Podemos criar um `array` bidimensional: 

In [None]:
arr = np.array(
    [
        [1,2,3,4], 
        [5,6,7,8], 
        [9,10,11,12]
    ]
)
print(arr)

E o `shape` deste `array` é `3x4`: 3 linhas e 4 colunas.

In [None]:
print(arr.shape)

O `array` foi construído para facilitar o acesso a seus elementos:

In [None]:
print(arr[1,:]) # Obtém segunda linha

In [None]:
print(arr[:,1]) # Obtém segunda coluna

In [None]:
print(arr[1:, 3]) # Obtém elementos da segunda até a última linha da quarta coluna

In [None]:
print(arr[[0,2], [1]]) # Obtém elementos da primeira e terceira linhas da segunda coluna

É possível criar um `array` booleano para usar como máscara para acessar o nosso `array`: 

In [None]:
mask = arr % 2 == 0
print(mask)
print(arr[mask])

Este é um recurso útil para filtrar valores do `array`. E podemos substituir valores baseados em uma condição:

In [None]:
arr[mask] = 0
print(arr)

Em um `array`, todos os elementos são do mesmo tipo:

In [None]:
arr.dtype

E ao tentar introduzir um elemento que não é do tipo definido pelo `array`, ele tentará ser convertido

In [None]:
arr[1,1] = 2.3
print(arr)

Se tentarmos incluir um tipo que não possa ser convertido, obteremos um erro:

In [None]:
arr[1,1] = 'oi'

### Operações

O `NumPy` foi construído visando acelerar operações matemáticas entre `array`s. Podemos ver as operações básicas que são aplicadas elemento a elemento (*element wise*):

In [None]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)


print(x+y)
print(np.add(x,y))

In [None]:
print(x-y)
print(np.subtract(x,y))

In [None]:
print(x*y)
print(np.multiply(x,y))

In [None]:
print(x/y)
print(np.divide(x,y))

Também é possível aplicar uma função a todos os elementos com uma simples chamada de função. Por exemplo, aqui está uma operação de raiz quadrada:

In [None]:
np.sqrt(x)

Também podemos realizar algumas operações em um determinado eixo:

In [None]:
x

In [None]:
print(np.sum(x)) # soma todos os elementos
print(np.sum(x, axis=0)) # soma as linhas
print(np.sum(x, axis=1)) # soma as colunas

E podemos realizar operações matemáticas em `array`s de tamanhos diferentes. O `NumPy` *estica* o `arry` menor para ter as mesmas dimensões que o `array` maior para realizar a operação. A figura abaixo obtida do livro [Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/02.05-computation-on-arrays-broadcasting.html) ilustra bem como funciona

![Ref: Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/figures/02.05-broadcasting.png)

Vamos ver na prática:

In [None]:
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])

print(x + v)

## SciPy

`SciPy` é uma biblioteca com recursos matemáticos que extende as funcionalidades do `NumPy`, como por exemplo:

* [Álgebra linear](https://docs.scipy.org/doc/scipy-1.4.1/reference/linalg.html#module-scipy.linalg)
* [Processamento de imagem](https://docs.scipy.org/doc/scipy-1.4.1/reference/ndimage.html#module-scipy.ndimage)
* [Tranformadas de Fourier](https://docs.scipy.org/doc/scipy-1.4.1/reference/fftpack.html#module-scipy.fftpack)
* [Integradores de equações diferenciais](https://docs.scipy.org/doc/scipy-1.4.1/reference/integrate.html#module-scipy.integrate)
* [Interpoladores](https://docs.scipy.org/doc/scipy-1.4.1/reference/interpolate.html#module-scipy.interpolate)

Não veremos estes recursos aqui, mas é interessante saber que eles existem caso seja necessário realizar alguma computação matricial mais aprimorada.

## Pandas 

### Definição

O Pandas é uma biblioteca para análise de dados. Com ela, conseguimos trabalhar em algumas das principais etapas do processo de Ciência de Dados:

* Importação
* Manipulação
* Visualização

Esta biblioetca insere dois tipos de estruturas de dados:

* A `Series` é um `array` unidimensional rotulado que suporta vários tipos de dados.
* O `DataFrame` é um `array` bidimensional também rotulado.

Ambas estruturas aceitam quase todos os métods do `NumPy`.

Uma `Series` pode ser construída da seguinte forma:

In [None]:
import pandas as pd

series = pd.Series(['carro','moto','bicicleta'])
series

Veja que a representação da `Series` já apresenta o tipo do dado armazenado. O tipo `object` refere-se, na maioria das vezes, ao tipo `str` mas pode significar que há uma mistura de tipos.

E podemos acessar o elemento pelo índice:

In [None]:
series[2]

Se passarmos um dicionário como argumento, as chaves destes dicionários serão os índices:

In [None]:
series = pd.Series({'João':1,'Maria':2,'José':3})
series

O `DataFrame` foi baseado na estrutura de mesmo nome do R e podemos inicializar uma da seguinte forma:

In [None]:
df = pd.DataFrame({'A':['João', 'Maria', 'José'], 'B':[1,2,3], 'C':[False, True, True]})
df

Neste caso, as chaves do dicionário passado como argumento são os nomes das colunas. 

Acessamos os elementos de uma coluna da seguinte forma:

In [None]:
df['A']

Como você já deve ter notado, o resultado é uma `Series`:

In [None]:
type(df['A'])

Então podemos dizer que um `DataFrame` é uma coleção de `Series`.

Para acessar uma entrada específica usamos a propriedade `loc` com acesso por índice:

In [None]:
df.loc[2,'A']

> Como acessaríamos apenas uma linha?
>
> E se quiséssemos acessar uma coluna/linha por sua posição ao invés do índice? Como faríamos?

### Leitura de arquivos

O Pandas possui diversos métodos para ingestão de dados e todas elas são do formato `pd.read_*`. Por exemplo, para ler um arquivo CSV podemos fazer o seguinte:

In [None]:
# Obtém os dados do Titanic
from urllib.request import urlretrieve

urlretrieve(
    'https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv', 
    'Dados/titanic.csv'
)

# Carrega os dados para um DataFrame
df_titanic = pd.read_csv('Dados/titanic.csv')
df_titanic

Apesar do Jupyter Notebook apresenta uma versão compactada dos resultados, a tabela completa foi importada.

In [None]:
import sqlite3
import zipfile
# Obtém banco de dados Chinook
filename, response = urlretrieve('https://www.sqlitetutorial.net/wp-content/uploads/2018/03/chinook.zip', 'Dados/chinook.zip')

with zipfile.ZipFile(filename, 'r') as zip_ref:
    zip_ref.extractall('Dados/')

conn = sqlite3.connect('Dados/chinook.db')
df_tracks = pd.read_sql('SELECT * FROM tracks', conn)
conn.close()
df_tracks

Assim, para ler os dados de um banco de dados, precisamos apenas passar uma conexão válida e a `query` que queremos realizar.

Outros formas de importar dados pode ser visto [aqui](https://pandas.pydata.org/pandas-docs/stable/reference/io.html).


### Estatśtica Descritiva

As estruturas de dados do Pandas possuem alguns métodos disponíveis que facilitam a obtenção de aglumas estatísticas. Para uma visão global nós podemos usar o método `.describe`

In [None]:
df_titanic.describe()

Ao invés de obter uma tabela descritiva com várias estatísticas como a apresentada acima, podemos invocar métodos específicos:

In [None]:
df_titanic.mean()

Temos outros métodos disponíveis como `median`, `min` e `max`.

### Manuseio de dados

Uma tarefa bem comum é a a limpeza e alteração dos dados. Por exemplo, podemos ter valores monetários negativos ou precisamos criar colunas novas. Com o Pandas, podemos realizar estas tarefas com facilidade.

Por exemplo, os dados do Titanic apresentam alguns valores ausentes (`null`).

In [None]:
df_titanic.isnull().sum()

Existem duas formas de lidar com dados ausentes:
1. Removê-los, ou
1. Imputá-los com a média/mediana ou algum outro método sofisticado.

Vamos seguir com o método 1 e remover os dados nulos:

In [None]:
df_titanic_null_dropped = df_titanic.dropna()
df_titanic_null_dropped

In [None]:
df_titanic_null_dropped.isnull().sum()

> Desafio: Impute os dados ausentes para idade usando a média da idade dos passageiros.

Outro cenário possível é trocar o valor do dado. Por exemplo, podemos trocar os valores da coluna `alive` de `no/yes` para `não/sim` usando o método `replace` e passando um dicionário como argumento:

In [None]:
df_titanic['alive'].replace({'no':'não', 'yes':'sim'}, inplace=True)
df_titanic.head()

Aqui introduzimos dois novos recursos:
* o `inplace`, como argumento do `replace`, que faz a modificação diretamente no `DataFrame` de origem e não retorna um novo. Outros métodos possuem o argumento `inplace` como o `dropna` visto anteriormente.
* O método `.head` que mostra as 5 primeiras linhas do `DataFrame`. Se passado um número inteiro como argumento, será mostrado esta mesma quantidade de linhas.

Adcionar uma coluna é bem simples:

In [None]:
df

In [None]:
df['D'] = ['Carro', 'Moto', 'Bicicleta']
df

> O que acontece quando tentamos criar uma coluna com um tamanho diferente ao de linhas?

Para criar uma linha, usamos o atributo `loc`:

In [None]:
df.loc[3] = ['Carlos', 4, False, 'Ônibus']
df

### Agrupamentos

Com o Pandas, podemos gerar agrupamento de forma similar a como fazemos com SQL. Por exemplo para obtermos a média da idade dos passageiros do Titanic por gênero, nós faríamos:

```sql
SELECT sex, mean(age)
FROM titanic
GROUP BY sex
```

No Pandas, a sintaxe é bem similar:

In [None]:
df_titanic.groupby('sex')['age'].mean()

Para fazer um agrupamento por múltiplas colunas, basta passarmos uma lista com a colunas a serem agrupadas como argumento do `groupby`:

In [None]:
df_titanic.groupby(['pclass','sex'])['age'].mean()

Também podemos executar múltipas funções no argupamento:

In [None]:
df_titanic.groupby(['pclass','sex'])['age'].agg([np.sum, np.mean, np.std])

### Junção de tabelas

Outra operação bem comum para quem está familiarizado com SQL é a junção de tabelas (*join*). Vamos criar dois `DataFrame`s para usarmos como exemplo:

In [None]:
left = pd.DataFrame(
    {
        'id':[1,2,3,4,5],
        'class':['A', 'A', 'C', 'B', 'D']
    }
)
left

In [None]:
right = pd.DataFrame(
    {
        'id':[4,5,6],
        'valores':[50, 99, -3]
    })
right

Para realizar a junção, nós usamos `pd.merge`

In [None]:
pd.merge(left, right)

Por padrão é realizado um `inner join` nas colunas em comum (neste caso, `id`). O exemplo abaixo mostra um `outer join`:

In [None]:
pd.merge(left, right, how='outer')

E, se necessário, podemos realiza a junção usando o índice:

In [None]:
pd.merge(left, right, left_index=True, right_index=True)

Note como os valores da coluna em comum `id` diferem, foram criados duas colunas novas com os nomes sendo o nome da coluna em comum mais um sufixo. 

> Desafio: acesse o banco de dados chinook e:
>
> 1. Liste o nome dos artistas, músicas e álbuns. 
>
> 2. Em seguida, crie um relatório com os 10 artistas que mais possuem música.