# Análise de Dados

## NumPy 

### Definições

A biblioteca `NumPy` é a biblioteca padrão para computação científica com Python pois ela fornece uma estrutura de dados chamado `ndarray` que permite realizar cálculos multidimensional de forma rápida e eficiente. Por esta razão, muitas bibliotecas de análise e visualização de dados foram construídas usando recursos do `NumPy`.

Por convenção, importamos a biblioteca `NumPy` da seguinte forma: 

In [1]:
import numpy as np

Para criarmos um objeto do tipo `ndarray` basta chamarmos a função `np.array` e passar uma lista de números.

In [2]:
arr = np.array([1,2,3])

print(arr)

[1 2 3]


Ao imprimir o tipo, vemos que é do tipo `numpy.ndarray`:

In [3]:
print(type(arr))

<class 'numpy.ndarray'>


E o método `shape` nos mostra a dimensão do `array`:

In [4]:
print(arr.shape)

(3,)


E podemos acessar os dados da mesma forma que fazemos com uma lista

In [5]:
print(arr[0], arr[1], arr[2])

1 2 3


Também é possível substituir uma entrada no nosso `array` da mesma forma que fazemos com listas:

In [6]:
arr[1] = 5
print(arr)

[1 5 3]


Podemos criar um `array` bidimensional: 

In [7]:
arr = np.array(
    [
        [1,2,3,4], 
        [5,6,7,8], 
        [9,10,11,12]
    ]
)
print(arr)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


E o `shape` deste `array` é `3x4`: 3 linhas e 4 colunas.

In [8]:
print(arr.shape)

(3, 4)


O `array` foi construído para facilitar o acesso a seus elementos:

In [9]:
print(arr[1,:]) # Obtém segunda linha

[5 6 7 8]


In [10]:
print(arr[:,1]) # Obtém segunda coluna

[ 2  6 10]


In [11]:
print(arr[1:, 3]) # Obtém elementos da segunda até a última linha da quarta coluna

[ 8 12]


In [12]:
print(arr[[0,2], [1]]) # Obtém elementos da primeira e terceira linhas da segunda coluna

[ 2 10]


É possível criar um `array` booleano para usar como máscara para acessar o nosso `array`: 

In [13]:
mask = arr % 2 == 0
print(mask)
print(arr[mask])

[[False  True False  True]
 [False  True False  True]
 [False  True False  True]]
[ 2  4  6  8 10 12]


Este é um recurso útil para filtrar valores do `array`. E podemos substituir valores baseados em uma condição:

In [14]:
arr[mask] = 0
print(arr)

[[ 1  0  3  0]
 [ 5  0  7  0]
 [ 9  0 11  0]]


Em um `array`, todos os elementos são do mesmo tipo:

In [15]:
arr.dtype

dtype('int64')

E ao tentar introduzir um elemento que não é do tipo definido pelo `array`, ele tentará ser convertido

In [16]:
arr[1,1] = 2.3
print(arr)

[[ 1  0  3  0]
 [ 5  2  7  0]
 [ 9  0 11  0]]


Se tentarmos incluir um tipo que não possa ser convertido, obteremos um erro:

In [17]:
arr[1,1] = 'oi'

ValueError: invalid literal for int() with base 10: 'oi'

### Operações

O `NumPy` foi construído visando acelerar operações matemáticas entre `array`s. Podemos ver as operações básicas que são aplicadas elemento a elemento (*element wise*):

In [18]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)


print(x+y)
print(np.add(x,y))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]


In [19]:
print(x-y)
print(np.subtract(x,y))

[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]


In [20]:
print(x*y)
print(np.multiply(x,y))

[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]


In [21]:
print(x/y)
print(np.divide(x,y))

[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]


Também é possível aplicar uma função a todos os elementos com uma simples chamada de função. Por exemplo, aqui está uma operação de raiz quadrada:

In [22]:
np.sqrt(x)

array([[1.        , 1.41421356],
       [1.73205081, 2.        ]])

Também podemos realizar algumas operações em um determinado eixo:

In [23]:
x

array([[1., 2.],
       [3., 4.]])

In [24]:
print(np.sum(x)) # soma todos os elementos
print(np.sum(x, axis=0)) # soma as linhas
print(np.sum(x, axis=1)) # soma as colunas

10.0
[4. 6.]
[3. 7.]


E podemos realizar operações matemáticas em `array`s de tamanhos diferentes. O `NumPy` *estica* o `array` menor para ter as mesmas dimensões que o `array` maior para realizar a operação. A figura abaixo obtida do livro [Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/02.05-computation-on-arrays-broadcasting.html) ilustra bem como funciona

![Ref: Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/figures/02.05-broadcasting.png)

Vamos ver na prática:

In [25]:
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])

print(x + v)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


## SciPy

`SciPy` é uma biblioteca com recursos matemáticos que extende as funcionalidades do `NumPy`, como por exemplo:

* [Álgebra linear](https://docs.scipy.org/doc/scipy-1.4.1/reference/linalg.html#module-scipy.linalg)
* [Processamento de imagem](https://docs.scipy.org/doc/scipy-1.4.1/reference/ndimage.html#module-scipy.ndimage)
* [Tranformadas de Fourier](https://docs.scipy.org/doc/scipy-1.4.1/reference/fftpack.html#module-scipy.fftpack)
* [Integradores de equações diferenciais](https://docs.scipy.org/doc/scipy-1.4.1/reference/integrate.html#module-scipy.integrate)
* [Interpoladores](https://docs.scipy.org/doc/scipy-1.4.1/reference/interpolate.html#module-scipy.interpolate)

Não veremos estes recursos aqui, mas é interessante saber que eles existem caso seja necessário realizar alguma computação matricial mais aprimorada.

## Pandas 

### Definição

O Pandas é uma biblioteca para análise de dados. Com ela, conseguimos trabalhar em algumas das principais etapas do processo de Ciência de Dados:

* Importação
* Manipulação
* Visualização

Esta biblioetca insere dois tipos de estruturas de dados:

* A `Series` é um `array` unidimensional rotulado que suporta vários tipos de dados.
* O `DataFrame` é um `array` bidimensional também rotulado.

Ambas estruturas aceitam quase todos os métods do `NumPy`.

Uma `Series` pode ser construída da seguinte forma:

In [26]:
import pandas as pd

series = pd.Series(['carro','moto','bicicleta'])
series

0        carro
1         moto
2    bicicleta
dtype: object

Veja que a representação da `Series` já apresenta o tipo do dado armazenado. O tipo `object` refere-se, na maioria das vezes, ao tipo `str` mas pode significar que há uma mistura de tipos.

E podemos acessar o elemento pelo índice:

In [27]:
series[2]

'bicicleta'

Se passarmos um dicionário como argumento, as chaves destes dicionários serão os índices:

In [28]:
series = pd.Series({'João':1,'Maria':2,'José':3})
series

João     1
Maria    2
José     3
dtype: int64

O `DataFrame` foi baseado na estrutura de mesmo nome do R e podemos inicializar uma da seguinte forma:

In [29]:
df = pd.DataFrame({'A':['João', 'Maria', 'José'], 'B':[1,2,3], 'C':[False, True, True]})
df

Unnamed: 0,A,B,C
0,João,1,False
1,Maria,2,True
2,José,3,True


Neste caso, as chaves do dicionário passado como argumento são os nomes das colunas. 

Acessamos os elementos de uma coluna da seguinte forma:

In [30]:
df['A']

0     João
1    Maria
2     José
Name: A, dtype: object

Como você já deve ter notado, o resultado é uma `Series`:

In [31]:
type(df['A'])

pandas.core.series.Series

Então podemos dizer que um `DataFrame` é uma coleção de `Series`.

Para acessar uma entrada específica usamos a propriedade `loc` com acesso por índice:

In [32]:
df.loc[2,'A']

'José'

> Como acessaríamos apenas uma linha?
>
> E se quiséssemos acessar uma coluna/linha por sua posição ao invés do índice? Como faríamos?

### Leitura de arquivos

O Pandas possui diversos métodos para ingestão de dados e todas elas são do formato `pd.read_*`. Por exemplo, para ler um arquivo CSV podemos fazer o seguinte:

In [33]:
# Obtém os dados do Titanic
from urllib.request import urlretrieve

urlretrieve(
    'https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv', 
    'Dados/titanic.csv'
)

# Carrega os dados para um DataFrame
df_titanic = pd.read_csv('Dados/titanic.csv')
df_titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


Apesar do Jupyter Notebook apresentar uma versão compactada dos resultados, a tabela completa foi importada.

In [34]:
import sqlite3
import zipfile
# Obtém banco de dados Chinook
filename, response = urlretrieve('https://www.sqlitetutorial.net/wp-content/uploads/2018/03/chinook.zip', 'Dados/chinook.zip')

with zipfile.ZipFile(filename, 'r') as zip_ref:
    zip_ref.extractall('Dados/')

conn = sqlite3.connect('Dados/chinook.db')
df_tracks = pd.read_sql('SELECT * FROM tracks', conn)
conn.close()
df_tracks

Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice
0,1,For Those About To Rock (We Salute You),1,1,1,"Angus Young, Malcolm Young, Brian Johnson",343719,11170334,0.99
1,2,Balls to the Wall,2,2,1,,342562,5510424,0.99
2,3,Fast As a Shark,3,2,1,"F. Baltes, S. Kaufman, U. Dirkscneider & W. Ho...",230619,3990994,0.99
3,4,Restless and Wild,3,2,1,"F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. D...",252051,4331779,0.99
4,5,Princess of the Dawn,3,2,1,Deaffy & R.A. Smith-Diesel,375418,6290521,0.99
...,...,...,...,...,...,...,...,...,...
3498,3499,Pini Di Roma (Pinien Von Rom) \ I Pini Della V...,343,2,24,,286741,4718950,0.99
3499,3500,"String Quartet No. 12 in C Minor, D. 703 ""Quar...",344,2,24,Franz Schubert,139200,2283131,0.99
3500,3501,"L'orfeo, Act 3, Sinfonia (Orchestra)",345,2,24,Claudio Monteverdi,66639,1189062,0.99
3501,3502,"Quintet for Horn, Violin, 2 Violas, and Cello ...",346,2,24,Wolfgang Amadeus Mozart,221331,3665114,0.99


Assim, para ler os dados de um banco de dados, precisamos apenas passar uma conexão válida e a `query` que queremos realizar.

Outros formas de importar dados pode ser visto [aqui](https://pandas.pydata.org/pandas-docs/stable/reference/io.html).


### Estatśtica Descritiva

As estruturas de dados do Pandas possuem alguns métodos disponíveis que facilitam a obtenção de aglumas estatísticas. Para uma visão global nós podemos usar o método `.describe`

In [35]:
df_titanic.describe()

Unnamed: 0,survived,pclass,age,sibsp,parch,fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


Ao invés de obter uma tabela descritiva com várias estatísticas como a apresentada acima, podemos invocar métodos específicos:

In [36]:
df_titanic.mean()

survived       0.383838
pclass         2.308642
age           29.699118
sibsp          0.523008
parch          0.381594
fare          32.204208
adult_male     0.602694
alone          0.602694
dtype: float64

Temos outros métodos disponíveis como `median`, `min` e `max`.

### Manuseio de dados

Uma tarefa bem comum é a a limpeza e alteração dos dados. Por exemplo, podemos ter valores monetários negativos ou precisamos criar colunas novas. Com o Pandas, podemos realizar estas tarefas com facilidade.

Por exemplo, os dados do Titanic apresentam alguns valores ausentes (`null`).

In [37]:
df_titanic.isnull().sum()

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

Existem duas formas de lidar com dados ausentes:
1. Removê-los, ou
1. Imputá-los com a média/mediana ou algum outro método sofisticado.

Vamos seguir com o método 1 e remover os dados nulos:

In [38]:
df_titanic_null_dropped = df_titanic.dropna()
df_titanic_null_dropped

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
10,1,3,female,4.0,1,1,16.7000,S,Third,child,False,G,Southampton,yes,False
11,1,1,female,58.0,0,0,26.5500,S,First,woman,False,C,Southampton,yes,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
871,1,1,female,47.0,1,1,52.5542,S,First,woman,False,D,Southampton,yes,False
872,0,1,male,33.0,0,0,5.0000,S,First,man,True,B,Southampton,no,True
879,1,1,female,56.0,0,1,83.1583,C,First,woman,False,C,Cherbourg,yes,False
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True


In [39]:
df_titanic_null_dropped.isnull().sum()

survived       0
pclass         0
sex            0
age            0
sibsp          0
parch          0
fare           0
embarked       0
class          0
who            0
adult_male     0
deck           0
embark_town    0
alive          0
alone          0
dtype: int64

> Desafio: Impute os dados ausentes para idade usando a média da idade dos passageiros.

Outro cenário possível é trocar o valor do dado. Por exemplo, podemos trocar os valores da coluna `alive` de `no/yes` para `não/sim` usando o método `replace` e passando um dicionário como argumento:

In [40]:
df_titanic['alive'].replace({'no':'não', 'yes':'sim'}, inplace=True)
df_titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,não,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,sim,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,sim,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,sim,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,não,True


Aqui introduzimos dois novos recursos:
* o `inplace`, como argumento do `replace`, que faz a modificação diretamente no `DataFrame` de origem e não retorna um novo. Outros métodos possuem o argumento `inplace` como o `dropna` visto anteriormente.
* O método `.head` que mostra as 5 primeiras linhas do `DataFrame`. Se passado um número inteiro como argumento, será mostrado esta mesma quantidade de linhas.

Adcionar uma coluna é bem simples:

In [41]:
df

Unnamed: 0,A,B,C
0,João,1,False
1,Maria,2,True
2,José,3,True


In [42]:
df['D'] = ['Carro', 'Moto', 'Bicicleta']
df

Unnamed: 0,A,B,C,D
0,João,1,False,Carro
1,Maria,2,True,Moto
2,José,3,True,Bicicleta


> O que acontece quando tentamos criar uma coluna com um tamanho diferente ao de linhas?

Para criar uma linha, usamos o atributo `loc`:

In [43]:
df.loc[3] = ['Carlos', 4, False, 'Ônibus']
df

Unnamed: 0,A,B,C,D
0,João,1,False,Carro
1,Maria,2,True,Moto
2,José,3,True,Bicicleta
3,Carlos,4,False,Ônibus


### Agrupamentos

Com o Pandas, podemos gerar agrupamento de forma similar a como fazemos com SQL. Por exemplo para obtermos a média da idade dos passageiros do Titanic por gênero, nós faríamos:

```sql
SELECT sex, mean(age)
FROM titanic
GROUP BY sex
```

No Pandas, a sintaxe é bem similar:

In [44]:
df_titanic.groupby('sex')['age'].mean()

sex
female    27.915709
male      30.726645
Name: age, dtype: float64

Para fazer um agrupamento por múltiplas colunas, basta passarmos uma lista com a colunas a serem agrupadas como argumento do `groupby`:

In [45]:
df_titanic.groupby(['pclass','sex'])['age'].mean()

pclass  sex   
1       female    34.611765
        male      41.281386
2       female    28.722973
        male      30.740707
3       female    21.750000
        male      26.507589
Name: age, dtype: float64

Também podemos executar múltipas funções no argupamento:

In [46]:
df_titanic.groupby(['pclass','sex'])['age'].agg([np.sum, np.mean, np.std])

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,mean,std
pclass,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,female,2942.0,34.611765,13.612052
1,male,4169.42,41.281386,15.13957
2,female,2125.5,28.722973,12.872702
2,male,3043.33,30.740707,14.793894
3,female,2218.5,21.75,12.729964
3,male,6706.42,26.507589,12.159514


### Junção de tabelas

Outra operação bem comum para quem está familiarizado com SQL é a junção de tabelas (*join*). Vamos criar dois `DataFrame`s para usarmos como exemplo:

In [47]:
left = pd.DataFrame(
    {
        'id':[1,2,3,4,5],
        'class':['A', 'A', 'C', 'B', 'D']
    }
)
left

Unnamed: 0,id,class
0,1,A
1,2,A
2,3,C
3,4,B
4,5,D


In [48]:
right = pd.DataFrame(
    {
        'id':[4,5,6],
        'valores':[50, 99, -3]
    })
right

Unnamed: 0,id,valores
0,4,50
1,5,99
2,6,-3


Para realizar a junção, nós usamos `pd.merge`

In [49]:
pd.merge(left, right)

Unnamed: 0,id,class,valores
0,4,B,50
1,5,D,99


Por padrão é realizado um `inner join` nas colunas em comum (neste caso, `id`). O exemplo abaixo mostra um `outer join`:

In [50]:
pd.merge(left, right, how='outer')

Unnamed: 0,id,class,valores
0,1,A,
1,2,A,
2,3,C,
3,4,B,50.0
4,5,D,99.0
5,6,,-3.0


E, se necessário, podemos realiza a junção usando o índice:

In [51]:
pd.merge(left, right, left_index=True, right_index=True)

Unnamed: 0,id_x,class,id_y,valores
0,1,A,4,50
1,2,A,5,99
2,3,C,6,-3


Note como os valores da coluna em comum `id` diferem, foram criados duas colunas novas com os nomes sendo o nome da coluna em comum mais um sufixo. 

> Desafio: acesse o banco de dados `chinook` e:
>
> 1. Liste o nome dos artistas, músicas e álbuns. 
>
> 2. Em seguida, crie um relatório com os 10 artistas que mais possuem música.