# NumPy & Pandas

## NumPy

Como está dito no próprio _site_ do `NumPy` (https://www.numpy.org/)

_NumPy is the fundamental package for scientific computing with Python. It contains among other things:_

   * _a powerful N-dimensional array object_
   * _sophisticated (broadcasting) functions_
   * _tools for integrating C/C++ and Fortran code_
   * _useful linear algebra, Fourier transform, and random number capabilities_

_Besides its obvious scientific uses, NumPy can also be used as an efficient multi-dimensional container of generic data._

Em outras palavras, `NumPy` é uma biblioteca disponível em `Python` para manipulação de forma eficiente de matrizes multidimensionais.

Para usarmos o `NumPy` em nosso código, devemos antes importá-lo. É praxe fazê-lo da seguinte forma (para que possamos mais tarde nos referir a ele simplesmente como `np`):

In [1]:
import numpy as np

Para criar um `array` (uma matriz) do `NumPy` podemos executar este código:

In [2]:
x = np.array([2, 3, 1, 0])

E, para ver seu conteúdo, basta imprimi-lo:

In [3]:
print(x)

[2 3 1 0]


Agora, uma matriz bidimensional:
<img src="array.png" />

In [4]:
bidim = np.array([[1, 2, 3],
                  [4, 5, 6],
                  [7, 8, 9]])

In [5]:
print(bidim)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


Note o tipo do _array_ criado:

In [6]:
type(bidim)

numpy.ndarray

Algumas características importantes de matrizes (`arrays`) quando falamos em programação de computadores são o acesso eficiente a qualquer um de seus ítens: basta informar qual exatamente é a _"célula"_ desejada.

Usando nossa matriz bidimensional criada anteriormente, para obtermos o número na terceira coluna da segunda linha, basta usarmos:

In [7]:
# Lembre-se: em Python, começamos a "contar" a partir do Zero!
print(bidim[1, 2])

6


No decorrer do nosso treinamento, faremos pouco uso direto do `NumPy`: em geral, utilizaremos o `Pandas`, outra biblioteca disponível em `Python`, construída sobre a base do `NumPy`.

## Pandas

`Pandas` é talvez a principal ferramenta quando se fala em _Data Science_ e `Python`. Utilizando os recursos do `NumPy`, ela oferece a estrutura `DataFrames`, que de certa forma traz para o `Python` o conceito de __planilhas__ a que já estamos bastante acostumados após tantos anos utilizando o `Excel`.

Por padrão, importamos o `Pandas` em nossos programas como `pd`:

In [8]:
import pandas as pd

Antes de começarmos a utilizá-la, entretanto, é necessário que entendamos alguns conceitos:

### Series

Uma `Serie` no `Pandas` nada mais é do que uma matriz unidimensional com um índice de acesso:

<img src="serie.png" />

In [9]:
s = pd.Series(["Um", "Dois", "Três", "Quatro"])

In [10]:
print(s)

0        Um
1      Dois
2      Três
3    Quatro
dtype: object


É importante notar aqui que há apenas uma dimensão (`Um`, `Dois`, `Três` e `Quatro`), e que o índice (`0`, `1`, `2` e `3`) não faz parte dos dados, mas apenas da identificação de cada ítem.

O índice não precisa ser necessáriamente numérico: ele pode conter dicas mais úteis sobre o ítem que identificam:

<img src="capitais.png" />

In [11]:
capitais = pd.Series(["Brasília", "Berlim", "Londres", "Montevidéu"],
                     index=["Brasil", "Alemanha", "Inglaterra", "Uruguai"])

In [12]:
print(capitais)

Brasil          Brasília
Alemanha          Berlim
Inglaterra       Londres
Uruguai       Montevidéu
dtype: object


Também é possível acessar ítens individuais de uma `Serie`:

In [13]:
print(capitais['Alemanha'])

Berlim


Ou um _range_ de ítens subsequentes:

In [14]:
print(capitais['Alemanha':'Inglaterra'])

Alemanha       Berlim
Inglaterra    Londres
dtype: object


Assim como com listas e outros objetos nativos do `Python`, também é possível acessar _"fatias"_ (_"slices"_) da `Serie`:

In [15]:
print("Primeiras duas capitais:\n", capitais[:2])

Primeiras duas capitais:
 Brasil      Brasília
Alemanha      Berlim
dtype: object


In [16]:
print("Última capital:\n", capitais[-1:])

Última capital:
 Uruguai    Montevidéu
dtype: object


### DataFrames

__DataFrames__ são estruturas definidas pelo `Pandas` para representar matrizes de uma ou mais dimensões:

<img src="df_2.png" />

Note que, em um `DataFrame`, há um índice, como no caso da `Series`, e também um identificador para as __colunas__:

In [17]:
numeros = pd.DataFrame({ "Português": ["Zero", "Um", "Dois", "Três", "Quatro"],
                         "Inglês": ["Zero", "One", "Two", "Three", "Four"],
                         "Alemão": ["null", "eins", "zwei", "drei", "vier"]})

In [18]:
print(numeros)

  Português Inglês Alemão
0      Zero   Zero   null
1        Um    One   eins
2      Dois    Two   zwei
3      Três  Three   drei
4    Quatro   Four   vier


Ou, como estamos no `Jupyter Notebook`, para ver um `DataFrame` podemos simplesmente:

In [19]:
numeros

Unnamed: 0,Português,Inglês,Alemão
0,Zero,Zero,
1,Um,One,eins
2,Dois,Two,zwei
3,Três,Three,drei
4,Quatro,Four,vier


### Operações comuns sobre um `DataFrame`

#### `shape`

`.shape` exibe a quantidade de linhas e colunas de um `DataFrame`.
`numeros`, por exemplo, tem cinco linhas e três colunas (lembre-se: o índice não é considerado como _"dado"_ e, portanto, não é contado!)

In [20]:
numeros.shape

(5, 3)

#### `dtypes`

`.dtypes` exibe o tipo dos dados de cada coluna de um `DataFrame`. Observe que cada coluna só pode ter um tipo de dados único.

In [21]:
numeros.dtypes

Português    object
Inglês       object
Alemão       object
dtype: object

In [22]:
# para uso no exemplo
from datetime import datetime

bagunca = pd.DataFrame({"texto": ["esta", "coluna", "contém", "strings"],
                        "inteiros": [1, 2, 3, 4],
                        "decimais": [1.5, 3.14, -8.28, 1.3e3],
                        "datas": [ datetime(1997, 3, 15), datetime(2015, 1, 1), datetime(2019, 4, 23), datetime.today()]})

In [23]:
bagunca

Unnamed: 0,texto,inteiros,decimais,datas
0,esta,1,1.5,1997-03-15 00:00:00.000000
1,coluna,2,3.14,2015-01-01 00:00:00.000000
2,contém,3,-8.28,2019-04-23 00:00:00.000000
3,strings,4,1300.0,2019-04-23 23:06:52.866375


In [24]:
bagunca.dtypes

texto               object
inteiros             int64
decimais           float64
datas       datetime64[ns]
dtype: object

Como cada coluna só pode ter um tipo único de dados, se misturarmos valores de tipos diferentes em uma coluna ela assumirá o tipo `object`:

In [25]:
bagunca = pd.DataFrame({"texto": ["esta", "coluna", "contém", "strings"],
                        "inteiros": [1, 2, 3, 4],
                        "decimais": [1.5, 3.14, -8.28, 1.3e3],
                        "datas": [datetime(1997, 3, 15), 
                                  datetime(2015, 1, 1), 
                                  datetime(2019, 4, 23),
                                  datetime.today()],
                        "misturado?": [ 1, "teste", 3.48, np.nan]})

In [26]:
bagunca

Unnamed: 0,texto,inteiros,decimais,datas,misturado?
0,esta,1,1.5,1997-03-15 00:00:00.000000,1
1,coluna,2,3.14,2015-01-01 00:00:00.000000,teste
2,contém,3,-8.28,2019-04-23 00:00:00.000000,3.48
3,strings,4,1300.0,2019-04-23 23:06:52.919396,


In [27]:
bagunca.dtypes

texto                 object
inteiros               int64
decimais             float64
datas         datetime64[ns]
misturado?            object
dtype: object

#### `head` e `tail`

Os métodos `.head()` e `.tail()` de um `DataFrame` nos permitem inspecionar as primeiras e as últimas linhas de um `DataFrame`, respectivamente:

In [28]:
# define a "semente" do gerador de números (pseudo-)randômicos; assim, os números serão sempre os mesmos
np.random.seed(666)

# cria um array numpy de 100 linhas e 5 colunas com inteiros randômicos variando entre 0 e 4999
dados = np.random.randint(0, 5000, size=(100, 5))

# agora cria um dataframe a partir deste array e nomeia as colunas como "A", "B", ..., "E"
grande = pd.DataFrame(dados, columns=list('ABCDE'))

In [29]:
grande.shape

(100, 5)

In [30]:
grande.dtypes

A    int64
B    int64
C    int64
D    int64
E    int64
dtype: object

In [31]:
grande.head()

Unnamed: 0,A,B,C,D,E
0,1922,1950,2878,70,1993
1,2462,1469,1115,222,563
2,2204,2830,2785,575,2448
3,3118,4584,807,3141,204
4,4047,2189,885,2324,1163


In [32]:
grande.tail()

Unnamed: 0,A,B,C,D,E
95,2748,1053,2920,3451,1525
96,852,95,167,1215,4551
97,2701,1737,4942,3828,877
98,4696,1776,4246,4392,2835
99,4,362,880,932,3458


Também é possível definir qual o número de linhas desejadas:

In [33]:
grande.head(3)

Unnamed: 0,A,B,C,D,E
0,1922,1950,2878,70,1993
1,2462,1469,1115,222,563
2,2204,2830,2785,575,2448


In [34]:
grande.tail(8)

Unnamed: 0,A,B,C,D,E
92,4165,2509,3912,4053,3000
93,3859,3945,1217,1309,1435
94,3015,2563,2614,2047,2881
95,2748,1053,2920,3451,1525
96,852,95,167,1215,4551
97,2701,1737,4942,3828,877
98,4696,1776,4246,4392,2835
99,4,362,880,932,3458


#### `sample`

`sample` retorna uma amostra dos dados do `DataFrame` com o tamanho desejado:

In [35]:
grande.sample(5)

Unnamed: 0,A,B,C,D,E
16,1834,3361,4391,3621,3922
91,2493,4026,25,1072,1246
11,2667,1991,1407,1748,1683
58,764,2094,391,2420,3806
1,2462,1469,1115,222,563


Também é possível informar o porcentual desejado de linhas do `DataFrame` original:

In [36]:
grande.sample(frac=0.1)

Unnamed: 0,A,B,C,D,E
74,239,4199,4789,524,951
38,1607,1916,1033,1845,3212
39,2405,1921,2237,2028,148
43,1974,1102,4606,3056,3420
36,643,1391,2111,570,1974
72,3124,1406,2772,1007,779
70,2578,1043,3857,541,1154
59,4946,4430,4716,3393,3303
90,2003,3384,674,2708,1193
6,687,1956,4357,554,4769


E, caso se deseje que o `sample` retorne sempre o mesmo sub-conjunto, pode-se usar o parâmetro `random_state` (de forma similar a `np.random.seed` já utilizado anteriormente):

In [37]:
grande.sample(frac=0.05, random_state=33)

Unnamed: 0,A,B,C,D,E
56,4639,2314,3140,329,2976
90,2003,3384,674,2708,1193
95,2748,1053,2920,3451,1525
82,4968,4130,3207,322,2495
60,1428,1859,3113,1576,3531


Também é possível obter um sub-conjunto (pseudo-)aleatório de colunas:

In [38]:
grande.sample(2, axis="columns", random_state=33).head()

Unnamed: 0,B,C
0,1950,2878
1,1469,1115
2,2830,2785
3,4584,807
4,2189,885


#### Indexing

_Indexing_ é o termo utilizado quando nos referimos à seleção de sub-conjuntos de um `DataFrame`. O `Pandas` é muito flexível neste aspecto, disponibilizando várias formas de acesso.

Por exemplo, para se obter o valor da célula correspondente à quarta linha na coluna __E__:

In [39]:
linha = 3              # lembre-se: a primeira linha é a ZERO!
coluna = 'E'
grande[coluna][linha]

204

Conferindo:

In [40]:
grande.head()

Unnamed: 0,A,B,C,D,E
0,1922,1950,2878,70,1993
1,2462,1469,1115,222,563
2,2204,2830,2785,575,2448
3,3118,4584,807,3141,204
4,4047,2189,885,2324,1163


Para obter uma coluna inteira:

In [41]:
grande["B"]

0     1950
1     1469
2     2830
3     4584
4     2189
5      624
6     1956
7      142
8     4601
9       57
10    2148
11    1991
12     687
13    1157
14     191
15    2476
16    3361
17     668
18    2058
19     544
20    3145
21    2010
22    1298
23    1265
24    2417
25      47
26     715
27    2010
28    1513
29    2950
      ... 
70    1043
71    1031
72    1406
73    1565
74    4199
75    1839
76    4725
77    1409
78    3222
79     617
80    2542
81    4092
82    4130
83    2498
84     238
85    2001
86    2222
87      78
88    1900
89     326
90    3384
91    4026
92    2509
93    3945
94    2563
95    1053
96      95
97    1737
98    1776
99     362
Name: B, Length: 100, dtype: int64

Já para obter uma linha completa, é necessário usar os métodos `.iloc` (para obter a linha a partir de seu número) ou `.loc` (para obter a linha a partir do _label_ de seu índice):

In [42]:
grande.iloc[2]

A    2204
B    2830
C    2785
D     575
E    2448
Name: 2, dtype: int64