# Análise de Risco em Saúde Única

Os cálculos e análises no curso serão realizados com auxílio de notebooks e python. Inicialmente é preciso que nos familiarizemos com os principais pacotes que serão utilizados:

* Numpy
* Scipy
* Statsmodels
* Matplotlib
* Seaborn

## Numpy

O numpy é uma biblioteca que fornece um array multidimensional, além de vários objetos derivados (matizes e arrays mascarados) e um conjunto de rotinas para operação em arrays (matematicas, logicas, manipulação de formato, ordenamento , seleção, I/O, transformadas de Fourier, álgebra linear básica, estatística básica, simulações e muito mais).

Caracteristicas de um array:

* Possui tamanho fixo estabelecido na criação. Qualquer alteração irá gerar um novo array.
* Os elementos do array são do mesmo tipo.
* Facilita a realização de operações matemáticas em grande número de registros.
* Várias aplicações em python utilizam arrays numpy.

### O que torna o numpy tão rápido?
* **_Vetorização_**: processo de aplicar uma operação em um array inteiro de uma só vez, em vez de elemento por elemento. O NumPy executa essas operações em um nível de código C compilado, o que é ordens de magnitude mais rápido do que usar um laço for em Python. Exemplo:

In [2]:
import numpy as np

a = np.array([1,2,3])
b = np.array([4,5,6])
print(a*b)

[ 4 10 18]


Este código é mais simples e rápido que o seguinte:

In [7]:
c = np.empty(3)
for i in range(3):
    c[i] = a[i]*b[i]

print(c)

[ 4. 10. 18.]


* **_Broadcasting_**: é o conjunto de regras que o NumPy utiliza para permitir operações entre arrays de diferentes formatos e tamanhos. O broadcasting "estica" virtualmente o array menor para que seu formato corresponda ao do array maior, permitindo que a operação vetorizada ocorra.

Isso evita a necessidade de criar cópias desnecessárias dos dados apenas para que os tamanhos correspondam.

In [10]:
a = np.array([1,2,3])
b = 2
print(a*b)

[2 4 6]


![Broadcasting](https://numpy.org/doc/stable/_images/broadcasting_1.png)

### Conceitos básicos

* ndarray.ndim: número de dimensões

In [26]:
a = np.array([1,2,3])

In [27]:
print(f'Número de dimensões: {a.ndim}')

Número de dimensões: 1


In [28]:
a = np.array([[1,2,3],
              [4,5,6]])

In [29]:
print(f'Número de dimensões: {a.ndim}')

Número de dimensões: 2


* ndarray.shape: dimensões de um array

In [30]:
print(a.shape)

(2, 3)


In [49]:
b = np.array([[[1,2,3],[3,4,5]],
              [[6,7,8],[9,10,11]]])

In [44]:
print(b.shape)

(2, 2, 3)


* ndarray.size: número de elementos de um array

In [34]:
print(a.size)

6


In [35]:
print(b.size)

8


#### Acessando elementos

In [52]:
b[0][1][0]

np.int64(3)

In [51]:
b[1][1][0]

np.int64(9)

#### Identificando o tipo

In [36]:
print(a.dtype)

int64


In [37]:
c = np.array([1.0,2.0,3.0])

In [38]:
print(c.dtype)

float64


#### Criando array 2d usando método reshape

In [57]:
a = np.array(range(12)).reshape(3,4)

In [58]:
print(a)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


#### Criando arrays de zeros e uns

In [59]:
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [60]:
np.zeros(6).reshape(2,3)

array([[0., 0., 0.],
       [0., 0., 0.]])

In [61]:
np.ones(5)

array([1., 1., 1., 1., 1.])

In [62]:
np.ones(6).reshape(3,2)

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

#### Criando arrays com sequência de números

In [64]:
np.arange(5)

array([0, 1, 2, 3, 4])

In [68]:
np.linspace(0, 10, 20)

array([ 0.        ,  0.52631579,  1.05263158,  1.57894737,  2.10526316,
        2.63157895,  3.15789474,  3.68421053,  4.21052632,  4.73684211,
        5.26315789,  5.78947368,  6.31578947,  6.84210526,  7.36842105,
        7.89473684,  8.42105263,  8.94736842,  9.47368421, 10.        ])

##### Gerando arrays de números aleatórios

In [78]:
np.random.rand(10)

array([0.12723277, 0.49238145, 0.29943314, 0.59432413, 0.79218917,
       0.39994399, 0.89568272, 0.67470059, 0.50750727, 0.98550869])

In [81]:
np.random.randint(0, 100, 10)

array([43, 98, 41, 17, 43, 33, 95, 18, 76, 25])

In [83]:
np.random.normal(0, 1, 10)

array([-0.67755322, -0.94658194, -1.95296041, -1.01707447, -1.1109748 ,
        0.16961242,  0.56513231, -0.80045402, -0.66234339, -0.8012368 ])

In [90]:
np.random.binomial(10, 0.5, 100)

array([4, 5, 4, 3, 6, 3, 4, 5, 4, 5, 5, 7, 5, 6, 3, 6, 6, 6, 4, 5, 5, 4,
       5, 6, 3, 7, 4, 6, 4, 1, 3, 6, 6, 5, 6, 9, 6, 1, 8, 3, 4, 8, 3, 4,
       7, 4, 6, 7, 7, 4, 3, 5, 6, 3, 5, 5, 3, 5, 6, 4, 7, 6, 8, 5, 3, 4,
       4, 4, 5, 7, 4, 5, 7, 3, 3, 4, 6, 6, 5, 3, 6, 6, 2, 6, 7, 5, 7, 5,
       5, 4, 6, 6, 6, 4, 6, 4, 7, 5, 5, 7])

### Operações básicas com arrays
#### Operações algébricas
São realizadas elemento a elemento

In [72]:
a = np.array([1,2,3,4])
b = np.array([5,6,7,8])

In [73]:
a + b

array([ 6,  8, 10, 12])

In [74]:
a - b

array([-4, -4, -4, -4])

In [75]:
a * b

array([ 5, 12, 21, 32])

In [76]:
b ** a

array([   5,   36,  343, 4096])

#### Outras operações

In [113]:
a = np.array([2, 4, 5.0, 1, 21, 18, 7])

In [114]:
a.argmax()

np.int64(4)

In [115]:
a.argmin()

np.int64(3)

In [116]:
a.mean()

np.float64(8.285714285714286)

In [117]:
a.std()

np.float64(7.362342129557215)

In [118]:
a.sum()

np.float64(58.0)

In [119]:
a.sort()
a

array([ 1.,  2.,  4.,  5.,  7., 18., 21.])

In [103]:
np.cumprod(a)

array([2.0000e+00, 8.0000e+00, 4.0000e+01, 4.0000e+01, 8.4000e+02,
       1.5120e+04, 1.0584e+05])

In [104]:
np.cumsum(a)

array([ 2.,  6., 11., 12., 33., 51., 58.])

### Indexação e fatiamento

In [120]:
a

array([ 1.,  2.,  4.,  5.,  7., 18., 21.])

In [126]:
a[1]

np.float64(2.0)

In [127]:
a[4]

np.float64(7.0)

In [121]:
a[0:2]

array([1., 2.])

In [122]:
a[:3]

array([1., 2., 4.])

In [124]:
a[-3:-1]

array([ 7., 18.])

In [125]:
a[-4:]

array([ 5.,  7., 18., 21.])

Cuidado!

In [128]:
a

array([ 1.,  2.,  4.,  5.,  7., 18., 21.])

In [129]:
b = a

In [130]:
b

array([ 1.,  2.,  4.,  5.,  7., 18., 21.])

In [132]:
b is a

True

In [133]:
b[0] = 1000

In [134]:
a

array([1000.,    2.,    4.,    5.,    7.,   18.,   21.])

In [135]:
b = a.copy()

In [139]:
b is a

False

In [136]:
b[0] = 2000

In [137]:
a

array([1000.,    2.,    4.,    5.,    7.,   18.,   21.])

In [138]:
b

array([2000.,    2.,    4.,    5.,    7.,   18.,   21.])

### Indexação com array de booleanos

In [140]:
a

array([1000.,    2.,    4.,    5.,    7.,   18.,   21.])

In [141]:
b = a > 20

In [142]:
b

array([ True, False, False, False, False, False,  True])

In [143]:
a[b]

array([1000.,   21.])

In [144]:
a[a>20]

array([1000.,   21.])