# Manipulação de Arrays com Numpy

In [1]:
import numpy as np

In [3]:
big_array = np.random.randint(1, 100, size = 1000000)

#### Abordagem tradicional.

In [4]:
def compute_reciprocals(values):
    output = np.empty(len(values))
    for i in range(len(values)):
        output[i] = 1.0 / values[i]
    return output

%timeit compute_reciprocals(big_array)

2.22 s ± 63.5 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


#### Abordagem Numpy.

In [5]:
%timeit (1.0 / big_array)

4.02 ms ± 209 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


### 5 - Agregação, Max e Min com Numpy.



In [6]:
big_array = np.random.rand(100000)

%timeit sum(big_array)
%timeit np.sum(big_array)

16.7 ms ± 880 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
51.6 µs ± 5.57 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


#### Em arrays de várias dimensões.

In [7]:
M = np.random.random((3, 4))
print(M)

[[0.10896214 0.50805739 0.39567818 0.53827008]
 [0.71608047 0.00949948 0.07189541 0.78643862]
 [0.34072764 0.88924249 0.79143454 0.2466381 ]]


#### Em Numpy, quando são executadas funções que reduzem a dimensionalidade, axis representa o eixo que será reduzido. Em uma matriz de duas dimensões, o 0 representa o eixo das linhas e 1, o eixo das colunas.

In [8]:
print("Soma de toda a matriz: ", M.sum())
print("Mínimos de cada coluna: ", M.min(axis = 0))
print("Máximo de cada linha: ", M.max(axis = 1))
print("Soma de cada linha: ", M.sum(axis = 1))

Soma de toda a matriz:  5.402924546843345
Mínimos de cada coluna:  [0.10896214 0.00949948 0.07189541 0.2466381 ]
Máximo de cada linha:  [0.53827008 0.78643862 0.88924249]
Soma de cada linha:  [1.55096779 1.58391399 2.26804277]


#### Usar a biblioteca Pandas unicamente para importar um arquivo csv 

In [9]:
import pandas as pd

#### Modificar o path para acessar o arquivo com os dados.

In [10]:
data = pd.read_csv('president_heights.csv')
data

FileNotFoundError: [Errno 2] No such file or directory: 'president_heights.csv'

#### Indexar um dataframe de pandas para extrair uma coluna. Mais à frente, estudaremos os dataframes de Pandas detalhadamente. 

In [14]:
c = data['height(cm)']

#### Vejamos os primeiros valores da coluna (tipo Séries em Pandas).

In [15]:
print (type(c))
c.head(5)

<class 'pandas.core.series.Series'>


0    189
1    170
2    189
3    163
4    183
Name: height(cm), dtype: int64

#### Instanciar um arranjo de Numpy a partir da coluna anterior.

In [16]:
heights = np.array(c)

#### Imprimindo os valores ordenados.

In [17]:
print(np.sort(heights))

[163 168 168 170 170 171 173 173 173 173 174 175 175 177 178 178 178 178
 179 180 182 182 182 182 183 183 183 183 183 183 183 183 185 185 185 188
 188 188 189 189 193 193]


#### Imprimindo os percentis.

In [18]:
print("25th percentile: ", np.percentile(heights, 25))
print("Median: ", np.median(heights))
print("75th percentile: ", np.percentile(heights, 75))

25th percentile:  174.25
Median:  182.0
75th percentile:  183.0


#### Importar as bibliotecas de visualização.

In [11]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn

#### Configurar parâmetros estéticos por padrão.

In [12]:
seaborn.set()

#### Visualizando o histograma das alturas, configurando os títulos da plotagem e plotando o histograma.

In [13]:
plt.hist(heights)

plt.title('Height Distribution of US Presidents')
plt.xlabel('height (cm)')
plt.ylabel('number')

plt.show()

NameError: name 'heights' is not defined

### 6 - Broadcasting: Outra forma de vetorizar.

#### Em conjunto com as ufuncs, o broadcasting é uma forma de aplicar operações nos dados sem ter que escrever loops ```for``` , que são mais lentos, no Python nativo.

#### Lembrem-se que, quando operamos em arranjos com as mesmas dimensões, operações eficientes podem ser feitas elemento por elemento.

In [14]:
a = np.array([0, 1, 2])
b = np.array([5, 5, 5])
a + b

array([5, 6, 7])

#### No exemplo acima, ```a + b``` é uma operação eficiente porque ```a``` e ```b``` têm a mesma dimensionalidade e tamanho.  As regras de "broadcasting" do Numpy permitem que a operação continue sendo eficiente, levando os elementos envolvidos à mesma dimensão e tamanho.

#### Vejamos o exemplo a seguir:

#### Graficamente temos:

![Broadcasting1.png](Broadcasting1.png)

#### Somando o valor 5 à cada termo do arranjo a:

In [15]:
a + 5

array([5, 6, 7])

#### Vejamos um exemplo com outras dimensões, lembrando dos elementos em a:

In [16]:
a

array([0, 1, 2])

#### Agora queremos somar o vetor ```a``` a uma matriz de duas dimensões, de tamanho 3 x 3 que contém todos valores 1, pra isso usamos o método [`.ones()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ones.html).

In [17]:
M = np.ones((3, 3))
M

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

#### Graficamente temos:

![Broadcasting2.png](Broadcasting2.png)

#### Somando os arranjos ```M``` e ```a```.

In [27]:
M + a

array([[1., 2., 3.],
       [1., 2., 3.],
       [1., 2., 3.]])