<a href="https://colab.research.google.com/github/vaniago/base-numpy/blob/main/IntroNumpy_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Fundamentos de Numpy

##Motivação para se criar Numpy

O propósito de Numpy é prover recursos para computação numérica,
algébrica e matricial para Python. A motivação está no fato de que era
preciso complementar as estruturas de dados originais de Python com uma
nova estrutura que tivesse as seguintes características:

-   fosse orientada a operações numéricas;

-   permitisse a manipulação de mais tipos numéricos que os originais de
    Python;

-   permitisse um processamento otimizado de operações matemáticas e
    algébricas.

-   permitisse forte interação com bibliotecas em C e Fortran já
    existentes.

##A solução proposta
Numpy não surgiu de uma hora para outra, mas resulta de uma evolução da
comunidade de programação, a partir de diversos pacotes anteriores, como *Numeric* e *Numarray*, dentro do paradigma de desenvolvimento
comunitário em computação. 


Basicamente, temos dois acréscimos
importantes a Python feitos por Numpy: 
- foi criada uma classe chamada
ndarray - n-dimensional-array- que vamos aqui traduzir livremente por
vetor de n-dimensões, que, em termos matemáticos, implementa vetores
unidimensionais e matrizes de n dimensões, que contêm itens de mesmo
tipo e tamanho, orientados principalmente a valores numéricos;
- ao lado
dessa classe estrutural, foram definidos novos tipos numéricos - que,
como sabemos, em Python também são classes - que contemplam maior
variedade de possibilidades de representação no ambiente dos vetores.

Desse modo, temos uma estrutura coletiva orientada a valores numéricos -
a ndarray - e diversas formas numéricas para preencher essa estrutura.
Com isso, contempla-se um conjunto mais amplo de necessidades de
computação numérica.

##Nomenclatura: array, vetor, matriz, lista, dataframe

##array
Para a maioria das linguagens de programação, é uma sequência ou série de valores, podendo ter *n* dimensões.
Dependendo da dimensão, também traduzimos *array* por matriz ou vetor.

##vetor
Em álgebra linear e algumas linguagens de programação, é uma série de valores de mesmo tipo, com uma dimensão.

##matriz
Em álgebra linear e algumas linguagens de programação, é uma série de valores de mesmo tipo, com uma ou mais de uma dimensão. 

Em português usamos matrizes também para n-dimensões, dizendo matriz *m x n x p x...*. Um vetor é uma matriz *m x 1* ou *1 x n*.

##lista
Em diversas linguagens de programação, uma série de valores que pode ser de qualquer tipo, inclusive outras listas.

##dataframe
Em muitas linguagens de programação, uma estrutura bidimensional, com linhas e colunas, em que as colunas podem ter nomes ou rótulos.
 
O mesmo que uma tabela.

#Vetores e matrizes: a classe *ndarray*

##Definição da classe *ndarray*

Um objeto *ndarray* é:
- uma tabela de elementos homogêneos, i.e., todos do mesmo
tipo, 
- indexada por uma tupla de inteiros não-negativos que indicam suas
dimensões.

As dimensões são também chamadas de *eixos*.

Existem vários modos de instanciar um objeto da classe ndarray, mas a principal é pelo construtor básico *numpy.ndarray()*, que exige como único parâmetro obrigatório a tupla com as dimensões da matriz, que é o parâmetro *shape*.

Por exemplo, vamos criar uma matriz 3x2:



In [None]:
import numpy as np
matriz=np.ndarray((3,2))
print(matriz)

[[4.67062094e-310 0.00000000e+000]
 [0.00000000e+000 0.00000000e+000]
 [0.00000000e+000 0.00000000e+000]]


A matriz foi criada com valores quaisquer, pois não demos outros parâmetros para o construtor *ndarray*.

Experimente agora criar uma matriz 2x7:

In [None]:
import numpy as np #não seria necessário, importado acima

matriz= 0 #substitua zero pelo seu código
print(matriz)

0


In [None]:
#@title Precisa de uma dica? Clique aqui.
matriz=np.ndarray((2,7))
print(matriz)

##Atributos de ndarray
Um objeto ndarray possui os seguintes atributos:

| Atributo         | Uso                                                                                                                          |
|:-----------------|:-----------------------------------------------------------------------------------------------------------------------------|
| ndarray.ndim     | número de dimensões do vetor                                                                                                 |
| ndarray.shape    | uma tupla de inteiros que indica o tamanho de cada dimensão do vetor                                                         |
| ndarray.size     | total de elementos presentes no vetor, é o produto dos elementos de shape                                                    |
| ndarray.dtype    | objeto que descreve o tipo dos elementos do vetor, sejam eles originais do Python ou os próprios de Numpy.                   |
| ndarray.itemsize | tamanho em bytes do elemento do vetor.                                                                                       |
| ndarray.data     | o buffer que contém efetivamente os elementos no vetor. Porém, em geral, os elementos do vetor são acessados pela indexação. |
| ndarray.T        | a transposição do vetor ou matriz transposta.                                                                                |
| ndarray.flat     | converte o vetor em um vetor de uma dimensão, para atuar como iterador.                                                      |
| ndarray.imag     | parte imaginária do vetor.                                                                                                   |
| ndarray.real     | parte real do vetor.                                                                                                         |
| ndarray.nbytes   | total de bytes ocupado pelo vetor.                                                                                           |
| ndarray.strides  | tupla de bytes que indicam o passo para atravessar cada dimensão do vetor.                                                   |
| ndarray.ctypes   | objeto que facilita a interação com o módulo ctypes.                                                                         |
| ndarray.base     | se o conteúdo vem de outro objeto, indica o endereço-base desse objeto.                                                      |


##Construtor básico
**class numpy.ndarray(shape, dtype=float, buffer=None, offset=0,
strides=None, order=None)**

<table>
<caption>Parâmetros do construtor de classe ndarray</caption>
<thead>
<tr class="header">
<th style="text-align: left;">Parâmetro</th>
<th style="text-align: left;">Uso</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td style="text-align: left;">shape</td>
<td style="text-align: left;">obrigatório: a tupla com as dimensões do vetor.</td>
</tr>
<tr class="even">
<td style="text-align: left;">dtype</td>
<td style="text-align: left;">o tipo único dos elementos do vetor.</td>
</tr>
<tr class="odd">
<td style="text-align: left;">buffer</td>
<td style="text-align: left;">buffer que permite inserção de dados no vetor.</td>
</tr>
<tr class="even">
<td style="text-align: left;">offset</td>
<td style="text-align: left;">offset do início dos dados válidos no buffer.</td>
</tr>
<tr class="odd">
<td style="text-align: left;">strides</td>
<td style="text-align: left;">tuplas de inteiros, que indicam os passos dentro da memória.</td>
</tr>
<tr class="even">
<td style="text-align: left;">order</td>
<td style="text-align: left;">indica ordem da matriz:<br>
’C’- segue o modelo das matrizes por linhas em C, ou<br>
’F’- segue o modelo de matrizes por colunas em Fortran</td>
</tr>
</tbody>
</table>

Já vimos o uso do parâmetro obrigatório *shape*, vamos agora a exemplos com os outros parâmetros.

### parâmetro dtype:

Vamos criar uma matriz 4 x 5 de inteiros:


In [None]:
matriz=np.ndarray((4,5), dtype=int)
print(matriz)

[[94534420374464              0              0              0
               0]
 [             0              0              0              0
               0]
 [             0              0              0              0
               0]
 [             0              0              0              0
               0]]


Mais adiante veremos a classe *dtype*, em que Numpy cria diversos tipos escalares como int8, int16 etc, para indicar precisamente o tipo numérico presente na matriz. 
Por exemplo, *np.float64* indica um real em ponto flutuante de 64 bits:

In [None]:
matriz=np.ndarray((2,2),dtype=np.float64)
print(matriz)

[[5.e-324 5.e-324]
 [5.e-324 0.e+000]]


Experimente criar uma matriz 3 x 3 com inteiros de 8 bits, usando o dtype *'int8'*:

In [None]:
matriz= 0 #substitua zero pelo seu código
print(matriz)

In [None]:
#@title Precisa de ajuda? Clique aqui.
matriz=np.ndarray((3,3),dtype=np.int8)
print(matriz)


[[ -64   79 -120]
 [-126   -6   85]
 [   0    0    0]]


### parâmetro buffer:

O parâmetro buffer deve ser um objeto da classe **bytes** ou algo que possa
ser reconhecido como tal, como um próprio *ndarray*. 

Vamos a um exemplo:
temos uma string na forma de *bytes* é transformada numa matriz
de inteiros:

In [None]:
sbytes= b"abcd"
matriz=np.ndarray((2,2),buffer=sbytes,dtype=np.int8)
print(matriz)

[[ 97  98]
 [ 99 100]]


Observe que agora a matriz foi preenchida com os valores inteiros dos bytes (inteiros de 8 bits) correspondentes aos valores ASCII das letras "abcd", ou seja: 97, 98, 99 e 100. 

Se não colocarmos o parâmetro *dtype*, o construtor chama o
default que é *float* e **ocorre um erro**, pois aí o buffer tem tamanho
insuficiente em bytes para preencher a matriz:

In [None]:
import numpy as np

sbytes=b"abcd"
matriz=np.ndarray((2,2),buffer=sbytes) 
print(matriz)

TypeError: ignored

A mensagem *buffer is too small for requested array* acontece porque, por default, o *dtype* é float, como cada float ocupa 8 bytes, o construtor espera um buffer de 32 bytes de tamanho, mas nosso buffer *sbytes* tem apenas 4 bytes, dando erro de tipo.

Experimente aumentar o tamanho de sbytes para que ele chegue aos 32 bytes esperados para quatro elementos do tipo float:

In [None]:
sbytes= b"0123456789abcdef0123456789abcdefg" #substitua zero pelo seu código
matriz=np.ndarray((2,2),buffer=sbytes)
print(matriz)

[[9.95833438e-043 1.81794865e+185]
 [9.95833438e-043 1.81794865e+185]]


In [None]:
#@title Precisa de dica? Clique aqui.
sbytes= b"abcdefghijklmnopqrstuvwxyz012345" #precisa totalizar 32 bytes
matriz=np.ndarray((2,2),buffer=sbytes)
print(matriz)


###parâmetro offset
O parâmetro offset permite o deslocamento dentro do buffer, para indicar
o início da coleta de dados.

Por exemplo, dado o buffer b"abcdefgh", vamos fazer m1 com os bytes b"abcd" e m2 com os bytes b"efgh".

Com offset=4, começamos a preencher a matriz a partir do 5º elemento do
buffer.

In [None]:
sbytes=b"abcdefgh"
m1=np.ndarray((2,2),buffer=sbytes,dtype=np.int8)
m2=np.ndarray((2,2),buffer=sbytes,offset=4,dtype=np.int8)
print("m1= ",m1)
print("m2= ",m2)

m1=  [[ 97  98]
 [ 99 100]]
m2=  [[101 102]
 [103 104]]


Dado o buffer b"abcdefgh", experimente criar uma matriz 2 x 2, com os bytes de b"cdef":

In [None]:
sbytes= b"abcdefgh"
m3= 0 #substitua zero pelo seu código
print("m3= ",m3)

In [None]:
#@title Precisa de uma dica? Clique aqui.
sbytes=b"abcdefgh"
m3=np.ndarray((2,2),buffer=sbytes,offset=2,dtype=np.int8)
print("m3=",m3)

m3= [[ 99 100]
 [101 102]]


### parâmetro strides:

O parâmetro *strides* é uma tupla com o mesmo número de dimensões de *shape* e indica o intervalo de passos dentro do buffer para cada dimensão.

Considere que temos uma série de bytes dada por **b"abcdefghijklmnop"** e queremos uma matriz 3x3 começando em **b"a"** (=97) em que:
- o passo entre cada linha seja 4: se a linha 1 começa em 97, a linha 2 começa em 101 etc
- o passo entre cada coluna seja 3: se a coluna 1 começa em 97 a coluna 2 começa em 100 etc
- e assim por diante para cada linha ou coluna

Observe que se ultrapassarmos os limites de *buffer*
ou *shape* teremos uma mensagem de erro.

In [None]:
sbytes=b"abcdefghijklmnopq"
matriz=np.ndarray((3,3),buffer=sbytes,strides=(4,3),dtype=np.int8)
print(matriz)

### parâmetro order:

Por fim, o parâmetro *order* indica a ordem de preenchimento da matriz a
partir do buffer:
- 'C': ordem da linguagem C: linhas por colunas;
- 'F': ordem da linguagem Fortran: colunas por linhas.

Veja a diferença de resultado no exemplo:



In [None]:
sbytes=b"abcdefghijk"
m1=np.ndarray((3,3),buffer=sbytes,dtype=np.int8,order='C')
m2=np.ndarray((3,3),buffer=sbytes,dtype=np.int8,order='F')
print("Ordem em C:\n",m1)
print("Ordem em F:\n",m2)

##Outros métodos de construção genérica

### Vetor ou matriz a partir de um objeto qualquer ou cópia de um ndarray existente:

**_numpy.array(object, dtype=None, \*, copy=True, order=’K’, subok=False,
ndmin=0, like=None)_**

É uma versão mais simplificada do construtor básico, em que *object*
pode ser qualquer objeto de Python, como lista ou tupla, ou seja,
escapamos do rigor apresentado em *ndarray* em que o parâmetro *buffer*
é necessariamente uma sequência do tipo *bytes*.

Caso o objeto já seja um ndarray, é feita uma cópia dele.


Exemplo: criar uma matriz a partir de uma lista de inteiros.

In [None]:
lista=[9, 7, 4, 2, 1]
vetor=np.array(lista)
print(vetor)
type(vetor)


<table>
<caption>Parâmetros de numpy.array</caption>
<thead>
<tr class="header">
<th style="text-align: left;">Parâmetro</th>
<th style="text-align: left;">Uso</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td style="text-align: left;">object</td>
<td style="text-align: left;">o objeto que será transformado em array</td>
</tr>
<tr class="even">
<td style="text-align: left;">dtype</td>
<td style="text-align: left;">o tipo único dos elementos do vetor, se omitido, numpy escolherá um adequado</td>
</tr>
<tr class="odd">
<td style="text-align: left;">copy</td>
<td style="text-align: left;">True=será feita uma cópia do objeto. Essa opção só tem efeito se o objeto original for um <em>ndarray</em>, pois nos demais casos, a cópia é sempre feita</td>
</tr>
<tr class="even">
<td style="text-align: left;">order</td>
<td style="text-align: left;">indica a ordem da matriz:<br/>
’K’ - ordem original é preservada,<br/>
’A’- ordem de Fortran preservada, do contrário, ordem de C,<br/>
’C’ - segue o modelo das matrizes por linhas em C, ou<br/>
’F’ segue o modelo de matrizes por colunas em Fortran</td>
</tr>
<tr class="odd">
<td style="text-align: left;">subok</td>
<td style="text-align: left;">indica se o objeto já é uma subclasse de ndarray</td>
</tr>
<tr class="even">
<td style="text-align: left;">ndim</td>
<td style="text-align: left;">número mínimo de dimensões do vetor</td>
</tr>
<tr class="odd">
<td style="text-align: left;">like</td>
<td style="text-align: left;">para o caso especial em que se queira criar um objeto que não seja um ndarray</td>
</tr>
</tbody>
</table>

### Converter um objeto qualquer para *ndarray*:

**_numpy.asarray(a, dtype=None, order=None, \*, like=None)_**

Forma ainda mais simples de se construir um *ndarray*, com menos
parâmetros que numpy.array(). 

Tem efeito semelhante a *numpy.array(..., copy=False...).*

Exemplo: criar ndarray a partir de uma tupla.

In [None]:
tupla=(23,72,81,44,93,2)
matriz=np.asarray(tupla)
print(matriz)
type(matriz)

Parâmetros de numpy.asarray():


| Parâmetro | Uso                                                                                                                                                                                                        |
|:----------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| object    | o objeto que será transformado em array                                                                                                                                                                    |
| dtype     | o tipo único dos elementos do vetor, se omitido, numpy escolherá um adequado                                                                                                                               |
| order     | ’K’ - ordem original é preservada, ’A’- ordem de Fortran preservada, do contrário, ordem de C, ’C’ - segue o modelo das matrizes por linhas em C, ou ’F’ segue o modelo de matrizes por colunas em Fortran |
| like      | para o caso especial em que se queira criar um objeto que não seja um ndarray                                                                                                                              |



###Diferença entre numpy.array() e numpy.asarray()
Como vimos nos exemplos, em geral, o resultado de ambos os métodos é o mesmo, mas quando o objeto a partir do qual se cria o ndarray *já é um ndarray*, temos uma diferença:

-   numpy.array() vai criar um **_novo_** ndarray como cópia do ndarray original;

-   numpy.asarray() vai apenas **_associar um novo nome_** a um ndarray já existente.

Exemplo:

In [None]:
lista=[[9,8,4],[3,7,2]]
m1=np.array(lista)
m2=np.array(m1)
m3=np.asarray(m1)
print("m1=\n",m1)
print("m2=\n",m2)
print("m3=\n",m3)
print("m1 é m2?\n", m1 is m2)
print("m1 é m3?\n", m1 is m3)
print("m1==m2?\n", m1==m2)
print("m1==m3?\n",m1==m3)

Portanto:
- m1, m2, m3 possuem o mesmo conteúdo em valores;
- m1 e m3 são o mesmo objeto, pois m3 foi criado a partir de np.asarray;
- m2 é um *novo objeto*, criado como np.array() com valores copiados de m1;
- uma alteração em m1 afetará m3 e não afetará m2.



In [None]:
m1[1][1]=0 #alterando elemento m1(1,1) de 7 para 0
print("m1=\n",m1)
print("m2=\n",m2)
print("m3=\n",m3)

###Construtores para casos especiais

####Vetor ou matriz nula

**_numpy.zeros ( shape, dtype = float, order = ’C ’, * , like = None )_**

Cria uma matriz nula.

O parâmetro like é para o caso especial em que se queira criar um objeto
que não seja um ndarray, seu uso não é frequente.

Exemplo: criar uma matriz nula 4x4:

In [None]:
nula=np.zeros((4,4))
print(nula)

####Matriz "oio" (eye):

**_numpy.eye(N, M=None, k=0, dtype=\<class ’float’\>, order=’C’, \*,
like=None)_**

É a matriz bidimensional que possui:
- valor 1 em uma de suas diagonais e
- valor 0 nas demais posições. 

N= número de linhas 

M= número de colunas, por
definição, igual ao número de linhas 

k= a diagonal a ser preenchida com 1:
-   $0$: diagonal principal, que se inicia no alto, à esquerda
-   $>0$: diagonais acima da principal
-   $<0$: diagonais abaixo da principal

Exemplo 1: criar uma matriz eye 4 x 5:

In [None]:
matriz=np.eye(4,5)
print(matriz)

Exemplo 2: criar matriz eye 4 x 4 em que a diagonal unitária está a duas diagonais da diagonal principal.

In [None]:
matriz=np.eye(4,4,2)
print(matriz)

Sua vez: crie uma matriz eye 6 x 6 em que a diagonal unitária está a duas diagonais abaixo da diagonal principal.

In [None]:
matriz= 3 #insira aqui seu código
print(matriz)

In [None]:
#@title Precisa de ajuda? Clique aqui.
matriz= np.eye(6,6,-2)
print(matriz)

####Matriz identidade
**_numpy.identity (n, dtype = None, * ,like = None )_**
Matriz quadrada em que a diagonal principal tem valores 1. 
É um caso particular da matriz eye.

Exemplo: criar a matriz identidade 3 x 3.

In [None]:
matriz=np.identity(3)
print(matriz)

#### Vetor ou matriz preenchido com um valor

**_numpy.full(shape, fill_value, dtype=None, order='C', *, like=None)_**

Exemplo: uma matriz 3x3x3 preenchida com 21:

In [None]:
matriz=np.full((3,3,3),21)
print(matriz)

####Matriz preenchida com valor 1

**_numpy.ones(shape, dtype=None, order=’C’, \*, like=None)_**

Uma matriz preenchida com o número 1. 

Caso particular de *numpy.full*.


In [None]:
matriz=np.ones((3,2))
print(matriz)

####Vetor ou matriz vazia ou não inicializada

**_numpy.empty(shape, dtype=float, order=’C’, \*, like=None)_**

Cria o vetor sem inicializar os valores, portanto, a matriz pode estar
preenchida com *quaisquer* valores.

Exemplo: criar uma matriz 3x2 de inteiros de 8 bits.

In [None]:
matriz=np.empty((3,2),dtype=np.int8)
print(matriz)

#Tipos escalares e a classe dtype

##Escalares em Numpy

Enquanto vetores e matrizes são compostos por um ou mais valores, os escalares são indicados por apenas um valor.

Portanto, o menor elemento de uma matriz é um escalar. 
Isso vem da linguagem C, onde um *scalar array* é um conjunto de posições de memórias consecutivas e de tamanho fixo que guardam um valor de mesmo *tipo*. 

Desse modo, os tipos escalares de Numpy  auxiliam na função de organizar a memória quando se cria um objeto *ndarray*, por meio do parâmetro *dtype*.

Como a computação numérica exige mais rigor na alocação de memória que os tipos nativos de Python, Numpy cria diversos tipos escalares que podem servir para os elementos de matrizes.

Os tipos escalares de Numpy podem ser refereciados por:
-   um nome usual,
-   o nome próprio da classe ou
-   um código em caractere (*character code*).

Em particular, o *character code* é um recurso para manter compatibilidade com pacotes mais antigos, como o pacote *Numeric*. Isso faz com que seu uso seja um pouco menos frequente.

Algumas observações:
- Os tipos escalares possuem uma hierarquia de classes, cuja raiz é a classe *numpy.generic*.
- Todos os  numéricos relativos a inteiros, float, complex são  sublclasses da classe *numpy.number*, que por sua vez é uma subclasse de *numpy.generic*. 
- Diferentemente de Python, a classe *numpy.bool_* não é uma subclasse de algum inteiro, nem é uma subclasse de *numpy.number*, mas é diretamente subclasse de *numpy.generic*.


**Escalares numéricos:**

| **Nome usual** | **Nome da Classe** | **Descrição**                          |**Char code**    | **C-compatível** |
|:---------------|:-------------------|:---------------------------------------|:-----------|:-----------------|
| int8           | byte               | inteiro de 8 bits com sinal            |    'b'     | char             |
| int16          | short              | inteiro de 16 bits com sinal           |    'h'     | short            |
| int32          | intc               | inteiro de 32 bits com sinal           |    'i'     | int              |
| int64          | int\_              | inteiro de 64 bits com sinal           |    'l'     | long             |
| longlong       | longlong           | inteiro de 64 bits com sinal           |    'q'     | long long        |
| uint8          | ubyte              | inteiro de 8 bits sem sinal            |    'B'     | unsigned char    |
| uint16         | ushort             | inteiro de 16 bits sem sinal           |    'H'     | unsigned short   |
| uint32         | uintc              | inteiro de 32 bits sem sinal           |    'I'     | unsigned int     |
| uint64         | uint               | inteiro de 64 bits sem sinal           |    'L'     | unsigned long    |
| ulonglong      | ulonglong          | inteiro de 64 bits com sinal           |    'Q'     | unsigned long long|
| float16        | half               | real de meia precisão                  |    'e'     | \-               |
| float32        | single             | real de precisão simples               |    'f'     | float            |
| float64        | double             | real de precisão dupla                 |    'd'     | double           |
| float128       | longdouble         | real de precisão estendida             |    'g'     | long double      |
| complex64      | csingle            | complexo de 2números float de 64 bits  |    'F'     | \-               |
| complex128     | cdouble            | complexo de 2números float de 128 bits |    'D'     | \-               |
| complex256     | clongdouble        | complexo de 2números float de 256 bits |    'G'     | \-               |

**Escalares não-numéricos:**

| **Nome usual** | **Nome da Classe** | **Descrição**                          |**Char code**    | **C-compatível** |
|:---------------|:-------------------|:---------------------------------------|:-----------|:-----------------|
| bool8          | bool\_             | valor booleano                         |    '?'     | \-               |
|datetime64      |datetime64      | data a partir de 1970-01-01T00:00:00| 'M' | \-|
|timedelta64     |timedelta64     | intervalo de tempo/datas |'m'| \-|
| object\_       | object\_          | qualquer objeto Python                 |    'O'     | \-               |
| string\_       | bytes\_            | byte string                            | 'S','c','a'| \-               |
| unicode\_      | str\_              | string Unicode                         |    'U'     | \-               |
| void           | void               | dados em estruturas multitipo          |    'V'     | \-               |




##O que é um objeto da classe *dtype*?


A implementação de cada matriz varia conforme o tipo de dado que ela contém, assim vimos que na construção de um objeto *ndarray* um dos parâmetros é o *dtype* que indica o tipo de dados que está contido na matriz.

Pode-se pensar cada matriz como um bloco de memória em que *dtype* indica como esse bloco deve ser lido para formar os elementos da matriz.

A classe de tipo de dados - *data type* ou simplesmente *dtype* -
indica:
-   o tipo de dado: booleano, inteiro, float, objeto, estrutura etc
-   o número fixo de bytes que o objeto ocupa;
-   a *ordem* de interpretação desses bytes;
-   se o dado é uma estrutura que combina diferentes tipos de dados, como um registro contendo:
   - os nomes dos campos da estrutura;
   - o tipo de dado de cada campo;
   - o bloco de memória ocupado por cada campo;
- se o dado é um sub-array: o seu *shape* e *dtype* 

Com relação à *ordem de interpretação dos bytes* temos duas possibilidades:
- *big-endian*: os bytes mais significativos vêm primeiro;
- *little-endian*: os bytes menos significativos vêm primeiro.

Essa qualidade de ordem é denominada *endianess*.




##Flexibilidade ao indicar o parâmetro dtype

Ao criar uma matriz, podemos indicar o parâmetro *dtype* de diversos modos e obter o mesmo resultado:

In [None]:
import numpy as np
lista=[9,2,3,4,7]
matriz=np.array(lista,dtype=np.short)
print(np.dtype(matriz[0]))
matriz=np.array(lista,dtype=np.int16)
print(np.dtype(matriz[0]))
matriz=np.array(lista,dtype='short')
print(np.dtype(matriz[0]))
matriz=np.array(lista,dtype='int16')
print(np.dtype(matriz[0]))
matriz=np.array(lista,dtype='h')
print(np.dtype(matriz[0]))
matriz=np.array(lista,dtype='<i2')
print(np.dtype(matriz[0]))


int16
int16
int16
int16
int16
int16


As cinco primeiras formas acima vieram da tabela dos tipos escalares de Numpy. 

Embora os tipos escalares possam ser usados sempre que for necessária uma indicação de tipos de dados no parâmetro *dtype*, eles **não são** instâncias da classe *numpy.dtype*, pois pertencem à hierarquia de subclasses da classe *numpy.generic*.

A última forma, *'<i2'* é uma *type string* , isto é, uma string composta por três partes:
- a ordem dos bytes, que pode ser dada por:
  - '<': little-endian;
  - '>': big-endian;
  - '=': default do sistema;
  - '|': irrelevante;
  - e ainda pode ser omitida;
- um caractere que indica o tipo em que se baseia (v. tabela abaixo);
- um inteiro que indica o número de bytes utilizados.


Código de tipos:


|  Código |       Significado      |
|:------------:|:----------------------|
| b            | Boolean                |
| i            | Integer                |
| u            | Unsigned integer       |
| f            | Floating point         |
| c            | Complex floating point |
| m            | Timedelta              |
| M            | Datetime               |
| O            | Object                 |
| S            | String                 |
| U            | Unicode                |
| V            | Void (bloco de dados)  |


Desse modo, *'<i2'* significa um inteiro de 2 bytes com ordem *little-endian*, o byte menos significativo vem primeiro.
Como a ordem pode ser omitida, é o mesmo que *'i2'*.

Após conhecer um pouco mais sobre o construtor *numpy.dtype()*, vamos ver as *type strings* válidas, porém, já cabem algumas observações:
- o símbolo 'b' sozinho é o *char code* de *byte*, porém, 'b1' indica *boolean*;
- o símbolo 'c' sozinho é o *char code* de *string*, porém, 'c8','c16','c32' indicam um *número complexo*;
- para os tipos numéricos, o número de bytes é indicado por potências de dois;
- os símbolos S, U, V aceitam um inteiro qualquer pois indica diretamente o número de bytes;
- embora para 'O' se possa omitir o tamanho ou indicar os inteiros 4 e 8, seu tamanho é de 8 bytes;
- para U o inteiro resulta num tamanho multiplicado por 4;
- S e V não são afetados pelo indicador de *endianess*.

##O construtor *numpy.dtype()*

É possível definir um objeto *dtype* com o construtor:

**numpy.dtype(obj,align,copy)**

###parâmetro *obj*:
Qualquer objeto que possa ser convertido num *dtype*, como, por exemplo:
- um tipo nativo de Python;
- um escalar de Numpy;
- uma *typestring*;
- uma matriz estruturada composta por uma sequência de campos de diferentes tipos.

###parâmetro *align*:
Booleano opcional. Na definição de estruturas, faz o preenchimento dos campos de modo a manter correspondência com estrutura semelhante gerada num compilador C.

###parâmetro *copy*:
Booleano opcional. 
- True: faz uma cópia para um novo objeto de tipo de dados;
- False: faz a referência para um tipo de dados já existente.

###Exemplos:






####A partir de um tipo nativo de Python:

In [None]:
mtipo=np.dtype(float)
print(mtipo)

float64


####A partir de um escalar de Numpy:


In [None]:
mtipo=np.dtype(np.double)
print(mtipo)

float64


####A partir de uma *typestring*:

In [None]:
mtipo=np.dtype('<f8')
print(mtipo)

float64


####A partir de uma matriz estruturada:

Vamos montar uma matriz com dois campos: 
- nome do cliente, com vinte caracteres e 
- o seu saldo, como um float64.

In [None]:
import numpy as np

mtipo = np.dtype([('nome', 'U20'), ('saldo', 'f8')])

pessoas=['Bill','Warren','Elon']
saldos=[898988848747.00,989988849707.50,989988847717.50]
clientes=list(zip(pessoas,saldos))

matriz = np.array(clientes, dtype=mtipo)
#consulta o saldo da posição 0
print("Saldo do Bill: ", matriz[0]['saldo'])
#consulta a lista de nomes
print("Clientes: ", matriz['nome'])
#consulta clientes menos milionários
print("Mais pobres: ", [matriz[x]['nome'] for x in range(0,len(matriz)) if matriz[x]['saldo']<900000000000])
#examina a matriz
print(matriz)

Saldo do Bill:  898988848747.0
Clientes:  ['Bill' 'Warren' 'Elon']
Mais pobres:  ['Bill']
[('Bill', 8.98988849e+11) ('Warren', 9.89988850e+11)
 ('Elon', 9.89988848e+11)]


####A influência de *dtype* na organização da matriz:

In [None]:
#bloco é uma lista de hexadecimais
bloco=[0xABCDEF,0x012345]

#usaremos o mesmo bloco com dois dtypes diferentes:
mtipo=np.dtype('<i8')
m1=np.asarray(bloco,dtype='int16')
m2=np.asarray(bloco,dtype=mtipo)
#os resultados levam a duas matrizes diferentes
print("m1=",m1)
print("m2= ",m2)
print(m1==m2)

m1= [-12817   9029]
m2=  [11259375    74565]
[False False]


####Resultados das *typestrings*:
Agora que conhecemos um pouco mais de *numpy.dtype()* podemos conferir as *typestrings*:

In [None]:
#elementos das typestrings
codigo='biufcmMOSUV'
tam=['','1','2','4','7','8','16','32','64'] #7 está aí como tamanho qualquer
endian=["","<",">"]

print("Type strings válidas\n")
print("{:<9.7} {:<13.11} {:<11.10}".format("Typestr","dtype","bytes"))
for endi in endian:
   for cod in codigo:
      for tt in tam:
          tstring=endi+cod+tt         #forma a typestring
          try:                        #tenta construir o dtype
              mtipo=np.dtype(tstring)
          except TypeError:           #vamos apenas omitir as que não existem
              pass
          else:        
              print("{:<9.7} {:<13.11} {:<6.5}".format(tstring,str(np.dtype(mtipo)),str(mtipo.itemsize)))
   print("\n")           
       

Type strings válidas

Typestr   dtype         bytes      
b         int8          1     
b1        bool          1     
i         int32         4     
i1        int8          1     
i2        int16         2     
i4        int32         4     
i8        int64         8     
u1        uint8         1     
u2        uint16        2     
u4        uint32        4     
u8        uint64        8     
f         float32       4     
f2        float16       2     
f4        float32       4     
f8        float64       8     
f16       float128      16    
c         |S1           1     
c8        complex64     8     
c16       complex128    16    
c32       complex256    32    
m         timedelta64   8     
m8        timedelta64   8     
M         datetime64    8     
M8        datetime64    8     
O         object        8     
O4        object        8     
O8        object        8     
S         |S0           0     
S1        |S1           1     
S2        |S2           2     
S4        |S

#Indexação e particionamento de matrizes


##Fundamentos

###Semelhança com listas de Python
De início, a indexação e o particionamento de matrizes é muito semelhante ao das listas em Python:
- um índice é indicado por um número, em que '0' (zero) é sempre a primeira posição;
- múltiplos índices são indicados por sequências de números entre colchetes *- nome[0][3]...*;
- um particionamento é indicado por um intervalo separado por dois pontos - *x:y* - em que *x* é o primeiro elemento, inclusive, e *y* o último elemento, exclusive.

Vamos a alguns exemplos:

In [None]:
import numpy as np
print("Sejam a lista e matriz:")
lista=[[1,2,3],[2,4,6],[3,6,9]]
matriz=np.asarray(lista)
print('lista=',lista)
print('matriz=',matriz,end='\n\n')
print('Primeiro elemento:')
print('lista[0]=',lista[0])
print('matriz[0]=',matriz[0],end='\n\n')
print('Todos os elementos até o elemento 1:')
print('lista[:2]=',lista[:2])
print('matriz[:2]=',matriz[:2],end='\n\n')
print('Do elemento 1 até o final:')
print('lista[1:]=',lista[1:])
print('matriz[1:]=',matriz[1:],end='\n\n')

Sejam a lista e matriz:
lista= [[1, 2, 3], [2, 4, 6], [3, 6, 9]]
matriz= [[1 2 3]
 [2 4 6]
 [3 6 9]]

Primeiro elemento:
lista[0]= [1, 2, 3]
matriz[0]= [1 2 3]

Todos os elementos até o elemento 1:
lista[:2]= [[1, 2, 3], [2, 4, 6]]
matriz[:2]= [[1 2 3]
 [2 4 6]]

Do elemento 1 até o final:
lista[1:]= [[2, 4, 6], [3, 6, 9]]
matriz[1:]= [[2 4 6]
 [3 6 9]]



###Alternativa para indexar múltiplas dimensões
É comum termos diversas dimensões no trabalho com matrizes, por isso Numpy permite uma notação mais amigável para indexar matrizes de n dimensões, usando tuplas.

Considere M uma matriz de dimensões m x n x p, Numpy permite indicar qualquer elemento por M\[i, j, k\].

Veja o exemplo, com uma matriz 3x3:

In [None]:
lista=[[1,2,3],[2,4,6],[3,6,9]]
matriz=np.asarray(lista)

print('O segundo elemento da "linha" 1:')
print('lista[1][2]=',lista[1][2])
print('matriz[1][2]=',matriz[1][2],end='\n\n')
print('Forma alternativa exclusiva de matrizes:')
print('matriz[1,2]=',matriz[1,2])

O segundo elemento da "linha" 1:
lista[1][2]= 6
matriz[1][2]= 6

Forma alternativa exclusiva de matrizes:
matriz[1,2]= 6


##Cuidados no particionamento (*slicing*)
###Semelhança na forma
A forma de particionamento também é semelhante com a de listas em Python, com o acréscimo de particionamento na nova indexação M\[i,j,k\] implementada por Numpy.

In [None]:
lista=[[1,2,3],[2,4,6],[3,6,9]]
matriz=np.asarray(lista)
print(matriz)
parte=matriz[0:2]
print('matriz[0:2]',parte)
parte=matriz[2,:1]
print('matriz[2,:1]',parte)
parte=matriz[1:,:2]
print('matriz[1:,:2]',parte)
parte=matriz[:,:2]
print('matriz[:,:2]',parte)

[[1 2 3]
 [2 4 6]
 [3 6 9]]
matriz[0:2] [[1 2 3]
 [2 4 6]]
matriz[2,:1] [3]
matriz[1:,:2] [[2 4]
 [3 6]]
matriz[:,:2] [[1 2]
 [2 4]
 [3 6]]


###Diferença: não é feita cópia no particionamento

Muito importante assinalar que no particionamento de matrizes em Numpy **não é feita uma cópia da matriz original**, assim:
- mudanças na partição afetam a matriz original,
- a atribuição de um nome à partição não impede que atribuições à partição por meio desse nome afetem a matriz original,
- mudanças na matriz original afetam o valor contido no nome atribuído à partição.

Vamos a um exemplo:

In [None]:
lista=[[1,2,3],[2,4,6],[3,6,9]]
matriz=np.asarray(lista)
print('matriz=',matriz,end='\n\n')
parte=matriz[0:2]
print('Atribuímos um nome à parte:')
print('parte=matriz[0:2], logo \nparte=',parte,end='\n\n')
print('Mudamos a matriz original e isso afeta o conteúdo do nome:')
matriz[0:2]=0
print('matriz[0:2]=0, logo \nparte=',parte,end='\n\n')
print('Matriz original também foi afetada:')
print('matriz=',matriz,end='\n\n')
print('Mudamos o conteúdo da parte e isso afeta a matriz original:')
parte[0]=111
print('parte[0]=111, logo \nparte=',parte)
print('Consequência:')
print('matriz=',matriz)


matriz= [[1 2 3]
 [2 4 6]
 [3 6 9]]

Atribuímos um nome à parte:
parte=matriz[0:2], logo 
parte= [[1 2 3]
 [2 4 6]]

Mudamos a matriz original e isso afeta o conteúdo do nome:
matriz[0:2]=0, logo 
parte= [[0 0 0]
 [0 0 0]]

Matriz original também foi afetada:
matriz= [[0 0 0]
 [0 0 0]
 [3 6 9]]

Mudamos o conteúdo da parte e isso afeta a matriz original:
parte[0]=111, logo 
parte= [[111 111 111]
 [  0   0   0]]
Consequência:
matriz= [[111 111 111]
 [  0   0   0]
 [  3   6   9]]


###Fazer cópia explícita no particionamento
Quando se quer preservar a matriz original é necessário usar explicitamente o método *copy()* ao se criar a parte.

Veja o exemplo:

In [None]:
lista=[[1,2,3],[2,4,6],[3,6,9]]
matriz=np.asarray(lista)
print('matriz=',matriz,end='\n\n')
parte=matriz[0:2]
copiada=matriz[0:2].copy()
print('A parte não copiada e a parte copiada têm os mesmos valores:')
print('parte=matriz[0:2], logo \nparte=',parte)
print('copiada=matriz[0:2].copy(), logo \ncopiada=',copiada,end='\n\n')
print('Mudamos a matriz original:')
matriz[0:2]=0
print('matriz[0:2]=0',matriz[0:2],end='\n\n')
print('A parte não copiada sofre alteração:')
print('matriz[0:2]=0, o que resulta \nparte=',parte)
print('A parte copiada não muda:')
print('matriz[0:2]=0, o que resulta \ncopiada=',copiada,end='\n\n')
print('Mudamos o conteúdo da parte não copiada e isso afeta a matriz original:')
parte[0]=111
print('parte[0]=111, logo \nparte=',parte)
print('Consequência:')
print('matriz=',matriz,end='\n\n')

print('Mudamos o conteúdo da parte copiada e isso não afeta a matriz original:')
copiada[0]=333
print('copiada[0]=333 logo \ncopiada=',copiada)
print('Matriz original:')
print('matriz=',matriz)


matriz= [[1 2 3]
 [2 4 6]
 [3 6 9]]

A parte não copiada e a parte copiada têm os mesmos valores:
parte=matriz[0:2], logo 
parte= [[1 2 3]
 [2 4 6]]
copiada=matriz[0:2].copy(), logo 
copiada= [[1 2 3]
 [2 4 6]]

Mudamos a matriz original:
matriz[0:2]=0 [[0 0 0]
 [0 0 0]]

A parte não copiada sofre alteração:
matriz[0:2]=0, o que resulta 
parte= [[0 0 0]
 [0 0 0]]
A parte copiada não muda:
matriz[0:2]=0, o que resulta 
copiada= [[1 2 3]
 [2 4 6]]

Mudamos o conteúdo da parte não copiada e isso afeta a matriz original:
parte[0]=111, logo 
parte= [[111 111 111]
 [  0   0   0]]
Consequência:
matriz= [[111 111 111]
 [  0   0   0]
 [  3   6   9]]

Mudamos o conteúdo da parte copiada e isso não afeta a matriz original:
copiada[0]=333 logo 
copiada= [[333 333 333]
 [  2   4   6]]
Matriz original:
matriz= [[111 111 111]
 [  0   0   0]
 [  3   6   9]]


##*Broadcasting* de escalar
Nos exemplos acima, você pode observar que quando fazemos uma atribuição de um escalar para uma partição, ele se distribui por todos os elementos da partição.

Veremos adiante que o processo de broadcasting também pode acontecer entre matrizes, mas, por hora, vamos a um exemplo comparativo de atribuição em listas e  matrizes.

In [None]:
lista=[[1,2,3],[2,4,6],[3,6,9]]
matriz=np.asarray(lista)
print("Atribuindo '86' ao elemento 1 de matriz e lista")
matriz[1]=86
lista[1]=86
print('matriz= ',matriz)
print('lista= ',lista)


Atribuindo '86' ao elemento 1 de matriz e lista
matriz=  [[ 1  2  3]
 [86 86 86]
 [ 3  6  9]]
lista=  [[1, 2, 3], 86, [3, 6, 9]]


Em particular, se queremos o *broadcasting* de escalar para toda uma matriz usamos o particionamento *[ : ]*, por exemplo:

In [None]:
lista=[[1,2,3],[2,4,6],[3,6,9]]
matriz=np.asarray(lista)
print(matriz,end='\n\n')
matriz[:]=99
print(matriz)

[[1 2 3]
 [2 4 6]
 [3 6 9]]

[[99 99 99]
 [99 99 99]
 [99 99 99]]


**Cuidado:** como não há *declaração* de variáveis em Python, a atribuição de um valor numérico a um nome que vinha indicando um *ndarray* irá fazer esse nome ser associado a um tipo numérico, não sendo mais um *ndarray*

In [None]:
lista=[[1,2,3],[2,4,6],[3,6,9]]
matriz=np.asarray(lista)
matriz[:]=99
print("ndarray após broadcasting:")
print(matriz)
print("número inteiro após atribuição:")
matriz=99
print(matriz)

ndarray após broadcasting:
[[99 99 99]
 [99 99 99]
 [99 99 99]]
número inteiro após atribuição:
99


##Indexação por listas de inteiros *(fancy indexing)*

É possível usar um vetor de inteiros, em que cada inteiro indica uma *linha* da matriz original.

Nessa forma de indexação, é feita uma cópia para a nova matriz, portanto, mudanças na matriz original não afetam a parte criada e vice-versa.

In [None]:
lista=[[1,2,3],[2,4,6],[3,6,9],[4,8,16]]
matriz=np.asarray(lista)
print('Matriz original:')
print(matriz, end='\n\n')
parte=matriz[[1,3]]
print('parte=matriz[[1,3]]')
print(parte, end='\n\n')
print('Muda parte para parte[0]=86:')
parte[0]=86
print('parte=')
print(parte)
print('matriz original não muda:')
print(matriz,end='\n\n')
print('Muda matriz original para matriz[[1,3]]=99:')
matriz[[1,3]]=99
print('matriz original=')
print(matriz,end='\n\n')
print('parte não muda:')
print(parte,end='\n\n')

Matriz original:
[[ 1  2  3]
 [ 2  4  6]
 [ 3  6  9]
 [ 4  8 16]]

parte=matriz[[1,3]]
[[ 2  4  6]
 [ 4  8 16]]

Muda parte para parte[0]=86:
parte=
[[86 86 86]
 [ 4  8 16]]
matriz original não muda:
[[ 1  2  3]
 [ 2  4  6]
 [ 3  6  9]
 [ 4  8 16]]

Muda matriz original para matriz[[1,3]]=99:
matriz original=
[[ 1  2  3]
 [99 99 99]
 [ 3  6  9]
 [99 99 99]]

parte não muda:
[[86 86 86]
 [ 4  8 16]]



Também é possível usar índices negativos e colocar as linhas em qualquer ordem:

In [None]:
lista=[[1,2,3],[2,4,6],[3,6,9],[4,8,16]]
matriz=np.asarray(lista)
print('Matriz original:')
print(matriz, end='\n\n')
parte=matriz[[-1,-2]]
print('parte=matriz[[-1,-2]]')
print(parte, end='\n\n')
parte=matriz[[3,1,2]]
print('parte=matriz[[3,1,2]]')
print(parte, end='\n\n')
parte=matriz[[0,-1,2]]
print('parte=matriz[[0,-1,2]]')
print(parte, end='\n\n')

Matriz original:
[[ 1  2  3]
 [ 2  4  6]
 [ 3  6  9]
 [ 4  8 16]]

parte=matriz[[-1,-2]]
[[ 4  8 16]
 [ 3  6  9]]

parte=matriz[[3,1,2]]
[[ 4  8 16]
 [ 2  4  6]
 [ 3  6  9]]

parte=matriz[[0,-1,2]]
[[ 1  2  3]
 [ 4  8 16]
 [ 3  6  9]]



É possível usar mais de uma dimensão no array de índices e, nesse caso, ele passa a indicar pontos na matriz