# <font color=green> PYTHON PARA DATA SCIENCE - NUMPY
---

# <font color=green> 1. INTRODUÇÃO AO PYTHON
---

# 1.1 Introdução

> Python é uma linguagem de programação de alto nível com suporte a múltiplos paradigmas de programação. É um projeto *open source* e desde seu surgimento, em 1991, vem se tornando uma das linguagens de programação interpretadas mais populares. 
>
> Nos últimos anos Python desenvolveu uma comunidade ativa de processamento científico e análise de dados e vem se destacando como uma das linguagens mais relevantes quando o assunto é ciência de dados e machine learning, tanto no ambiente acadêmico como também no mercado.

# 1.2 Instalação e ambiente de desenvolvimento

### Instalação Local

### https://www.python.org/downloads/
### ou
### https://www.anaconda.com/distribution/

### Google Colaboratory

### https://colab.research.google.com

### Verificando versão

In [1]:
!python --version

Python 3.6.9

# 1.3 Trabalhando com arrays Numpy

In [1]:
import numpy as np

In [1]:
km = np.loadtxt('carros-km.txt')

In [1]:
anos = np.loadtxt('carros-anos.txt', dtype=int)

In [1]:
anos

### Obtendo a quilometragem média por ano

In [1]:
media = km / (2020 - anos)

In [1]:
media

# <font color=green> 2. CARACTERÍSTICAS BÁSICAS DA LINGUAGEM
---

# 2.1 Operações matemáticas

### Operadores aritméticos: $+$, $-$, $*$, $/$, $**$, $\%$, $//$

### Adição ($+$)

In [1]:
2+2

### Subtração ($-$)

In [1]:
3-2

### Multiplicação ($*$)

In [1]:
3*3

### Divisão ($/$) e ($//$)
A operação divisão sempre retorna um número de ponto flutuante

In [1]:
4/2

In [1]:
3//2

1

### Exponenciação ($**$)

In [1]:
2 ** 3

8

### Resto da divisão ($\%$)

In [1]:
10 % 3

1

In [1]:
10 % 2

0

### Expressões matemáticas

In [1]:
5 * 2 + 3 * 2

16

In [1]:
(5 * 2) + (3 * 2)

16

In [1]:
(5 * (2 + 3) * 2)

50

### A variável _

No modo interativo, o último resultado impresso é atribuído à variável _

In [1]:
_

50

In [1]:
_ + 3 * 2

56

In [1]:
_ / 2

28.0

# 2.2 Variáveis 

### Nomes de variáveis

- Nomes de variáveis pode começar com letras (a - z, A - Z) ou o caractere *underscore* (_):

    > Altura
    >
    > _peso
    
- O restante do nome pode conter letras, números e o caractere "_":

    > nome_da_variavel
    >
    > _valor
    >
    > dia_28_11_
    

- O nomes são *case sensitive*:

    > Nome_Da_Variável $\ne$ nome_da_variavel $\ne$ NOME_DA_VARIAVEL
    
### <font color=red>Observações:
- Existem algumas palavras reservadas da linguagem que não podem ser utilizadas como nomes de variável:

| |Lista de palavras <br>reservadas em Python| |
|:-------------:|:------------:|:-------------:|
| and           | as           | not           | 
| assert        | finally      | or            | 
| break         | for          | pass          | 
| class         | from         | nonlocal      | 
| continue      | global       | raise         | 
| def           | if           | return        | 
| del           | import       | try           | 
| elif          | in           | while         | 
| else          | is           | with          | 
| except        | lambda       | yield         | 
| False         | True         | None          | 

### Declaração de variáveis

### Operadores de atribuição: $=$, $+=$, $-=$, $*=$, $/=$, $**=$, $\%=$, $//=$

In [1]:
ano_atual = 2020
ano_fabricacao = 2003
km_total = 44410.0

In [1]:
ano_atual

2020

In [1]:
km = km_total / (ano_atual - ano_fabricacao)

In [1]:
km

2612.3529411764707

# $$km_{média} = \frac {km_{total}}{(Ano_{atual} - Ano_{fabricação})}$$

### Operações com variáveis

In [1]:
a = 10

In [1]:
b = 20

In [1]:
b += a

In [1]:
b

30

### Conclusão:
```
"valor = valor + 1" é equivalente a "valor += 1"
```

### Declaração múltipla

In [1]:
a, b, c = 10, 20.0, 'salatiel'

In [1]:
a

10

In [1]:
b

20.0

In [1]:
c

'salatiel'

In [1]:
a = 10
b = 2
a **= 2
a

100

# 2.3 Tipos de dados

Os tipos de dados especificam como números e caracteres serão armazenados e manipulados dentro de um programa. Os tipos de dados básicos do Python são:

1. **Números**
    1. ***int*** - Inteiros
    - ***float*** - Ponto flutuante
- **Booleanos** - Assume os valores True ou False. Essencial quando começarmos a trabalhar com declarações condicionais
- ***Strings*** - Sequência de um ou mais caracteres que pode incluir letras, números e outros tipos de caracteres. Representa um texto.
- **None** - Representa a ausência de valor

### Números

In [1]:
ano = 2020

In [1]:
type(ano)

int

In [1]:
n = 2.2

In [1]:
type(n)

float

### Booleanos

In [1]:
zero_km = True

In [1]:
type(zero_km)

bool

In [1]:
zero_km = False

In [1]:
type(zero_km)

bool

### Strings

In [1]:
nome = 'salatiel'

In [1]:
segundo = "salatiel"

In [1]:
nome = 'salatiel "costa" bairros'

In [1]:
nome

'salatiel "costa" bairros'

In [1]:
texto = '''
  teste
  salatiel
'''

In [1]:
texto

'\n  teste\n  salatiel\n'

### None

In [1]:
km = None

In [1]:
type(km)

NoneType

# 2.4 Conversão de tipos

### Conversões de tipo

Funções int(), float(), str()

# 2.5 Indentação, comentários e formatação de *strings*

### Indentação

Na linguagem Python os programas são estruturados por meio de indentação. Em qualquer linguagem de programação a prática da indentação é bastante útil, facilitando a leitura e também a manutenção do código. Em Python a indentação não é somente uma questão de organização e estilo, mas sim um requisito da linguagem.

In [1]:
ano_atual = 2019
ano_fabricacao = 2019

if (ano_atual == ano_fabricacao):
    print('Verdadeiro')
else:
    print('Falso')

Verdadeiro

### Comentários

Comentários são extremamente importantes em um programa. Consiste em um texto que descreve o que o programa ou uma parte específica do programa está fazendo. Os comentários são ignorados pelo interpretador Python. 

Podemos ter comentários de uma única linha ou de múltiplas linhas.

In [1]:
# Isto é um comentário
ano_atual = 2019
ano_atual

In [1]:
# Isto
# é um 
# comentário
ano_atual = 2019
ano_atual

In [1]:
'''Isto é um
comentário'''
ano_atual = 2019
ano_atual

2019

In [1]:
# Definindo variáveis
ano_atual = 2019
ano_fabricacao = 2019

'''
Estrutura condicional que vamos 
aprender na próxima aula
'''
if (ano_atual == ano_fabricacao):   # Testando se condição é verdadeira
    print('Verdadeiro')
else:                               # Testando se condição é falsa
    print('Falso')

### Formatação de *strings*

## *str % valor*
https://docs.python.org/3.6/library/stdtypes.html#old-string-formatting

In [1]:
print('%(language)s has %(number)03d quote types.' %
      {'language': "Python", "number": 2})

Python has 002 quote types.

## *str.format()*

https://docs.python.org/3.6/library/stdtypes.html#str.format

In [1]:
print('teste {} salatiel {}, idade {}'.format('aqui', 'bairros', 25))

teste aqui salatiel bairros, idade 25

## *f-Strings*

https://docs.python.org/3.6/reference/lexical_analysis.html#f-strings

In [1]:
aqui = 'aqui'
bairros = 'bairros'
idade = 25

# Interpolação
print(f'teste {aqui} salatiel {bairros}, idade {idade}')

teste aqui salatiel bairros, idade 25

# <font color=green> 3. TRABALHANDO COM LISTAS
---

# 3.1 Criando listas

Listas são sequências **mutáveis** que são utilizadas para armazenar coleções de itens, geralmente homogêneos. Podem ser construídas de várias formas:
```
- Utilizando um par de colchetes: [ ], [ 1 ]
- Utilizando um par de colchetes com itens separados por vírgulas: [ 1, 2, 3 ]
```

In [1]:
Acessorios = ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva']
Acessorios

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

### Lista com tipos de dados variados

In [1]:
Carro_1 = ['Jetta Variant', 'Motor 4.0 Turbo', 2003, 44410.0, False, ['Rodas de liga', 'Travas elétricas', 'Piloto automático'], 88078.64]
Carro_2 = ['Passat', 'Motor Diesel', 1991, 5712.0, False, ['Central multimídia', 'Teto panorâmico', 'Freios ABS'], 106161.94]

In [1]:
Carro_1

['Jetta Variant',
 'Motor 4.0 Turbo',
 2003,
 44410.0,
 False,
 ['Rodas de liga', 'Travas elétricas', 'Piloto automático'],
 88078.64]

In [1]:
type(Carro_1)

list

# 3.2 Operações com listas

https://docs.python.org/3.6/library/stdtypes.html#common-sequence-operations

## *x in A*

Retorna **True** se um elemento da lista *A* for igual a *x*.

In [1]:
Acessorios

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [1]:
# Equivalente ao contains
'Rodas de liga' in Acessorios

True

In [1]:
'Rodas de liga' not in Acessorios

False

## *A + B*

Concatena as listas *A* e *B*.

In [1]:
A = ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro']
B = ['Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva']

In [1]:
C = A + B

In [1]:
C

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

## *len(A)*

Tamanho da lista A.

In [1]:
len(Acessorios)

8

# 3.3 Seleções em listas

## *A[ i ]*

Retorna o i-ésimo item da lista *A*.

<font color=red>**Observação:**</font> Listas têm indexação com origem no zero.

In [1]:
itens = [1, 2, 3, 4, 5]

In [1]:
itens[0]

1

In [1]:
#último item
itens[-1] #contando de trás para frente

5

In [1]:
matriz = [[1, 2, 3], 4, 5, [7, 8]]

In [1]:
matriz[0][0]

1

## *A[ i : j ]*

Recorta a lista *A* do índice i até o j. Neste fatiamento o elemento com índice i é **incluído** e o elemento com índice j **não é incluído** no resultado.

In [1]:
itens[1:3]

[2, 3]

In [1]:
itens[2:]

[3, 4, 5]

In [1]:
itens[:3]

[1, 2, 3]

# 3.4 Métodos de listas

https://docs.python.org/3.6/library/stdtypes.html#mutable-sequence-types

## *A.sort()*

Ordena a lista *A*.

In [1]:
numeros = [3, 5, 7, 9, 1, 2, 6]
numeros.sort()
print(numeros)
numeros.sort(reverse=True)
print(numeros)

[1, 2, 3, 5, 6, 7, 9]
[9, 7, 6, 5, 3, 2, 1]

## *A.append(x)*

Adiciona o elemnto *x* no final da lista *A*.

In [1]:
numeros = [3, 5, 7, 9, 1, 2, 6]
numeros.append(34)
numeros.append(45)
numeros

[3, 5, 7, 9, 1, 2, 6, 34, 45]

## *A.pop(i)*

Remove e retorna o elemento de índice i da lista *A*.

<font color=red>**Observação:**</font> Por *default* o método *pop()* remove e retorna o último elemento de uma lista.

In [1]:
numeros = [3, 5, 7, 9, 1, 2, 6]

In [1]:
numeros.pop()
numeros

[3, 5, 7, 9, 1, 2]

In [1]:
#o pop retorna o item removido
numeros.pop(2)
numeros

[3, 5, 9, 1, 2]

## *A.copy()*

Cria uma cópia da lista *A*.

<font color=red>**Observação:**</font> O mesmo resultado pode ser obtido com o seguinte código: 
```
A[:]
```

In [1]:
primeira_lista = [1, 2, 3, 4, 5]
segunda_lista = primeira_lista
segunda_lista.pop()
primeira_lista
# Shallow copy, ou seja, manteve as referências. Ambas as listas apontam para o mesmo endereço na memória

[1, 2, 3, 4]

In [1]:
terceira_lista = primeira_lista.copy()
terceira_lista.pop()
primeira_lista
# Deep copy, cria nova referência

[1, 2, 3, 4]

In [1]:
quarta_lista = primeira_lista[:]
quarta_lista.pop()
primeira_lista

[1, 2, 3, 4]

In [1]:
quarta_lista

[1, 2, 3]

# <font color=green> 4. ESTRUTURAS DE REPETIÇÃO E CONDICIONAIS
---

# 4.1 Instrução *for*

#### Formato padrão

```
for <variável> in <coleção>:
    <instruções>
```

### Loops com listas

In [1]:
dados = [ 
    ['A', 'B', 'C'],
    ['D', 'E', 'F'],
    ['G', 'H', 'I']
]

result_2 = []
for lista in dados:
    result_2 += lista
result_2

['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I']

In [1]:
[item for lista in dados for item in lista]

['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I']

###  List comprehensions

https://docs.python.org/3.6/tutorial/datastructures.html#list-comprehensions

*range()* -> https://docs.python.org/3.6/library/functions.html#func-range

# 4.2 Loops aninhados

In [1]:
dados = [ 
    ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva'],
    ['Central multimídia', 'Teto panorâmico', 'Freios ABS', '4 X 4', 'Painel digital', 'Piloto automático', 'Bancos de couro', 'Câmera de estacionamento'],
    ['Piloto automático', 'Controle de estabilidade', 'Sensor crepuscular', 'Freios ABS', 'Câmbio automático', 'Bancos de couro', 'Central multimídia', 'Vidros elétricos']
]
dados

## *set()*

https://docs.python.org/3.6/library/stdtypes.html#types-set

https://docs.python.org/3.6/library/functions.html#func-set

### List comprehensions

# 4.3 Instrução *if*

#### Formato padrão

```
if <condição>:
     <instruções caso a condição seja verdadeira>
```

### Operadores de comparação: $==$, $!=$, $>$, $<$, $>=$, $<=$
### e
### Operadores lógicos: $and$, $or$, $not$

In [1]:
# 1º item da lista - Nome do veículo
# 2º item da lista - Ano de fabricação
# 3º item da lista - Veículo é zero km?

dados = [
    ['Jetta Variant', 2003, False],
    ['Passat', 1991, False],
    ['Crossfox', 1990, False],
    ['DS5', 2019, True],
    ['Aston Martin DB4', 2006, False],
    ['Palio Weekend', 2012, False],
    ['A5', 2019, True],
    ['Série 3 Cabrio', 2009, False],
    ['Dodge Jorney', 2019, False],
    ['Carens', 2011, False]
]
dados

### List comprehensions

# 4.4 Instruções *if-else* e *if-elif-else*

#### Formato padrão

```
if <condição>:
    <instruções caso a condição seja verdadeira>
else:
    <instruções caso a condição não seja verdadeira>
```

#### Formato padrão

```
if <condição 1>:
    <instruções caso a condição 1 seja verdadeira>
elif <condição 2>:
    <instruções caso a condição 2 seja verdadeira>
elif <condição 3>:
    <instruções caso a condição 3 seja verdadeira>
                        .
                        .
                        .
else:
    <instruções caso as condições anteriores não sejam verdadeiras>
```

In [1]:
print('AND')
print(f'(True and True) o resultado é: {True and True}')
print(f'(True and False) o resultado é: {True and False}')
print(f'(False and True) o resultado é: {False and True}')
print(f'(False and False) o resultado é: {False and False}')

In [1]:
print('OR')
print(f'(True or True) o resultado é: {True or True}')
print(f'(True or False) o resultado é: {True or False}')
print(f'(False or True) o resultado é: {False or True}')
print(f'(False or False) o resultado é: {False or False}')

# <font color=green> 5. NUMPY BÁSICO
---

Numpy é a abreviação de Numerical Python e é um dos pacotes mais importantes para processamento numérico em Python. Numpy oferece a base para a maioria dos pacotes de aplicações científicas que utilizem dados numéricos em Python (estruturas de dados e algoritmos). Pode-se destacar os seguintes recursos que o pacote Numpy contém:

- Um poderoso objeto array multidimensional;
- Funções matemáticas sofisticadas para operações com arrays sem a necessidade de utilização de laços *for*;
- Recursos de algebra linear e geração de números aleatórios

Além de seus óbvios usos científicos, o pacote NumPy também é muito utilizado em análise de dados como um eficiente contêiner multidimensional de dados genéricos para transporte entre diversos algoritmos e bibliotecas em Python.

**Versão:** 1.16.5

**Instalação:** https://scipy.org/install.html

**Documentação:** https://numpy.org/doc/1.16/

### Pacotes

Existem diversos pacotes Python disponíveis para download na internet. Cada pacote tem como objetivo a solução de determinado tipo de problema e para isso são desenvolvidos novos tipos, funções e métodos.

Alguns pacotes são bastante utilizados em um contexto de ciência de dados como por exemplo:

- Numpy
- Pandas
- Scikit-learn
- Matplotlib

Alguns pacotes não são distribuídos com a instalação default do Python. Neste caso devemos instalar os pacotes que necessitamos em nosso sistema para podermos utilizar suas funcionalidades.

### Importando todo o pacote

In [1]:
import numpy

https://numpy.org/doc/1.16/reference/generated/numpy.arange.html

In [1]:
numpy.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### Importando todo o pacote e atribuindo um novo nome 

In [1]:
import numpy as np
ret = np.arange(10)
ret[1]

1

### Importando parte do pacote

In [1]:
from numpy import arange
arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

# 5.1 Criando arrays Numpy

In [1]:
km = np.array([1, 2, 3, 4])
km

array([1, 2, 3, 4])

In [1]:
type(km)

numpy.ndarray

In [1]:
km.dtype

dtype('int64')

### A partir de listas

https://numpy.org/doc/1.16/user/basics.creation.html

https://numpy.org/doc/1.16/user/basics.types.html

### A partir de dados externos

https://numpy.org/doc/1.16/reference/generated/numpy.loadtxt.html

In [1]:
km = np.loadtxt(fname='carros-km.txt', dtype=int)

In [1]:
km

array([ 44410,   5712,  37123,      0,  25757,  10728,      0,  77599,
        99197,  37978,  12859,   8052,  89773,      0,  41457, 115607,
        46449,      0,  37086,  15173, 101193,      0,  98079, 102959,
            0,      0,   5795,      0,  58848,  94381,  30163,  53332,
        17720,  33808,  90684,  43975,      0,      0,   5526,      0,
        93415,  40762,      0,  86302,      0,   9755,  69945,   2395,
            0,  80349,  85554,  50496,  67716,  93947,  35345,  81007,
       119513,      0,      0,      0,      0,      0, 118895,  48509,
       100912,  95649,      0,  90495,      0,  29132,  23802,  84992,
        54395,  26731,  44329, 118236, 113808,    610,      0,      0,
        12887,  79607,  90924,  42733,      0,      0, 117714, 113885,
            0,  30511,  74867, 119760,   8356,  64247,  88661,   4539,
       110116,  33215,  92001,      0,  81708,  70641,      0,  91277,
        26544,  52596,  47503,  89056,  28834, 110564,  56638,  17357,
      

### Arrays com duas dimensões

In [1]:
# Arrays tem desempenho melhor que listas

dados = [ 
    ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva'],
    ['Central multimídia', 'Teto panorâmico', 'Freios ABS', '4 X 4', 'Painel digital', 'Piloto automático', 'Bancos de couro', 'Câmera de estacionamento'],
    ['Piloto automático', 'Controle de estabilidade', 'Sensor crepuscular', 'Freios ABS', 'Câmbio automático', 'Bancos de couro', 'Central multimídia', 'Vidros elétricos']
]
dados

[['Rodas de liga',
  'Travas elétricas',
  'Piloto automático',
  'Bancos de couro',
  'Ar condicionado',
  'Sensor de estacionamento',
  'Sensor crepuscular',
  'Sensor de chuva'],
 ['Central multimídia',
  'Teto panorâmico',
  'Freios ABS',
  '4 X 4',
  'Painel digital',
  'Piloto automático',
  'Bancos de couro',
  'Câmera de estacionamento'],
 ['Piloto automático',
  'Controle de estabilidade',
  'Sensor crepuscular',
  'Freios ABS',
  'Câmbio automático',
  'Bancos de couro',
  'Central multimídia',
  'Vidros elétricos']]

In [1]:
Acessorios = np.array(dados)
Acessorios

array([['Rodas de liga', 'Travas elétricas', 'Piloto automático',
        'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento',
        'Sensor crepuscular', 'Sensor de chuva'],
       ['Central multimídia', 'Teto panorâmico', 'Freios ABS', '4 X 4',
        'Painel digital', 'Piloto automático', 'Bancos de couro',
        'Câmera de estacionamento'],
       ['Piloto automático', 'Controle de estabilidade',
        'Sensor crepuscular', 'Freios ABS', 'Câmbio automático',
        'Bancos de couro', 'Central multimídia', 'Vidros elétricos']],
      dtype='<U24')

In [1]:
km.shape

(258,)

In [1]:
Acessorios.shape

(3, 8)

### Comparando desempenho com listas

In [1]:
np_array = np.arange(1000000)
py_list = list(range(1000000))

In [1]:
#testa o tempo da execução. Funciona geral ou apenas no cola?
%time for _ in range(100): np_array *= 2

CPU times: user 55.5 ms, sys: 1.11 ms, total: 56.6 ms
Wall time: 58.8 ms

In [1]:
%time for _ in range(100): py_list = [x * 2 for x in py_list]

CPU times: user 7.7 s, sys: 1.76 s, total: 9.45 s
Wall time: 9.46 s

In [1]:
multiplos_tipos = np.array([1, 2, 'teste'])
multiplos_tipos

array(['1', '2', 'teste'], dtype='<U21')

In [1]:
type(multiplos_tipos[0])

numpy.str_

In [1]:
type(multiplos_tipos[2])

numpy.str_

# 5.2 Operações aritméticas com arrays Numpy

### Operações entre arrays e constantes

In [1]:
km = [44410., 5712., 37123., 0., 25757.]
anos = [2003, 1991, 1990, 2019, 2006]

In [1]:
km = np.array([44410., 5712., 37123., 0., 25757.])
anos = np.array([2003, 1991, 1990, 2019, 2006])

In [1]:
ano_atual = 2020
media = km / (ano_atual - anos)
media

array([2612.35294118,  196.96551724, 1237.43333333,    0.        ,
       1839.78571429])

In [1]:
44410 / (2020 - 2003)

2612.3529411764707

### Operações entre arrays

In [1]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

In [1]:
a * b

array([ 4, 10, 18])

In [1]:
a + b

array([5, 7, 9])

### Operações com arrays de duas dimensões

In [1]:
dados = np.array([km, anos])
dados

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

In [1]:
dados.shape

(2, 5)

In [1]:
dados[0]

array([44410.,  5712., 37123.,     0., 25757.])

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

In [1]:
km_media = dados[0] / (ano_atual - dados[1])
km_media

array([2612.35294118,  196.96551724, 1237.43333333,    0.        ,
       1839.78571429])

# 5.3 Seleções com arrays Numpy

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

![1410-img02.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img02.png)

### Indexação 

<font color=red>**Observação:**</font> A indexação tem origem no zero.

## <font color=green>**Dica:**</font>
### *ndarray[ linha ][ coluna ]* ou *ndarray[ linha, coluna ]*

 ### Fatiamentos
 
A sintaxe para realizar fatiamento em um array Numpy é $i : j : k$ onde $i$ é o índice inicial, $j$ é o índice de parada, e $k$ é o indicador de passo ($k\neq0$)
 
<font color=red>**Observação:**</font> Nos fatiamentos (*slices*) o item com índice i é **incluído** e o item com índice j **não é incluído** no resultado.

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

### Indexação com array booleano

<font color=red>**Observação:**</font> Seleciona um grupo de linhas e colunas segundo os rótulos ou um array booleano.

# 5.4 Atributos e métodos de arrays Numpy

### Atributos

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#array-attributes

In [1]:
npArray = np.arange(1000000)

In [1]:
npArray.flags

  C_CONTIGUOUS : True
  F_CONTIGUOUS : True
  OWNDATA : True
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False
  UPDATEIFCOPY : False

In [1]:
(npArray.nbytes / 1024) / 1024

7.62939453125

## *ndarray.shape*

Retorna uma tupla com as dimensões do array.

## *ndarray.ndim*

Retorna o número de dimensões do array.

## *ndarray.size*

Retorna o número de elementos do array.

## *ndarray.dtype*

Retorna o tipo de dados dos elementos do array.

## *ndarray.T*

Retorna o array transposto, isto é, converte linhas em colunas e vice versa.

### Métodos

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#array-methods

## *ndarray.tolist()*

Retorna o array como uma lista Python.

## *ndarray.reshape(shape[, order])*

Retorna um array que contém os mesmos dados com uma nova forma.

In [1]:
km = [44410, 5712, 37123, 0, 25757]
anos = [2003, 1991, 1990, 2019, 2006]

## *ndarray.resize(new_shape[, refcheck])*

Altera a forma e o tamanho do array.

# 5.5 Estatísticas com arrays Numpy

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#calculation

e

https://numpy.org/doc/1.16/reference/routines.statistics.html

e

https://numpy.org/doc/1.16/reference/routines.math.html

In [1]:
anos = np.loadtxt(fname = "carros-anos.txt", dtype = int)
km = np.loadtxt(fname = "carros-km.txt")
valor = np.loadtxt(fname = "carros-valor.txt")

In [1]:
dataset = np.column_stack((anos, km, valor))
dataset

array([[2.0030000e+03, 4.4410000e+04, 8.8078640e+04],
       [1.9910000e+03, 5.7120000e+03, 1.0616194e+05],
       [1.9900000e+03, 3.7123000e+04, 7.2832160e+04],
       [2.0190000e+03, 0.0000000e+00, 1.2454907e+05],
       [2.0060000e+03, 2.5757000e+04, 9.2612100e+04],
       [2.0120000e+03, 1.0728000e+04, 9.7497730e+04],
       [2.0190000e+03, 0.0000000e+00, 5.6445200e+04],
       [2.0090000e+03, 7.7599000e+04, 1.1231044e+05],
       [2.0100000e+03, 9.9197000e+04, 1.2071627e+05],
       [2.0110000e+03, 3.7978000e+04, 7.6566490e+04],
       [2.0020000e+03, 1.2859000e+04, 7.1647590e+04],
       [2.0070000e+03, 8.0520000e+03, 7.3919530e+04],
       [2.0010000e+03, 8.9773000e+04, 1.1273299e+05],
       [2.0190000e+03, 0.0000000e+00, 5.3183380e+04],
       [2.0090000e+03, 4.1457000e+04, 1.2748842e+05],
       [2.0160000e+03, 1.1560700e+05, 5.9910400e+04],
       [2.0120000e+03, 4.6449000e+04, 6.1118590e+04],
       [2.0190000e+03, 0.0000000e+00, 8.8552390e+04],
       [2.0160000e+03, 3.708

https://numpy.org/doc/1.16/reference/generated/numpy.column_stack.html

In [1]:
dataset[0][0]

2003.0

## *np.mean()*

Retorna a média dos elementos do array ao longo do eixo especificado.

In [1]:
np.mean(dataset[:, 1])

44499.41472868217

In [1]:
dataset[0].mean()

44830.54666666667

## *np.std()*

Retorna o desvio padrão dos elementos do array ao longo do eixo especificado.

In [1]:
# desvio padrão do valor dos veículos
np.std(dataset[:, 2])

29754.101150388564

## *ndarray.sum()*

Retorna a soma dos elementos do array ao longo do eixo especificado.

## *np.sum()*

Retorna a soma dos elementos do array ao longo do eixo especificado.