# <font color=green> PYTHON PARA DATA SCIENCE - NUMPY
---

# <font color=green> 1. INTRODUÇÃO AO PYTHON
---

# 1.1 Introdução

> Python é uma linguagem de programação de alto nível com suporte a múltiplos paradigmas de programação. É um projeto *open source* e desde seu surgimento, em 1991, vem se tornando uma das linguagens de programação interpretadas mais populares. 
>
> Nos últimos anos Python desenvolveu uma comunidade ativa de processamento científico e análise de dados e vem se destacando como uma das linguagens mais relevantes quando o assunto é ciência de dados e machine learning, tanto no ambiente acadêmico como também no mercado.

# 1.2 Instalação e ambiente de desenvolvimento

### Instalação Local

### https://www.python.org/downloads/
### ou
### https://www.anaconda.com/distribution/

### Google Colaboratory

### https://colab.research.google.com

### Verificando versão

In [299]:
!python -V

Python 3.7.14


# 1.3 Trabalhando com arrays Numpy

In [300]:
import numpy as np

In [301]:
km = np.loadtxt('carros-km.txt')

In [302]:
anos = np.loadtxt('carros-anos.txt', dtype = int) #CMD dtype, define o tipo do dado, nesse caso inteiro

### Obtendo a quilometragem média por ano

In [303]:
km_media = km / (2022 - anos) #caso seja divido por 0, o codigo ira avisar e deixara os campos com a palavra NAN

In [304]:
type(km_media)

numpy.ndarray

# <font color=green> 2. CARACTERÍSTICAS BÁSICAS DA LINGUAGEM
---

# 2.1 Operações matemáticas

### Operadores aritméticos: $+$, $-$, $*$, $/$, $**$, $\%$, $//$

### Adição ($+$)

In [305]:
2+2

4

### Subtração ($-$)

In [306]:
5-3

2

### Multiplicação ($*$)

In [307]:
2*5

10

### Divisão ($/$) e ($//$)
A operação divisão sempre retorna um número de ponto flutuante

In [308]:
10/3

3.3333333333333335

In [309]:
10 // 3

3

### Exponenciação ($**$)

In [310]:
2**3

8

### Resto da divisão ($\%$)

In [311]:
10 % 3

1

In [312]:
10 % 2

0

### Expressões matemáticas

In [313]:
5 * 2 + 3 * 2

16

In [314]:
5 + 2 * (2 - 1) ** 2

7

### A variável _

No modo interativo, o último resultado impresso é atribuído à variável _

In [315]:
5 * 2

10

In [316]:
_ + 3 * 2

105

In [317]:
_ / 2

49.5

# 2.2 Variáveis 

### Nomes de variáveis

- Nomes de variáveis pode começar com letras (a - z, A - Z) ou o caractere *underscore* (_):

    > Altura
    >
    > _peso
    
- O restante do nome pode conter letras, números e o caractere "_":

    > nome_da_variavel
    >
    > _valor
    >
    > dia_28_11_
    

- O nomes são *case sensitive*:

    > Nome_Da_Variável $\ne$ nome_da_variavel $\ne$ NOME_DA_VARIAVEL
    
### <font color=red>Observações:
- Existem algumas palavras reservadas da linguagem que não podem ser utilizadas como nomes de variável:

| |Lista de palavras <br>reservadas em Python| |
|:-------------:|:------------:|:-------------:|
| and           | as           | not           | 
| assert        | finally      | or            | 
| break         | for          | pass          | 
| class         | from         | nonlocal      | 
| continue      | global       | raise         | 
| def           | if           | return        | 
| del           | import       | try           | 
| elif          | in           | while         | 
| else          | is           | with          | 
| except        | lambda       | yield         | 
| False         | True         | None          | 

### Declaração de variáveis

### Operadores de atribuição: $=$, $+=$, $-=$, $*=$, $/=$, $**=$, $\%=$, $//=$

In [318]:
ano_atual = 2019
ano_fabricacao = 2003
km_total = 44410.0

In [319]:
ano_atual

2019

In [320]:
ano_fabricacao

2003

In [321]:
km_total

44410.0

# $$km_{média} = \frac {km_{total}}{(Ano_{atual} - Ano_{fabricação})}$$

### Operações com variáveis

In [322]:
km_media

array([2.33736842e+03, 1.84258065e+02, 1.16009375e+03, 0.00000000e+00,
       1.60981250e+03, 1.07280000e+03, 0.00000000e+00, 5.96915385e+03,
       8.26641667e+03, 3.45254545e+03, 6.42950000e+02, 5.36800000e+02,
       4.27490476e+03, 0.00000000e+00, 3.18900000e+03, 1.92678333e+04,
       4.64490000e+03, 0.00000000e+00, 6.18100000e+03, 3.03460000e+03,
       5.05965000e+03, 0.00000000e+00, 3.50282143e+03, 3.32125806e+03,
       0.00000000e+00, 0.00000000e+00, 9.65833333e+02, 0.00000000e+00,
       2.94240000e+03, 3.04454839e+03, 1.20652000e+03, 1.97525926e+03,
       4.43000000e+03, 1.09058065e+03, 1.13355000e+04, 1.62870370e+03,
       0.00000000e+00, 0.00000000e+00, 4.25076923e+02, 0.00000000e+00,
       1.03794444e+04, 2.14536842e+03, 0.00000000e+00, 4.31510000e+03,
       0.00000000e+00, 4.87750000e+02, 3.88583333e+03, 1.14047619e+02,
       0.00000000e+00, 4.22889474e+03, 6.58107692e+03, 3.15600000e+03,
       3.07800000e+03, 5.87168750e+03, 2.94541667e+03, 2.89310714e+03,
      

In [323]:
ano_atual = 2019
ano_fabricacao = 2003
km_total = 44410.0
km_media = km_total / (ano_atual - ano_fabricacao)

km_total = km_total + km_media
km_total

47185.625

In [324]:
ano_atual = 2019
ano_fabricacao = 2003
km_total = 44410.0
km_media = km_total / (ano_atual - ano_fabricacao)

km_total += km_media
km_total

47185.625

### Conclusão:
```
"valor = valor + 1" é equivalente a "valor += 1"
```

### Declaração múltipla

In [325]:
ano_atual, ano_fabricacao, km_total = 2019, 2003, 44410.0

In [326]:
ano_atual, ano_fabricacao, km_total = 2019, 2003, 44410.0
km_total += km_media
km_total

47185.625

# 2.3 Tipos de dados

Os tipos de dados especificam como números e caracteres serão armazenados e manipulados dentro de um programa. Os tipos de dados básicos do Python são:

1. **Números**
    1. ***int*** - Inteiros
    - ***float*** - Ponto flutuante
- **Booleanos** - Assume os valores True ou False. Essencial quando começarmos a trabalhar com declarações condicionais
- ***Strings*** - Sequência de um ou mais caracteres que pode incluir letras, números e outros tipos de caracteres. Representa um texto.
- **None** - Representa a ausência de valor

### Números

In [327]:
ano_atual

2019

In [328]:
type(ano_atual)

int

In [329]:
km_total

47185.625

In [330]:
type(km_total)

float

### Booleanos

In [331]:
zero_km = True

In [332]:
type(zero_km)

bool

In [333]:
zero_km = False

In [334]:
type(zero_km)

bool

### Strings

In [335]:
nome = 'Jetta Variant'
nome

'Jetta Variant'

In [336]:
nome = "Jetta Variant"
nome

'Jetta Variant'

In [337]:
nome = 'Jetta "Variant"'
nome

'Jetta "Variant"'

In [338]:
nome = "Jetta 'Variant'"
nome

"Jetta 'Variant'"

In [339]:
carro = '''
    nome
    idade
    nota
'''
carro

'\n    nome\n    idade\n    nota\n'

In [340]:
type(carro)

str

### None

In [341]:
quilometragem = None
quilometragem

In [342]:
type(quilometragem)

NoneType

# 2.4 Conversão de tipos

In [343]:
a, b, c, d = 10, 20, 'Python é', 'legal'

In [344]:
type(a)

int

In [345]:
type(b)

int

In [346]:
type(c)

str

In [347]:
type(d)

str

In [348]:
a + b

30

In [349]:
c + d #nesse caso irá concatenar

'Python élegal'

In [350]:
#não é possivel somar tipos diferentes
# c + a

### Conversões de tipo

Funções int(), float(), str()

In [351]:
str(a)

'10'

In [352]:
type(str(a))

str

In [353]:
c + str(a)

'Python é10'

In [354]:
float(a)

10.0

In [355]:
var = 3.141592

In [356]:
int(var) #nao vai arredondar, vai somente pegar a parte inteira

3

# 2.5 Indentação, comentários e formatação de *strings*

### Indentação

Na linguagem Python os programas são estruturados por meio de indentação. Em qualquer linguagem de programação a prática da indentação é bastante útil, facilitando a leitura e também a manutenção do código. Em Python a indentação não é somente uma questão de organização e estilo, mas sim um requisito da linguagem.

In [357]:
ano_atual = 2019
ano_fabricacao = 2019

if (ano_atual == ano_fabricacao):
    print('Verdadeiro')
else:
    print('Falso')

Verdadeiro


### Comentários

Comentários são extremamente importantes em um programa. Consiste em um texto que descreve o que o programa ou uma parte específica do programa está fazendo. Os comentários são ignorados pelo interpretador Python. 

Podemos ter comentários de uma única linha ou de múltiplas linhas.

In [358]:
# Isto é um comentário
ano_atual = 2019
ano_atual

2019

In [359]:
# Isto
# é um 
# comentário
ano_atual = 2019
ano_atual

2019

In [360]:
'''Isto é um
comentário'''
ano_atual = 2019
ano_atual

2019

In [361]:
# Definindo variáveis
ano_atual = 2019
ano_fabricacao = 2019

'''
Estrutura condicional que vamos 
aprender na próxima aula
'''
if (ano_atual == ano_fabricacao):   # Testando se condição é verdadeira
    print('Verdadeiro')
else:                               # Testando se condição é falsa
    print('Falso')

Verdadeiro


### Formatação de *strings*

## *str % valor*
https://docs.python.org/3.6/library/stdtypes.html#old-string-formatting

## *str.format()*

https://docs.python.org/3.6/library/stdtypes.html#str.format

In [362]:
print(f'ola mundo {ano_atual}!')

ola mundo 2019!


## *f-Strings*

https://docs.python.org/3.6/reference/lexical_analysis.html#f-strings

In [363]:
nome = 'Gustavo'
Acesso = 32

In [364]:
print(f'Ola {nome}! Este é seu acesso {Acesso}')

Ola Gustavo! Este é seu acesso 32


# <font color=green> 3. TRABALHANDO COM LISTAS
---

# 3.1 Criando listas

Listas são sequências **mutáveis** que são utilizadas para armazenar coleções de itens, geralmente homogêneos. Podem ser construídas de várias formas:
```
- Utilizando um par de colchetes: [ ], [ 1 ]
- Utilizando um par de colchetes com itens separados por vírgulas: [ 1, 2, 3 ]
```

In [365]:
Acessorios = ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva']
Acessorios

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [366]:
type(Acessorios)

list

### Lista com tipos de dados variados

In [367]:
Carro_1 = ['Jetta Variant', 'Motor 4.0 Turbo', 2003, 44410.0, False, ['Rodas de liga', 'Travas elétricas', 'Piloto automático'], 88078.64] #linha com uma lista detro da outra
Carro_2 = ['Passat', 'Motor Diesel', 1991, 5712.0, False, ['Central multimídia', 'Teto panorâmico', 'Freios ABS'], 106161.94]

In [368]:
Carro_1

['Jetta Variant',
 'Motor 4.0 Turbo',
 2003,
 44410.0,
 False,
 ['Rodas de liga', 'Travas elétricas', 'Piloto automático'],
 88078.64]

In [369]:
Carros = (Carro_1, Carro_2)
Carros

(['Jetta Variant',
  'Motor 4.0 Turbo',
  2003,
  44410.0,
  False,
  ['Rodas de liga', 'Travas elétricas', 'Piloto automático'],
  88078.64],
 ['Passat',
  'Motor Diesel',
  1991,
  5712.0,
  False,
  ['Central multimídia', 'Teto panorâmico', 'Freios ABS'],
  106161.94])

# 3.2 Operações com listas

https://docs.python.org/3.6/library/stdtypes.html#common-sequence-operations

## *x in A*

Retorna **True** se um elemento da lista *A* for igual a *x*.

In [370]:
#como identificar se um item esta dentro de uma lista
Acessorios

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [371]:
'Rodas de liga' in Acessorios #perguntando se as rodas de liga tem dentro da lista acessorios

True

In [372]:
'Teto solar' in Acessorios

False

In [373]:
'Rodas de liga' not in Acessorios #perguntando se nao esta dentro

False

In [374]:
'Teto solar' not in Acessorios

True

## *A + B*

Concatena as listas *A* e *B*.

In [375]:
A = ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro']
B = ['Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva']

In [376]:
#soma faz a concatenaçao das listas
A

['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro']

In [377]:
B

['Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [378]:
c = A + B

## *len(A)*

Tamanho da lista A.

In [379]:
len(c) #quantidade de itens na variavel selecionada

8

# 3.3 Seleções em listas

## *A[ i ]*

Retorna o i-ésimo item da lista *A*.

<font color=red>**Observação:**</font> Listas têm indexação com origem no zero.

In [380]:
Acessorios

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [381]:
#O inicio da lista é o numero 0
Acessorios[0]

'Rodas de liga'

In [382]:
Acessorios[4]

'Ar condicionado'

In [383]:
Acessorios[-1] #ultimo da lista

'Sensor de chuva'

In [384]:
Acessorios[-4] #quarto de baixo para cima

'Ar condicionado'

In [385]:
Carros

(['Jetta Variant',
  'Motor 4.0 Turbo',
  2003,
  44410.0,
  False,
  ['Rodas de liga', 'Travas elétricas', 'Piloto automático'],
  88078.64],
 ['Passat',
  'Motor Diesel',
  1991,
  5712.0,
  False,
  ['Central multimídia', 'Teto panorâmico', 'Freios ABS'],
  106161.94])

In [386]:
Carros [0][1] #Na variavevel Carros eu quero acessar o primeiro item da lista, depois dentro da lista selecionada, busco outra linha da lista

'Motor 4.0 Turbo'

In [387]:
Carros [0][-2][1] #vou buscar travas eletricas do jetta

'Travas elétricas'

## *A[ i : j ]*

Recorta a lista *A* do índice i até o j. Neste fatiamento o elemento com índice i é **incluído** e o elemento com índice j **não é incluído** no resultado.

In [388]:
#partes de listas (fatiamento)
Acessorios

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [389]:
Acessorios[2:5] #neste caso ele selecionara o inicio 2 e vai até item 4 da lista, ignorando o 5

['Piloto automático', 'Bancos de couro', 'Ar condicionado']

In [390]:
Acessorios[2:] #quero do numero inicial até o fim

['Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [391]:
Acessorios [:5] #vai do inicio até o item selecionado

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado']

# 3.4 Métodos de listas

https://docs.python.org/3.6/library/stdtypes.html#mutable-sequence-types

## *A.sort()*

Ordena a lista *A*.

In [392]:
Acessorios

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [393]:
Acessorios.sort() #ordena, nesse caso alfabeticamente
Acessorios

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Rodas de liga',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas']

## *A.append(x)*

Adiciona o elemnto *x* no final da lista *A*.

In [394]:
Acessorios.append('4 x 4')
Acessorios

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Rodas de liga',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas',
 '4 x 4']

## *A.pop(i)*

Remove e retorna o elemento de índice i da lista *A*.

<font color=red>**Observação:**</font> Por *default* o método *pop()* remove e retorna o último elemento de uma lista.

In [395]:
Acessorios.pop() #neste caso exclui o ultimo da lista e retorna o que foi removido

'4 x 4'

In [396]:
Acessorios.pop(3) #remove o item 3 da lista

'Rodas de liga'

In [397]:
Acessorios

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas']

## *A.copy()*

Cria uma cópia da lista *A*.

<font color=red>**Observação:**</font> O mesmo resultado pode ser obtido com o seguinte código: 
```
A[:]
```

In [398]:
#tenho a opçao de criar uma nova variavel para copiar
acessorios_2 = Acessorios 
#porem se a variavel inicial mudar a segunda variavel tbm vai alterar
acessorios_2

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas']

In [399]:
Acessorios.pop()

'Travas elétricas'

In [400]:
acessorios_2

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento']

In [401]:
#para copiar uma variavel e ela se tornar independente
acessorios_3 = Acessorios.copy()
#posso mexer livremente em ambas as variaveis, que nehuma delas ira alterar a outra

In [402]:
#outra maneira de copiar igual ao de cima
acessorios_2 = Acessorios[:]

In [403]:
Acessorios.append('Travas Elétricas : 4 x 4')

In [404]:
Acessorios.pop()

'Travas Elétricas : 4 x 4'

In [405]:
Acessorios.append('4 x 4')

In [406]:
Acessorios

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 '4 x 4']

In [407]:
acessorios_3

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento']

# <font color=green> 4. ESTRUTURAS DE REPETIÇÃO E CONDICIONAIS
---

# 4.1 Instrução *for*

#### Formato padrão

```
for <variável> in <coleção>:
    <instruções>
```

### Loops com listas

In [408]:
Acessorios

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 '4 x 4']

In [409]:
for cogumelo in Acessorios:
  print(cogumelo)

Ar condicionado
Bancos de couro
Piloto automático
Sensor crepuscular
Sensor de chuva
Sensor de estacionamento
4 x 4


###  List comprehensions

https://docs.python.org/3.6/tutorial/datastructures.html#list-comprehensions

*range()* -> https://docs.python.org/3.6/library/functions.html#func-range

In [410]:
range(10) #como gerar uma lista com 10 itens

range(0, 10)

In [411]:
list(range(10)) #listando a range criada

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [412]:
for i in range(10):
  print(i ** 2)       #esta fazendo uma varredura na variavel range e esta elevando cada item da lista

0
1
4
9
16
25
36
49
64
81


In [413]:
quadrado = [] #criou uma lista vazia chamada quadrado
for i in range(10):
  quadrado.append(i ** 2)

print(quadrado)  #aqui ja nao esta mais dentro do FOR

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]


In [414]:
[i ** 2 for i in range(10)] #outra maneira de fazer o comando acima 

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

In [415]:
 dadis = [ 
    ['A', 'B', 'C'],
    ['D', 'E', 'F'],
    ['G', 'H', 'I']
] 

In [416]:
result = []
for lista in dadis:
    for item in lista:
        result.append(item)
result

['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I']

In [417]:
result_2 = []
for lista in dadis:
    result_2 += lista
result_2

['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I']

In [418]:
[item for lista in dadis for item in lista]

['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I']

# 4.2 Loops aninhados

In [419]:
dados = [ 
    ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva'],
    ['Central multimídia', 'Teto panorâmico', 'Freios ABS', '4 X 4', 'Painel digital', 'Piloto automático', 'Bancos de couro', 'Câmera de estacionamento'],
    ['Piloto automático', 'Controle de estabilidade', 'Sensor crepuscular', 'Freios ABS', 'Câmbio automático', 'Bancos de couro', 'Central multimídia', 'Vidros elétricos']
]
dados

[['Rodas de liga',
  'Travas elétricas',
  'Piloto automático',
  'Bancos de couro',
  'Ar condicionado',
  'Sensor de estacionamento',
  'Sensor crepuscular',
  'Sensor de chuva'],
 ['Central multimídia',
  'Teto panorâmico',
  'Freios ABS',
  '4 X 4',
  'Painel digital',
  'Piloto automático',
  'Bancos de couro',
  'Câmera de estacionamento'],
 ['Piloto automático',
  'Controle de estabilidade',
  'Sensor crepuscular',
  'Freios ABS',
  'Câmbio automático',
  'Bancos de couro',
  'Central multimídia',
  'Vidros elétricos']]

In [420]:
for lista in dados:
  print(lista)

['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva']
['Central multimídia', 'Teto panorâmico', 'Freios ABS', '4 X 4', 'Painel digital', 'Piloto automático', 'Bancos de couro', 'Câmera de estacionamento']
['Piloto automático', 'Controle de estabilidade', 'Sensor crepuscular', 'Freios ABS', 'Câmbio automático', 'Bancos de couro', 'Central multimídia', 'Vidros elétricos']


In [421]:
for lista in dados:
  for item in lista:
    print(item)

Rodas de liga
Travas elétricas
Piloto automático
Bancos de couro
Ar condicionado
Sensor de estacionamento
Sensor crepuscular
Sensor de chuva
Central multimídia
Teto panorâmico
Freios ABS
4 X 4
Painel digital
Piloto automático
Bancos de couro
Câmera de estacionamento
Piloto automático
Controle de estabilidade
Sensor crepuscular
Freios ABS
Câmbio automático
Bancos de couro
Central multimídia
Vidros elétricos


In [422]:
#criar a variavel, acessar item dentro de lista que esta dentro de dados
Acessorios = []

for lista in dados:
  for item in lista:
    Acessorios.append(item) #adiciona um item ITEM na lista

Acessorios.sort()
Acessorios

['4 X 4',
 'Ar condicionado',
 'Bancos de couro',
 'Bancos de couro',
 'Bancos de couro',
 'Central multimídia',
 'Central multimídia',
 'Controle de estabilidade',
 'Câmbio automático',
 'Câmera de estacionamento',
 'Freios ABS',
 'Freios ABS',
 'Painel digital',
 'Piloto automático',
 'Piloto automático',
 'Piloto automático',
 'Rodas de liga',
 'Sensor crepuscular',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Teto panorâmico',
 'Travas elétricas',
 'Vidros elétricos']

## *set()*

https://docs.python.org/3.6/library/stdtypes.html#types-set

https://docs.python.org/3.6/library/functions.html#func-set

In [423]:
#para remover dados duplicados
list(set(Acessorios))

['Câmera de estacionamento',
 'Teto panorâmico',
 'Vidros elétricos',
 'Painel digital',
 'Rodas de liga',
 'Sensor crepuscular',
 '4 X 4',
 'Piloto automático',
 'Travas elétricas',
 'Ar condicionado',
 'Bancos de couro',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Câmbio automático',
 'Freios ABS',
 'Controle de estabilidade',
 'Central multimídia']

### List comprehensions

In [424]:
#fazendo tudo isso em apenas uma linha
list(set([item for lista in dados for item in lista])) #esta linha vai fazer exatamente o que dois codigos acima esta fazendo

['Câmera de estacionamento',
 'Teto panorâmico',
 'Vidros elétricos',
 'Rodas de liga',
 'Sensor crepuscular',
 'Painel digital',
 '4 X 4',
 'Piloto automático',
 'Travas elétricas',
 'Ar condicionado',
 'Bancos de couro',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Câmbio automático',
 'Freios ABS',
 'Controle de estabilidade',
 'Central multimídia']

# 4.3 Instrução *if*

#### Formato padrão

```
if <condição>:
     <instruções caso a condição seja verdadeira>
```

### Operadores de comparação: $==$, $!=$, $>$, $<$, $>=$, $<=$
### e
### Operadores lógicos: $and$, $or$, $not$

In [425]:
# 1º item da lista - Nome do veículo
# 2º item da lista - Ano de fabricação
# 3º item da lista - Veículo é zero km?

dados = [
    ['Jetta Variant', 2003, False],
    ['Passat', 1991, False],
    ['Crossfox', 1990, False],
    ['DS5', 2019, True],
    ['Aston Martin DB4', 2006, False],
    ['Palio Weekend', 2012, False],
    ['A5', 2019, True],
    ['Série 3 Cabrio', 2009, False],
    ['Dodge Jorney', 2019, False],
    ['Carens', 2011, False]
]
dados

[['Jetta Variant', 2003, False],
 ['Passat', 1991, False],
 ['Crossfox', 1990, False],
 ['DS5', 2019, True],
 ['Aston Martin DB4', 2006, False],
 ['Palio Weekend', 2012, False],
 ['A5', 2019, True],
 ['Série 3 Cabrio', 2009, False],
 ['Dodge Jorney', 2019, False],
 ['Carens', 2011, False]]

In [426]:
for lista in dados: #O comando FOR vai varrer DADOS 
  if(lista[2] == True): #aqui quero marcar somente variaveis com TRUE
    print(lista) #vai mostrar tudo que tenho marcado como TRUE

['DS5', 2019, True]
['A5', 2019, True]


In [427]:
zero_km_y = [] #criar uma lista

for lista in dados: #O comando FOR vai varrer DADOS 
  if(lista[2] == True): #aqui quero marcar somente variaveis com TRUE
    zero_km_y.append(lista) #adicionar tudo que for TRUE na lista criada

print(zero_km_y)


[['DS5', 2019, True], ['A5', 2019, True]]


In [428]:
zero_km_n = [] #criar uma lista

for lista in dados: #O comando FOR vai varrer DADOS 
  if(lista[2] == False): #aqui quero marcar somente variaveis com TRUE
    zero_km_n.append(lista) #adicionar tudo que for TRUE na lista criada

zero_km_n

[['Jetta Variant', 2003, False],
 ['Passat', 1991, False],
 ['Crossfox', 1990, False],
 ['Aston Martin DB4', 2006, False],
 ['Palio Weekend', 2012, False],
 ['Série 3 Cabrio', 2009, False],
 ['Dodge Jorney', 2019, False],
 ['Carens', 2011, False]]

### List comprehensions

In [429]:
[lista for lista in dados if lista[2] == True]

[['DS5', 2019, True], ['A5', 2019, True]]

# 4.4 Instruções *if-else* e *if-elif-else*

#### Formato padrão

```
if <condição>:
    <instruções caso a condição seja verdadeira>
else:
    <instruções caso a condição não seja verdadeira>
```

In [430]:
zero_km_y, zero_km_n = [], [] #criar uma lista

for lista in dados: #O comando FOR vai varrer DADOS 
  if(lista[2] == True): #aqui quero marcar somente variaveis com TRUE
    zero_km_y.append(lista) #adicionar tudo que for TRUE na lista criada
  else: #caso nao aconteça o de cima
    zero_km_n.append(lista) #salvara nessa lista

In [431]:
zero_km_y

[['DS5', 2019, True], ['A5', 2019, True]]

In [432]:
zero_km_n

[['Jetta Variant', 2003, False],
 ['Passat', 1991, False],
 ['Crossfox', 1990, False],
 ['Aston Martin DB4', 2006, False],
 ['Palio Weekend', 2012, False],
 ['Série 3 Cabrio', 2009, False],
 ['Dodge Jorney', 2019, False],
 ['Carens', 2011, False]]

#### Formato padrão

```
if <condição 1>:
    <instruções caso a condição 1 seja verdadeira>
elif <condição 2>:
    <instruções caso a condição 2 seja verdadeira>
elif <condição 3>:
    <instruções caso a condição 3 seja verdadeira>
                        .
                        .
                        .
else:
    <instruções caso as condições anteriores não sejam verdadeiras>
```

In [433]:
dados

[['Jetta Variant', 2003, False],
 ['Passat', 1991, False],
 ['Crossfox', 1990, False],
 ['DS5', 2019, True],
 ['Aston Martin DB4', 2006, False],
 ['Palio Weekend', 2012, False],
 ['A5', 2019, True],
 ['Série 3 Cabrio', 2009, False],
 ['Dodge Jorney', 2019, False],
 ['Carens', 2011, False]]

In [434]:
print('AND')
print(f'(True and True) o resultado é: {True and True}')
print(f'(True and False) o resultado é: {True and False}')
print(f'(False and True) o resultado é: {False and True}')
print(f'(False and False) o resultado é: {False and False}')

AND
(True and True) o resultado é: True
(True and False) o resultado é: False
(False and True) o resultado é: False
(False and False) o resultado é: False


In [435]:
print('OR')
print(f'(True or True) o resultado é: {True or True}')
print(f'(True or False) o resultado é: {True or False}')
print(f'(False or True) o resultado é: {False or True}')
print(f'(False or False) o resultado é: {False or False}')

OR
(True or True) o resultado é: True
(True or False) o resultado é: True
(False or True) o resultado é: True
(False or False) o resultado é: False


In [436]:
d, e, f = [], [], [] #criando as listas

for lista in dados: #lista em dados
  if(lista[1] <= 2000):
    d.append(lista) #se acontecer adiciona aqui
  elif(lista[1] > 2000 and lista[1] <=2009):
    e.append(lista) #se acontecer, adiciona aqui, caso não, continua
  else: #tudo que nao aconteceu até agora vem pra ca.
    f.append(lista)

In [437]:
d

[['Passat', 1991, False], ['Crossfox', 1990, False]]

In [438]:
e

[['Jetta Variant', 2003, False],
 ['Aston Martin DB4', 2006, False],
 ['Série 3 Cabrio', 2009, False]]

In [439]:
f

[['DS5', 2019, True],
 ['Palio Weekend', 2012, False],
 ['A5', 2019, True],
 ['Dodge Jorney', 2019, False],
 ['Carens', 2011, False]]

In [440]:
#melhor notaçao para o codigo matematico
d, e, f = [], [], [] 

for lista in dados: 
  if(lista[1] <= 2000):
    d.append(lista) 
  elif( 2000 < lista[1] <=2009): # a lista esta entre este 2 valores
    e.append(lista)
  else: 
    f.append(lista)

# <font color=green> 5. NUMPY BÁSICO
---

Numpy é a abreviação de Numerical Python e é um dos pacotes mais importantes para processamento numérico em Python. Numpy oferece a base para a maioria dos pacotes de aplicações científicas que utilizem dados numéricos em Python (estruturas de dados e algoritmos). Pode-se destacar os seguintes recursos que o pacote Numpy contém:

- Um poderoso objeto array multidimensional;
- Funções matemáticas sofisticadas para operações com arrays sem a necessidade de utilização de laços *for*;
- Recursos de algebra linear e geração de números aleatórios

Além de seus óbvios usos científicos, o pacote NumPy também é muito utilizado em análise de dados como um eficiente contêiner multidimensional de dados genéricos para transporte entre diversos algoritmos e bibliotecas em Python.

**Versão:** 1.16.5

**Instalação:** https://scipy.org/install.html

**Documentação:** https://numpy.org/doc/1.16/

### Pacotes

Existem diversos pacotes Python disponíveis para download na internet. Cada pacote tem como objetivo a solução de determinado tipo de problema e para isso são desenvolvidos novos tipos, funções e métodos.

Alguns pacotes são bastante utilizados em um contexto de ciência de dados como por exemplo:

- Numpy
- Pandas
- Scikit-learn
- Matplotlib

Alguns pacotes não são distribuídos com a instalação default do Python. Neste caso devemos instalar os pacotes que necessitamos em nosso sistema para podermos utilizar suas funcionalidades.

### Importando todo o pacote

In [441]:
import numpy as np

https://numpy.org/doc/1.16/reference/generated/numpy.arange.html

In [442]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### Importando todo o pacote e atribuindo um novo nome 

### Importando parte do pacote

In [443]:
from numpy import arange

In [444]:
arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

# 5.1 Criando arrays Numpy

### A partir de listas

https://numpy.org/doc/1.16/user/basics.creation.html

In [445]:
km = np.array([1000, 2300, 4987, 1500])

In [446]:
km

array([1000, 2300, 4987, 1500])

In [447]:
type(km)

numpy.ndarray

https://numpy.org/doc/1.16/user/basics.types.html

In [448]:
km.dtype

dtype('int64')

### A partir de dados externos

https://numpy.org/doc/1.16/reference/generated/numpy.loadtxt.html

In [449]:
km = np.loadtxt(fname = 'carros-km.txt', dtype = int)

In [450]:
km.dtype

dtype('int64')

In [451]:
km

array([ 44410,   5712,  37123,      0,  25757,  10728,      0,  77599,
        99197,  37978,  12859,   8052,  89773,      0,  41457, 115607,
        46449,      0,  37086,  15173, 101193,      0,  98079, 102959,
            0,      0,   5795,      0,  58848,  94381,  30163,  53332,
        17720,  33808,  90684,  43975,      0,      0,   5526,      0,
        93415,  40762,      0,  86302,      0,   9755,  69945,   2395,
            0,  80349,  85554,  50496,  67716,  93947,  35345,  81007,
       119513,      0,      0,      0,      0,      0, 118895,  48509,
       100912,  95649,      0,  90495,      0,  29132,  23802,  84992,
        54395,  26731,  44329, 118236, 113808,    610,      0,      0,
        12887,  79607,  90924,  42733,      0,      0, 117714, 113885,
            0,  30511,  74867, 119760,   8356,  64247,  88661,   4539,
       110116,  33215,  92001,      0,  81708,  70641,      0,  91277,
        26544,  52596,  47503,  89056,  28834, 110564,  56638,  17357,
      

### Arrays com duas dimensões

In [452]:
dados = [ 
    ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva'],
    ['Central multimídia', 'Teto panorâmico', 'Freios ABS', '4 X 4', 'Painel digital', 'Piloto automático', 'Bancos de couro', 'Câmera de estacionamento'],
    ['Piloto automático', 'Controle de estabilidade', 'Sensor crepuscular', 'Freios ABS', 'Câmbio automático', 'Bancos de couro', 'Central multimídia', 'Vidros elétricos']
]
dados

[['Rodas de liga',
  'Travas elétricas',
  'Piloto automático',
  'Bancos de couro',
  'Ar condicionado',
  'Sensor de estacionamento',
  'Sensor crepuscular',
  'Sensor de chuva'],
 ['Central multimídia',
  'Teto panorâmico',
  'Freios ABS',
  '4 X 4',
  'Painel digital',
  'Piloto automático',
  'Bancos de couro',
  'Câmera de estacionamento'],
 ['Piloto automático',
  'Controle de estabilidade',
  'Sensor crepuscular',
  'Freios ABS',
  'Câmbio automático',
  'Bancos de couro',
  'Central multimídia',
  'Vidros elétricos']]

In [453]:
Acessorios = np.array(dados) #a lista dados esta toda dentro de acessorios

In [454]:
Acessorios

array([['Rodas de liga', 'Travas elétricas', 'Piloto automático',
        'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento',
        'Sensor crepuscular', 'Sensor de chuva'],
       ['Central multimídia', 'Teto panorâmico', 'Freios ABS', '4 X 4',
        'Painel digital', 'Piloto automático', 'Bancos de couro',
        'Câmera de estacionamento'],
       ['Piloto automático', 'Controle de estabilidade',
        'Sensor crepuscular', 'Freios ABS', 'Câmbio automático',
        'Bancos de couro', 'Central multimídia', 'Vidros elétricos']],
      dtype='<U24')

In [455]:
km.shape #quantidade de linhas

(258,)

In [456]:
Acessorios.shape #primeiro a quantidade de linha depois de colunas

(3, 8)

### Comparando desempenho com listas

In [457]:
np_array = np.arange(1000000) #usando numpy

In [458]:
py_list = list(range(1000000)) #nao utilizando numpy

In [459]:
#tempo de execuçao do meu codigo
%time for _ in range(100): np_array *= 2 #O _ serve para indicar que não quer colocar nada ali

CPU times: user 203 ms, sys: 27.7 ms, total: 231 ms
Wall time: 300 ms


In [460]:
#diferença de tempo de execuçao entre o numpy e o python
%time for _ in range(100): py_list = [x * 2 for x in py_list]

CPU times: user 10.5 s, sys: 3.29 s, total: 13.8 s
Wall time: 13.8 s


# 5.2 Operações aritméticas com arrays Numpy

### Operações entre arrays e constantes

In [461]:
km = [44410., 5712., 37123., 0., 25757.]
anos = [2003, 1991, 1990, 2019, 2006]

In [462]:
#só é possivel somar numero com lista através do numpy
# idade = 2019 - anos | codigo errado

In [463]:
km = np.array([44410., 5712., 37123., 0., 25757.])
anos = np.array([2003, 1991, 1990, 2019, 2006])

In [464]:
idade = 2019 - anos #agora tende a funcionar pois transformei a variavel ANOS em NP

In [465]:
idade

array([16, 28, 29,  0, 13])

### Operações entre arrays

In [466]:
km_media = km / idade 
# vai acusar erro, porem é o erro de divião por 0

  """Entry point for launching an IPython kernel.


In [467]:
km_media

array([2775.625     ,  204.        , 1280.10344828,           nan,
       1981.30769231])

In [468]:
#  para entender melhor o que foi feito
44410 / (2019 - 2003)

2775.625

### Operações com arrays de duas dimensões

In [469]:
dados = np.array([km, anos])

In [470]:
dados #agora temos uma matriz

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

In [471]:
dados.shape

(2, 5)

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

In [472]:
dados[0]

array([44410.,  5712., 37123.,     0., 25757.])

In [473]:
dados[1]

array([2003., 1991., 1990., 2019., 2006.])

In [474]:
km_media = dados[0] / (2019 - dados[1])

  """Entry point for launching an IPython kernel.


In [475]:
km_media

array([2775.625     ,  204.        , 1280.10344828,           nan,
       1981.30769231])

# 5.3 Seleções com arrays Numpy

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

In [476]:
dados

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

![1410-img02.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img02.png)

### Indexação 

<font color=red>**Observação:**</font> A indexação tem origem no zero.

In [477]:
contador = np.arange(10) #criado uma lista de 10 itens
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [478]:
contador[0]

0

In [479]:
item = 6 
index = item -1 #criei uma variavel para algum item da matriz
contador[index]

5

In [480]:
contador[-1]

9

In [481]:
dados[0]

array([44410.,  5712., 37123.,     0., 25757.])

In [482]:
 dados[1]

array([2003., 1991., 1990., 2019., 2006.])

## <font color=green>**Dica:**</font>
### *ndarray[ linha ][ coluna ]* ou *ndarray[ linha, coluna ]*

In [483]:
dados[1][2]

1990.0

In [484]:
# outra maneira de fazer
dados[1, 2] #mas so depois de transformado em NP

1990.0

 ### Fatiamentos
 
A sintaxe para realizar fatiamento em um array Numpy é $i : j : k$ onde $i$ é o índice inicial, $j$ é o índice de parada, e $k$ é o indicador de passo ($k\neq0$)
 
<font color=red>**Observação:**</font> Nos fatiamentos (*slices*) o item com índice i é **incluído** e o item com índice j **não é incluído** no resultado.

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

In [485]:
contador = np.arange(10) #criado uma lista de 10 itens
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [486]:
contador[1 : 8]

array([1, 2, 3, 4, 5, 6, 7])

In [487]:
contador[1:8:2] #vai do 1 até o 8 em passo 2

array([1, 3, 5, 7])

In [488]:
contador[::2] #nesse caso irá iniciar da primeira coluna e vai até o final, pulando de 2 em 2

array([0, 2, 4, 6, 8])

In [489]:
contador[1::2]

array([1, 3, 5, 7, 9])

In [490]:
dados[:, 1:4] #tudo que estiver em todas linhas mas nas colunas 1 2 e 3

array([[ 5712., 37123.,     0.],
       [ 1991.,  1990.,  2019.]])

In [491]:
dados[:, 1:4][0]

array([ 5712., 37123.,     0.])

In [492]:
dados[:, 1:4][0] / (2019 - dados[:, 1:4][1])

  """Entry point for launching an IPython kernel.


array([ 204.        , 1280.10344828,           nan])

### Indexação com array booleano

<font color=red>**Observação:**</font> Seleciona um grupo de linhas e colunas segundo os rótulos ou um array booleano.

In [493]:
contador = np.arange(10) #criado uma lista de 10 itens
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [494]:
contador > 5 #vai responder com true tudo que for maior que 5

array([False, False, False, False, False, False,  True,  True,  True,
        True])

In [495]:
contador[contador > 5] #só selecionou quem é maior

array([6, 7, 8, 9])

In [496]:
# caso queira fazer o camando anterior só que mais extenso
contador[[False, False, False, False, False, False,  True,  True,  True, True]]

array([6, 7, 8, 9])

In [497]:
dados[1]

array([2003., 1991., 1990., 2019., 2006.])

In [498]:
dados[1] > 2000

array([ True, False, False,  True,  True])

In [499]:
dados[1, dados[1] > 2000]

array([2003., 2019., 2006.])

## ANALISANDO COMO ESCOLHER DADOS DA MATRIZ

In [500]:
# MATRIZ PRINCIPAL
dadus = np.array(
    [
        ['Roberto', 'casado', 'masculino'],
        ['Sheila', 'solteira', 'feminino'],
        ['Bruno', 'solteiro', 'masculino'],
        ['Rita', 'casada', 'feminino']
    ]
)

In [501]:
# O QUE RETORNA
dadus

array([['Roberto', 'casado', 'masculino'],
       ['Sheila', 'solteira', 'feminino'],
       ['Bruno', 'solteiro', 'masculino'],
       ['Rita', 'casada', 'feminino']], dtype='<U9')

In [502]:
dadus[0] #somente a primeira linha completa

array(['Roberto', 'casado', 'masculino'], dtype='<U9')

In [503]:
dadus[0:3] #linha completa com colunas até o 2

array([['Roberto', 'casado', 'masculino'],
       ['Sheila', 'solteira', 'feminino'],
       ['Bruno', 'solteiro', 'masculino']], dtype='<U9')

In [504]:
dadus[0::2] #começa na linha 0, vai até a ultima linha e pula de 2 em 2

array([['Roberto', 'casado', 'masculino'],
       ['Bruno', 'solteiro', 'masculino']], dtype='<U9')

In [505]:
dadus[0, 0] #seleciono exatamente o dado que eu quero

'Roberto'

In [506]:
dadus[0:4, 1] #linha completa até a coluna 3 e depois somente a coluna 1

array(['casado', 'solteira', 'solteiro', 'casada'], dtype='<U9')

In [507]:
dadus[0:4, 1:2] #uma maneira de escolher só a coluna (da para selecionar somente 1 ou mais)

array([['casado'],
       ['solteira'],
       ['solteiro'],
       ['casada']], dtype='<U9')

In [508]:
dadus[::2, :2] #nesse caso ira selecionar todas as linha e todas as colunas, mas pegara somente de 2 em 2 (linha 0 e linha 2)
               #Depois selecionará as colunas de 0 até 1

array([['Roberto', 'casado'],
       ['Bruno', 'solteiro']], dtype='<U9')

# 5.4 Atributos e métodos de arrays Numpy

### Atributos

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#array-attributes

## *ndarray.shape*

Retorna uma tupla com as dimensões do array.

In [509]:
dados.shape  #numero de linhas e colunas

(2, 5)

## *ndarray.ndim*

Retorna o número de dimensões do array.

In [510]:
dados.ndim #numero de dimensoes

2

## *ndarray.size*

Retorna o número de elementos do array.

In [511]:
dados.size #multiplicar linhas X Colunas

10

## *ndarray.dtype*

Retorna o tipo de dados dos elementos do array.

In [512]:
dados.dtype # tipo de dados do array

dtype('float64')

## *ndarray.T*

Retorna o array transposto, isto é, converte linhas em colunas e vice versa.

In [513]:
dados.T #transforma o que esta em linha em coluna (Neste caso antes era 2x5, agora esta 5x2)

array([[44410.,  2003.],
       [ 5712.,  1991.],
       [37123.,  1990.],
       [    0.,  2019.],
       [25757.,  2006.]])

In [514]:
#comando equivalente
dados.transpose()

array([[44410.,  2003.],
       [ 5712.,  1991.],
       [37123.,  1990.],
       [    0.,  2019.],
       [25757.,  2006.]])

### Métodos

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#array-methods

## *ndarray.tolist()*

Retorna o array como uma lista Python.

In [515]:
#transforma um array numpy em lista do pyhton comum
dados.tolist()

[[44410.0, 5712.0, 37123.0, 0.0, 25757.0],
 [2003.0, 1991.0, 1990.0, 2019.0, 2006.0]]

## *ndarray.reshape(shape[, order])*

Retorna um array que contém os mesmos dados com uma nova forma.

In [516]:
contador = np.arange(10) #criado uma lista de 10 itens
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [517]:
#transformar variaveis em mais colunas
contador.reshape((5,2)) # primeiro linhas e depois colunas

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [518]:
contador.reshape((2,5)) # primeiro linhas e depois colunas

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [519]:
contador.reshape((5,2), order = 'C') #tipo de formataçao dos dados, ordem de local  (baseado em fortran)

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [520]:
contador.reshape((5,2), order = 'F') #tipo de formataçao dos dados, ordem de local  (baseado em fortran)

array([[0, 5],
       [1, 6],
       [2, 7],
       [3, 8],
       [4, 9]])

In [521]:
km = [44410, 5712, 37123, 0, 25757]
anos = [2003, 1991, 1990, 2019, 2006]

In [522]:
info_carros = km + anos #neste caso ficou concatenado, meio bagunçado
info_carros

[44410, 5712, 37123, 0, 25757, 2003, 1991, 1990, 2019, 2006]

In [525]:
#transformar em um array numpy
np.array(info_carros).reshape((2,5)) #consertar a lista visualmente

array([[44410,  5712, 37123,     0, 25757],
       [ 2003,  1991,  1990,  2019,  2006]])

In [526]:
np.array(info_carros).reshape((5,2)) #porem aqui nao fica na ordem certa

array([[44410,  5712],
       [37123,     0],
       [25757,  2003],
       [ 1991,  1990],
       [ 2019,  2006]])

In [528]:
np.array(info_carros).reshape((5,2), order = 'F') #alterando a ordem de distribuição

array([[44410,  2003],
       [ 5712,  1991],
       [37123,  1990],
       [    0,  2019],
       [25757,  2006]])

## *ndarray.resize(new_shape[, refcheck])*

Altera a forma e o tamanho do array.

In [529]:
dados_new = dados.copy()
dados_new

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

In [531]:
#quero criar mais uma linha
dados_new.resize((3,5), refcheck=False) #neste caso para nao dar erro se faz o uso do refcheck=false para ignorar a falta de dados

In [533]:
dados_new #criou a nova linha, porem sem dados.

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.],
       [    0.,     0.,     0.,     0.,     0.]])

In [534]:
dados_new[2] = dados_new[0] / (2019 - dados_new[1]) #estou adicionando a nova linha a media de km rodado de cada veiculo
                                                    #pega a linha 0 / o que sobrar da linha 1 e adiciona tudo isso na linha 2

  """Entry point for launching an IPython kernel.


In [537]:
dados_new.round(2)

array([[44410.  ,  5712.  , 37123.  ,     0.  , 25757.  ],
       [ 2003.  ,  1991.  ,  1990.  ,  2019.  ,  2006.  ],
       [ 2775.62,   204.  ,  1280.1 ,      nan,  1981.31]])

# 5.5 Estatísticas com arrays Numpy

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#calculation

e

https://numpy.org/doc/1.16/reference/routines.statistics.html

e

https://numpy.org/doc/1.16/reference/routines.math.html

In [538]:
anos = np.loadtxt(fname = "carros-anos.txt", dtype = int)
km = np.loadtxt(fname = "carros-km.txt")
valor = np.loadtxt(fname = "carros-valor.txt")

In [539]:
anos.shape

(258,)

https://numpy.org/doc/1.16/reference/generated/numpy.column_stack.html

In [542]:
dataset = np.column_stack((anos, km, valor)) #para transformar tudo em colunas
dataset

array([[2.0030000e+03, 4.4410000e+04, 8.8078640e+04],
       [1.9910000e+03, 5.7120000e+03, 1.0616194e+05],
       [1.9900000e+03, 3.7123000e+04, 7.2832160e+04],
       [2.0190000e+03, 0.0000000e+00, 1.2454907e+05],
       [2.0060000e+03, 2.5757000e+04, 9.2612100e+04],
       [2.0120000e+03, 1.0728000e+04, 9.7497730e+04],
       [2.0190000e+03, 0.0000000e+00, 5.6445200e+04],
       [2.0090000e+03, 7.7599000e+04, 1.1231044e+05],
       [2.0100000e+03, 9.9197000e+04, 1.2071627e+05],
       [2.0110000e+03, 3.7978000e+04, 7.6566490e+04],
       [2.0020000e+03, 1.2859000e+04, 7.1647590e+04],
       [2.0070000e+03, 8.0520000e+03, 7.3919530e+04],
       [2.0010000e+03, 8.9773000e+04, 1.1273299e+05],
       [2.0190000e+03, 0.0000000e+00, 5.3183380e+04],
       [2.0090000e+03, 4.1457000e+04, 1.2748842e+05],
       [2.0160000e+03, 1.1560700e+05, 5.9910400e+04],
       [2.0120000e+03, 4.6449000e+04, 6.1118590e+04],
       [2.0190000e+03, 0.0000000e+00, 8.8552390e+04],
       [2.0160000e+03, 3.708

In [543]:
dataset.shape

(258, 3)

## *np.mean()*

Retorna a média dos elementos do array ao longo do eixo especificado.

In [546]:
#para fazer a media é preciso especificar cada coluna da variavel, senao ele vai somar tudo em uma valor só
np.mean(dataset, axis = 0).round(2) #pede para que faça para cada coluna (ano / km / valor)

array([ 2007.51, 44499.41, 98960.51])

In [547]:
np.mean(dataset, axis = 1).round(2) #aqui ele faz por linha a media

array([44830.55, 37954.98, 37315.05, 42189.36, 40125.03, 36745.91,
       19488.07, 63972.81, 73974.42, 38851.83, 28836.2 , 27992.84,
       68169.  , 18400.79, 56984.81, 59177.8 , 36526.53, 30190.46,
       33932.9 , 39638.77, 69780.79, 32194.47, 77867.61, 76878.22,
       41205.07, 24462.03, 34386.25, 35817.28, 39298.42, 72268.23,
       34289.07, 41477.39, 26365.56, 33918.13, 50905.01, 54959.84,
       17875.2 , 41766.96, 25768.39, 34876.18, 54475.06, 59333.43,
       29553.45, 75040.8 , 39881.91, 22655.23, 52057.22, 31725.88,
       22240.03, 69567.5 , 78571.96, 61600.28, 69114.54, 58791.9 ,
       31243.  , 51282.34, 83404.74, 45116.06, 44660.14, 38017.42,
       27806.12, 33060.7 , 62306.39, 59765.41, 81845.34, 78191.71,
       22848.54, 68881.29, 48137.25, 59285.3 , 49427.23, 61650.01,
       44891.83, 37390.35, 41392.74, 60347.97, 69056.62, 39633.07,
       49072.23, 17587.03, 29306.51, 45315.62, 48374.82, 36102.17,
       22175.57, 39031.53, 84253.53, 85829.29, 34133.09, 42960

In [568]:
#porem nao tem sentido fazer a media do valor ano, podemos retirar essa coluna
np.mean(dataset[:, 1]).round(2)

44499.41

In [523]:
np.mean(dataset[:, 2]).round(2)

## *np.std()*

Retorna o desvio padrão dos elementos do array ao longo do eixo especificado.

In [569]:
np.std(dataset[:, 2]).round(2) #desvio padrão (nesse caso do valor)

29754.1

## *ndarray.sum()*

Retorna a soma dos elementos do array ao longo do eixo especificado.

In [571]:
dataset.sum(axis = 0).round(2)

array([  517938.  , 11480849.  , 25531812.38])

In [574]:
dataset[:, 1].sum().round(2) #somatoria (nesse caso a soma dos kilometros)

11480849.0

## *np.sum()*

Retorna a soma dos elementos do array ao longo do eixo especificado.

In [575]:
np.sum(dataset, axis = 0)

array([  517938.        , 11480849.        , 25531812.37999999])

In [576]:
np.sum(dataset[:, 2]) #soma dos valores da coluna valor

25531812.38