<a href="https://colab.research.google.com/github/jhonoratoc/cursos-alura/blob/main/F01C02_Python_para_Data_Science_Introdu%C3%A7%C3%A3o_%C3%A0_linguagem_e_Numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <font color=navyblue> PYTHON PARA DATA SCIENCE - NUMPY

---

# <font color=green> 1. INTRODUÇÃO AO PYTHON
---

## 1.1 Introdução

> Python é uma linguagem de programação de alto nível com suporte a múltiplos paradigmas de programação. É um projeto *open source* e desde seu surgimento, em 1991, vem se tornando uma das linguagens de programação interpretadas mais populares. 
>
> Nos últimos anos Python desenvolveu uma comunidade ativa de processamento científico e análise de dados e vem se destacando como uma das linguagens mais relevantes quando o assunto é ciência de dados e machine learning, tanto no ambiente acadêmico como também no mercado.

## 1.2 Instalação e ambiente de desenvolvimento

### Instalação Local

### https://www.python.org/downloads/
### ou
### https://www.anaconda.com/distribution/

### Google Colaboratory

### https://colab.research.google.com

### Verificando versão

In [None]:
!python -V

Python 3.7.10


## 1.3 Trabalhando com arrays Numpy

In [None]:
# numpy: biblioteca python para cálculo numérico

import numpy as np

In [None]:
# vamos fazer o upload dos dados a serem usados na aula:
# 1) clique em Arquivos (essa pasta que fica do lado esquerdo da tela) e selecione todos os arquivos a serem utilizados
# 2) vamos importar os dados para o notebook usando o comando abaixo:

km = np.loadtxt('carros-km.txt')                        ### importando dados como array numpy
anos = np.loadtxt('carros-anos.txt', dtype=int)         ### dtype para determinar o tipo do dado; nesse caso, valores inteiros

### Obtendo a quilometragem média por ano

In [None]:
# quantos km por ano cada carro fez?

km_media = km / (2019-anos)

# a mensagem abaixo avisa que existem carros fabricados em 2019, o que causaria divisões por zero na expressão

  This is separate from the ipykernel package so we can avoid doing imports until


In [None]:
km_media

# foi gerado um array com os resultados; nos casos cujo carro foi fabricado em 2019, o array devolve NaN (not a number)

array([2.77562500e+03, 2.04000000e+02, 1.28010345e+03,            nan,
       1.98130769e+03, 1.53257143e+03,            nan, 7.75990000e+03,
       1.10218889e+04, 4.74725000e+03, 7.56411765e+02, 6.71000000e+02,
       4.98738889e+03,            nan, 4.14570000e+03, 3.85356667e+04,
       6.63557143e+03,            nan, 1.23620000e+04, 7.58650000e+03,
       5.95252941e+03,            nan, 3.92316000e+03, 3.67710714e+03,
                  nan,            nan, 1.93166667e+03,            nan,
       3.46164706e+03, 3.37075000e+03, 1.37104545e+03, 2.22216667e+03,
       1.77200000e+04, 1.20742857e+03, 1.81368000e+04, 1.83229167e+03,
                  nan,            nan, 5.52600000e+02,            nan,
       1.55691667e+04, 2.54762500e+03,            nan, 5.07658824e+03,
                  nan, 5.73823529e+02, 4.66300000e+03, 1.33055556e+02,
                  nan, 5.02181250e+03, 8.55540000e+03, 3.88430769e+03,
       3.56400000e+03, 7.22669231e+03, 3.92722222e+03, 3.24028000e+03,
      

In [None]:
type(km_media)

# km_media é um array de numpy

numpy.ndarray

# <font color=green> 2. CARACTERÍSTICAS BÁSICAS DA LINGUAGEM
---

## 2.1 Operações matemáticas

### Operadores aritméticos: $+$, $-$, $*$, $/$, $**$, $\%$, $//$

### Adição ($+$)

In [None]:
  2+2

4

### Subtração ($-$)

In [None]:
2-2

0

### Multiplicação ($*$)

In [None]:
2*3

6

### Divisão ($/$) e ($//$)
A operação divisão sempre retorna um número de ponto flutuante

In [None]:
10/3

3.3333333333333335

In [None]:
# // retorna apenas o número inteiro

10//3

3

### Exponenciação ($**$)

In [None]:
2**3

8

### Resto da divisão ($\%$)

In [None]:
10%3

# resto da divisão

1

In [None]:
10%2

0

### Expressões matemáticas

In [None]:
# identifica automaticamente a ordem

5*2 + 3*2

16

In [None]:
# eu também posso usar parênteses

(5*2) + (3*2)

16

In [None]:
5*(2 + 3)*2

50

### A variável _

No modo interativo, o último resultado impresso é atribuído à variável _

In [None]:
# _ se torna uma variável provisória contendo o último resultado

_

50

In [None]:
5*2

10

In [None]:
_ + 3*2

16

In [None]:
_/2

# o resultado de uma divisão é um float

8.0

## 2.2 Variáveis 

### Nomes de variáveis

- Nomes de variáveis pode começar com letras (a - z, A - Z) ou o caractere *underscore* (_):

    > Altura
    >
    > _peso
    
- O restante do nome pode conter letras, números e o caractere "_":

    > nome_da_variavel
    >
    > _valor
    >
    > dia_28_11_
    

- O nomes são *case sensitive*:

    > Nome_Da_Variável $\ne$ nome_da_variavel $\ne$ NOME_DA_VARIAVEL
    
### <font color=red>Observações:
- Existem algumas palavras reservadas da linguagem que não podem ser utilizadas como nomes de variável:

| |Lista de palavras <br>reservadas em Python| |
|:-------------:|:------------:|:-------------:|
| and           | as           | not           | 
| assert        | finally      | or            | 
| break         | for          | pass          | 
| class         | from         | nonlocal      | 
| continue      | global       | raise         | 
| def           | if           | return        | 
| del           | import       | try           | 
| elif          | in           | while         | 
| else          | is           | with          | 
| except        | lambda       | yield         | 
| False         | True         | None          | 

### Declaração de variáveis

### Operadores de atribuição: $=$, $+=$, $-=$, $*=$, $/=$, $**=$, $\%=$, $//=$

In [None]:
ano_atual = 2019
ano_fabricacao = 2003
km_total = 44410

### $$km_{média} = \frac {km_{total}}{(Ano_{atual} - Ano_{fabricação})}$$

### Operações com variáveis

In [None]:
# quilometragem por ano

km_media = km_total / (ano_atual - ano_fabricacao)


In [None]:
# fazendo uma função

def km_med(km_total, ano_atual, ano_fabricacao):
  print(km_total / (ano_atual - ano_fabricacao))

km_med(44410,2019,2003)

2775.625


In [None]:
# quantos km rodados o carro terá em 2020?

# km_total = km_total + km_media
# também pode ser escrito como -----> km_total += km_media

km_total += km_media
km_total

47185.625

### Conclusão:
```
"valor = valor + 1" é equivalente a "valor += 1"
```

### Declaração múltipla

In [None]:
ano_atual, ano_fabricacao, km_total = 2019, 2003, 44110

## 2.3 Tipos de dados

Os tipos de dados especificam como números e caracteres serão armazenados e manipulados dentro de um programa. Os tipos de dados básicos do Python são:

1. **Números**
    1. ***int*** - Inteiros
    - ***float*** - Ponto flutuante
- **Booleanos** - Assume os valores True ou False. Essencial quando começarmos a trabalhar com declarações condicionais
- ***Strings*** - Sequência de um ou mais caracteres que pode incluir letras, números e outros tipos de caracteres. Representa um texto.
- **None** - Representa a ausência de valor

### Números

In [None]:
ano_atual = 2019
type(ano_atual)

int

In [None]:
km_total = 44110.0
type(km_total)

float

### Booleanos

In [None]:
zero_km = True
type(zero_km)

bool

### Strings

In [None]:
nome = 'Jetta Variant'
nome

'Jetta Variant'

In [None]:
nome = "Jetta Variant"
nome

'Jetta Variant'

In [None]:
# misturando aspas simplas e duplas

nome = 'Jetta "Variant"'
nome

'Jetta "Variant"'

In [None]:
nome = "Jetta 'Variant'"
nome

"Jetta 'Variant'"

In [None]:
# string com mais de uma linha

carro = '''
  Nome
  Idade
  Nota
'''

carro

# \n quer dizer que uma linha foi pulada

'\n  Nome\n  Idade\n  Nota\n'

### None

In [None]:
quilometragem = None
quilometragem

# não aparece nada

In [None]:
type(quilometragem)

# variável do tipo None

NoneType

## 2.4 Conversão de tipos

In [None]:
a = 10
b = 20
c = 'py'
d = 'thon'

In [None]:
c + d

'python'

In [None]:
a + b

30

### Conversões de tipo

Funções int(), float(), str()

In [None]:
str(a) + d

'10thon'

In [None]:
float(a)

10.0

In [None]:
int(2.14)

2

##  2.5 Indentação, comentários e formatação de *strings*

### Indentação

Na linguagem Python os programas são estruturados por meio de indentação. Em qualquer linguagem de programação a prática da indentação é bastante útil, facilitando a leitura e também a manutenção do código. Em Python a indentação não é somente uma questão de organização e estilo, mas sim um requisito da linguagem.

In [None]:
ano_atual = 2019
ano_fabricacao = 2019

if (ano_atual == ano_fabricacao):
    print('Verdadeiro')
else:
    print('Falso')

Verdadeiro


### Comentários

Comentários são extremamente importantes em um programa. Consiste em um texto que descreve o que o programa ou uma parte específica do programa está fazendo. Os comentários são ignorados pelo interpretador Python. 

Podemos ter comentários de uma única linha ou de múltiplas linhas.

In [None]:
# Isto é um comentário
ano_atual = 2019
ano_atual

2019

In [None]:
# Isto
# é um 
# comentário
ano_atual = 2019
ano_atual

2019

In [None]:
'''Isto é um
comentário'''
ano_atual = 2019
ano_atual

2019

In [None]:
# Definindo variáveis
ano_atual = 2019
ano_fabricacao = 2019

'''
Estrutura condicional que vamos 
aprender na próxima aula
'''
if (ano_atual == ano_fabricacao):   # Testando se condição é verdadeira
    print('Verdadeiro')
else:                               # Testando se condição é falsa
    print('Falso')

Verdadeiro


### Formatação de *strings*

### *f-Strings*

https://docs.python.org/3.6/reference/lexical_analysis.html#f-strings

In [None]:
val = 350.2323321342
print(f'O valor é {val:.2f}')

# f-string com limitação de casas decimais

O valor é 350.23


# <font color=green> 3. TRABALHANDO COM LISTAS
---

## 3.1 Criando listas

Listas são sequências **mutáveis** que são utilizadas para armazenar coleções de itens, geralmente homogêneos. Podem ser construídas de várias formas:
```
- Utilizando um par de colchetes: [ ], [ 1 ]
- Utilizando um par de colchetes com itens separados por vírgulas: [ 1, 2, 3 ]
```

In [None]:
# criando uma lista: elementos divididos por vírgula e contidos em um par de colchetes

Acessorios = ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva']
Acessorios

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

### Lista com tipos de dados variados

In [None]:
# duas listas com dados de tipos diversos, inclusive outras listas

Carro_1 = ['Jetta Variant', 'Motor 4.0 Turbo', 2003, 44410.0, False, ['Rodas de liga', 'Travas elétricas', 'Piloto automático'], 88078.64]
Carro_2 = ['Passat', 'Motor Diesel', 1991, 5712.0, False, ['Central multimídia', 'Teto panorâmico', 'Freios ABS'], 106161.94]

In [None]:
Carro_1

['Jetta Variant',
 'Motor 4.0 Turbo',
 2003,
 44410.0,
 False,
 ['Rodas de liga', 'Travas elétricas', 'Piloto automático'],
 88078.64]

In [None]:
Carro_1[5]

['Rodas de liga', 'Travas elétricas', 'Piloto automático']

In [None]:
Carros = [Carro_1, Carro_2]
Carros

[['Jetta Variant',
  'Motor 4.0 Turbo',
  2003,
  44410.0,
  False,
  ['Rodas de liga', 'Travas elétricas', 'Piloto automático'],
  88078.64],
 ['Passat',
  'Motor Diesel',
  1991,
  5712.0,
  False,
  ['Central multimídia', 'Teto panorâmico', 'Freios ABS'],
  106161.94]]

## 3.2 Operações com listas

https://docs.python.org/3.6/library/stdtypes.html#common-sequence-operations

### *x in A*

Retorna **True** se um elemento da lista *A* for igual a *x*.

In [None]:
Acessorios

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [None]:
'Ar condicionado' in Acessorios

True

In [None]:
'4x4' not in Acessorios

True

### *A + B*

Concatena as listas *A* e *B*.

In [None]:
A = ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro']
B = ['Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva']

In [None]:
C = A+B
C

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

### *len(A)*

Tamanho da lista A.

In [None]:
len(C)

8

## 3.3 Seleções em listas

### *A[ i ]*

Retorna o i-ésimo item da lista *A*.

<font color=red>**Observação:**</font> Listas têm indexação com origem no zero.

In [None]:
Acessorios

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [None]:
Carros

[['Jetta Variant',
  'Motor 4.0 Turbo',
  2003,
  44410.0,
  False,
  ['Rodas de liga', 'Travas elétricas', 'Piloto automático'],
  88078.64],
 ['Passat',
  'Motor Diesel',
  1991,
  5712.0,
  False,
  ['Central multimídia', 'Teto panorâmico', 'Freios ABS'],
  106161.94]]

In [None]:
Acessorios[-2]  ## penúltimo item

'Sensor crepuscular'

In [None]:
Carros[0]  ## o primeiro elemento da lista Carros é uma lista

['Jetta Variant',
 'Motor 4.0 Turbo',
 2003,
 44410.0,
 False,
 ['Rodas de liga', 'Travas elétricas', 'Piloto automático'],
 88078.64]

In [None]:
Carros[0][3]  ## 4º item do primeiro elemento da lista Carros

44410.0

In [None]:
Carros[0][-2][1]  ## Segundo item do peúltimo item do primeiro item de Carros

'Travas elétricas'

### *A[ i : j ]*

Recorta a lista *A* do índice i até o j. Neste fatiamento o elemento com índice i é **incluído** e o elemento com índice j **não é incluído** no resultado.

In [None]:
Acessorios[2:6]  ## itens 2-3-4-5

['Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento']

In [None]:
Acessorios[2:]  ## do item 2 pra frente

['Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [None]:
Acessorios[:2]

['Rodas de liga', 'Travas elétricas']

## 3.4 Métodos de listas

https://docs.python.org/3.6/library/stdtypes.html#mutable-sequence-types

### *A.sort()*

Ordena a lista *A*.

In [None]:
Acessorios.sort()
Acessorios

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Rodas de liga',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas']

### *A.append(x)*

Adiciona o elemnto *x* no final da lista *A*.

In [None]:
Acessorios.append('4 x 4')
Acessorios

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Rodas de liga',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas',
 '4 x 4']

### *A.pop(i)*

Remove e retorna o elemento de índice i da lista *A*.

<font color=red>**Observação:**</font> Por *default* o método *pop()* remove e retorna o último elemento de uma lista.

In [None]:
Acessorios.pop()  ## '4x4' foi removido da lista

'4 x 4'

In [None]:
Acessorios

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Rodas de liga',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas']

In [None]:
Acessorios.pop(3)  ## o item 3 ('Rodas de liga') foi removido da lista

'Rodas de liga'

### A.copy()

Cria uma cópia da lista *A*.

<font color=red>**Observação:**</font> O mesmo resultado pode ser obtido com o seguinte código: 
```
A[:]
```

In [None]:
Acessorios_2 = Acessorios
Acessorios_2   ## isso seria suficiente para copiar a lista Acessorios e deixá-la intacta, correto?

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas']

In [None]:
## e se eu modificar Acessorios_2?
Acessorios_2.append('4 x 4')
Acessorios_2

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas',
 '4 x 4']

In [None]:
## vamos ver se Acessorios segue intacto mesmo
Acessorios

## infelizmente não
## Acessorios_2 é só uma nova forma de acessar Acessorios
## ou seja, qualquer modificação em um afeta o outro, eles estão linkados

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas',
 '4 x 4']

In [None]:
## vamos apagar o '4 x 4' de Acessorios (e de Acessorios_2, por consequência)

Acessorios.pop()

'4 x 4'

In [None]:
## para copiar e criar uma lista independente, devemos usar copy()

Acessorios_2 = Acessorios.copy()  ## também pode ser feito com Acessorios_2 = Acessorios[:]
Acessorios_2

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas']

In [None]:
## vamos testar se é seguro modificar Acessorios_2

Acessorios_2.append('4 x 4')
Acessorios_2

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas',
 '4 x 4']

In [None]:
## como ficou o Acessorios?

Acessorios

# está intacto; as listas não estão linkadas

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas']

# <font color=green> 4. ESTRUTURAS DE REPETIÇÃO E CONDICIONAIS
---

## 4.1 Instrução *for*

#### Formato padrão

```
for <variável> in <coleção>:
    <instruções>
```

### Loops com listas

In [None]:
Acessorios = ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva']
Acessorios

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [None]:
for item in Acessorios:
  print(item)

Rodas de liga
Travas elétricas
Piloto automático
Bancos de couro
Ar condicionado
Sensor de estacionamento
Sensor crepuscular
Sensor de chuva


###  List comprehensions

https://docs.python.org/3.6/tutorial/datastructures.html#list-comprehensions

In [None]:
[item for item in Acessorios]

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

*range()* -> https://docs.python.org/3.6/library/functions.html#func-range

In [None]:
## o range() ajuda muito na hora de criar um for
## nos casos onde a quantidade de vezes que a função descrita no for é limitada e determinada, usar - for x in range(8) - limita o número de repetições
## nesse caso, serão 8 repetições no for, do 0 ao 7

list(range(8))

[0, 1, 2, 3, 4, 5, 6, 7]

In [None]:
quadrado = []  ## criando uma lista vazia

## vamos fazer um for para adicionar números ao quadrado numa lista

for i in range(10):
  quadrado.append(i**2)
quadrado

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

In [None]:
## fazendo o mesmo em uma linha de código

[i**2 for i in range(10)]  ## criando o for direto dentro da lista vazia

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

## 4.2 Loops aninhados

In [None]:
## uma lista com 3 listas dentro; cada lista representa um carro e cada elemento são os equipamentos presentes no carro

dados = [ 
    ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva'],
    ['Central multimídia', 'Teto panorâmico', 'Freios ABS', '4 X 4', 'Painel digital', 'Piloto automático', 'Bancos de couro', 'Câmera de estacionamento'],
    ['Piloto automático', 'Controle de estabilidade', 'Sensor crepuscular', 'Freios ABS', 'Câmbio automático', 'Bancos de couro', 'Central multimídia', 'Vidros elétricos']
]
dados

[['Rodas de liga',
  'Travas elétricas',
  'Piloto automático',
  'Bancos de couro',
  'Ar condicionado',
  'Sensor de estacionamento',
  'Sensor crepuscular',
  'Sensor de chuva'],
 ['Central multimídia',
  'Teto panorâmico',
  'Freios ABS',
  '4 X 4',
  'Painel digital',
  'Piloto automático',
  'Bancos de couro',
  'Câmera de estacionamento'],
 ['Piloto automático',
  'Controle de estabilidade',
  'Sensor crepuscular',
  'Freios ABS',
  'Câmbio automático',
  'Bancos de couro',
  'Central multimídia',
  'Vidros elétricos']]

In [None]:
for lista in dados:
  print(lista)

## vemos que o for varreu as três listas contidas em dados

['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva']
['Central multimídia', 'Teto panorâmico', 'Freios ABS', '4 X 4', 'Painel digital', 'Piloto automático', 'Bancos de couro', 'Câmera de estacionamento']
['Piloto automático', 'Controle de estabilidade', 'Sensor crepuscular', 'Freios ABS', 'Câmbio automático', 'Bancos de couro', 'Central multimídia', 'Vidros elétricos']


In [None]:
## podemos usar um for dentro de um for para acessar os itens dentro das listas contidas em dados

for lista in dados:
  for item in lista:
    print(item)

## agora o for varreu todos os itens de todas as listas contidas em dados

Rodas de liga
Travas elétricas
Piloto automático
Bancos de couro
Ar condicionado
Sensor de estacionamento
Sensor crepuscular
Sensor de chuva
Central multimídia
Teto panorâmico
Freios ABS
4 X 4
Painel digital
Piloto automático
Bancos de couro
Câmera de estacionamento
Piloto automático
Controle de estabilidade
Sensor crepuscular
Freios ABS
Câmbio automático
Bancos de couro
Central multimídia
Vidros elétricos


In [None]:
## vamos repetir o comando, mas usando o append para colocar todos os itens juntos em uma lista vazia

acessorios_carro = []

for lista in dados:
  for item in lista:
    acessorios_carro.append(item)

acessorios_carro

## agora todos os itens estão numa única lista

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Central multimídia',
 'Teto panorâmico',
 'Freios ABS',
 '4 X 4',
 'Painel digital',
 'Piloto automático',
 'Bancos de couro',
 'Câmera de estacionamento',
 'Piloto automático',
 'Controle de estabilidade',
 'Sensor crepuscular',
 'Freios ABS',
 'Câmbio automático',
 'Bancos de couro',
 'Central multimídia',
 'Vidros elétricos']

### *set()*

https://docs.python.org/3.6/library/stdtypes.html#types-set

https://docs.python.org/3.6/library/functions.html#func-set

In [None]:
## o comando set() serve para identificar os elementos únicos de uma lista; caso haja duplicatas na lista, elas serão excluídas

set(acessorios_carro)

{'4 X 4',
 'Ar condicionado',
 'Bancos de couro',
 'Central multimídia',
 'Controle de estabilidade',
 'Câmbio automático',
 'Câmera de estacionamento',
 'Freios ABS',
 'Painel digital',
 'Piloto automático',
 'Rodas de liga',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Teto panorâmico',
 'Travas elétricas',
 'Vidros elétricos'}

### List comprehensions

In [None]:
set([item for lista in dados for item in lista])

{'4 X 4',
 'Ar condicionado',
 'Bancos de couro',
 'Central multimídia',
 'Controle de estabilidade',
 'Câmbio automático',
 'Câmera de estacionamento',
 'Freios ABS',
 'Painel digital',
 'Piloto automático',
 'Rodas de liga',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Teto panorâmico',
 'Travas elétricas',
 'Vidros elétricos'}

## 4.3 Instrução *if*

#### Formato padrão

```
if <condição>:
     <instruções caso a condição seja verdadeira>
```

### Operadores de comparação: $==$, $!=$, $>$, $<$, $>=$, $<=$
### e
### Operadores lógicos: $and$, $or$, $not$

In [None]:
# 1º item da lista - Nome do veículo
# 2º item da lista - Ano de fabricação
# 3º item da lista - Veículo é zero km?

dados = [
    ['Jetta Variant', 2003, False],
    ['Passat', 1991, False],
    ['Crossfox', 1990, False],
    ['DS5', 2019, True],
    ['Aston Martin DB4', 2006, False],
    ['Palio Weekend', 2012, False],
    ['A5', 2019, True],
    ['Série 3 Cabrio', 2009, False],
    ['Dodge Jorney', 2019, False],
    ['Carens', 2011, False]
]
dados

[['Jetta Variant', 2003, False],
 ['Passat', 1991, False],
 ['Crossfox', 1990, False],
 ['DS5', 2019, True],
 ['Aston Martin DB4', 2006, False],
 ['Palio Weekend', 2012, False],
 ['A5', 2019, True],
 ['Série 3 Cabrio', 2009, False],
 ['Dodge Jorney', 2019, False],
 ['Carens', 2011, False]]

In [None]:
## vamos criar uma lista apenas com carros zero km (cujo último item é True)

zero_km_Y = []
zero_km_N = []

for lista in dados:
  if (lista[-1] == True): 
    zero_km_Y.append(lista)
  else:
    zero_km_N.append(lista)

zero_km_N

[['Jetta Variant', 2003, False],
 ['Passat', 1991, False],
 ['Crossfox', 1990, False],
 ['Aston Martin DB4', 2006, False],
 ['Palio Weekend', 2012, False],
 ['Série 3 Cabrio', 2009, False],
 ['Dodge Jorney', 2019, False],
 ['Carens', 2011, False]]

In [None]:
zero_km_Y

[['DS5', 2019, True], ['A5', 2019, True]]

### List comprehensions

In [None]:
## façamos a versão de list comprehension

[lista for lista in dados if lista[-1]==True]

## traduzindo: adicione as listas -> dentre as listas em dados -> caso lista[-1] seja True

[['DS5', 2019, True], ['A5', 2019, True]]

In [None]:
[lista for lista in dados if lista[-1]==False]

## traduzindo: adicione as listas -> dentre as listas em dados -> caso lista[-1] seja False

[['Jetta Variant', 2003, False],
 ['Passat', 1991, False],
 ['Crossfox', 1990, False],
 ['Aston Martin DB4', 2006, False],
 ['Palio Weekend', 2012, False],
 ['Série 3 Cabrio', 2009, False],
 ['Dodge Jorney', 2019, False],
 ['Carens', 2011, False]]

## 4.4 Instruções *if-else* e *if-elif-else*

#### Formato padrão

```
if <condição>:
    <instruções caso a condição seja verdadeira>
else:
    <instruções caso a condição não seja verdadeira>
```

#### Formato padrão

```
if <condição 1>:
    <instruções caso a condição 1 seja verdadeira>
elif <condição 2>:
    <instruções caso a condição 2 seja verdadeira>
elif <condição 3>:
    <instruções caso a condição 3 seja verdadeira>
                        .
                        .
                        .
else:
    <instruções caso as condições anteriores não sejam verdadeiras>
```

In [None]:
print('AND')
print(f'(True and True) o resultado é: {True and True}')
print(f'(True and False) o resultado é: {True and False}')
print(f'(False and True) o resultado é: {False and True}')
print(f'(False and False) o resultado é: {False and False}')

AND
(True and True) o resultado é: True
(True and False) o resultado é: False
(False and True) o resultado é: False
(False and False) o resultado é: False


In [None]:
print('OR')
print(f'(True or True) o resultado é: {True or True}')
print(f'(True or False) o resultado é: {True or False}')
print(f'(False or True) o resultado é: {False or True}')
print(f'(False or False) o resultado é: {False or False}')

OR
(True or True) o resultado é: True
(True or False) o resultado é: True
(False or True) o resultado é: True
(False or False) o resultado é: False


In [None]:
A,B,C=[],[],[]

for lista in dados:
  if lista[1]<=2000:    ## de 2000 pra trás
    A.append(lista)
  elif lista[1]>2000 and lista[1]<=2010:    ## entre 2001 e 2010
    B.append(lista)
  else:           ## depois de 2010
    C.append(lista)

In [None]:
C

[['DS5', 2019, True],
 ['Palio Weekend', 2012, False],
 ['A5', 2019, True],
 ['Dodge Jorney', 2019, False],
 ['Carens', 2011, False]]

# <font color=green> 5. NUMPY BÁSICO
---

Numpy é a abreviação de Numerical Python e é um dos pacotes mais importantes para processamento numérico em Python. Numpy oferece a base para a maioria dos pacotes de aplicações científicas que utilizem dados numéricos em Python (estruturas de dados e algoritmos). Pode-se destacar os seguintes recursos que o pacote Numpy contém:

- Um poderoso objeto array multidimensional;
- Funções matemáticas sofisticadas para operações com arrays sem a necessidade de utilização de laços *for*;
- Recursos de algebra linear e geração de números aleatórios

Além de seus óbvios usos científicos, o pacote NumPy também é muito utilizado em análise de dados como um eficiente contêiner multidimensional de dados genéricos para transporte entre diversos algoritmos e bibliotecas em Python.

**Versão:** 1.16.5

**Instalação:** https://scipy.org/install.html

**Documentação:** https://numpy.org/doc/1.16/

### Pacotes

Existem diversos pacotes Python disponíveis para download na internet. Cada pacote tem como objetivo a solução de determinado tipo de problema e para isso são desenvolvidos novos tipos, funções e métodos.

Alguns pacotes são bastante utilizados em um contexto de ciência de dados como por exemplo:

- Numpy
- Pandas
- Scikit-learn
- Matplotlib

Alguns pacotes não são distribuídos com a instalação default do Python. Neste caso devemos instalar os pacotes que necessitamos em nosso sistema para podermos utilizar suas funcionalidades.

### Importando todo o pacote

In [None]:
## importando o numpy

import numpy

https://numpy.org/doc/1.16/reference/generated/numpy.arange.html

In [None]:
## np.arange(n) cria diretamente uma ndarray (é tipo uma lista, mas é DIFERENTE) com os números de 0 a n-1
## diferente do range(n), que só cria um print se usar um for

type(numpy.arange(8))

numpy.ndarray

### Importando todo o pacote e atribuindo um novo nome 

In [None]:
# importando o numpy com um "apelido"

import numpy as np 

In [None]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### Importando parte do pacote

In [None]:
## se eu quiser importar apenas uma parte do numpy

from numpy import arange

In [None]:
arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
## e dá pra fazer operações com o array, ao contrário das listas

arange(10) * 3

array([ 0,  3,  6,  9, 12, 15, 18, 21, 24, 27])

## 5.1 Criando arrays Numpy

In [None]:
import numpy as np

### A partir de listas

https://numpy.org/doc/1.16/user/basics.creation.html

In [None]:
## posso criar arrays com base em listas

km = np.array([1000,2300,4987,1500])
km

array([1000, 2300, 4987, 1500])

In [None]:
type(km)

## note que é um numpy.ndarray, não uma lista

numpy.ndarray

In [None]:
## o conteúdo está armazenado como que tipo de dado?

km.dtype

## int64

dtype('int64')

https://numpy.org/doc/1.16/user/basics.types.html

### A partir de dados externos

https://numpy.org/doc/1.16/reference/generated/numpy.loadtxt.html

In [None]:
## podemos criar um array com base em dados de arquivos externos

km = np.loadtxt(fname = 'carros-km.txt', dtype=int)  ## por padrão, o tipo importado é float; para transformar em inteiro, dtype=int
km

array([ 44410,   5712,  37123,      0,  25757,  10728,      0,  77599,
        99197,  37978,  12859,   8052,  89773,      0,  41457, 115607,
        46449,      0,  37086,  15173, 101193,      0,  98079, 102959,
            0,      0,   5795,      0,  58848,  94381,  30163,  53332,
        17720,  33808,  90684,  43975,      0,      0,   5526,      0,
        93415,  40762,      0,  86302,      0,   9755,  69945,   2395,
            0,  80349,  85554,  50496,  67716,  93947,  35345,  81007,
       119513,      0,      0,      0,      0,      0, 118895,  48509,
       100912,  95649,      0,  90495,      0,  29132,  23802,  84992,
        54395,  26731,  44329, 118236, 113808,    610,      0,      0,
        12887,  79607,  90924,  42733,      0,      0, 117714, 113885,
            0,  30511,  74867, 119760,   8356,  64247,  88661,   4539,
       110116,  33215,  92001,      0,  81708,  70641,      0,  91277,
        26544,  52596,  47503,  89056,  28834, 110564,  56638,  17357,
      

In [None]:
km.dtype

dtype('int64')

### Arrays com duas dimensões

In [None]:
## vamos criar arrays de duas dimensões
## usaremos a lista 'dados'

dados = [ 
    ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva'],
    ['Central multimídia', 'Teto panorâmico', 'Freios ABS', '4 X 4', 'Painel digital', 'Piloto automático', 'Bancos de couro', 'Câmera de estacionamento'],
    ['Piloto automático', 'Controle de estabilidade', 'Sensor crepuscular', 'Freios ABS', 'Câmbio automático', 'Bancos de couro', 'Central multimídia', 'Vidros elétricos']
]
dados

[['Rodas de liga',
  'Travas elétricas',
  'Piloto automático',
  'Bancos de couro',
  'Ar condicionado',
  'Sensor de estacionamento',
  'Sensor crepuscular',
  'Sensor de chuva'],
 ['Central multimídia',
  'Teto panorâmico',
  'Freios ABS',
  '4 X 4',
  'Painel digital',
  'Piloto automático',
  'Bancos de couro',
  'Câmera de estacionamento'],
 ['Piloto automático',
  'Controle de estabilidade',
  'Sensor crepuscular',
  'Freios ABS',
  'Câmbio automático',
  'Bancos de couro',
  'Central multimídia',
  'Vidros elétricos']]

In [None]:
## transformando a lista 'dados' em um array de nome 'Acessorios'

Acessorios = np.array(dados)
Acessorios

array([['Rodas de liga', 'Travas elétricas', 'Piloto automático',
        'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento',
        'Sensor crepuscular', 'Sensor de chuva'],
       ['Central multimídia', 'Teto panorâmico', 'Freios ABS', '4 X 4',
        'Painel digital', 'Piloto automático', 'Bancos de couro',
        'Câmera de estacionamento'],
       ['Piloto automático', 'Controle de estabilidade',
        'Sensor crepuscular', 'Freios ABS', 'Câmbio automático',
        'Bancos de couro', 'Central multimídia', 'Vidros elétricos']],
      dtype='<U24')

In [None]:
## vamos verificar a dimensão do array km

km.shape

## 258 elementos em uma única dimensão

(258,)

In [None]:
## vejamos a dimensão do array Acessorios

Acessorios.shape

## 3 por 8, uma tupla que mostra que o array é bidimensional

(3, 8)

### Comparando desempenho com listas

In [None]:
## tá, mas por que usar arrays em vez de listas se os dois são tão parecidos?
## os arrays possuem um melhor desempenho em operações matemáticas quando comparados às listas
## vamos testar:

np_array = np.arange(1000000)  ## criando um array com um milhão de elementos

In [None]:
py_list = list(range(1000000))  ## criando uma lista com um milhão de elementos

In [None]:
## qual deles foi gerado mais rapidamente?

## vamos dobrar os valores 100 vezes
## no caso do array, o for não é necessário para dobrar os valores

%time for _ in range(100): np_array *= 2

CPU times: user 57.9 ms, sys: 0 ns, total: 57.9 ms
Wall time: 58.4 ms


In [None]:
%time for _ in range(100): np_array *= 2   

CPU times: user 60.2 ms, sys: 0 ns, total: 60.2 ms
Wall time: 61 ms


In [None]:
%time for _ in range(100): py_list = [x*2 for x in py_list]

## a diferença no desempenho é grande

CPU times: user 9.64 s, sys: 2.13 s, total: 11.8 s
Wall time: 11.8 s


## 5.2 Operações aritméticas com arrays Numpy

### Operações entre arrays e constantes

In [None]:
## operação com listas

km = [44410., 5712., 37123., 0., 25757.]  
anos = [2003, 1991, 1990, 2019, 2006]

In [None]:
idade = 2019 - anos

## isso não funciona para listas; é necessário criar um for para realizar essa operação

TypeError: ignored

In [None]:
## operação com arrays

km = np.array([44410., 5712., 37123., 0., 25757.])
anos = np.array([2003, 1991, 1990, 2019, 2006])

In [None]:
idade = 2019 - anos
idade

## arrays permitem operações com constantes; o resultado é outro array

array([16, 28, 29,  0, 13])

### Operações entre arrays

In [None]:
km_media = km / idade

## a operação funcionou, mas um dos elementos do array idade é igual a zero, gerando um valor NaN (not a number)

  """Entry point for launching an IPython kernel.


In [None]:
km_media

## o array resultado

array([2775.625     ,  204.        , 1280.10344828,           nan,
       1981.30769231])

### Operações com arrays de duas dimensões

In [None]:
## criando um array de duas dimensões
## uma dimensão é formada pela lista km; outra, pela lista anos

dados = np.array([km, anos])
dados

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

In [None]:
dados.shape

## duas linhas e cinco colunas no array bidimensional

(2, 5)

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

In [None]:
## dados[0] equivale ao primeiro elemento do array, que são as quilometragens
## dados [1] equivale ao segundo elemento do array, que são os anos dos carros

## para refazer a operação de km por ano:

km_media = dados[0]/(2019 - dados[1])
km_media

  


array([2775.625     ,  204.        , 1280.10344828,           nan,
       1981.30769231])

## 5.3 Seleções com arrays Numpy

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

![1410-img02.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img02.png)

### Indexação 

<font color=red>**Observação:**</font> A indexação tem origem no zero.

In [None]:
## vamos fazer um array de 0 a 9
## para isso, faremos um np.arange(10)  (é como se fosse um array + range)

contador = np.arange(10)
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
## para acessar os valores, o princípio é igual ao usado em listas

contador[0]  ## acessa o primeiro elemento do array

0

In [None]:
contador[-2]  ## acessa o penúltimo elemento do array

8

In [None]:
dados[0]  ## acessa o primeiro elemento do array (que é outro array)

array([44410.,  5712., 37123.,     0., 25757.])

In [None]:
dados[1][1]   ## acessa o segundo item do segundo elemento do array (como o primeiro elemento do array é um array, tudo bem)

1991.0

In [None]:
## outra forma de acessar dados num array bidimensional é usando um único colchete contendo os números de linha e de coluna desejados

dados[1,1]  ## segunda linha, segunda coluna do array dados

1991.0

### Fatiamentos
 
A sintaxe para realizar fatiamento em um array Numpy é $i : j : k$ onde $i$ é o índice inicial, $j$ é o índice de parada, e $k$ é o indicador de passo ($k\neq0$)
 
<font color=red>**Observação:**</font> Nos fatiamentos (*slices*) o item com índice i é **incluído** e o item com índice j **não é incluído** no resultado.

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

In [None]:
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
contador[1:4]  ## selecionando os valores 1, 2 e 3

array([1, 2, 3])

In [None]:
contador[1:9:2]  ## selecionando do 1 ao 8, com passo 2

array([1, 3, 5, 7])

In [None]:
contador[::2]  ## selecionando todos os números pares (note que eu coloquei só o passo, não há determinação de início e de fim)

array([0, 2, 4, 6, 8])

In [None]:
contador[1::2]  ## selecionando todos os números ímpares (só coloquei o valor inicial e o passo)

array([1, 3, 5, 7, 9])

In [None]:
dados[0, 1:3]  ## selecionando os dados 1 e 2 da primeira linha do array bidimensional

## outra opção: dados[0][1:3]

array([ 5712., 37123.])

In [None]:
dados[:, 1:4]  ## selecionando as colunas nºs 1, 2 e 3 das duas linhas do array bidimensional
               ## todas as linhas, colunas 1, 2 e 3

array([[ 5712., 37123.,     0.],
       [ 1991.,  1990.,  2019.]])

In [None]:
##### Importante notar que todas as respostas são outros arrays #####

In [None]:
dados[0, 1:3] / (2019 - dados[1, 1:3])  ## o cálculo de km por ano, mas apenas com os elementos 1 e 2

array([ 204.        , 1280.10344828])

### Indexação com array booleano

<font color=red>**Observação:**</font> Seleciona um grupo de linhas e colunas segundo os rótulos ou um array booleano.

In [None]:
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
contador > 5  ## array com o booleano correspondente

## 6, 7, 8 e 9 são verdadeiros

array([False, False, False, False, False, False,  True,  True,  True,
        True])

In [None]:
## pegando apenas os valores True

## array[condição] ---> array com os elementos que seguem a condição

contador[contador>5]

array([6, 7, 8, 9])

In [None]:
dados

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

In [None]:
## e se eu quiser calcular a km média apenas para os veículos fabricados após o ano 2000?

km_media = dados[0][dados[1] > 2000] / (2019 - dados[1][dados[1] > 2000])  ## array[condição] / (2019 - array[condição])
km_media

  This is separate from the ipykernel package so we can avoid doing imports until


array([2775.625     ,           nan, 1981.30769231])

In [None]:
## outra forma mais fácil: dados[:, dados[1]>2000]
  ## esses dois pontos servem para mostrar que eu quero todas as linhas; após a vírgula, eu coloco a condição para escolher as colunas


dados[:, dados[1]>2000]

array([[44410.,     0., 25757.],
       [ 2003.,  2019.,  2006.]])

In [None]:
dados[:, dados[1]>2000][0] / (2019 - dados[:, dados[1]>2000][1])

  """Entry point for launching an IPython kernel.


array([2775.625     ,           nan, 1981.30769231])

## 5.4 Atributos e métodos de arrays Numpy

### Atributos

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#array-attributes

### *ndarray.shape*

Retorna uma tupla com as dimensões do array.

In [None]:
dados.shape

(2, 5)

### *ndarray.ndim*

Retorna o número de dimensões do array.

In [None]:
dados.ndim

2

### *ndarray.size*

Retorna o número de elementos do array.

In [None]:
dados.size

10

### *ndarray.dtype*

Retorna o tipo de dados dos elementos do array.

In [None]:
dados.dtype

dtype('float64')

### *ndarray.T*

Retorna o array transposto, isto é, converte linhas em colunas e vice versa.

In [None]:
dados_T = dados.T
dados_T

array([[44410.,  2003.],
       [ 5712.,  1991.],
       [37123.,  1990.],
       [    0.,  2019.],
       [25757.,  2006.]])

### Métodos               (coisas com parênteses())

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#array-methods

### *ndarray.tolist()*

Retorna o array como uma lista Python.

In [None]:
dados.tolist()

[[44410.0, 5712.0, 37123.0, 0.0, 25757.0],
 [2003.0, 1991.0, 1990.0, 2019.0, 2006.0]]

### *ndarray.reshape(shape[, order])*

Retorna um array que contém os mesmos dados com uma nova forma.

In [None]:
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
contador.reshape(5,2)  ## redimensionando o array para 5 linhas e duas colunas, seguindo a ordem dos elementos no array original

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [None]:
km = [44410, 5712, 37123, 0, 25757]
anos = [2003, 1991, 1990, 2019, 2006]

In [None]:
info_carros = km + anos  ## concatenando as listas
info_carros

## não é muito intuitivo pra mexer, não tá bem separado

[44410, 5712, 37123, 0, 25757, 2003, 1991, 1990, 2019, 2006]

In [None]:
## podemos transformar essas duas listas em um array de duas dimensões

np.array(info_carros).reshape(2,5)

## agora nós temos um array dividido em duas partes, permitindo maior facilidade nas operações matemáticas

array([[44410,  5712, 37123,     0, 25757],
       [ 2003,  1991,  1990,  2019,  2006]])

### *ndarray.resize(new_shape[, refcheck])*

Altera a forma e o tamanho do array.

In [None]:
## criando uma cópia independente do array dados

dados_new = dados.copy()
dados_new

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

In [None]:
## o resize modifica o formato dos dados
## eu posso adicionar uma linha para esse array, por exemplo

dados_new.resize(3,5, refcheck=False)
dados_new

## tenho uma nova linha com zeros e eu posso colocar o que eu quiser aí (dentro do mesmo formato float)

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.],
       [    0.,     0.,     0.,     0.,     0.]])

In [None]:
## o que eu vou colocar?

dados_new[2] = dados_new[0] / (2019 - dados_new[1])
dados_new

  This is separate from the ipykernel package so we can avoid doing imports until


array([[44410.        ,  5712.        , 37123.        ,     0.        ,
        25757.        ],
       [ 2003.        ,  1991.        ,  1990.        ,  2019.        ,
         2006.        ],
       [ 2775.625     ,   204.        ,  1280.10344828,            nan,
         1981.30769231]])

## 5.5 Estatísticas com arrays Numpy

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#calculation

e

https://numpy.org/doc/1.16/reference/routines.statistics.html

e

https://numpy.org/doc/1.16/reference/routines.math.html

In [None]:
## vamos usar três dos arquivos txt upados para essa aula

anos = np.loadtxt(fname = "carros-anos.txt", dtype = int)
km = np.loadtxt(fname = "carros-km.txt")
valor = np.loadtxt(fname = "carros-valor.txt")

In [None]:
anos.shape

(258,)

https://numpy.org/doc/1.16/reference/generated/numpy.column_stack.html

In [None]:
## o comando column_stack transforma arrays unidimensionais em colunas de um array bidimensional
## column_stack((array1, array2, array3........))

dataset = np.column_stack((anos, km, valor))
dataset

array([[2.0030000e+03, 4.4410000e+04, 8.8078640e+04],
       [1.9910000e+03, 5.7120000e+03, 1.0616194e+05],
       [1.9900000e+03, 3.7123000e+04, 7.2832160e+04],
       [2.0190000e+03, 0.0000000e+00, 1.2454907e+05],
       [2.0060000e+03, 2.5757000e+04, 9.2612100e+04],
       [2.0120000e+03, 1.0728000e+04, 9.7497730e+04],
       [2.0190000e+03, 0.0000000e+00, 5.6445200e+04],
       [2.0090000e+03, 7.7599000e+04, 1.1231044e+05],
       [2.0100000e+03, 9.9197000e+04, 1.2071627e+05],
       [2.0110000e+03, 3.7978000e+04, 7.6566490e+04],
       [2.0020000e+03, 1.2859000e+04, 7.1647590e+04],
       [2.0070000e+03, 8.0520000e+03, 7.3919530e+04],
       [2.0010000e+03, 8.9773000e+04, 1.1273299e+05],
       [2.0190000e+03, 0.0000000e+00, 5.3183380e+04],
       [2.0090000e+03, 4.1457000e+04, 1.2748842e+05],
       [2.0160000e+03, 1.1560700e+05, 5.9910400e+04],
       [2.0120000e+03, 4.6449000e+04, 6.1118590e+04],
       [2.0190000e+03, 0.0000000e+00, 8.8552390e+04],
       [2.0160000e+03, 3.708

In [None]:
## qual o tamanho desse array?

dataset.shape

## 258 linhas e 3 colunas

(258, 3)

### *np.mean()*

Retorna a média dos elementos do array ao longo do eixo especificado.

In [None]:
np.mean(dataset)

## se eu fizer isso, o valor total será a média de TUDO que está dentro do array

48489.14648578811

In [None]:
## devemos colocar o parâmetro axis=0 para informar que a média a ser calculada usará os valores por coluna
## se fosse axis=1, a média seria calculada para cada linha

np.mean(dataset, axis=0)

array([ 2007.51162791, 44499.41472868, 98960.51310078])

In [None]:
## fazer a média da primeira coluna (anos) não faz sentido
## faremos um slice e usaremos apenas as duas últimas colunas do dataset

## para a coluna 1
np.mean(dataset[:, 1])

44499.41472868217

In [None]:
## para a coluna 2
np.mean(dataset[:, 2])

98960.51310077519

### *np.std()*

Retorna o desvio padrão dos elementos do array ao longo do eixo especificado.

In [None]:
## funciona da mesma forma que o np.mean()

np.std(dataset[:, 2])

29754.101150388564

### *ndarray.sum()*

Retorna a soma dos elementos do array ao longo do eixo especificado.

In [None]:
dataset.sum(axis=0)

array([  517938.        , 11480849.        , 25531812.37999999])

### *np.sum()*

Retorna a soma dos elementos do array ao longo do eixo especificado.

In [None]:
np.sum(dataset, axis=0)

## o somatório de cada uma das três colunas do array

array([  517938.        , 11480849.        , 25531812.37999999])

In [None]:
np.sum(dataset[:, 2])

25531812.38

In [None]:
np.sum(dataset[:, 1])

11480849.0