<a href="https://colab.research.google.com/github/jordanfalcao/data-analytics/blob/main/Python%20e%20Numpy/Python_Data_Science_Numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <font color=green> PYTHON PARA DATA SCIENCE - NUMPY
---

# <font color=green> 1. INTRODUÇÃO AO PYTHON
---

# 1.1 Introdução

> Python é uma linguagem de programação de alto nível com suporte a múltiplos paradigmas de programação. É um projeto *open source* e desde seu surgimento, em 1991, vem se tornando uma das linguagens de programação interpretadas mais populares. 
>
> Nos últimos anos Python desenvolveu uma comunidade ativa de processamento científico e análise de dados e vem se destacando como uma das linguagens mais relevantes quando o assunto é ciência de dados e machine learning, tanto no ambiente acadêmico como também no mercado.

# 1.2 Instalação e ambiente de desenvolvimento

### Instalação Local

### https://www.python.org/downloads/
### ou
### https://www.anaconda.com/distribution/

### Google Colaboratory

### https://colab.research.google.com

### Verificando versão

In [1]:
!python -V

Python 3.7.10


# 1.3 Trabalhando com arrays Numpy

In [2]:
import numpy as np

In [8]:
# lendo arquivo .txt com a biblioteca numpy
km = np.loadtxt('carros-km.txt')

In [None]:
km

In [9]:
# lendo arquivo .txt
anos = np.loadtxt('carros-anos.txt', dtype = int)

In [None]:
anos

### Obtendo a quilometragem média por ano

In [11]:
# média de km por ano
km_media = km / (2019 - anos)

  """Entry point for launching an IPython kernel.


In [None]:
# algumas vão dar errado, pois alguns carros foram fabricados em 2019: denominador = 0
km_media

In [13]:
# tipo da variável
type(km_media)

numpy.ndarray

# <font color=green> 2. CARACTERÍSTICAS BÁSICAS DA LINGUAGEM
---

# 2.1 Operações matemáticas

### Operadores aritméticos: $+$, $-$, $*$, $/$, $**$, $\%$, $//$

### Adição ($+$)

In [14]:
2 + 2

4

### Subtração ($-$)

In [15]:
3 - 2

1

### Multiplicação ($*$)

In [16]:
4 * 6

24

### Divisão ($/$) e ($//$)
A operação divisão sempre retorna um número de ponto flutuante

In [17]:
9 / 3

3.0

In [18]:
# apenas a parte inteira
10 // 3

3

### Exponenciação ($**$)

In [19]:
2 ** 4

16

### Resto da divisão ($\%$)

In [21]:
10 % 3

1

In [22]:
10 % 2

0

### Expressões matemáticas

In [23]:
# primeiro resolve multiplicação
5 * 2 + 3 * 2

16

In [24]:
(5 * 2) + (3 * 2)

16

In [25]:
5 * (2 + 3) * 2

50

### A variável _

No modo interativo, o último resultado impresso é atribuído à variável _

In [27]:
5 * 2

10

In [28]:
# armazena o último valor, no caso o 10 acima
_ + 3 * 2

16

In [29]:
# armazena o último valor, no caso o 16 acima
_ / 2

8.0

# 2.2 Variáveis 

### Nomes de variáveis

- Nomes de variáveis pode começar com letras (a - z, A - Z) ou o caractere *underscore* (_):

    > Altura
    >
    > _peso
    
- O restante do nome pode conter letras, números e o caractere "_":

    > nome_da_variavel
    >
    > _valor
    >
    > dia_28_11_
    

- O nomes são *case sensitive*:

    > Nome_Da_Variável $\ne$ nome_da_variavel $\ne$ NOME_DA_VARIAVEL
    
### <font color=red>Observações:
- Existem algumas palavras reservadas da linguagem que não podem ser utilizadas como nomes de variável:

| |Lista de palavras <br>reservadas em Python| |
|:-------------:|:------------:|:-------------:|
| and           | as           | not           | 
| assert        | finally      | or            | 
| break         | for          | pass          | 
| class         | from         | nonlocal      | 
| continue      | global       | raise         | 
| def           | if           | return        | 
| del           | import       | try           | 
| elif          | in           | while         | 
| else          | is           | with          | 
| except        | lambda       | yield         | 
| False         | True         | None          | 

### Declaração de variáveis

### Operadores de atribuição: $=$, $+=$, $-=$, $*=$, $/=$, $**=$, $\%=$, $//=$

In [34]:
ano_atual = 2019
ano_fabricacao = 2003
km_total = 44410.0

In [33]:
ano_atual

2019

In [35]:
ano_fabricacao

2003

In [36]:
km_total

44410.0

# $$km_{média} = \frac {km_{total}}{(Ano_{atual} - Ano_{fabricação})}$$

### Operações com variáveis

In [38]:
km_media = km_total / (ano_atual - ano_fabricacao)
km_media

2775.625

In [41]:
ano_atual = 2019
ano_fabricacao = 2003
km_total = 44410.0
km_media = km_total / (ano_atual - ano_fabricacao)
km_total

44410.0

In [42]:
ano_atual = 2019
ano_fabricacao = 2003
km_total = 44410.0
km_media = km_total / (ano_atual - ano_fabricacao)

km_total += km_media
km_total

47185.625

### Conclusão:
```
"valor = valor + 1" é equivalente a "valor += 1"
```

### Declaração múltipla

In [43]:
ano_atual, ano_fabricacao, km_total = 2019, 2003, 44410.0

In [44]:
ano_atual

2019

In [45]:
ano_fabricacao

2003

In [46]:
km_total

44410.0

In [47]:
ano_atual, ano_fabricacao, km_total = 2019, 2003, 44410.0
km_media = km_total / (ano_atual - ano_fabricacao)
km_media

2775.625

# 2.3 Tipos de dados

Os tipos de dados especificam como números e caracteres serão armazenados e manipulados dentro de um programa. Os tipos de dados básicos do Python são:

1. **Números**
    1. ***int*** - Inteiros
    - ***float*** - Ponto flutuante
- **Booleanos** - Assume os valores True ou False. Essencial quando começarmos a trabalhar com declarações condicionais
- ***Strings*** - Sequência de um ou mais caracteres que pode incluir letras, números e outros tipos de caracteres. Representa um texto.
- **None** - Representa a ausência de valor

### Números

In [48]:
ano_atual = 2019

In [49]:
type(ano_atual)

int

In [50]:
km_total = 44410.0

In [51]:
type(km_total)

float

### Booleanos

In [52]:
zero_km = True

In [53]:
type(zero_km)

bool

In [54]:
zero_km = False

In [55]:
type(zero_km)

bool

### Strings

In [56]:
nome = 'Jetta Variant'
nome

'Jetta Variant'

In [57]:
nome = "Jetta Variant"
nome

'Jetta Variant'

In [58]:
nome = 'Jetta "Variant"'
nome

'Jetta "Variant"'

In [59]:
nome = "Jetta 'Variant'"
nome

"Jetta 'Variant'"

In [60]:
carro = '''
  Nome
  Idade
  Nota
'''

In [62]:
type(carro)

str

### None

In [63]:
quilometragem = None
quilometragem

In [64]:
type(quilometragem)

NoneType

# 2.4 Conversão de tipos

In [65]:
 a = 10
 b = 20
 c = 'Python é '
 d = 'legal'

In [66]:
type(a)

int

In [67]:
type(b)

int

In [68]:
type(c)

str

In [69]:
type(d)

str

In [70]:
a + b

30

In [71]:
c + d

'Python é legal'

In [None]:
# dá erro, pois temos que converter em string
# c + a

### Conversões de tipo

Funções int(), float(), str()

In [73]:
str(a)

'10'

In [74]:
type(str(a))

str

In [75]:
c + str(a)

'Python é 10'

In [76]:
float(a)

10.0

In [77]:
var = 3.141592

In [78]:
type(var)

float

In [79]:
int(var)

3

In [80]:
var = 3.99

In [81]:
int(var)

3

# 2.5 Indentação, comentários e formatação de *strings*

### Indentação

Na linguagem Python os programas são estruturados por meio de indentação. Em qualquer linguagem de programação a prática da indentação é bastante útil, facilitando a leitura e também a manutenção do código. Em Python a indentação não é somente uma questão de organização e estilo, mas sim um requisito da linguagem.

In [82]:
ano_atual = 2019
ano_fabricacao = 2019

if (ano_atual == ano_fabricacao):
    print('Verdadeiro')
else:
    print('Falso')

Verdadeiro


### Comentários

Comentários são extremamente importantes em um programa. Consiste em um texto que descreve o que o programa ou uma parte específica do programa está fazendo. Os comentários são ignorados pelo interpretador Python. 

Podemos ter comentários de uma única linha ou de múltiplas linhas.

In [None]:
# Isto é um comentário
ano_atual = 2019
ano_atual

In [None]:
# Isto
# é um 
# comentário
ano_atual = 2019
ano_atual

In [None]:
'''Isto é um
comentário'''
ano_atual = 2019
ano_atual

In [83]:
# Definindo variáveis
ano_atual = 2019
ano_fabricacao = 2019

'''
Estrutura condicional que vamos 
aprender na próxima aula
'''
if (ano_atual == ano_fabricacao):   # Testando se condição é verdadeira
    print('Verdadeiro')
else:                               # Testando se condição é falsa
    print('Falso')

Verdadeiro


### Formatação de *strings*

## *str % valor*
https://docs.python.org/3.6/library/stdtypes.html#old-string-formatting

## *str.format()*

https://docs.python.org/3.6/library/stdtypes.html#str.format

In [84]:
print('Olá, {}!'.format('Jordan'))

Olá, Jordan!


In [85]:
print('Olá, {}! Este é seu acesso de número {}'.format('Jordan', 32))

Olá, Jordan! Este é seu acesso de número 32


In [86]:
print('Olá, {nome}! Este é seu acesso de número {acessos}'.format(nome = 'Jordan', acessos = 32))

Olá, Jordan! Este é seu acesso de número 32


## *f-Strings*

https://docs.python.org/3.6/reference/lexical_analysis.html#f-strings

In [87]:
nome = 'Jordan'
acessos = 32

In [88]:
# colocando o f antes do '', ele chama as variáveis
print(f'Olá, {nome}! Este é seu acesso de número {acessos}')

Olá, Jordan! Este é seu acesso de número 32


# <font color=green> 3. TRABALHANDO COM LISTAS
---

# 3.1 Criando listas

Listas são sequências **mutáveis** que são utilizadas para armazenar coleções de itens, geralmente homogêneos. Podem ser construídas de várias formas:
```
- Utilizando um par de colchetes: [ ], [ 1 ]
- Utilizando um par de colchetes com itens separados por vírgulas: [ 1, 2, 3 ]
```

In [143]:
Acessorios = ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva']
Acessorios

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [90]:
type(Acessorios)

list

### Lista com tipos de dados variados

In [91]:
Carro_1 = ['Jetta Variant', 'Motor 4.0 Turbo', 2003, 44410.0, False, ['Rodas de liga', 'Travas elétricas', 'Piloto automático'], 88078.64]
Carro_2 = ['Passat', 'Motor Diesel', 1991, 5712.0, False, ['Central multimídia', 'Teto panorâmico', 'Freios ABS'], 106161.94]

In [92]:
Carro_1

['Jetta Variant',
 'Motor 4.0 Turbo',
 2003,
 44410.0,
 False,
 ['Rodas de liga', 'Travas elétricas', 'Piloto automático'],
 88078.64]

In [93]:
Carro_2

['Passat',
 'Motor Diesel',
 1991,
 5712.0,
 False,
 ['Central multimídia', 'Teto panorâmico', 'Freios ABS'],
 106161.94]

In [94]:
Carros = [Carro_1, Carro_2]
Carros

[['Jetta Variant',
  'Motor 4.0 Turbo',
  2003,
  44410.0,
  False,
  ['Rodas de liga', 'Travas elétricas', 'Piloto automático'],
  88078.64],
 ['Passat',
  'Motor Diesel',
  1991,
  5712.0,
  False,
  ['Central multimídia', 'Teto panorâmico', 'Freios ABS'],
  106161.94]]

# 3.2 Operações com listas

https://docs.python.org/3.6/library/stdtypes.html#common-sequence-operations

## *x in A*

Retorna **True** se um elemento da lista *A* for igual a *x*.

In [95]:
Acessorios

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [96]:
'Rodas de liga' in Acessorios

True

In [97]:
'4 x 4' in Acessorios

False

In [98]:
'Rodas de liga' not in Acessorios

False

In [99]:
'4 x 4' not in Acessorios

True

## *A + B*

Concatena as listas *A* e *B*.

In [100]:
A = ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro']
B = ['Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva']

In [101]:
A

['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro']

In [102]:
B

['Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [103]:
# concatena
A + B

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

## *len(A)*

Tamanho da lista A.

In [104]:
# tamanho
len(Acessorios)

8

# 3.3 Seleções em listas

## *A[ i ]*

Retorna o i-ésimo item da lista *A*.

<font color=red>**Observação:**</font> Listas têm indexação com origem no zero.

In [105]:
Acessorios

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [106]:
Acessorios[0]

'Rodas de liga'

In [107]:
Acessorios[1]

'Travas elétricas'

In [108]:
# último item da lista
Acessorios[-1]

'Sensor de chuva'

In [109]:
Carros

[['Jetta Variant',
  'Motor 4.0 Turbo',
  2003,
  44410.0,
  False,
  ['Rodas de liga', 'Travas elétricas', 'Piloto automático'],
  88078.64],
 ['Passat',
  'Motor Diesel',
  1991,
  5712.0,
  False,
  ['Central multimídia', 'Teto panorâmico', 'Freios ABS'],
  106161.94]]

In [110]:
Carros[0]

['Jetta Variant',
 'Motor 4.0 Turbo',
 2003,
 44410.0,
 False,
 ['Rodas de liga', 'Travas elétricas', 'Piloto automático'],
 88078.64]

In [112]:
# acessando uma lista dentro da lista
Carros[0][0]

'Jetta Variant'

In [114]:
# acessando uma lista dentro de uma lista dentro de outra lista
Carros[0][-2][1]

'Travas elétricas'

## *A[ i : j ]*

Recorta a lista *A* do índice i até o j. Neste fatiamento o elemento com índice i é **incluído** e o elemento com índice j **não é incluído** no resultado.

In [115]:
Acessorios

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [116]:
Acessorios[2:6]

['Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento']

In [117]:
# até o final
Acessorios[2:]

['Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [118]:
# a partir do início
Acessorios[:5]

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado']

# 3.4 Métodos de listas

https://docs.python.org/3.6/library/stdtypes.html#mutable-sequence-types

## *A.sort()*

Ordena a lista *A*.

In [119]:
Acessorios

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [144]:
Acessorios.sort()
Acessorios

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Rodas de liga',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas']

## *A.append(x)*

Adiciona o elemnto *x* no final da lista *A*.

In [122]:
Acessorios.append('4 X 4')
Acessorios

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Rodas de liga',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas',
 '4 X 4']

## *A.pop(i)*

Remove e retorna o elemento de índice i da lista *A*.

<font color=red>**Observação:**</font> Por *default* o método *pop()* remove e retorna o último elemento de uma lista.

In [123]:
Acessorios.pop()

'4 X 4'

In [124]:
Acessorios

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Rodas de liga',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas']

In [125]:
Acessorios.pop(3)

'Rodas de liga'

In [126]:
Acessorios

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas']

## *A.copy()*

Cria uma cópia da lista *A*.

<font color=red>**Observação:**</font> O mesmo resultado pode ser obtido com o seguinte código: 
```
A[:]
```

In [145]:
Acessorios_2 = Acessorios
Acessorios_2

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Rodas de liga',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas']

In [146]:
Acessorios_2.append('4 X 4')
Acessorios_2

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Rodas de liga',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas',
 '4 X 4']

In [147]:
# também modificou Acessorios
Acessorios

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Rodas de liga',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas',
 '4 X 4']

In [148]:
Acessorios.pop()
Acessorios

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Rodas de liga',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas']

In [149]:
# também modificou
Acessorios_2

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Rodas de liga',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas']

In [150]:
# copiamos e agora podemos alterar uma variável sem modificar a outra
Acessorios_2 = Acessorios.copy()
Acessorios_2

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Rodas de liga',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas']

In [151]:
Acessorios_2.append('4 X 4')
Acessorios_2

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Rodas de liga',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas',
 '4 X 4']

In [152]:
# agora não modifica, pois demos um copy()
Acessorios

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Rodas de liga',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas']

In [153]:
# também copia desta forma abaixo, igual ao .copy()
Acessorios_2 = Acessorios[:]
Acessorios_2

['Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Rodas de liga',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Sensor de estacionamento',
 'Travas elétricas']

# <font color=green> 4. ESTRUTURAS DE REPETIÇÃO E CONDICIONAIS
---

# 4.1 Instrução *for*

#### Formato padrão

```
for <variável> in <coleção>:
    <instruções>
```

### Loops com listas

In [155]:
Acessorios = ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva']
Acessorios

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [156]:
for item in Acessorios:
  print(item)

Rodas de liga
Travas elétricas
Piloto automático
Bancos de couro
Ar condicionado
Sensor de estacionamento
Sensor crepuscular
Sensor de chuva


###  List comprehensions

https://docs.python.org/3.6/tutorial/datastructures.html#list-comprehensions

*range()* -> https://docs.python.org/3.6/library/functions.html#func-range

In [157]:
#tamanho 10
range(10)

range(0, 10)

In [159]:
# começa do 0 e tem tamanhp 10
list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [160]:
# loop de 0 a 9
for i in range(10):
  print(i**2)

0
1
4
9
16
25
36
49
64
81


In [161]:
# adicionando elementos dentro da lista quadrado
quadrado = []
for i in range(10):
  quadrado.append(i**2)

quadrado

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

In [172]:
# outra forma de construir a mesma lista acima: list comprehensions
[i ** 2 for i in range(10)]

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

# 4.2 Loops aninhados

In [164]:
dados = [ 
    ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva'],
    ['Central multimídia', 'Teto panorâmico', 'Freios ABS', '4 X 4', 'Painel digital', 'Piloto automático', 'Bancos de couro', 'Câmera de estacionamento'],
    ['Piloto automático', 'Controle de estabilidade', 'Sensor crepuscular', 'Freios ABS', 'Câmbio automático', 'Bancos de couro', 'Central multimídia', 'Vidros elétricos']
]
dados

[['Rodas de liga',
  'Travas elétricas',
  'Piloto automático',
  'Bancos de couro',
  'Ar condicionado',
  'Sensor de estacionamento',
  'Sensor crepuscular',
  'Sensor de chuva'],
 ['Central multimídia',
  'Teto panorâmico',
  'Freios ABS',
  '4 X 4',
  'Painel digital',
  'Piloto automático',
  'Bancos de couro',
  'Câmera de estacionamento'],
 ['Piloto automático',
  'Controle de estabilidade',
  'Sensor crepuscular',
  'Freios ABS',
  'Câmbio automático',
  'Bancos de couro',
  'Central multimídia',
  'Vidros elétricos']]

In [165]:
# apenas o laço externo
for lista in dados:
  print(lista)

['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva']
['Central multimídia', 'Teto panorâmico', 'Freios ABS', '4 X 4', 'Painel digital', 'Piloto automático', 'Bancos de couro', 'Câmera de estacionamento']
['Piloto automático', 'Controle de estabilidade', 'Sensor crepuscular', 'Freios ABS', 'Câmbio automático', 'Bancos de couro', 'Central multimídia', 'Vidros elétricos']


In [167]:
# percorre todos os itens
for lista in dados:
  for item in lista:
    print(item)

Rodas de liga
Travas elétricas
Piloto automático
Bancos de couro
Ar condicionado
Sensor de estacionamento
Sensor crepuscular
Sensor de chuva
Central multimídia
Teto panorâmico
Freios ABS
4 X 4
Painel digital
Piloto automático
Bancos de couro
Câmera de estacionamento
Piloto automático
Controle de estabilidade
Sensor crepuscular
Freios ABS
Câmbio automático
Bancos de couro
Central multimídia
Vidros elétricos


In [168]:
# criando uma lista com todos elementos de dados
Acessorios = []

for lista in dados:
  for item in lista:
    Acessorios.append(item)

Acessorios

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Central multimídia',
 'Teto panorâmico',
 'Freios ABS',
 '4 X 4',
 'Painel digital',
 'Piloto automático',
 'Bancos de couro',
 'Câmera de estacionamento',
 'Piloto automático',
 'Controle de estabilidade',
 'Sensor crepuscular',
 'Freios ABS',
 'Câmbio automático',
 'Bancos de couro',
 'Central multimídia',
 'Vidros elétricos']

## *set()*

https://docs.python.org/3.6/library/stdtypes.html#types-set

https://docs.python.org/3.6/library/functions.html#func-set

In [170]:
# lista não ordenada, remove duplicatas (conjuntos)
list(set(Acessorios))

['Controle de estabilidade',
 'Vidros elétricos',
 'Travas elétricas',
 'Teto panorâmico',
 'Câmbio automático',
 'Ar condicionado',
 'Freios ABS',
 'Sensor de estacionamento',
 'Central multimídia',
 'Câmera de estacionamento',
 'Rodas de liga',
 'Sensor de chuva',
 '4 X 4',
 'Piloto automático',
 'Bancos de couro',
 'Sensor crepuscular',
 'Painel digital']

### List comprehensions

In [174]:
# loop aninhado em forma de list comprehensions, de fora para dentro
[item for lista in dados for item in lista]

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva',
 'Central multimídia',
 'Teto panorâmico',
 'Freios ABS',
 '4 X 4',
 'Painel digital',
 'Piloto automático',
 'Bancos de couro',
 'Câmera de estacionamento',
 'Piloto automático',
 'Controle de estabilidade',
 'Sensor crepuscular',
 'Freios ABS',
 'Câmbio automático',
 'Bancos de couro',
 'Central multimídia',
 'Vidros elétricos']

In [178]:
# removendo duplicatas do aninhamento de for e transformando numa lista
list(set([item for lista in dados for item in lista]))

['Controle de estabilidade',
 'Vidros elétricos',
 'Travas elétricas',
 'Teto panorâmico',
 'Câmbio automático',
 'Ar condicionado',
 'Freios ABS',
 'Sensor de estacionamento',
 'Central multimídia',
 'Câmera de estacionamento',
 'Rodas de liga',
 'Sensor de chuva',
 '4 X 4',
 'Piloto automático',
 'Bancos de couro',
 'Sensor crepuscular',
 'Painel digital']

# 4.3 Instrução *if*

#### Formato padrão

```
if <condição>:
     <instruções caso a condição seja verdadeira>
```

### Operadores de comparação: $==$, $!=$, $>$, $<$, $>=$, $<=$
### e
### Operadores lógicos: $and$, $or$, $not$

In [179]:
# 1º item da lista - Nome do veículo
# 2º item da lista - Ano de fabricação
# 3º item da lista - Veículo é zero km?

dados = [
    ['Jetta Variant', 2003, False],
    ['Passat', 1991, False],
    ['Crossfox', 1990, False],
    ['DS5', 2019, True],
    ['Aston Martin DB4', 2006, False],
    ['Palio Weekend', 2012, False],
    ['A5', 2019, True],
    ['Série 3 Cabrio', 2009, False],
    ['Dodge Jorney', 2019, False],
    ['Carens', 2011, False]
]
dados

[['Jetta Variant', 2003, False],
 ['Passat', 1991, False],
 ['Crossfox', 1990, False],
 ['DS5', 2019, True],
 ['Aston Martin DB4', 2006, False],
 ['Palio Weekend', 2012, False],
 ['A5', 2019, True],
 ['Série 3 Cabrio', 2009, False],
 ['Dodge Jorney', 2019, False],
 ['Carens', 2011, False]]

In [184]:
# adicionar a uma lista e imprimir apenas se o veículo for 0 km
zero_km_y = []

for lista in dados:
  if (lista[2] == True):
    zero_km_y.append(lista)

zero_km_y

[['DS5', 2019, True], ['A5', 2019, True]]

In [185]:
# adicionar a uma lista e imprimir apenas se o veículo NÃO for 0 km
zero_km_n = []

for lista in dados:
  if (lista[2] == False):
    zero_km_n.append(lista)

zero_km_n

[['Jetta Variant', 2003, False],
 ['Passat', 1991, False],
 ['Crossfox', 1990, False],
 ['Aston Martin DB4', 2006, False],
 ['Palio Weekend', 2012, False],
 ['Série 3 Cabrio', 2009, False],
 ['Dodge Jorney', 2019, False],
 ['Carens', 2011, False]]

### List comprehensions

In [189]:
# mesmo exemplo acima com list comprehensions
[lista for lista in dados if lista[2] == True]

[['DS5', 2019, True], ['A5', 2019, True]]

# 4.4 Instruções *if-else* e *if-elif-else*

#### Formato padrão

```
if <condição>:
    <instruções caso a condição seja verdadeira>
else:
    <instruções caso a condição não seja verdadeira>
```

In [192]:
# se for zero km, add a zero_km_y, caso contrário, add a zero_km_n
zero_km_y, zero_km_n = [], []

for lista in dados:
  if (lista[2] == True):
    zero_km_y.append(lista)
  else:
    zero_km_n.append(lista)

In [193]:
# imprime os 0 km
zero_km_y

[['DS5', 2019, True], ['A5', 2019, True]]

In [195]:
# imprime os usados
zero_km_n

[['Jetta Variant', 2003, False],
 ['Passat', 1991, False],
 ['Crossfox', 1990, False],
 ['Aston Martin DB4', 2006, False],
 ['Palio Weekend', 2012, False],
 ['Série 3 Cabrio', 2009, False],
 ['Dodge Jorney', 2019, False],
 ['Carens', 2011, False]]

#### Formato padrão

```
if <condição 1>:
    <instruções caso a condição 1 seja verdadeira>
elif <condição 2>:
    <instruções caso a condição 2 seja verdadeira>
elif <condição 3>:
    <instruções caso a condição 3 seja verdadeira>
                        .
                        .
                        .
else:
    <instruções caso as condições anteriores não sejam verdadeiras>
```

In [190]:
print('AND')
print(f'(True and True) o resultado é: {True and True}')
print(f'(True and False) o resultado é: {True and False}')
print(f'(False and True) o resultado é: {False and True}')
print(f'(False and False) o resultado é: {False and False}')

AND
(True and True) o resultado é: True
(True and False) o resultado é: False
(False and True) o resultado é: False
(False and False) o resultado é: False


In [191]:
print('OR')
print(f'(True or True) o resultado é: {True or True}')
print(f'(True or False) o resultado é: {True or False}')
print(f'(False or True) o resultado é: {False or True}')
print(f'(False or False) o resultado é: {False or False}')

OR
(True or True) o resultado é: True
(True or False) o resultado é: True
(False or True) o resultado é: True
(False or False) o resultado é: False


In [198]:
# se for menor ou igual a 2000: lista a; entre 2001 e 2010: b; senão, lista c:
a, b, c = [], [], []

for lista in dados:
  if lista[1] <= 2000:
    a.append(lista)
  elif lista[1] > 2000 and lista[1] <= 2010:
    b.append(lista)
  else:
    c.append(lista)

In [211]:
a

[['Passat', 1991, False], ['Crossfox', 1990, False]]

In [212]:
b

[['Jetta Variant', 2003, False],
 ['Aston Martin DB4', 2006, False],
 ['Série 3 Cabrio', 2009, False]]

In [213]:
c

[['DS5', 2019, True],
 ['Palio Weekend', 2012, False],
 ['A5', 2019, True],
 ['Dodge Jorney', 2019, False],
 ['Carens', 2011, False]]

In [210]:
# Python permite expressão no meio do intervalo
a, b, c = [], [], []

for lista in dados:
  if lista[1] <= 2000:
    a.append(lista)
  elif (2000 < lista[1] <= 2010):  # Python aceita que o termo fique no meio do intervalo
    b.append(lista)
  else:
    c.append(lista)

# <font color=green> 5. NUMPY BÁSICO
---

Numpy é a abreviação de Numerical Python e é um dos pacotes mais importantes para processamento numérico em Python. Numpy oferece a base para a maioria dos pacotes de aplicações científicas que utilizem dados numéricos em Python (estruturas de dados e algoritmos). Pode-se destacar os seguintes recursos que o pacote Numpy contém:

- Um poderoso objeto array multidimensional;
- Funções matemáticas sofisticadas para operações com arrays sem a necessidade de utilização de laços *for*;
- Recursos de algebra linear e geração de números aleatórios

Além de seus óbvios usos científicos, o pacote NumPy também é muito utilizado em análise de dados como um eficiente contêiner multidimensional de dados genéricos para transporte entre diversos algoritmos e bibliotecas em Python.

**Versão:** 1.16.5

**Instalação:** https://scipy.org/install.html

**Documentação:** https://numpy.org/doc/1.16/

### Pacotes

Existem diversos pacotes Python disponíveis para download na internet. Cada pacote tem como objetivo a solução de determinado tipo de problema e para isso são desenvolvidos novos tipos, funções e métodos.

Alguns pacotes são bastante utilizados em um contexto de ciência de dados como por exemplo:

- Numpy
- Pandas
- Scikit-learn
- Matplotlib

Alguns pacotes não são distribuídos com a instalação default do Python. Neste caso devemos instalar os pacotes que necessitamos em nosso sistema para podermos utilizar suas funcionalidades.

### Importando todo o pacote

In [214]:
import numpy

https://numpy.org/doc/1.16/reference/generated/numpy.arange.html

In [215]:
# chamando o método .arange do numpy - parecido com o range()
numpy.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### Importando todo o pacote e atribuindo um novo nome 

In [216]:
# dando um apelido à biblioteca
import numpy as np

In [218]:
# podemos usar o apelido para chamar os métodos da biblioteca
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### Importando parte do pacote

In [219]:
# importando apenas uma função da biblioteca
from numpy import arange

In [220]:
# dessa maneira, podemos usar a função diretamente
arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

# 5.1 Criando arrays Numpy

In [221]:
import numpy as np


### A partir de listas

https://numpy.org/doc/1.16/user/basics.creation.html

In [222]:
km = np.array([1000, 2500, 2335, 6431])

In [223]:
km

array([1000, 2500, 2335, 6431])

In [225]:
type(km)

numpy.ndarray

https://numpy.org/doc/1.16/user/basics.types.html

In [226]:
# o tipo de variável dos dados
km.dtype

dtype('int64')

### A partir de dados externos

https://numpy.org/doc/1.16/reference/generated/numpy.loadtxt.html

In [227]:
# passamos o tipo dos dados, pois o default é float
km = np.loadtxt(fname = 'carros-km.txt', dtype=int)

In [None]:
km

In [229]:
km.dtype

dtype('int64')

### Arrays com duas dimensões

In [232]:
dados = [ 
    ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva'],
    ['Central multimídia', 'Teto panorâmico', 'Freios ABS', '4 X 4', 'Painel digital', 'Piloto automático', 'Bancos de couro', 'Câmera de estacionamento'],
    ['Piloto automático', 'Controle de estabilidade', 'Sensor crepuscular', 'Freios ABS', 'Câmbio automático', 'Bancos de couro', 'Central multimídia', 'Vidros elétricos']
]
dados

[['Rodas de liga',
  'Travas elétricas',
  'Piloto automático',
  'Bancos de couro',
  'Ar condicionado',
  'Sensor de estacionamento',
  'Sensor crepuscular',
  'Sensor de chuva'],
 ['Central multimídia',
  'Teto panorâmico',
  'Freios ABS',
  '4 X 4',
  'Painel digital',
  'Piloto automático',
  'Bancos de couro',
  'Câmera de estacionamento'],
 ['Piloto automático',
  'Controle de estabilidade',
  'Sensor crepuscular',
  'Freios ABS',
  'Câmbio automático',
  'Bancos de couro',
  'Central multimídia',
  'Vidros elétricos']]

In [233]:
acessorios = np.array(dados)

In [234]:
acessorios

array([['Rodas de liga', 'Travas elétricas', 'Piloto automático',
        'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento',
        'Sensor crepuscular', 'Sensor de chuva'],
       ['Central multimídia', 'Teto panorâmico', 'Freios ABS', '4 X 4',
        'Painel digital', 'Piloto automático', 'Bancos de couro',
        'Câmera de estacionamento'],
       ['Piloto automático', 'Controle de estabilidade',
        'Sensor crepuscular', 'Freios ABS', 'Câmbio automático',
        'Bancos de couro', 'Central multimídia', 'Vidros elétricos']],
      dtype='<U24')

In [235]:
# .shape mostra lilnhas e colunas de um dataframe
km.shape

(258,)

In [236]:
acessorios.shape

(3, 8)

### Comparando desempenho com listas

In [237]:
# com .arange
np_array = np.arange(1000000)


In [238]:
py_list = list(range(1000000))

In [239]:
# teste de tempo de execução
# com numpy a vantagem de tempo é significativa
%time for _ in range(100): np_array *= 2 # com np.arange não precisa do for

CPU times: user 74.7 ms, sys: 61 µs, total: 74.7 ms
Wall time: 80 ms


In [240]:
# teste de tempo de execução
%time for _ in range(100): py_list = [x * 2 for x in py_list] #com list precisamos de um for

CPU times: user 10.2 s, sys: 2.97 s, total: 13.2 s
Wall time: 13.2 s


# 5.2 Operações aritméticas com arrays Numpy

### Operações entre arrays e constantes

In [241]:
km = [44410., 5712., 37123., 0., 25757.]
anos = [2003, 1991, 1990, 2019, 2006]

In [246]:
# lista de python não permite opeção com constante e array
# idade = 2021 - anos

In [248]:
km = np.array([44410., 5712., 37123., 0., 25757.])
anos = np.array([2003, 1991, 1990, 2021, 2006])

In [249]:
# numpy permite que se faça operação com constantes e arrays
idade = 2021 - anos

In [250]:
idade

array([18, 30, 31,  0, 15])

### Operações entre arrays

In [251]:
# executa as operações index por index
km_media = km / idade

  """Entry point for launching an IPython kernel.


In [252]:
# aparece um 'not a number' nan, pela divisor = 0 em idade
km_media 

array([2467.22222222,  190.4       , 1197.51612903,           nan,
       1717.13333333])

In [253]:
# exemplo do cálculo, mesmo resultado
44410 / (2021 - 2003)

2467.222222222222

### Operações com arrays de duas dimensões

In [254]:
dados = np.array([km, anos])

In [255]:
dados

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2021.,  2006.]])

In [256]:
dados.shape

(2, 5)

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

In [257]:
dados[0]

array([44410.,  5712., 37123.,     0., 25757.])

In [258]:
dados[1]

array([2003., 1991., 1990., 2021., 2006.])

In [259]:
km_media = dados[0] / (2021 - dados[1])

  """Entry point for launching an IPython kernel.


In [260]:
km_media

array([2467.22222222,  190.4       , 1197.51612903,           nan,
       1717.13333333])

# 5.3 Seleções com arrays Numpy

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

In [261]:
dados

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2021.,  2006.]])

![1410-img02.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img02.png)

### Indexação 

<font color=red>**Observação:**</font> A indexação tem origem no zero.

In [262]:
contador = np.arange(10)
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [263]:
contador[0]

0

In [264]:
# lista começa do 0
item = 6
index = item - 1
contador[index]

5

In [265]:
contador[-1]

9

In [266]:
dados[0]

array([44410.,  5712., 37123.,     0., 25757.])

In [267]:
dados[-1]

array([2003., 1991., 1990., 2021., 2006.])

## <font color=green>**Dica:**</font>
### *ndarray[ linha ][ coluna ]* ou *ndarray[ linha, coluna ]*

In [268]:
# maneiras de pegar um item
dados[1, 2]

1990.0

In [269]:
dados[1][2]

1990.0

 ### Fatiamentos
 
A sintaxe para realizar fatiamento em um array Numpy é $i : j : k$ onde $i$ é o índice inicial, $j$ é o índice de parada, e $k$ é o indicador de passo ($k\neq0$)
 
<font color=red>**Observação:**</font> Nos fatiamentos (*slices*) o item com índice i é **incluído** e o item com índice j **não é incluído** no resultado.

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

In [270]:
contador = np.arange(10)
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [271]:
# pegar os índices 1, 2 e 3
contador[1:4]

array([1, 2, 3])

In [272]:
# passo = 2
contador[1:8:2]

array([1, 3, 5, 7])

In [273]:
# todos os pares
contador[::2]

array([0, 2, 4, 6, 8])

In [274]:
# todos os ímpares
contador[1::2]

array([1, 3, 5, 7, 9])

In [275]:
dados

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2021.,  2006.]])

In [277]:
# todas as linhas e apenas 3 colunas: 1, 2 e 3
dados[:, 1:4]

array([[ 5712., 37123.,     0.],
       [ 1991.,  1990.,  2021.]])

In [280]:
# para calcular a kilometragem média apenas dos index do meio
dados[:, 1:4][0] / (2021 - dados[:, 1:4][1])

  


array([ 190.4       , 1197.51612903,           nan])

### Indexação com array booleano

<font color=red>**Observação:**</font> Seleciona um grupo de linhas e colunas segundo os rótulos ou um array booleano.

In [281]:
contador = np.arange(10)
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [282]:
contador > 5

array([False, False, False, False, False, False,  True,  True,  True,
        True])

In [283]:
# retorna o array com os valores especificados
contador[contador > 5]

array([6, 7, 8, 9])

In [284]:
# mesmo retorno
contador[[False, False, False, False, False, False,  True,  True,  True,True]]

array([6, 7, 8, 9])

In [285]:
dados

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2021.,  2006.]])

In [286]:
dados[1] > 2000

array([ True, False, False,  True,  True])

In [288]:
# as médias de km apenas dos carros acima de 2000
dados[:, dados[1] > 2000][0] / (2021 - dados[:, dados[1] > 2000][1])

  


array([2467.22222222,           nan, 1717.13333333])

# 5.4 Atributos e métodos de arrays Numpy

### Atributos

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#array-attributes

## *ndarray.shape*

Retorna uma tupla com as dimensões do array.

## *ndarray.ndim*

Retorna o número de dimensões do array.

## *ndarray.size*

Retorna o número de elementos do array.

## *ndarray.dtype*

Retorna o tipo de dados dos elementos do array.

## *ndarray.T*

Retorna o array transposto, isto é, converte linhas em colunas e vice versa.

### Métodos

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#array-methods

## *ndarray.tolist()*

Retorna o array como uma lista Python.

## *ndarray.reshape(shape[, order])*

Retorna um array que contém os mesmos dados com uma nova forma.

In [None]:
km = [44410, 5712, 37123, 0, 25757]
anos = [2003, 1991, 1990, 2019, 2006]

## *ndarray.resize(new_shape[, refcheck])*

Altera a forma e o tamanho do array.

# 5.5 Estatísticas com arrays Numpy

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#calculation

e

https://numpy.org/doc/1.16/reference/routines.statistics.html

e

https://numpy.org/doc/1.16/reference/routines.math.html

In [None]:
anos = np.loadtxt(fname = "carros-anos.txt", dtype = int)
km = np.loadtxt(fname = "carros-km.txt")
valor = np.loadtxt(fname = "carros-valor.txt")

https://numpy.org/doc/1.16/reference/generated/numpy.column_stack.html

## *np.mean()*

Retorna a média dos elementos do array ao longo do eixo especificado.

## *np.std()*

Retorna o desvio padrão dos elementos do array ao longo do eixo especificado.

## *ndarray.sum()*

Retorna a soma dos elementos do array ao longo do eixo especificado.

## *np.sum()*

Retorna a soma dos elementos do array ao longo do eixo especificado.