# <font color=green> PYTHON PARA DATA SCIENCE - NUMPY
---

Numpy é a abreviação de Numerical Python e é um dos pacotes mais importantes para processamento numérico em Python.

O pacote Numpy possui um poderoso objeto array multidimensional, que nos permite realizar um conjunto bastante amplo de operações numéricas, sem a necessidade de utilização de laços for.

# <font color=green> 1. INTRODUÇÃO AO PYTHON
---

# 1.1 Introdução

> Python é uma linguagem de programação de alto nível com suporte a múltiplos paradigmas de programação. É um projeto *open source* e desde seu surgimento, em 1991, vem se tornando uma das linguagens de programação interpretadas mais populares. 
>
> Nos últimos anos Python desenvolveu uma comunidade ativa de processamento científico e análise de dados e vem se destacando como uma das linguagens mais relevantes quando o assunto é ciência de dados e machine learning, tanto no ambiente acadêmico como também no mercado.

# 1.2 Instalação e ambiente de desenvolvimento

### Instalação Local

### https://www.python.org/downloads/
### ou
### https://www.anaconda.com/distribution/

### Google Colaboratory

### https://colab.research.google.com

### Verificando versão

In [10]:
!python -V

Python 3.7.10


In [11]:
!python --version

Python 3.7.10


# 1.3 Trabalhando com arrays Numpy

In [12]:
import numpy as np

In [13]:
km = np.loadtxt('carros-km.txt')

In [14]:
km

array([4.44100e+04, 5.71200e+03, 3.71230e+04, 0.00000e+00, 2.57570e+04,
       1.07280e+04, 0.00000e+00, 7.75990e+04, 9.91970e+04, 3.79780e+04,
       1.28590e+04, 8.05200e+03, 8.97730e+04, 0.00000e+00, 4.14570e+04,
       1.15607e+05, 4.64490e+04, 0.00000e+00, 3.70860e+04, 1.51730e+04,
       1.01193e+05, 0.00000e+00, 9.80790e+04, 1.02959e+05, 0.00000e+00,
       0.00000e+00, 5.79500e+03, 0.00000e+00, 5.88480e+04, 9.43810e+04,
       3.01630e+04, 5.33320e+04, 1.77200e+04, 3.38080e+04, 9.06840e+04,
       4.39750e+04, 0.00000e+00, 0.00000e+00, 5.52600e+03, 0.00000e+00,
       9.34150e+04, 4.07620e+04, 0.00000e+00, 8.63020e+04, 0.00000e+00,
       9.75500e+03, 6.99450e+04, 2.39500e+03, 0.00000e+00, 8.03490e+04,
       8.55540e+04, 5.04960e+04, 6.77160e+04, 9.39470e+04, 3.53450e+04,
       8.10070e+04, 1.19513e+05, 0.00000e+00, 0.00000e+00, 0.00000e+00,
       0.00000e+00, 0.00000e+00, 1.18895e+05, 4.85090e+04, 1.00912e+05,
       9.56490e+04, 0.00000e+00, 9.04950e+04, 0.00000e+00, 2.913

In [15]:
# loadtxt(): Esta função carrega o conteúdo de um arquivo .txt
# dentro de um array numpy
anos = np.loadtxt('carros-anos.txt', dtype = int)

In [16]:
anos

array([2003, 1991, 1990, 2019, 2006, 2012, 2019, 2009, 2010, 2011, 2002,
       2007, 2001, 2019, 2009, 2016, 2012, 2019, 2016, 2017, 2002, 2019,
       1994, 1991, 2019, 2019, 2016, 2019, 2002, 1991, 1997, 1995, 2018,
       1991, 2014, 1995, 2019, 2019, 2009, 2019, 2013, 2003, 2019, 2002,
       2019, 2002, 2004, 2001, 2019, 2003, 2009, 2006, 2000, 2006, 2010,
       1994, 2007, 2019, 2019, 2019, 2019, 2019, 2017, 2011, 2001, 1996,
       2019, 1994, 2019, 2007, 1994, 2007, 1997, 2006, 2013, 1994, 2008,
       2008, 2019, 2019, 1999, 2007, 1993, 1995, 2019, 2019, 2016, 2011,
       2019, 2002, 2013, 2017, 2016, 2008, 2018, 2003, 2003, 2004, 2010,
       2019, 2006, 2001, 2019, 2015, 2018, 2017, 1992, 2001, 1993, 1995,
       2003, 2014, 2008, 2013, 2019, 2017, 2019, 2019, 2006, 2015, 2007,
       2005, 2017, 1998, 2019, 1999, 2019, 2009, 2003, 1994, 2019, 1994,
       2019, 2015, 1996, 1997, 1993, 2019, 1992, 1995, 2019, 1990, 2019,
       2019, 1991, 1990, 2012, 2007, 2013, 2000, 20

### Obtendo a quilometragem média por ano

In [17]:
# Vai retornar uma mensagem de erro porque há divisões por 0.
# Isto porque há veículos que foram produzidos em 2019
km_media = km / (2019 - anos)

  This is separate from the ipykernel package so we can avoid doing imports until


In [18]:
# Onde os valores forem nulos, veremos a mensagem "nan":
# not a number
km_media

array([2.77562500e+03, 2.04000000e+02, 1.28010345e+03,            nan,
       1.98130769e+03, 1.53257143e+03,            nan, 7.75990000e+03,
       1.10218889e+04, 4.74725000e+03, 7.56411765e+02, 6.71000000e+02,
       4.98738889e+03,            nan, 4.14570000e+03, 3.85356667e+04,
       6.63557143e+03,            nan, 1.23620000e+04, 7.58650000e+03,
       5.95252941e+03,            nan, 3.92316000e+03, 3.67710714e+03,
                  nan,            nan, 1.93166667e+03,            nan,
       3.46164706e+03, 3.37075000e+03, 1.37104545e+03, 2.22216667e+03,
       1.77200000e+04, 1.20742857e+03, 1.81368000e+04, 1.83229167e+03,
                  nan,            nan, 5.52600000e+02,            nan,
       1.55691667e+04, 2.54762500e+03,            nan, 5.07658824e+03,
                  nan, 5.73823529e+02, 4.66300000e+03, 1.33055556e+02,
                  nan, 5.02181250e+03, 8.55540000e+03, 3.88430769e+03,
       3.56400000e+03, 7.22669231e+03, 3.92722222e+03, 3.24028000e+03,
      

In [19]:
type(km_media)

numpy.ndarray

# <font color=green> 2. CARACTERÍSTICAS BÁSICAS DA LINGUAGEM
---

# 2.1 Operações matemáticas

### Operadores aritméticos: $+$, $-$, $*$, $/$, $**$, $\%$, $//$

### Adição ($+$)

In [20]:
2 + 7

9

### Subtração ($-$)

In [21]:
2 - 9

-7

### Multiplicação ($*$)

In [22]:
3 * 8

24

### Divisão ($/$) e ($//$)
A operação divisão sempre retorna um número de ponto flutuante

In [23]:
10 / 3

3.3333333333333335

In [24]:
10 // 3

3

### Exponenciação ($**$)

In [25]:
3 ** 8

6561

### Resto da divisão ($\%$)

In [26]:
10 % 3

1

In [27]:
10 % 2

0

### Expressões matemáticas

In [28]:
5 * 2 + 3 * 2

16

In [29]:
(5 * 2) + (3 * 2)

16

In [30]:
5 * (2 + 3) * 2

50

### A variável _

No modo interativo, o último resultado impresso é atribuído à variável _

In [31]:
_

50

In [32]:
5 * 2

10

In [33]:
_ + 3 * 2

16

In [34]:
_ / 2

8.0

### Exercícios

In [35]:
10 % 2 + 3 // 10

0

In [36]:
5 * (2 + 3) / 2

12.5

In [37]:
2 ** 3 * 4

32

# 2.2 Variáveis 

### Nomes de variáveis

- Nomes de variáveis pode começar com letras (a - z, A - Z) ou o caractere *underscore* (_):

    > Altura
    >
    > _peso
    
- O restante do nome pode conter letras, números e o caractere "_":

    > nome_da_variavel
    >
    > _valor
    >
    > dia_28_11_
    

- O nomes são *case sensitive*:

    > Nome_Da_Variável $\ne$ nome_da_variavel $\ne$ NOME_DA_VARIAVEL
    
### <font color=red>Observações:
- Existem algumas palavras reservadas da linguagem que não podem ser utilizadas como nomes de variável:

| |Lista de palavras <br>reservadas em Python| |
|:-------------:|:------------:|:-------------:|
| and           | as           | not           | 
| assert        | finally      | or            | 
| break         | for          | pass          | 
| class         | from         | nonlocal      | 
| continue      | global       | raise         | 
| def           | if           | return        | 
| del           | import       | try           | 
| elif          | in           | while         | 
| else          | is           | with          | 
| except        | lambda       | yield         | 
| False         | True         | None          | 

### Declaração de variáveis

### Operadores de atribuição: $=$, $+=$, $-=$, $*=$, $/=$, $**=$, $\%=$, $//=$

In [38]:
ano_atual = 2019
ano_fabricacao = 2003
km_total = 44410.0

In [39]:
ano_atual

2019

In [40]:
ano_fabricacao

2003

In [41]:
km_total

44410.0

# $$km_{média} = \frac {km_{total}}{(Ano_{atual} - Ano_{fabricação})}$$

### Operações com variáveis

In [42]:
ano_atual = 2019
ano_fabricacao = 2003
km_total = 44410.0

km_media = km_total / (ano_atual - ano_fabricacao)
km_media

2775.625

In [43]:
# Criando uma previsão (simples) com base no cálculo anterior
ano_atual = 2019
ano_fabricacao = 2003
km_total = 44410.0

km_media = km_total / (ano_atual - ano_fabricacao)

km_total = km_total + km_media
km_total

47185.625

In [44]:
ano_atual = 2019
ano_fabricacao = 2003
km_total = 44410.0

km_media = km_total / (ano_atual - ano_fabricacao)

# Simplificando ainda mais com o operador +=
km_total += km_media
km_total

47185.625

### Conclusão:
```
"valor = valor + 1" é equivalente a "valor += 1"
```

### Declaração múltipla

In [45]:
ano_atual, ano_fabricacao, km_total = 2019, 2003, 44410.0

In [46]:
ano_atual

2019

In [47]:
ano_fabricacao

2003

In [48]:
km_total

44410.0

In [49]:
# Com a declaração múltipla de variáveis, o código anterior 
# fica ainda mais reduzido
ano_atual, ano_fabricacao, km_total = 2019, 2003, 44410.0
km_media = km_total / (ano_atual - ano_fabricacao)
km_media

2775.625

# 2.3 Tipos de dados

Os tipos de dados especificam como números e caracteres serão armazenados e manipulados dentro de um programa. Os tipos de dados básicos do Python são:

1. **Números**
    1. ***int*** - Inteiros
    - ***float*** - Ponto flutuante
- **Booleanos** - Assume os valores True ou False. Essencial quando começarmos a trabalhar com declarações condicionais
- ***Strings*** - Sequência de um ou mais caracteres que pode incluir letras, números e outros tipos de caracteres. Representa um texto.
- **None** - Representa a ausência de valor

### Números

In [50]:
ano_atual = 2019

In [51]:
type(ano_atual)

int

In [52]:
km_total = 44410.0

In [53]:
type(km_total)

float

### Booleanos

In [54]:
zero_km = True

In [55]:
type(zero_km)

bool

In [56]:
zero_km = False

In [57]:
type(zero_km)

bool

### Strings

In [58]:
nome = 'Jetta Variant'
nome

'Jetta Variant'

In [59]:
nome = "Jetta Variant"
nome

'Jetta Variant'

In [60]:
nome = 'Jetta "Variant"'
nome

'Jetta "Variant"'

In [61]:
nome = "Jetta 'Variant'"
nome

"Jetta 'Variant'"

In [62]:
carro = '''
  Nome
  Idade
  Nota
'''

In [63]:
carro

'\n  Nome\n  Idade\n  Nota\n'

In [64]:
carro = """
  Nome
  Idade
  Nota
"""

In [65]:
carro

'\n  Nome\n  Idade\n  Nota\n'

In [66]:
type(carro)

str

### None

In [67]:
quilometragem = None
quilometragem

In [68]:
type(quilometragem)

NoneType

# 2.4 Conversão de tipos

In [69]:
a = 10
b = 20
c = 'Python é '
d = 'legal'

In [70]:
type(a)

int

In [71]:
type(b)

int

In [72]:
type(c)

str

In [73]:
type(d)

str

In [74]:
a + b

30

In [75]:
c + d

'Python é legal'

In [76]:
# c + a

### Conversões de tipo

Funções int(), float(), str()

In [77]:
c + str(a)

'Python é 10'

In [78]:
float(a)

10.0

In [79]:
var = 3.141592

In [80]:
type(var)

float

In [81]:
int(var)

3

In [82]:
var = 3.99

In [83]:
int(var)

3

### Exercício

Considere as variáveis abaixo:

```
text = 'A quilometragem média do veículo é '
Km = 100000
Ano_atual = 2019
Ano_fabricacao = 1999
```

Reproduza o seguinte output no console do Colab:

```
'A quilometragem média do veículo é 5000 km'
```

In [84]:
text = 'A quilometragem média do veículo é '
Km = 100000
Ano_atual = 2019
Ano_fabricacao = 1999

text + str( int( Km / (Ano_atual - Ano_fabricacao) ) ) + ' km'

'A quilometragem média do veículo é 5000 km'

# 2.5 Indentação, comentários e formatação de *strings*

### Indentação

Na linguagem Python os programas são estruturados por meio de indentação. Em qualquer linguagem de programação a prática da indentação é bastante útil, facilitando a leitura e também a manutenção do código. Em Python a indentação não é somente uma questão de organização e estilo, mas sim um requisito da linguagem.

In [85]:
ano_atual = 2019
ano_fabricacao = 2019

if (ano_atual == ano_fabricacao):
    print('Verdadeiro')
else:
    print('Falso')

Verdadeiro


### Comentários

Comentários são extremamente importantes em um programa. Consiste em um texto que descreve o que o programa ou uma parte específica do programa está fazendo. Os comentários são ignorados pelo interpretador Python. 

Podemos ter comentários de uma única linha ou de múltiplas linhas.

In [86]:
# Isto é um comentário
ano_atual = 2019
ano_atual

2019

In [87]:
# Isto
# é um 
# comentário
ano_atual = 2019
ano_atual

2019

In [88]:
'''Isto é um
comentário'''
ano_atual = 2019
ano_atual

2019

In [89]:
# Definindo variáveis
ano_atual = 2019
ano_fabricacao = 2019

'''
Estrutura condicional que vamos 
aprender na próxima aula
'''
if (ano_atual == ano_fabricacao):   # Testando se condição é verdadeira
    print('Verdadeiro')
else:                               # Testando se condição é falsa
    print('Falso')

Verdadeiro


### Formatação de *strings*

## *str % valor*
https://docs.python.org/3.6/library/stdtypes.html#old-string-formatting

Este modo de formatação era utilizado na versão 2 do Python

## *str.format()*

https://docs.python.org/3.6/library/stdtypes.html#str.format

In [90]:
print('Olá, {}!'.format('Michelle'))

Olá, Michelle!


In [91]:
print('Olá, {}! Este é o seu acesso de número {}.'.format('Michelle', 32))

Olá, Michelle! Este é o seu acesso de número 32.


In [92]:
# Neste caso a ordem da informação não precisa mais ser posicional
print('Olá, {nome}! Este é o seu acesso de número {acessos}.'.format(nome = 'Michelle', acessos = 32))

Olá, Michelle! Este é o seu acesso de número 32.


## *f-Strings*

https://docs.python.org/3.6/reference/lexical_analysis.html#f-strings

In [93]:
# Formato mais recente
nome = 'Michelle'
acessos = 32

print(f'Olá, {nome}! Este é o seu acesso de número {acessos}.')

Olá, Michelle! Este é o seu acesso de número 32.


# <font color=green> 3. TRABALHANDO COM LISTAS
---

# 3.1 Criando listas

Listas são sequências **mutáveis** que são utilizadas para armazenar coleções de itens, geralmente homogêneos. Podem ser construídas de várias formas:
```
- Utilizando um par de colchetes: [ ], [ 1 ]
- Utilizando um par de colchetes com itens separados por vírgulas: [ 1, 2, 3 ]
```

In [94]:
Acessorios = ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva']
Acessorios

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [95]:
type(Acessorios)

list

### Lista com tipos de dados variados

In [96]:
# Incluindo o armazenamento de sublistas
Carro_1 = ['Jetta Variant', 'Motor 4.0 Turbo', 2003, 44410.0, False, ['Rodas de liga', 'Travas elétricas', 'Piloto automático'], 88078.64]
Carro_2 = ['Passat', 'Motor Diesel', 1991, 5712.0, False, ['Central multimídia', 'Teto panorâmico', 'Freios ABS'], 106161.94]

In [97]:
Carro_1

['Jetta Variant',
 'Motor 4.0 Turbo',
 2003,
 44410.0,
 False,
 ['Rodas de liga', 'Travas elétricas', 'Piloto automático'],
 88078.64]

In [98]:
Carro_2

['Passat',
 'Motor Diesel',
 1991,
 5712.0,
 False,
 ['Central multimídia', 'Teto panorâmico', 'Freios ABS'],
 106161.94]

In [99]:
Carros = [Carro_1, Carro_2]
Carros

[['Jetta Variant',
  'Motor 4.0 Turbo',
  2003,
  44410.0,
  False,
  ['Rodas de liga', 'Travas elétricas', 'Piloto automático'],
  88078.64],
 ['Passat',
  'Motor Diesel',
  1991,
  5712.0,
  False,
  ['Central multimídia', 'Teto panorâmico', 'Freios ABS'],
  106161.94]]

# 3.2 Operações com listas

https://docs.python.org/3.6/library/stdtypes.html#common-sequence-operations

## *x in A*

Retorna **True** se um elemento da lista *A* for igual a *x*.

In [100]:
Acessorios

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [101]:
'Rodas de liga' in Acessorios

True

In [102]:
'4 x 4' in Acessorios

False

In [103]:
'Rodas de liga' not in Acessorios

False

## *A + B*

Concatena as listas *A* e *B*.

In [104]:
A = ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro']
B = ['Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva']

In [105]:
A

['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro']

In [106]:
B

['Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [107]:
A + B

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [108]:
C = A + B
C

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

## *len(A)*

Tamanho da lista A.

In [109]:
len(A)

4

In [110]:
len(C)

8

In [111]:
len(Acessorios)

8

### Exercício

Considere a lista abaixo:
```
carro = [
    'Jetta Variant', 
    'Motor 4.0 Turbo', 
    2003, 
    44410.0, 
    False, 
    ['Rodas de liga', 'Travas elétricas', 'Piloto automático'], 
    88078.64
]
```

Considere também as seguintes operações:

1) '2003' in carro

2) 'Rodas de liga' in carro

3) 'False' not in carro

Indique os resultados de cada operação acima:



In [112]:
carro = [
    'Jetta Variant', 
    'Motor 4.0 Turbo', 
    2003, 
    44410.0, 
    False, 
    ['Rodas de liga', 'Travas elétricas', 'Piloto automático'], 
    88078.64
]

In [113]:
 '2003' in carro

False

In [114]:
 'Rodas de liga' in carro

False

In [115]:
 'False' not in carro

True

# 3.3 Seleções em listas

## *A[ i ]*

Retorna o i-ésimo item da lista *A*.

<font color=red>**Observação:**</font> Listas têm indexação com origem no zero.

In [116]:
Acessorios

['Rodas de liga',
 'Travas elétricas',
 'Piloto automático',
 'Bancos de couro',
 'Ar condicionado',
 'Sensor de estacionamento',
 'Sensor crepuscular',
 'Sensor de chuva']

In [117]:
Acessorios[0]

'Rodas de liga'

In [118]:
Acessorios[1]

'Travas elétricas'

In [119]:
Acessorios[-1]

'Sensor de chuva'

In [120]:
Acessorios[-2]

'Sensor crepuscular'

In [121]:
Carros

[['Jetta Variant',
  'Motor 4.0 Turbo',
  2003,
  44410.0,
  False,
  ['Rodas de liga', 'Travas elétricas', 'Piloto automático'],
  88078.64],
 ['Passat',
  'Motor Diesel',
  1991,
  5712.0,
  False,
  ['Central multimídia', 'Teto panorâmico', 'Freios ABS'],
  106161.94]]

In [122]:
Carros[0]

['Jetta Variant',
 'Motor 4.0 Turbo',
 2003,
 44410.0,
 False,
 ['Rodas de liga', 'Travas elétricas', 'Piloto automático'],
 88078.64]

In [123]:
# Selecionando o primeiro item da primeira lista
Carros[0][0]

'Jetta Variant'

In [124]:
# Selecionando o primeiro item da segunda lista
Carros[1][0]

'Passat'

In [125]:
# Selecionando na primeira lista, o penúltimo item (sublista) e o segundo item
# da sublista
Carros[0][-2][1]

'Travas elétricas'

In [197]:
# Selecionando na segunda lista, o penúltimo item (sublista) e o segundo item
# da sublista
Carros[1][-2][-2]

'Teto panorâmico'

## *A[ i : j ]*

Recorta a lista *A* do índice i até o j. Neste fatiamento o elemento com índice i é **incluído** e o elemento com índice j **não é incluído** no resultado.

In [None]:
Acessorios

In [None]:
Acessorios[2]

In [None]:
Acessorios[2:5]

In [None]:
Acessorios[2:]

In [None]:
Acessorios[:5]

### Exercício

1. Considere a seguinte lista:
```
letras = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H']
```
Considere também as seguintes seleções na lista letras:

1) ['A', 'B']

2) ['C', 'D', 'E']

3) ['F', 'G', 'H']

Apresente os códigos que têm como resultado as seleções acima.

In [None]:
letras = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H']

In [None]:
letras[:2]


In [None]:
letras[2:5]

In [None]:
letras[-3:]

2. Utilize a lista carros abaixo para responder a questão:
```
carros = [
    [
        'Jetta Variant',
        'Motor 4.0 Turbo',
        2003,
        False,
        ['Rodas de liga', 'Travas elétricas', 'Piloto automático']
    ],
    [
        'Passat',
        'Motor Diesel',
        1991,
        True,
        ['Central multimídia', 'Teto panorâmico', 'Freios ABS']
    ]
]
```
Considere também os seguintes itens:

1) True

2) 'Teto panorâmico'

3) ['Rodas de liga', 'Travas elétricas', 'Piloto automático']

Apresente o código utilizado para selecionar os itens acima:

In [None]:
carros = [
    [
        'Jetta Variant',
        'Motor 4.0 Turbo',
        2003,
        False,
        ['Rodas de liga', 'Travas elétricas', 'Piloto automático']
    ],
    [
        'Passat',
        'Motor Diesel',
        1991,
        True,
        ['Central multimídia', 'Teto panorâmico', 'Freios ABS']
    ]
]

In [None]:
carros[1][3]

In [None]:
# o código: carros[1][-1][-2] retorna o mesmo item
# que o código abaixo retorna:
carros[1][4][-2]

In [None]:
carros[0][-1]

# 3.4 Métodos de listas

https://docs.python.org/3.6/library/stdtypes.html#mutable-sequence-types

In [None]:
Acessorios = ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva']

## *A.sort()*

Ordena a lista *A*.

In [None]:
Acessorios

In [None]:
Acessorios.sort()
Acessorios

## *A.append(x)*

Adiciona o elemnto *x* no final da lista *A*.

In [None]:
Acessorios.append('4 x 4')
Acessorios

## *A.pop(i)*

Remove e retorna o elemento de índice i da lista *A*.

<font color=red>**Observação:**</font> Por *default* o método *pop()* remove e retorna o último elemento de uma lista.

In [None]:
Acessorios.pop()

In [None]:
Acessorios

In [None]:
Acessorios.pop(3)

In [None]:
Acessorios.append('Sensor crepuscular')
Acessorios

In [None]:
Acessorios.pop(-2)

In [None]:
Acessorios

## *A.copy()*

Cria uma cópia da lista *A*.

<font color=red>**Observação:**</font> O mesmo resultado pode ser obtido com o seguinte código: 
```
A[:]
```

In [None]:
Acessorios = ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva']

In [None]:
# A partir daqui, mesmo que eu altere apenas a variável
# Acessorios_2, a Acessorios também será alterada (e vice-versa)
# Porque o que acontece é que Acessorios (variável original) apenas
# ganhou mais um rótulo
Acessorios_2 = Acessorios
Acessorios_2

In [None]:
Acessorios_2.append('4 x 4')
Acessorios_2

In [None]:
Acessorios

In [None]:
Acessorios.pop()
Acessorios

In [None]:
Acessorios_2

In [None]:
# FUNÇÃO COPY
Acessorios_2 = Acessorios.copy()
Acessorios_2

In [None]:
Acessorios_2.append('4 x 4')
Acessorios_2

In [None]:
# Agora a variável original não sofreu alterações
Acessorios

In [None]:
# OBS: O comando abaixo tem o mesmo efeito do
# obtido com o copy()
# Ambos fazem com que Acessorios_2 tenha o mesmo valor de
# Acessorios, só que ocupando outro lugar na memória e não
# funcionando apenas como um rótulo para a variável original
Acessorios_2 = Acessorios[:]
Acessorios_2

### Exercício

Considere a seguinte lista do Python e o resultado obtido após um conjunto de manipulações:

In [1]:
```
Acessorios = [
    'Rodas de liga', 
    'Travas elétricas', 
    'Piloto automático',
    'Bancos de couro',
    'Ar condicionado'
]
```
In [2]: Qual código?

Out [2]:
```
['Airbag',
 'Ar condicionado',
 'Bancos de couro',
 'Piloto automático',
 'Rodas de liga',
 'Vidros elétricos']
```
Apresente o código executado na célula In [2].

In [None]:
Acessorios = [ 'Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado' ]
Acessorios

In [None]:
Acessorios.append('Airbag')
Acessorios.sort()
Acessorios.pop()
Acessorios.append('Vidros elétricos')
Acessorios

# <font color=green> 4. ESTRUTURAS DE REPETIÇÃO E CONDICIONAIS
---

# 4.1 Instrução *for*

#### Formato padrão

```
for <variável> in <coleção>:
    <instruções>
```

OBS:
>No campo <variável>, podemos ter qualquer nome válido em Python, no campo <coleção> podemos ter qualquer objeto iterável (listas, dicionários, tuplas etc) e para iniciar as <instruções>, precisamos antes indentar o código.

### Loops com listas

In [None]:
Acessorios = ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva']
Acessorios

In [None]:
# Ao invés de item pode ser qualquer palavra válida, como x, y,
# ou mesmo acessorio
for item in Acessorios:
  print(acessorio)

###  List comprehensions

https://docs.python.org/3.6/tutorial/datastructures.html#list-comprehensions

*range()* -> https://docs.python.org/3.6/library/functions.html#func-range

In [None]:
range(10)

In [None]:
list(range(10))

In [None]:
for i in range(10):
  print(i ** 2)

In [None]:
quadrado = []
for i in range(10):
  quadrado.append(i ** 2)

quadrado

In [None]:
# LIST COMPREHENSION
[i ** 2 for i in range(10)]

# 4.2 Loops aninhados

In [None]:
dados = [ 
    ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva'],
    ['Central multimídia', 'Teto panorâmico', 'Freios ABS', '4 X 4', 'Painel digital', 'Piloto automático', 'Bancos de couro', 'Câmera de estacionamento'],
    ['Piloto automático', 'Controle de estabilidade', 'Sensor crepuscular', 'Freios ABS', 'Câmbio automático', 'Bancos de couro', 'Central multimídia', 'Vidros elétricos']
]
dados

In [None]:
for lista in dados:
  print(lista)

In [None]:
for lista in dados:
  for item in lista:
    print(item)

In [None]:
Acessorios = []
for lista in dados:
  for item in lista:
    Acessorios.append(item)

Acessorios

## *set()*

https://docs.python.org/3.6/library/stdtypes.html#types-set

https://docs.python.org/3.6/library/functions.html#func-set

In [None]:
# Quando temos uma lista e desejamos remover duplicatas
# utilizamos o set
set(Acessorios)

In [None]:
list(set(Acessorios))

### List comprehensions

In [None]:
[item for lista in dados for item in lista]

In [None]:
# Utilizando list comprehension e removendo duplicatas com a função set() 
list(set([item for lista in dados for item in lista]))

### Exercício

Considerando a lista dados abaixo:
```
dados = [ 
    ['A', 'B', 'C'],
    ['D', 'E', 'F'],
    ['G', 'H', 'I']
]
```
Avalie os itens abaixo:

1) In [1]:
```
result = []
for lista in dados:
    for item in lista:
        result.append(item)
result
```
Out [1]:
```
['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I']
```
2) In [2]:
```
result_2 = []
for lista in dados:
    result_2 += lista
result_2
```
Out [2]:
```
['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I']
```
3) In [3]:
```
[item for lista in dados for item in lista]
```
Out [3]:
```
['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I']
```

Quais estão corretos?

In [None]:
dados = [ 
    ['A', 'B', 'C'],
    ['D', 'E', 'F'],
    ['G', 'H', 'I']
]

In [None]:
result = []
for lista in dados:
    for item in lista:
        result.append(item)
result

In [None]:
result_2 = []
for lista in dados:
    result_2 += lista
result_2

In [None]:
[item for lista in dados for item in lista]

__Todos os itens estão corretos.__
O item 2 pode parecer uma pegadinha, mas funciona neste caso específico. Lembre-se que o operador de soma (+), quando aplicado em duas listas, retorna a concatenação destas listas.


# 4.3 Instrução *if*

#### Formato padrão

```
if <condição>:
     <instruções caso a condição seja verdadeira>
```

### Operadores de comparação: $==$, $!=$, $>$, $<$, $>=$, $<=$
### e
### Operadores lógicos: $and$, $or$, $not$

In [None]:
# 1º item da lista - Nome do veículo
# 2º item da lista - Ano de fabricação
# 3º item da lista - Veículo é zero km?

dados = [
    ['Jetta Variant', 2003, False],
    ['Passat', 1991, False],
    ['Crossfox', 1990, False],
    ['DS5', 2019, True],
    ['Aston Martin DB4', 2006, False],
    ['Palio Weekend', 2012, False],
    ['A5', 2019, True],
    ['Série 3 Cabrio', 2009, False],
    ['Dodge Jorney', 2019, False],
    ['Carens', 2011, False]
]
dados

In [None]:
for lista in dados:
  print(lista)

In [None]:
for lista in dados:
  print(lista[2])

In [None]:
for lista in dados:
  if(lista[2]) == True:
    print(lista)

In [None]:
zero_km_Y = []

for lista in dados:
  if(lista[2] == True):
    zero_km_Y.append(lista)

zero_km_Y

In [None]:
zero_km_N = []

for lista in dados:
  if(lista[2] == False):
    zero_km_N.append(lista)

zero_km_N

### List comprehensions

In [None]:
[lista for lista in dados if (lista[2] == True)]

In [None]:
[lista for lista in dados if (lista[2] == False)]

# 4.4 Instruções *if-else* e *if-elif-else*

#### Formato padrão

```
if <condição>:
    <instruções caso a condição seja verdadeira>
else:
    <instruções caso a condição não seja verdadeira>
```

In [None]:
# Fazendo o if/else de uma vez e utilizando list comprehension
zero_km_Y, zero_km_N = [], []

for lista in dados:
  if(lista[2] == True):
    zero_km_Y.append(lista)
  else:
    zero_km_N.append(lista)

In [None]:
zero_km_Y

In [None]:
zero_km_N

#### Formato padrão

```
if <condição 1>:
    <instruções caso a condição 1 seja verdadeira>
elif <condição 2>:
    <instruções caso a condição 2 seja verdadeira>
elif <condição 3>:
    <instruções caso a condição 3 seja verdadeira>
                        .
                        .
                        .
else:
    <instruções caso as condições anteriores não sejam verdadeiras>
```

In [None]:
dados

In [None]:
print('AND')
print(f'(True and True) o resultado é: {True and True}')
print(f'(True and False) o resultado é: {True and False}')
print(f'(False and True) o resultado é: {False and True}')
print(f'(False and False) o resultado é: {False and False}')

In [None]:
print('OR')
print(f'(True or True) o resultado é: {True or True}')
print(f'(True or False) o resultado é: {True or False}')
print(f'(False or True) o resultado é: {False or True}')
print(f'(False or False) o resultado é: {False or False}')

In [None]:
A, B, C = [], [], []

for lista in dados:
  if (lista[1] <= 2000):
      A.append(lista)
  elif (lista[1] > 2000 and lista[1] <= 2010):
    B.append(lista)
  else:
    C.append(lista)

In [None]:
A

In [None]:
B

In [None]:
C

In [None]:
# Maneira um pouco diferente da anterior, mas tão
# efetiva quanto. É mais utilizada na estatística e na matemática.
A, B, C = [], [], []

for lista in dados:
  if (lista[1] <= 2000):
      A.append(lista)
  elif (2000 < lista[1] <= 2010):
    B.append(lista)
  else:
    C.append(lista)

# <font color=green> 5. NUMPY BÁSICO
---

Numpy é a abreviação de Numerical Python e é um dos pacotes mais importantes para processamento numérico em Python. Numpy oferece a base para a maioria dos pacotes de aplicações científicas que utilizem dados numéricos em Python (estruturas de dados e algoritmos). Pode-se destacar os seguintes recursos que o pacote Numpy contém:

- Um poderoso objeto array multidimensional;
- Funções matemáticas sofisticadas para operações com arrays sem a necessidade de utilização de laços *for*;
- Recursos de algebra linear e geração de números aleatórios

Além de seus óbvios usos científicos, o pacote NumPy também é muito utilizado em análise de dados como um eficiente contêiner multidimensional de dados genéricos para transporte entre diversos algoritmos e bibliotecas em Python.

**Versão:** 1.16.5

**Instalação:** https://scipy.org/install.html

**Documentação:** https://numpy.org/doc/1.16/

### Pacotes

Existem diversos pacotes Python disponíveis para download na internet. Cada pacote tem como objetivo a solução de determinado tipo de problema e para isso são desenvolvidos novos tipos, funções e métodos.

Alguns pacotes são bastante utilizados em um contexto de ciência de dados como por exemplo:

- Numpy
- Pandas
- Scikit-learn
- Matplotlib

Alguns pacotes não são distribuídos com a instalação default do Python. Neste caso devemos instalar os pacotes que necessitamos em nosso sistema para podermos utilizar suas funcionalidades.

### Importando todo o pacote

In [None]:
import numpy

https://numpy.org/doc/1.16/reference/generated/numpy.arange.html

In [None]:
# Tem funcionalidade parecida com a do range(), mas ao invés de uma
# lista, vai gerar arrays numpy
numpy.arange(10)

### Importando todo o pacote e atribuindo um novo nome 

In [None]:
# A comunidade Python utiliza preferencialmente desta forma:
import numpy as np

In [None]:
np.arange(10)

### Importando parte do pacote

In [None]:
from numpy import arange

In [None]:
arange(10)

# 5.1 Criando arrays Numpy

In [None]:
import numpy as np

### A partir de listas

https://numpy.org/doc/1.16/user/basics.creation.html

__Obs:__
>__Arrays numpy suportam apenas um tipo de dado por vez.__

In [None]:
km = np.array([1000, 2300, 4987, 1500])

In [None]:
km

In [None]:
type(km)

https://numpy.org/doc/1.16/user/basics.types.html

In [None]:
km.dtype

### A partir de dados externos

https://numpy.org/doc/1.16/reference/generated/numpy.loadtxt.html

In [None]:
# Lembrando: é preciso especificar porque o tipo default dele é um float
km = np.loadtxt(fname = 'carros-km.txt', dtype = int)

In [None]:
km

In [None]:
km.dtype

### Arrays com duas dimensões

In [None]:
dados = [ 
    ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva'],
    ['Central multimídia', 'Teto panorâmico', 'Freios ABS', '4 X 4', 'Painel digital', 'Piloto automático', 'Bancos de couro', 'Câmera de estacionamento'],
    ['Piloto automático', 'Controle de estabilidade', 'Sensor crepuscular', 'Freios ABS', 'Câmbio automático', 'Bancos de couro', 'Central multimídia', 'Vidros elétricos']
]
dados

In [None]:
Acessorios = np.array(dados)

In [None]:
Acessorios

In [None]:
# retorna que a variável km possui 258 linhas
km.shape

In [None]:
Acessorios.shape

### Comparando desempenho com listas

In [None]:
np_array = np.arange(1000000)

In [None]:
py_list = list(range(1000000))

In [None]:
# O %time serve para verificarmos o desempenho, o tempo de 
# execução de um código
%time for _ in range(100): np_array *= 2

In [None]:
%time for _ in range(100): py_list = [x * 2 for x in py_list]

# 5.2 Operações aritméticas com arrays Numpy

### Operações entre arrays e constantes

In [127]:
import numpy as np

In [128]:
km = [44410., 5712., 37123., 0., 25757.]
anos = [2003, 1991, 1990, 2019, 2006]

In [None]:
# Vai retornar erro porque listas e inteiros não fazem operações
# diretamente
# idade = 2019 - anos

In [131]:
km = np.array([44410., 5712., 37123., 0., 25757.])
anos = np.array([2003, 1991, 1990, 2019, 2006])

In [132]:
idade = 2019 - anos

In [133]:
idade

array([16, 28, 29,  0, 13])

### Operações entre arrays

In [134]:
km_media = km / idade

  """Entry point for launching an IPython kernel.


In [135]:
km_media

array([2775.625     ,  204.        , 1280.10344828,           nan,
       1981.30769231])

In [136]:
# Explicando como o array calculou anteriormente
44410 / (2019 - 2003)

2775.625

In [137]:
5712 / (2019 - 1991)

204.0

### Operações com arrays de duas dimensões

In [138]:
dados = np.array([km, anos])

In [139]:
dados

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

In [140]:
dados.shape

(2, 5)

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

In [141]:
dados[0][0]

44410.0

In [142]:
dados[1]

array([2003., 1991., 1990., 2019., 2006.])

In [143]:
#  Calculando a kilometragem média acessando o array numpy
km_media = dados[0] / (2019 - dados[1])

  """Entry point for launching an IPython kernel.


In [144]:
km_media

array([2775.625     ,  204.        , 1280.10344828,           nan,
       1981.30769231])

In [148]:
# Tentando selecionar linha e coluna ao mesmo tempo
# (mas desta forma eu consigo retornar apenas como linha e não como array numpy.
# Mais adiante o facilitador vai mostrar como fazer)
dados[0][0], dados[1][0]

(44410.0, 2003.0)

In [149]:
dados[0][1], dados[1][1]

(5712.0, 1991.0)

# 5.3 Seleções com arrays Numpy

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

In [150]:
dados

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

![1410-img02.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img02.png)

### Indexação 

<font color=red>**Observação:**</font> A indexação tem origem no zero.

In [153]:
contador = np.arange(10)
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [154]:
contador[0]

0

In [155]:
item = 6
index = item -1
contador[index]

5

In [156]:
contador[-1]

9

In [157]:
dados[0]

array([44410.,  5712., 37123.,     0., 25757.])

In [158]:
dados[1]

array([2003., 1991., 1990., 2019., 2006.])

## <font color=green>**Dica:**</font>
### *ndarray[ linha ][ coluna ]* ou *ndarray[ linha, coluna ]*

In [None]:
dados[1][2]

1990.0

In [None]:
dados[1, 2]

1990.0

 ### Fatiamentos
 
A sintaxe para realizar fatiamento em um array Numpy é $i : j : k$ onde $i$ é o índice inicial, $j$ é o índice de parada, e $k$ é o indicador de passo ($k\neq0$)
 
<font color=red>**Observação:**</font> Nos fatiamentos (*slices*) o item com índice i é **incluído** e o item com índice j **não é incluído** no resultado.

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

In [190]:
contador = np.arange(10)
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [166]:
contador[1:4]

array([1, 2, 3])

In [167]:
contador[1:8:2]

array([1, 3, 5, 7])

In [169]:
#contador[0:10:2]
contador[::2]

array([0, 2, 4, 6, 8])

In [171]:
#contador[1:10:2]
contador[1::2]

array([1, 3, 5, 7, 9])

In [172]:
dados

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

In [173]:
# ACESSANDO LINHAS E COLUNAS AO MESMO TEMPO E RETORNANDO UM ARRAY NUMPY
# Calcular a velocidade média apenas para 1 veículo por coluna
# Seguindo a mesma ordem, por exemplo, o item 0 de cada coluna ou o item
# 1 de cada coluna
# Seleciono tudo e peço a posição 1 e 2 de todos os arrays que compõem a variável
dados[:, 1:3]

array([[ 5712., 37123.],
       [ 1991.,  1990.]])

In [184]:
# Seleciono tudo e peço a posição 1 e 2 apenas do primeiro array
dados[:, 1:3][0]

array([ 5712., 37123.])

In [186]:
# Seleciono tudo e peço a posição 1 e 2 apenas do segundo array
dados[:, 1:3][1]

array([1991., 1990.])

In [183]:
# ******** DÚVIDA:********
# Tentei checar sozinha o que este comando me traria, mas não sei porque
# trouxe um array vazio e o len e o tipo
# Se eu coloco [1:0] ou [1:1], o retorno é o mesmo, mas se coloco [1:2] ele
# me devolve o segundo array completo
dados[1:0]

array([], shape=(0, 5), dtype=float64)

In [187]:
# Calculando apenas a km_media dos veículos selecionados no array numpy:
dados[:, 1:3][0] / (2019 - dados[:, 1:3][1])

# O QUE ACONTECEU AQUI?
# Foi calculado 2019 - 1991 = 28 e 2019 - 1990 = 29 e os resultados foram divididos pelos
# respectivos elementos selecionados do primeiro array:
# 5712 / 28 = 204 e 37123 / 29 = 1280.10344828

array([ 204.        , 1280.10344828])

In [188]:
dados[0] / (2019 - dados[1])

  """Entry point for launching an IPython kernel.


array([2775.625     ,  204.        , 1280.10344828,           nan,
       1981.30769231])

### Indexação com array booleano

<font color=red>**Observação:**</font> Seleciona um grupo de linhas e colunas segundo os rótulos ou um array booleano.

In [191]:
contador = np.arange(10)
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [189]:
contador > 5

array([False, False, False, False, False, False,  True,  True,  True,
        True])

In [192]:
contador[contador > 5]

array([6, 7, 8, 9])

In [193]:
contador[[False, False, False, False, False, False,  True,  True,  True,
        True]]

array([6, 7, 8, 9])

In [194]:
dados

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

In [195]:
dados[1] > 2000

array([ True, False, False,  True,  True])

In [196]:
dados[:, dados[1] > 2000]

array([[44410.,     0., 25757.],
       [ 2003.,  2019.,  2006.]])

In [212]:
# DESAFIO: Calcular a km_media dos veículos fabricados depois do ano 2000
# km_media = km / idade
km_media_2 = dados[:][0] / (dados[1] > 2000)   

# CHECAR NO FÓRUM DA ALURA SE ESTÁ CERTA A RESPOSTA

  This is separate from the ipykernel package so we can avoid doing imports until


In [213]:
km_media_2

array([44410.,    inf,    inf,     0., 25757.])

### Exercício

Considere o seguinte array:
```
dados = np.array(
    [
        ['Roberto', 'casado', 'masculino'],
        ['Sheila', 'solteiro', 'feminino'],
        ['Bruno', 'solteiro', 'masculino'],
        ['Rita', 'casado', 'feminino']
    ]
)
```
Mostre o código que permite a seleção, sem utilização de operadores lógicos (and e or), das informações de nome e estado civil, somente das pessoas do sexo masculino.

In [217]:
dados_2 = np.array(
    [
        ['Roberto', 'casado', 'masculino'],
        ['Sheila', 'solteiro', 'feminino'],
        ['Bruno', 'solteiro', 'masculino'],
        ['Rita', 'casado', 'feminino']
    ]
)

In [219]:
# dados_2[0::2, :2]
dados_2[::2, :2]

array([['Roberto', 'casado'],
       ['Bruno', 'solteiro']], dtype='<U9')

# 5.4 Atributos e métodos de arrays Numpy

In [225]:
dados = np.array([[44410., 5712., 37123., 0., 25757.],
                 [2003, 1991, 1990, 2019, 2006]])
dados

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

### Atributos

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#array-attributes

## *ndarray.shape*

Retorna uma tupla com as dimensões do array.

In [226]:
dados.shape

(2, 5)

## *ndarray.ndim*

Retorna o número de dimensões do array.

In [227]:
dados.ndim

2

## *ndarray.size*

Retorna o número de elementos do array.

In [228]:
dados.size

10

## *ndarray.dtype*

Retorna o tipo de dados dos elementos do array.

In [230]:
dados.dtype

dtype('float64')

## *ndarray.T*

Retorna o array transposto, isto é, converte linhas em colunas e vice versa.

In [231]:
dados.T

array([[44410.,  2003.],
       [ 5712.,  1991.],
       [37123.,  1990.],
       [    0.,  2019.],
       [25757.,  2006.]])

In [232]:
dados.transpose()

array([[44410.,  2003.],
       [ 5712.,  1991.],
       [37123.,  1990.],
       [    0.,  2019.],
       [25757.,  2006.]])

### Métodos

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#array-methods

## *ndarray.tolist()*

Retorna o array como uma lista Python.

In [235]:
dados.tolist()

[[44410.0, 5712.0, 37123.0, 0.0, 25757.0],
 [2003.0, 1991.0, 1990.0, 2019.0, 2006.0]]

## *ndarray.reshape(shape[, order])*

Retorna um array que contém os mesmos dados com uma nova forma.

In [240]:
contador = np.arange(10)
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [243]:
contador.reshape((5, 2))

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [245]:
# Utiliza a indexação da linguagem C
contador.reshape((5, 2), order='C')

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [246]:
# Utiliza a indexação da linguagem Fortran
contador.reshape((5, 2), order = 'F')

array([[0, 5],
       [1, 6],
       [2, 7],
       [3, 8],
       [4, 9]])

In [247]:
km = [44410, 5712, 37123, 0, 25757]
anos = [2003, 1991, 1990, 2019, 2006]

In [249]:
info_carros = km + anos
info_carros

[44410, 5712, 37123, 0, 25757, 2003, 1991, 1990, 2019, 2006]

In [250]:
np.array(info_carros)

array([44410,  5712, 37123,     0, 25757,  2003,  1991,  1990,  2019,
        2006])

In [251]:
np.array(info_carros).reshape((2, 5))

array([[44410,  5712, 37123,     0, 25757],
       [ 2003,  1991,  1990,  2019,  2006]])

In [255]:
# Organizar pela kilometragem e os anos de cada carro, em duas colunas
# Se eu fizer da forma como está descrito neste exemplo,
# vou ter duas colunas, mas não na ordem desejada
np.array(info_carros).reshape((5, 2))

array([[44410,  5712],
       [37123,     0],
       [25757,  2003],
       [ 1991,  1990],
       [ 2019,  2006]])

In [253]:
# O problema pode ser resolvido usando o order='F
np.array(info_carros).reshape((5, 2), order='F')

array([[44410,  2003],
       [ 5712,  1991],
       [37123,  1990],
       [    0,  2019],
       [25757,  2006]])

## *ndarray.resize(new_shape[, refcheck])*

Altera a forma e o tamanho do array.

In [254]:
dados_new = dados.copy()
dados_new

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.]])

In [256]:
# Aqui o objetivo é calcular a velocidade média dos veículos, mas não quero
# colocar os resultados em um novo array. Quero colocá-los no mesmo array.
dados_new.resize(3, 5, refcheck=False)

In [257]:
dados_new

array([[44410.,  5712., 37123.,     0., 25757.],
       [ 2003.,  1991.,  1990.,  2019.,  2006.],
       [    0.,     0.,     0.,     0.,     0.]])

In [258]:
dados_new[2] = dados_new[0] / (2019 - dados_new[1])

  """Entry point for launching an IPython kernel.


In [259]:
# Agora sim, na primeira linha temos a kilometragem, na segunda linha temos os 
# anos e na terceira linha temos a kilometragem média
dados_new

array([[44410.        ,  5712.        , 37123.        ,     0.        ,
        25757.        ],
       [ 2003.        ,  1991.        ,  1990.        ,  2019.        ,
         2006.        ],
       [ 2775.625     ,   204.        ,  1280.10344828,            nan,
         1981.30769231]])

# 5.5 Estatísticas com arrays Numpy

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#calculation

e

https://numpy.org/doc/1.16/reference/routines.statistics.html

e

https://numpy.org/doc/1.16/reference/routines.math.html

In [260]:
anos = np.loadtxt(fname = "carros-anos.txt", dtype = int)
km = np.loadtxt(fname = "carros-km.txt")
valor = np.loadtxt(fname = "carros-valor.txt")

In [261]:
anos.shape

(258,)

## *numpy.column_stack*
Transforma arrays unidimensionais em colunas de um array bidimensional

https://numpy.org/doc/1.16/reference/generated/numpy.column_stack.html

In [None]:
dataset = np.column_stack((anos, km, valor))
dataset

In [265]:
dataset.shape

(258, 3)

## *np.mean()*

Retorna a média dos elementos do array ao longo do eixo especificado.

In [266]:
# Fazendo assim, teremos como retorno um número único.
# Ele vai calcular a média com todos valores do dataset (anos, km e valor).
# Então não nos atende porque é um número que não faz sentido algum
np.mean(dataset)

48489.14648578811

In [267]:
# Informando o eixo x, teremos a média separada pelos valores de
# cada uma das colunas
# OBS: o primeiro dado, que é a média dos anos é o único que não faz sentido
# obter aqui
np.mean(dataset, axis = 0)

array([ 2007.51162791, 44499.41472868, 98960.51310078])

In [None]:
# Aqui não faz muito sentido, mas trouxe apenas para mostrar o mesmo
# cálculo anterior, só que por linhas
np.mean(dataset, axis = 1)

In [270]:
# Obtendo a média apenas da kilometragem
np.mean(dataset[:, 1])

44499.41472868217

In [272]:
# Obtendo a média apenas pelo valor
np.mean(dataset[:, 2])

98960.51310077519

## *np.std()*

Retorna o desvio padrão dos elementos do array ao longo do eixo especificado.

In [273]:
# Calculando o desvio padrão do valor dos veículos:
np.std(dataset[:, 2])

29754.101150388564

## *ndarray.sum()*

Retorna a soma dos elementos do array ao longo do eixo especificado.

In [274]:
# Obtendo a soma de cada uma das colunas
dataset.sum(axis = 0)

array([  517938.        , 11480849.        , 25531812.37999999])

In [275]:
# Obtendo a soma da kilometragem
dataset[:, 1].sum()

11480849.0

## *np.sum()*

Retorna a soma dos elementos do array ao longo do eixo especificado.

In [276]:
np.sum(dataset, axis = 0)

array([  517938.        , 11480849.        , 25531812.37999999])

In [278]:
# Obtendo apenas a soma dos valores com aplicação do slice:
np.sum(dataset[:, 2])

25531812.38

### Exercício

Considerando o array idades:
```
idades = np.array([10, 23, 45, 34, 25])
```
Quais são formas corretas de se obter a média aritmética das idades?

In [279]:
idades = np.array([10, 23, 45, 34, 25])

In [280]:
# Forma 1
np.sum(idades) / idades.size

"""
Também é possível obter a média com uma combinação de funcionalidade do Numpy. 
A média aritmética é definida como a razão entre o somatório de todos os 
valores e o total de valores envolvidos na soma.
"""

27.4

In [281]:
# Forma 2
np.mean(idades)

"""
Lembrando que o argumento axis pode ter que ser configurando quando trabalhamos 
com arrays de mais de uma dimensão.
"""

27.4

In [282]:
# Forma 3
idades.mean()

"""
Esta forma não foi apresentada em nossa aula, mas também é uma forma válida de 
se obter a média dos dados de um array Numpy.
"""

27.4