# Introdução a Python - Aula 5 - Bibliotecas
<br>

### Índice<a id='indice'></a><br>
1 - [Numpy](#1)<br>
1.1 - [](#1.1)<br>
1.2 - [](#1.2)<br>
<br>

In [20]:
!python --version

Python 3.7.3


## 1. Numpy<a id='1'></a>
---
**Numpy** é a abreviação de _Numerical Python_ e é um dos pacotes mais importantes para processamento numérico em Python.

Para começar, vamos utilizar uma das funções da biblioteca Numpy para ler um conjunto de dados de um arquivo externo (txt) e transformar estas informações em _arrays_ **Numpy**. 

O pacote **Numpy** possui um poderoso objeto _array_ multidimensional, que nos permite realizar um conjunto bastante amplo de operações numéricas, sem a necessidade de utilização de laços `for`.

O primeiro passo é importar a biblioteca, e logo após, utilizo o método [`np.loadtxt()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.loadtxt.html?highlight=loadtxt#numpy.loadtxt) para carregar o conteúdo de um arquivo como um _array_ numpy.

In [25]:
import numpy as np

In [26]:
km = np.loadtxt('data/carros-km.txt')

Antes de "printar" o resultado verificamos o tamanho do _array_ com o método [`size`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.size.html):

In [27]:
km.size

258

Sabendo que se trata de um número grande de valores para "printar" na tela, vamos apresentar apenas os dez primeiros:

In [29]:
km[:10]

array([44410.,  5712., 37123.,     0., 25757., 10728.,     0., 77599.,
       99197., 37978.])

Este arquivo que foi importado possui como conteúdo a quilometragem de carros.

Agora vamos importar o arquivo que contém o ano de fabricação de cada um desses carros. Mas agora vamos especificar o tipo de dados dos valores contidos no arquivo, isso é feito passando um segundo parâmetro para o método.

In [30]:
anos = np.loadtxt('data/carros-anos.txt', dtype=int)

In [36]:
print(anos.size)
print(anos[:10])

258
[2003 1991 1990 2019 2006 2012 2019 2009 2010 2011]


Por fim, vamos calcular a quilometragem média que cada carrou andou por ano. Faremos isso para duas situações: até o ano de 2019 (ano de fabricação mais recente) e o atual. Então, começando por 2020:

In [37]:
km_media_20 = km / (2020 - anos)

In [38]:
km_media_20[:10]

array([2612.35294118,  196.96551724, 1237.43333333,    0.        ,
       1839.78571429, 1341.        ,    0.        , 7054.45454545,
       9919.7       , 4219.77777778])

In [39]:
km_media_19 = km / (2019 - anos)

  """Entry point for launching an IPython kernel.


In [40]:
km_media_19[:10]

array([ 2775.625     ,   204.        ,  1280.10344828,            nan,
        1981.30769231,  1532.57142857,            nan,  7759.9       ,
       11021.88888889,  4747.25      ])

Note que quando calculamos em relação ao ano de 2020 não recebemos nenhum <font color=red>warning</font>, enquanto que para 2019 recebemos um mensagem. Isso se deve a divisões por zero que aconteceram na segunda situação, pois alguns carros foram fabricados em 2019. Perceba que os respectivos elementos no _array_ de quilometragem média receberam o valor `nan` (not a number).

<p style="text-align: right"> <a href="#indice">voltar ao topo </p>

# <font color=green> PYTHON PARA DATA SCIENCE - NUMPY
---

# <font color=green> 3. TRABALHANDO COM LISTAS
---

# 3.1 Criando listas

Listas são sequências **mutáveis** que são utilizadas para armazenar coleções de itens, geralmente homogêneos. Podem ser construídas de várias formas:
```
- Utilizando um par de colchetes: [ ], [ 1 ]
- Utilizando um par de colchetes com itens separados por vírgulas: [ 1, 2, 3 ]
```

In [None]:
Acessorios = ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva']
Acessorios

### Lista com tipos de dados variados

In [None]:
Carro_1 = ['Jetta Variant', 'Motor 4.0 Turbo', 2003, 44410.0, False, ['Rodas de liga', 'Travas elétricas', 'Piloto automático'], 88078.64]
Carro_2 = ['Passat', 'Motor Diesel', 1991, 5712.0, False, ['Central multimídia', 'Teto panorâmico', 'Freios ABS'], 106161.94]

# 3.2 Operações com listas

https://docs.python.org/3.6/library/stdtypes.html#common-sequence-operations

## *x in A*

Retorna **True** se um elemento da lista *A* for igual a *x*.

## *A + B*

Concatena as listas *A* e *B*.

In [None]:
A = ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro']
B = ['Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva']

## *len(A)*

Tamanho da lista A.

# 3.3 Seleções em listas

## *A[ i ]*

Retorna o i-ésimo item da lista *A*.

<font color=red>**Observação:**</font> Listas têm indexação com origem no zero.

## *A[ i : j ]*

Recorta a lista *A* do índice i até o j. Neste fatiamento o elemento com índice i é **incluído** e o elemento com índice j **não é incluído** no resultado.

# 3.4 Métodos de listas

https://docs.python.org/3.6/library/stdtypes.html#mutable-sequence-types

## *A.sort()*

Ordena a lista *A*.

## *A.append(x)*

Adiciona o elemnto *x* no final da lista *A*.

## *A.pop(i)*

Remove e retorna o elemento de índice i da lista *A*.

<font color=red>**Observação:**</font> Por *default* o método *pop()* remove e retorna o último elemento de uma lista.

## *A.copy()*

Cria uma cópia da lista *A*.

<font color=red>**Observação:**</font> O mesmo resultado pode ser obtido com o seguinte código: 
```
A[:]
```

# <font color=green> 4. ESTRUTURAS DE REPETIÇÃO E CONDICIONAIS
---

# 4.1 Instrução *for*

#### Formato padrão

```
for <variável> in <coleção>:
    <instruções>
```

### Loops com listas

###  List comprehensions

https://docs.python.org/3.6/tutorial/datastructures.html#list-comprehensions

*range()* -> https://docs.python.org/3.6/library/functions.html#func-range

# 4.2 Loops aninhados

In [None]:
dados = [ 
    ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva'],
    ['Central multimídia', 'Teto panorâmico', 'Freios ABS', '4 X 4', 'Painel digital', 'Piloto automático', 'Bancos de couro', 'Câmera de estacionamento'],
    ['Piloto automático', 'Controle de estabilidade', 'Sensor crepuscular', 'Freios ABS', 'Câmbio automático', 'Bancos de couro', 'Central multimídia', 'Vidros elétricos']
]
dados

## *set()*

https://docs.python.org/3.6/library/stdtypes.html#types-set

https://docs.python.org/3.6/library/functions.html#func-set

### List comprehensions

# 4.3 Instrução *if*

#### Formato padrão

```
if <condição>:
     <instruções caso a condição seja verdadeira>
```

### Operadores de comparação: $==$, $!=$, $>$, $<$, $>=$, $<=$
### e
### Operadores lógicos: $and$, $or$, $not$

In [None]:
# 1º item da lista - Nome do veículo
# 2º item da lista - Ano de fabricação
# 3º item da lista - Veículo é zero km?

dados = [
    ['Jetta Variant', 2003, False],
    ['Passat', 1991, False],
    ['Crossfox', 1990, False],
    ['DS5', 2019, True],
    ['Aston Martin DB4', 2006, False],
    ['Palio Weekend', 2012, False],
    ['A5', 2019, True],
    ['Série 3 Cabrio', 2009, False],
    ['Dodge Jorney', 2019, False],
    ['Carens', 2011, False]
]
dados

### List comprehensions

# 4.4 Instruções *if-else* e *if-elif-else*

#### Formato padrão

```
if <condição>:
    <instruções caso a condição seja verdadeira>
else:
    <instruções caso a condição não seja verdadeira>
```

#### Formato padrão

```
if <condição 1>:
    <instruções caso a condição 1 seja verdadeira>
elif <condição 2>:
    <instruções caso a condição 2 seja verdadeira>
elif <condição 3>:
    <instruções caso a condição 3 seja verdadeira>
                        .
                        .
                        .
else:
    <instruções caso as condições anteriores não sejam verdadeiras>
```

In [None]:
print('AND')
print(f'(True and True) o resultado é: {True and True}')
print(f'(True and False) o resultado é: {True and False}')
print(f'(False and True) o resultado é: {False and True}')
print(f'(False and False) o resultado é: {False and False}')

In [None]:
print('OR')
print(f'(True or True) o resultado é: {True or True}')
print(f'(True or False) o resultado é: {True or False}')
print(f'(False or True) o resultado é: {False or True}')
print(f'(False or False) o resultado é: {False or False}')

# <font color=green> 5. NUMPY BÁSICO
---

Numpy é a abreviação de Numerical Python e é um dos pacotes mais importantes para processamento numérico em Python. Numpy oferece a base para a maioria dos pacotes de aplicações científicas que utilizem dados numéricos em Python (estruturas de dados e algoritmos). Pode-se destacar os seguintes recursos que o pacote Numpy contém:

- Um poderoso objeto array multidimensional;
- Funções matemáticas sofisticadas para operações com arrays sem a necessidade de utilização de laços *for*;
- Recursos de algebra linear e geração de números aleatórios

Além de seus óbvios usos científicos, o pacote NumPy também é muito utilizado em análise de dados como um eficiente contêiner multidimensional de dados genéricos para transporte entre diversos algoritmos e bibliotecas em Python.

**Versão:** 1.16.5

**Instalação:** https://scipy.org/install.html

**Documentação:** https://numpy.org/doc/1.16/

### Pacotes

Existem diversos pacotes Python disponíveis para download na internet. Cada pacote tem como objetivo a solução de determinado tipo de problema e para isso são desenvolvidos novos tipos, funções e métodos.

Alguns pacotes são bastante utilizados em um contexto de ciência de dados como por exemplo:

- Numpy
- Pandas
- Scikit-learn
- Matplotlib

Alguns pacotes não são distribuídos com a instalação default do Python. Neste caso devemos instalar os pacotes que necessitamos em nosso sistema para podermos utilizar suas funcionalidades.

### Importando todo o pacote

https://numpy.org/doc/1.16/reference/generated/numpy.arange.html

### Importando todo o pacote e atribuindo um novo nome 

### Importando parte do pacote

# 5.1 Criando arrays Numpy

### A partir de listas

https://numpy.org/doc/1.16/user/basics.creation.html

https://numpy.org/doc/1.16/user/basics.types.html

### A partir de dados externos

https://numpy.org/doc/1.16/reference/generated/numpy.loadtxt.html

### Arrays com duas dimensões

In [None]:
dados = [ 
    ['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva'],
    ['Central multimídia', 'Teto panorâmico', 'Freios ABS', '4 X 4', 'Painel digital', 'Piloto automático', 'Bancos de couro', 'Câmera de estacionamento'],
    ['Piloto automático', 'Controle de estabilidade', 'Sensor crepuscular', 'Freios ABS', 'Câmbio automático', 'Bancos de couro', 'Central multimídia', 'Vidros elétricos']
]
dados

### Comparando desempenho com listas

# 5.2 Operações aritméticas com arrays Numpy

### Operações entre arrays e constantes

In [None]:
km = [44410., 5712., 37123., 0., 25757.]
anos = [2003, 1991, 1990, 2019, 2006]

In [None]:
km = np.array([44410., 5712., 37123., 0., 25757.])
anos = np.array([2003, 1991, 1990, 2019, 2006])

### Operações entre arrays

### Operações com arrays de duas dimensões

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

# 5.3 Seleções com arrays Numpy

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

![1410-img02.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img02.png)

### Indexação 

<font color=red>**Observação:**</font> A indexação tem origem no zero.

## <font color=green>**Dica:**</font>
### *ndarray[ linha ][ coluna ]* ou *ndarray[ linha, coluna ]*

 ### Fatiamentos
 
A sintaxe para realizar fatiamento em um array Numpy é $i : j : k$ onde $i$ é o índice inicial, $j$ é o índice de parada, e $k$ é o indicador de passo ($k\neq0$)
 
<font color=red>**Observação:**</font> Nos fatiamentos (*slices*) o item com índice i é **incluído** e o item com índice j **não é incluído** no resultado.

![1410-img01.png](https://caelum-online-public.s3.amazonaws.com/1410-pythondatascience/01/1410-img01.png)

### Indexação com array booleano

<font color=red>**Observação:**</font> Seleciona um grupo de linhas e colunas segundo os rótulos ou um array booleano.

# 5.4 Atributos e métodos de arrays Numpy

### Atributos

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#array-attributes

## *ndarray.shape*

Retorna uma tupla com as dimensões do array.

## *ndarray.ndim*

Retorna o número de dimensões do array.

## *ndarray.size*

Retorna o número de elementos do array.

## *ndarray.dtype*

Retorna o tipo de dados dos elementos do array.

## *ndarray.T*

Retorna o array transposto, isto é, converte linhas em colunas e vice versa.

### Métodos

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#array-methods

## *ndarray.tolist()*

Retorna o array como uma lista Python.

## *ndarray.reshape(shape[, order])*

Retorna um array que contém os mesmos dados com uma nova forma.

In [None]:
km = [44410, 5712, 37123, 0, 25757]
anos = [2003, 1991, 1990, 2019, 2006]

## *ndarray.resize(new_shape[, refcheck])*

Altera a forma e o tamanho do array.

# 5.5 Estatísticas com arrays Numpy

https://numpy.org/doc/1.16/reference/arrays.ndarray.html#calculation

e

https://numpy.org/doc/1.16/reference/routines.statistics.html

e

https://numpy.org/doc/1.16/reference/routines.math.html

In [None]:
anos = np.loadtxt(fname = "carros-anos.txt", dtype = int)
km = np.loadtxt(fname = "carros-km.txt")
valor = np.loadtxt(fname = "carros-valor.txt")

https://numpy.org/doc/1.16/reference/generated/numpy.column_stack.html

## *np.mean()*

Retorna a média dos elementos do array ao longo do eixo especificado.

## *np.std()*

Retorna o desvio padrão dos elementos do array ao longo do eixo especificado.

## *ndarray.sum()*

Retorna a soma dos elementos do array ao longo do eixo especificado.

## *np.sum()*

Retorna a soma dos elementos do array ao longo do eixo especificado.