# Revisão do que vimos até agora nas aulas de Python

## Montagem do Drive no Google Colaboratory

Ao escrevermos o código no *Google Colaboratory*, temos a grande vantagem de não precisamos instalar o Python no nosso computador pessoal, pois programamos tudo no servidor do próprio Google. Contudo, para que isso seja possível, é necessário que nossa internet seja estável. 

Quando começamos a usar o *Google Colaboratory*, precisamos fazer o login na nossa conta Google e, automaticamente, uma pasta de nome **Colab Notebooks** aparece no nosso Google Drive. 

Para facilitar a nossa vida, podemos deixar armazenado nessa pasta todos os códigos que programamos no *Google Colaboratory*. Além do notebook em si, muitas vezes precisamos salvar uma figura ou outro formato de arquivo, como csv, por exemplo. 

Para que você consiga acessar ou salvar qualquer tipo de arquivo na pasta **Colab Notebooks**, você precisa **antes** fazer a montagem do drive. Com esse procedimento, você consegue acessar a sua pasta **Colab Notebooks** pelo notebook que você está programando dentro do *Google Colaboratory*. 

Vamos ver agora como se faz esse procedimento.

**1. Fazer a importação da biblioteca google.colab.**

In [1]:
from google.colab import drive 

Se você estiver rodando o notebook no Jupyter Notebook, pule essa seção, pois resultará em erro ao rodar a célula acima. 

Repare que o código da importação está um pouco diferente do código que escrevemos para importar as bibliotecas em aula. Geralmente fazemos:
- import *nome_da_biblioteca* as *abreviação_da_biblioteca*

O que houve agora é que não queremos importar todo o conteúdo da biblioteca *google.colab*, mas apenas a função *drive* que está contida dentro dessa biblioteca, por isso o código foi escrito como:
- from *nome_da_biblioteca* import *funcao_da_biblioteca*

**2. Solicitar a montagem do drive.**

In [2]:
drive.mount('/content/drive')

Mounted at /content/drive


Ao rodar a célula acima, irá aparecer a mensagem para você acessar um link, você deve clicar no link e será redirecionado para outra aba do seu navegador. 

Nesse momento, possivelmente você precisará confirmar o seu login do Google a autorizar o Google a acessar o seu drive. Ao fazer isso, um código aparecerá para você copiar, você o copia clicando no "quadradinho" que aparece ao lado do código. 

Como último passo, você retorna a sua aba principal e cola esse código no espaço em branco que apareceu para você e aperte o ENTER do teclado. Pronto, a montagem do seu Drive será iniciada e você precisa aguardar. 

**3. Direcionar o Google Colaboratory para a sua pasta Colab Notebooks.**

In [3]:
import os

In [4]:
os.chdir('drive/MyDrive/Colab Notebooks')

In [5]:
!ls # serve para mostrar os arquivos da pasta atual

'Aula3 (1).ipynb'   Aula3.ipynb


Nesse momento, o *Google Colaboratory* já está com acesso ao seu Drive, porém ao salvar alguma figura no seu notebook, a figura será sala na raíz do seu Drive. Para uma melhor organização, sugerimos que você direcione o *Google Colaboratory* para acessar a pasta *Colab Notebooks*. 

Para fazer isso, primeiro, é necessário importar a biblioteca *os*. Essa biblioteca é utilizada para lidar com informações e manipulação de diretórios e arquivos. Para mais informações, sobre essa biblioteca, ver o link https://docs.python.org/3/library/os.html.

Como passo seguinte, utilizamos a função *chdir* da biblioteca *os* e o endereço da pasta *Colab Notebooks*. 

A função *chdir* é empregada para mudar o diretório de trabalho atual para outro. Basicamente, você vai mudar a execução do código da raiz do seu drive para uma pasta específica facilitando o acesso a documentos e localização de informações como gráficos que vão ser gerados.

E pronto! =) ! Agora, você já consegue salvar e abrir arquivos que estão armazenados dentro da pasta *Colab Notebooks* do seu Google Drive. 

Para mais informações sobre o *Google Colaboratory* veja o artigo:
- https://bit.ly/2TErYr5

## Testando velocidade de processamento com GPU e sem GPU

Uma outra grande vantagem ao usarmos o Google Colaboratory é que ele permite que possamos usar o recurso de GPU para executar o seu programa, o que faz com que seu programa seja executado de modo muito mais rápido do que se estivesse usando o modo default. Para ativar essa opção, você precisa seguir o caminho:

- Edit > Notebook settings > Modifique a opção Hardware accelerator para GPU

Vamos testar se isso mesmo é verdade?

Para comparar a execução do código, vamos utilizar a biblioteca *time*. Essa biblioteca provê o tempo de execução de certa célula.

In [2]:
import time 

Para o teste, podemos usar um loop definido que vai de 0 até 1000. Para isso, vamos fazer uso do *for*. 

- Sem ativar o GPU:

In [7]:
nn = 1000
start = time.time() # inicializar o tempo inicial a ser levado em consideracao
j = 0
for i in range(nn):
    j = j + 1
end = time.time() # marca o tempo final a ser contabilizado
print(end - start) # aqui o print ira fornecer o tempo total executado da linha do start ate a linha do end

0.0003540515899658203


Na célula acima, primeio criamos a variável *nn* que recebe o valor de 1000. 
Na linha abaixo, criamos a variável *start* que irá armazenar o valor do tempo atual. Depois, a variável *j* foi declarada recebendo o valor 0. Finalmente, chegamos no loop definido com o *for* no qual tem o contador *i* que irá variar de 0 até *nn*. A cada iteração, o *j* é atualizado em 1 unidade pelo código: *j = j + 1*.

Saindo do loop, ahhh como eu eu sei saímos do loop?

Sabemos que esse loop tem apenas uma única linha, pois após a linha onde tem a atualização de *j* (*j=j+1*), a identação não existe mais, ou seja, a variável *end* é declarada no início da célula, alinhado com o *for*, não fazendo, então, parte do loop.  O *end* recebe o tempo atual e a contabilização do tempo é interrompida nesse momento. Por fim, o *print* irá imprimir para o usuário a duração total da execução do código desde a declaração do *start* até o *end*. 

Antes de ativar o GPU, vamos aumentar o *nn* para 100000000:

In [8]:
nn = 100000000
start = time.time() # inicializar o tempo inicial a ser levado em consideracao
j = 0
for i in range(nn):
    j = j + 1
end = time.time() # marca o tempo final a ser contabilizado
print(end - start) # aqui o print ira fornecer o tempo total executado da linha do start ate a linha do end

12.346805810928345


- Com o GPU ativado (Edit > Notebook settings > Modifique a opção Hardware accelerator para GPU):

In [3]:
nn = 1000
start = time.time() # inicializar o tempo inicial a ser levado em consideracao
j = 0
for i in range(nn):
    j = j + 1
end = time.time() # marca o tempo final a ser contabilizado
print(end - start) # aqui o print ira fornecer o tempo total executado da linha do start ate a linha do end

0.0002741813659667969


Antes de ativar o GPU, vamos aumentar o *nn* para 100000000:

In [4]:
nn = 100000000
start = time.time() # inicializar o tempo inicial a ser levado em consideracao
j = 0
for i in range(nn):
    j = j + 1
end = time.time() # marca o tempo final a ser contabilizado
print(end - start) # aqui o print ira fornecer o tempo total executado da linha do start ate a linha do end

9.77730393409729


## Observação

- No exemplo abordado conseguimos averiguar o ganho em termo de tempo de execução de uma aplicação simples. Porém sendo um código simples o ganho de performance não é tão evidente. Esse ganho é muito expressivo quando temos problemas mais complexos, sobretudo no treinamento de redes neurais que envolvem muitas operações. Nesses casos o processamento paralelo de uma GPU supera em proporções muito extraordinárias um processamento em série de uma CPU. 

# Declaração de variáveis

Em Python, assim como em toda linguagem de programação, a declaração de variáveis se faz:

- var = valor ou conjunto de valores

onde *var* é o nome da variável que o usuário escolheu. 

**1. Na célula a seguir, criamos a variável com nome *a* que recebe o número 10.**

In [9]:
a = 10

In [10]:
a

10

Conseguimos saber que *a* é do tipo inteiro, pela função do Python *type*.

In [11]:
type(a)

int

**2. Crie, agora uma variável do tipo real, chamada *b*, que irá receber o valor 5.2.**

In [12]:
b = 5.2

**3. Confirme o tipo de *b*.**

In [13]:
type(b),b

(float, 5.2)

## Tipos de variáveis

Com a Júlia, vocês foram apresentados aos diversos tipos que as variáveis em Python podem ser: 
- string --> *str*
- inteiro --> *int*
- real --> *float*
- booleano --> *bool*
- tupla --> *tuple*
- lista --> *list*
- vetor --> *array*
- dicionário --> *dic*

Vamos, agora, criar uma variável chamada *a* e fazer *a* receber *'2'*, no qual  *'2'* é do tipo *string*:

In [14]:
a = '2'

Ao multiplicar *a* por 2, obtemos como resultado uma string *'22'*, pois o Python não entende que essa é uma operação matemática, mas sim uma concatenação de strings. 

In [15]:
a*2

'22'

Variáveis booleanas são, por exemplo, *False* e *True*.

In [16]:
type(True)

bool

As variáveis do tipo *string* são variáveis que contém caracteres alfa-numéricos. Toda variável *string* que contém números, ela aparece entre aspas quando você a imprime na tela. Por exemplo:

In [17]:
var = '5'

In [18]:
var

'5'

In [19]:
type(var)

str

A variável *var* apesar de ser um número, ela é classificada como *string*. Como podemos fazer para convertê-la para uma variável do tipo *int*?

In [20]:
var = int(var)

In [21]:
var,type(var)

(5, int)

In [26]:
var*4

20

Dica, para converter variáveis para inteiro, utiliza-se a função *int*. 

Já para converter variáveis para string, utiliza-se a função *str* e para converter para real, emprega-se a função *float*.

In [23]:
c = str(5)
c, type(c)

('5', str)

In [24]:
nn = 4
print(nn, type(nn))
nn = float(nn)
nn,type(nn)

4 <class 'int'>


(4.0, float)

Na célula acima, utilizei o comando *print*, pois se não tivesse usado o mesmo, só seria impresso na tela a última linha da célula. 

Faça o teste.

In [25]:
nn = 4
nn, type(nn)
nn = float(nn)
nn,type(nn)

(4.0, float)

***

As listas são variáveis muito úteis em Python e que nos fornecem uma liberdade incrível, pois elas permitem que a gente armazene em uma única estrutura tipos diferentes de variáveis, vamos ver alguns exemplos. 

1. Lista de números inteiros

In [27]:
impares = [1,3,5,7,9,11,13,15,17,19,21]

In [28]:
impares

[1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21]

In [29]:
type(impares)

list

1.1. Imprima o número 17 da lista impares.

In [37]:
impares[-3],impares[8], impares[impares.index(17)]

(17, 17, 17)

In [36]:
impares.index(17)

8

1.2. Imprima a posição do número 19 na lista impares.

In [38]:
impares.index(19)

9

2. Lista de strings

In [39]:
frutas = ['maca','pera','banana','abacaxi','goiaba','melao']

In [40]:
frutas

['maca', 'pera', 'banana', 'abacaxi', 'goiaba', 'melao']

In [41]:
type(frutas)

list

2.1. Imprima os elementos 'pera' e 'banana' da lista.

In [42]:
frutas[1:3]

['pera', 'banana']

In [43]:
frutas[1:2]

['pera']

In [46]:
print(f'{frutas[1]},{frutas[2]}')

pera,banana


2.2. Imprima todos os elementos de frutas com exceção do primeiro.

In [47]:
frutas

['maca', 'pera', 'banana', 'abacaxi', 'goiaba', 'melao']

In [49]:
frutas[1::],frutas[1:]

(['pera', 'banana', 'abacaxi', 'goiaba', 'melao'],
 ['pera', 'banana', 'abacaxi', 'goiaba', 'melao'])

2.3. Imprima todos os elementos de frutas com exceção do primeiro e do último.

In [52]:
frutas[1:-1],frutas[1:5], frutas[1:len(frutas)-1]

(['pera', 'banana', 'abacaxi', 'goiaba'],
 ['pera', 'banana', 'abacaxi', 'goiaba'],
 ['pera', 'banana', 'abacaxi', 'goiaba'])

3. Tudo misturado...

In [53]:
mistura = [1,2,'Python',[3.4,5,'a'],True]

In [54]:
mistura

[1, 2, 'Python', [3.4, 5, 'a'], True]

3.1. Imprima o elemento 'a' de mistura

In [58]:
mistura[3][2], mistura[3][-1],mistura[-2][2],mistura[-2][-1]

('a', 'a', 'a', 'a')

In [59]:
mistura[2][1]

'y'

3.2. Troque *True* por *False* em mistura.

In [60]:
mistura[4] = False
mistura

[1, 2, 'Python', [3.4, 5, 'a'], False]

## Funções aplicadas a listas

### len

Se eu quiser saber o tamanho total de uma lista, ou seja, quantos elementos a lista possui, eu uso a função *len*.

In [61]:
len(mistura)

5

In [62]:
len(frutas)

6

In [2]:
lista = [1,2,3,4,5,6]

In [69]:
len(lista)

6

#### Outras formas de determinar o comprimento de listas sem utilizar *len*

1. Solução proposta 1

In [3]:
tamanho = 0
for i in lista:
  #print(i)
  tamanho = tamanho+1
tamanho

6

Na solução 1, iniciamos a variável *tamanho* com o valor *0*. Depois empregamos um loop definido, pelo uso do *for*, onde o contador *i* a cada iteração recebe o valor do elemento armazenado em *listas*. 

Para ficar mais claro, rode a célula anterior, mas com o *print(i)* dentro do *for*. 

2. Solução proposta 2

In [75]:
for i,j in enumerate(lista):
    print(i,j)
'''
i --> posição dos elementos na lista
j --> elementos da lista
'''
tamanho = i + 1
tamanho 

0 1
1 2
2 3
3 4
4 5
5 6


6

In [76]:
for a in enumerate(lista):
    print(a)

(0, 1)
(1, 2)
(2, 3)
(3, 4)
(4, 5)
(5, 6)


In [84]:
lista.index(lista[-1])+1

6

Na solução proposta 2, também foi utilizado um loop definido, porém o *j* recebe, a cada iteração, o valor do elemento da lista, e o *i* recebe a posição do elemento na lista. 

### sum

A função *sum* soma todos os elementos da lista, vamos testar?

In [63]:
sum(frutas)

TypeError: ignored

Sum somente pode ser aplicado a uma lista de números inteiros ou reais, se não, resultará em erro.

In [64]:
sum(impares)

121

In [65]:
sum([2.,3.,4,5,6,7])

27.0

In [85]:
lista

[1, 2, 3, 4, 5, 6]

In [88]:
sum(lista)

21

#### Outras formas de fazer o somatório da lista sem usar o *sum*

1. Modo 1

In [87]:
soma = 0
for i in lista:
    soma = soma + i
    print(i,soma)
print(f'Somatório da lista:{soma}')

1 1
2 3
3 6
4 10
5 15
6 21
Somatório da lista:21


In [92]:
lista

[1, 2, 3, 4, 5, 6]

2. Modo 2

Para testar o modo 2, vamos criar uma nova lista chamada *lista2*. Essa nova lista será a cópia da lista original, porém o primeiro elemento dela será atualizado para *6*. 

In [101]:
lista2 = lista.copy()
lista2[0] = 6
lista2

[6, 2, 3, 4, 5, 6]

In [102]:
lista3 = lista
lista3

[1, 2, 3, 4, 5, 6]

In [103]:
lista3[1] = 10
lista3

[1, 10, 3, 4, 5, 6]

In [104]:
lista

[1, 10, 3, 4, 5, 6]

In [100]:
soma = 0
i = 0
while i != len(lista2):
    soma = soma + lista2[i]
    i = i + 1
print(f'Somatório da lista2:{soma}')

Somatório da lista2:26


Foi utilizado o loop *while*, no qual para ele ser interrompido a condição entre ( ) tem que passar a ser *FALSA*. A condição dada no exemplo acima foi que o loop acontece enquanto *i* é diferente *(!=)* do comprimento da *lista2*. 

### max, min

As funções *max* e *min* são aplicadas para identificarmos os elementos máximo e mínimo de uma lista. 

In [66]:
max(impares)

21

In [67]:
min(impares)

1

In [105]:
impares

[1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21]

#### Outras formas de encontrar os valores máximo e mínimo da lista sem usar o *max* & *min*

1. Modo 1

In [None]:
maior_val = impares[0]
for i in range(1,len(impares)):
    if maior_val < impares[i]:
        maior_val = impares[i]
    print(i,maior_val)

2. Modo 2

In [111]:
maior_val = impares[0]
for i in impares:
    if i > maior_val:
        maior_val = i
print(f'maior valor:{maior_val}')

maior valor:21


3. Modo 3

In [112]:
menor = impares[0]
maior = impares[0]

for i in impares:
    if i < menor:
        menor = i
    if i > maior:
        maior = i
print(f'maior valor:{maior}')
print(f'menor valor:{menor}')

maior valor:21
menor valor:1


4. Modo 4

In [116]:
menor = impares[0]
maior = impares[0]

for j,i in enumerate(impares):
    if i < menor:
        menor = i
    if i > maior:
        maior = i
print(f'maior valor:{maior}')
print(f'menor valor:{menor}')

maior valor:21
menor valor:1


5. Modo 5

In [114]:
import sys

In [115]:
maior = sys.float_info.max 
menor = sys.float_info.min
print(maior,menor) 

1.7976931348623157e+308 2.2250738585072014e-308


In [118]:
lista2 = [-10,-300,-20,-5]
lista2

[-10, -300, -20, -5]

In [121]:
menor = sys.float_info.max
maior = -sys.float_info.max

for j,i in enumerate(lista2):
    if i < menor:
        print('loop1',i,menor)
        menor = i
        print('loop1',i,menor)
    if i > maior:
        print('loop2',i,maior)
        maior = i
        print('loop2',i,maior)
    input() # esse input esta aqui para pausar a execucao do codigo. Para continuar pressione enter
print(f'maior valor:{maior}')
print(f'menor valor:{menor}')

loop1 -10 1.7976931348623157e+308
loop1 -10 -10
loop2 -10 -1.7976931348623157e+308
loop2 -10 -10

loop1 -300 -10
loop1 -300 -300


loop2 -5 -10
loop2 -5 -5

maior valor:-5
menor valor:-300


## Métodos aplicados a listas

Bom, temos as funções aplicadas a listas (que acabamos de ver) e temos os métodos aplicados a listas.

**Qual é a diferença entre métodos e listas?**

Na função, usamos o nome da função e entre ( ) escrevemos a lista na qual queremos que a função seja aplicada. Já em métodos, escrevemos o nome da lista ponto o método que queremos aplicar nessa lista. Vamos ver um exemplo:



### append

O *append* é um método usado para adicionar elementos na última posição da lista. Vamos adicionar a palavra "melancia" na lista frutas.

In [122]:
frutas

['maca', 'pera', 'banana', 'abacaxi', 'goiaba', 'melao']

In [123]:
frutas.append('melancia')

In [124]:
frutas

['maca', 'pera', 'banana', 'abacaxi', 'goiaba', 'melao', 'melancia']

Contudo, não podemos fazer a adição de mais de um elemento de modo simultâneo usando o *append*.

In [126]:
frutas.append(['morango','abacate'])

In [127]:
frutas

['maca',
 'pera',
 'banana',
 'abacaxi',
 'goiaba',
 'melao',
 'melancia',
 ['morango', 'abacate']]

In [128]:
frutas[-1]

['morango', 'abacate']

### extend

Para adicionar mais de um elemento de modo simultâneo dentro de uma lista, podemos usar o *extend*.

Adicionando 'morango' e 'limao' com um único comando na lista *frutas*:

In [125]:
frutas

['maca', 'pera', 'banana', 'abacaxi', 'goiaba', 'melao', 'melancia']

In [129]:
frutas.extend(['morango','limao'])

In [130]:
frutas

['maca',
 'pera',
 'banana',
 'abacaxi',
 'goiaba',
 'melao',
 'melancia',
 ['morango', 'abacate'],
 'morango',
 'limao']

In [131]:
frutas = frutas + ['morango','limao']
frutas

['maca',
 'pera',
 'banana',
 'abacaxi',
 'goiaba',
 'melao',
 'melancia',
 ['morango', 'abacate'],
 'morango',
 'limao',
 'morango',
 'limao']

### pop

lista.pop(idx) remove e retorna o elemento de index igual a idx da lista:

In [132]:
frutas

['maca',
 'pera',
 'banana',
 'abacaxi',
 'goiaba',
 'melao',
 'melancia',
 ['morango', 'abacate'],
 'morango',
 'limao',
 'morango',
 'limao']

In [133]:
frutas.pop(-5)

['morango', 'abacate']

In [134]:
frutas 

['maca',
 'pera',
 'banana',
 'abacaxi',
 'goiaba',
 'melao',
 'melancia',
 'morango',
 'limao',
 'morango',
 'limao']

In [135]:
frutas.pop(2)

'banana'

Repare que a célula anterior imprimiu a palavra 'banana', indicando que esse elemento foi eliminado da lista *frutas*. Banana foi eliminada pois ocupava o index 2 da lista *frutas*.

In [137]:
frutas

['maca',
 'pera',
 'abacaxi',
 'goiaba',
 'melao',
 'melancia',
 'morango',
 'limao',
 'morango',
 'limao']

In [138]:
elem_eliminado = frutas.pop(-1)
elem_eliminado 

'limao'

## Identificação de elementos pertencentes a lista

Para checarmos se um elemento pertence ou não a uma lista, podemos fazer uso da palavra *in*. Por exemplo, na lista *frutas* vamos perguntar se 'goiaba' está presente:

In [139]:
frutas

['maca',
 'pera',
 'abacaxi',
 'goiaba',
 'melao',
 'melancia',
 'morango',
 'limao',
 'morango']

In [140]:
'goiaba' in frutas

True

E uva?

In [141]:
'uva' in frutas

False

In [144]:
elemento = 'uva'
if elemento in frutas:
    print(elemento,frutas.index(elemento))
else:
    print(f'{elemento} nao pertence a frutas')

uva nao pertence a frutas


## Exercício

Quais são os comprimentos das seguintes listas?

Preencha na variável *comp* as suas respostas. Tente fazer a previsão do comprimento de cada lista sem utilizar a função *len*.

In [4]:
a = [1, 2, 3]
b = [1, [2, 3]]
c = []
d = [1, 2, 3][1:]

1. Resolução proposta 1

In [151]:
 def compr(x):
    if x == []:
        compr = 0
    else:
        compr = x.index(x[-1])+1
    return compr

In [155]:
comp = [compr(a),compr(b),compr(c),compr(d)]
comp 

[3, 2, 0, 2]

2. Resolução proposta 2

In [5]:
def compr2(x):
    if x == []:
        return 0
    else:
        for i,j in enumerate(x):
            pass
    return i+1

In [6]:
comp = [compr2(a),compr2(b),compr2(c),compr2(d)]
comp 

[3, 2, 0, 2]

3. Resolução proposta 3

In [167]:
def tamanho(lista):
    x = 0
    for i in lista:
        x += 1 # x = x + 1
    return x

In [169]:
comp = [tamanho(a),tamanho(b),tamanho(c),tamanho(d)]
comp 

[3, 2, 0, 2]

***

## Dicionários

Os dicionários são uma estrutura de dados em Python integrada para mapear chaves para valores.

In [None]:
numeros = {'um':1, 'dois':2, 'tres':3}

In [None]:
numeros

In [None]:
type(numeros)

Nesse caso, 'um', 'dois' e 'tres' são as chaves e 1, 2 e 3 são seus valores correspondentes. 

In [None]:
numeros.keys()

In [None]:
numeros.values()

Os valores são acessados por meio de uma sintaxe de colchetes semelhante à indexação em listas. Outra forma é utilizar o método .get()

Imprimindo o número 3:

In [None]:
numeros['tres']

In [None]:
numeros.get('tres')

Podemos usar a mesma sintaxe para adicionar outra chave e valor:

In [None]:
numeros['quatro'] = 4

In [None]:
numeros

Ou para alterar o valor associado a uma chave existente

In [None]:
numeros['dois'] = 'Marte'

In [None]:
numeros

***

## Vetores

Vetores em Python são declarados com a biblioteca Numpy. Então, para trabalharmos com eles, precisamos fazer a importação dessa biblioteca.

Diferente das listas, os vetores só são capazes de armazenar números e do mesmo tipo. Você nunca terá um vetor com elementos inteiros e reais. Todos os elementos do vetor serão inteiros ou todos serão reais. 

In [None]:
import numpy as np

Geralmente, a biblioteca *numpy* leva a abreviação *np*. Mas isso é uma convenção, você pode, se quiser, colocar qualquer abreviação. 

### Declaração de vetores

In [None]:
pares = [0,2,4,6,8,10,12,14,16,18]

In [None]:
vet0 = np.array(pares)

NameError: ignored

In [None]:
vet0

In [None]:
type(vet0)

Acabamos de criar um vetor chamado *vet0* que contém números pares de 0 até 18. Na hora de criamos esse vetor, utilizamos a função *array* da biblioteca *numpy* e dentro dos ( ) incluímos uma lista chamada *pares*. 

Outro modo de criar um vetor do zero...

In [None]:
vet1 = np.random.randint(0,20,10)

In [None]:
vet1

Acabamos de criar um vetor chamado *vet1* de números inteiros que foi criado a partir da função random.randint. Essa função recebe como variáveis de entrada **obrigatórias**: 

- limite inferior (incluído), 
- limite superior (não incluído),
- tamanho do vetor. 

os elementos desse vetor podem ser iguais ao limite inferior, porém não podem ser iguais ao limite superior. 

Um outro modo semelhante de criar um vetor através de números aleatórios, porém reais é:

In [None]:
vet2 = np.random.uniform(0,20,10)

In [None]:
vet2

A função *random.uniform* funciona de modo bem similar à função *random.randint*, porém a *random.uniform* gera números reais. Ambas as funções geram números aleatórios que seguem a distribuição uniforme, ou seja, cada valor dentro do intervalo especificado tem a mesma probabilidade de ser sorteado. 

### Funções aplicadas a vetores

Existem funções prontas para:

- somatório: **np.sum( )**
- média: **np.mean( )**
- desvio padrão: **np.std( )**
- variância: **np.var( )**

#### Exercício: Aplique as 4 funções mostradas acima no vetor *vet2*.

# Funções

Bom, nós já vimos várias funções que existem em Python e que, para usá-las, não precisamos fazer a importação de nenhuma biblioteca. Porém, nós, como usuários, muitas vezes sentimos a necessidade de criarmos funções para facilitar nossa vida. 

O Python reconhece funções pela palavra **def**. 

A sintaxe da função é:
```bash
def nome_função(variáveis de entrada): --> Não esquecer os dois pontos ao final. 
    - código aqui linha 1
    - código aqui linha 2
    - código aqui linha 3
    return (variáveis de saída)
```
Depois de você pressionar o *ENTER* ao final dos :, todo código que estiver com ao menos 4 espaços afastados do *def* fará parte da função declarada. 4 espaços do teclado equivale a 1 TAB (1 identação). 

A função, se precisar retornar variáveis para o programa principal, termina com o *return* e ao lado do return as variáveis de saída. 

Vamos ver alguns exemplos de funções.

## Função maior_dif

In [None]:
def maior_dif(a, b, c):
    dif1 = abs(a - b)
    dif2 = abs(b - c)
    dif3 = abs(a - c)
    return min(dif1, dif2, dif3)

Criamos uma função chamada *maior_dif* que recebe três argumentos, *a*, *b* e *c*.

Pode-se notar que a função começou com o cabeçalho introduzido pela palavra-chave *def*. O bloco recuado de código após: é executado quando a função é chamada.

*return* é outra palavra-chave associada exclusivamente a funções. Quando o Python encontra uma instrução de retorno, ele sai da função imediatamente e passa o valor do lado direito para o contexto de chamada.

Está claro o que *maior_dif()* faz? Se não tivermos certeza, podemos sempre experimentar com alguns exemplos:

In [None]:
maior_dif(1, 10, 100)

In [None]:
maior_dif(1, 10, 10)

In [None]:
maior_dif(5, 6, 7)

In [None]:
help(maior_dif)

Infelizmente o Python não é inteligente o suficiente para ler o meu código e transformá-lo em uma boa descrição em inglês. 

No entanto, quando escrevo uma função, posso fornecer uma descrição que é chamada de *docstring*. Nada mais é do que a documentação da função (descrição dos argumentos, exemplos de resultados, etc).

In [None]:
def maior_dif(a, b, c):
    '''
    Retorna a menor diferença entre dois números quaisquer entre três números a, b e c.
    exemplo: 
    >>> maior_dif(1,10,100):
    9
    '''
    dif1 = abs(a - b)
    dif2 = abs(b - c)
    dif3 = abs(a - c)
    return min(dif1, dif2, dif3)

In [None]:
help(maior_dif)

O *help* pode sempre ser usado:

In [None]:
help(np.random.randint)

## Exercício

### Crie uma função chamada arredonda2 que recebe um número real e retorna esse número com apenas 2 casas decimais

In [None]:
def arredonda2(num):
    '''
    escreva aqui seu codigo
    '''    

Para essa função estamos assumindo que *num* é um número real. 

### Crie uma função que receba uma lista de números e retorne somente os números pares contidos na lista. 

Vamos assumir que a lista tem ao menos 10 elementos.

In [None]:
def retorna_par(lista):
    '''
    escreva aqui seu codigo
    ''' 

# DataFrame

Chegou a vez de falarmos da biblioteca **pandas**, que é a biblioteca mais popular para análise de dados. 

Para começarmos a usar *pandas*, primeiro precisamos importar essa biblioteca. Geralmente, a abreviação dada a *pandas* é *pd*. Contudo, como disse para a biblioteca *numpy*, as abreviações podem ser outras, somente convencionaram-se esses nomes e todo mundo sempre respeita isso. 

In [None]:
import pandas as pd 

Existem dois tipos de objetos em *pandas*:
- Dataframe
- Series

Um DataFrame é uma tabela. Ele contém uma matriz de entradas individuais, cada uma com um determinado valor. Cada entrada corresponde a uma linha (ou registro) e uma coluna.

Por exemplo, considere o seguinte DataFrame:

In [None]:
pd.DataFrame({'Sim': [50, 21,12], 'Nao': [131, 2,5]})

Neste exemplo, a entrada "0, Não" tem o valor 131. A entrada "0, Sim" tem o valor 50 e assim por diante.

As entradas de DataFrame não são limitadas a inteiros. Por exemplo, aqui está um DataFrame cujos valores são strings:

In [None]:
pd.DataFrame({'Bruno': ['Eu gostei.', 'Foi terrível.'], 'Suzana': ['Maravilhoso.', 'Sem graça.']})

Estamos usando o construtor *pd.DataFrame( )* para gerar esses objetos *DataFrame*. 

A sintaxe para declarar um novo é um dicionário cujas chaves são os nomes das colunas (Buno e Suzana neste exemplo) e cujos valores são uma lista de entradas. Essa é a maneira padrão de construir um novo DataFrame.

O construtor de lista de dicionário atribui valores aos rótulos de coluna, mas usa apenas uma contagem crescente de 0 (0, 1, 2, 3, ...) para os rótulos de linha. Às vezes, isso é normal, mas muitas vezes queremos atribuir esses rótulos nós mesmos.

A lista de rótulos de linha usada em um *DataFrame* é conhecida como **índice**. Podemos atribuir valores a ele usando um parâmetro de índice em nosso construtor:

In [None]:
pd.DataFrame({'Bruno': ['Eu gostei.', 'Foi terrível.'], 'Suzana': ['Maravilhoso.', 'Sem graça.']}, 
             index=['Produto A', 'Produto B'])

Em contraste, uma série é uma sequência de valores de dados. Se um *DataFrame* for uma tabela, *Series* é uma lista. E, na verdade, você pode criar uma série com nada mais do que uma lista:

In [None]:
pd.Series([1, 2, 3, 4, 5])

In [None]:
type(pd.Series([1, 2, 3, 4, 5]))

Uma série é, em essência, uma única coluna de um *DataFrame*. 

Portanto, você pode atribuir valores de coluna à série da mesma maneira que antes, usando um parâmetro de índice. No entanto, uma série não tem um nome de coluna: 

In [None]:
pd.Series([30, 35, 40], index=['2021 vendas', '2020 vendas', '2019 vendas'])

A série e o DataFrame estão intimamente relacionados. É útil pensar em um DataFrame como sendo apenas um monte de Séries "coladas".

Vamos revisitar o *DataFrame* que criamos na aula passada...

In [None]:
dfsono = pd.DataFrame({'Nome':['Amanda Lemette','Julia Potratz','Cezar Augusto','Patrick G.','Renan','Daiana Sicuro',
                     'Denis Nascimento','Igor Rocha','Graziela Machado','Filipe Faria','Daniel Werneck',
                     'Hudson Diniz','Jorge Junior','Marcos Silva','Gustavo Araujo','Daniel Galdino'],              
              'horas':[7,5.5,6,7,8,8,7,7,6.5,7,7.5,6,8,7,7.5,5]})

In [None]:
dfsono

## Visualização das primeiras 5 linhas do DataFrame

In [None]:
dfsono.head()

- E se quisermos visualizar somente 3 linhas, como fazer?

## Visualização das últimas 5 linhas do DataFrame

In [None]:
dfsono.tail()

## Adição de novas entradas no DataFrame

### Adição de registro único: append

In [None]:
dfsono.append({'Nome':'Ana Maria','horas':5},ignore_index = True)

Repare que foi preciso escrever o comando *ignore_index = True*. Se ele for removido, ao rodar a célula, dá erro. O *ignore_index = True* irá permitir com que o novo registro receba como índice o número seguinte ao último índice do DataFrame dfsono. 

Se o *ignore_index = True* não for usado, ele resulta em erro, pois o registro que estamos adicionando nesse caso não tem índice nenhum associado a ele, o que faz com que o Python fique perdido aqui. 

Contudo, se formos fazer a adição de um outro DataFrame, o *ignore_index = True* já não se faz mais obrigatório, vamos testar. 

### Adição de registros de modo simultâneo: 

In [None]:
dic = {'Nome':['Pedro Humberto','Leonardo Dantas'], 'horas':[4.5,7.5]}

In [None]:
dic 

Criado o dicionário com nome *dic*, agora, precisamos converter esse dicionário em um novo *DataFrame*:

In [None]:
df_dic = pd.DataFrame(dic)
df_dic

Agora, podemos adicionar o *DataFrame* *df_dic* em *dfsono*:

In [None]:
dfsono.append(df_dic)

Como o *ignore_index = True* não foi usado, os novos registros adicionados reinicializaram a numeração dos índices de *dfsono*.

### Reinicialização dos índices de um DataFrame

Para reincializar os índices do DataFrame, fazemos uso de: .reset_index(drop = True). 

O *drop=True* não é obrigatório, porém ao não incluí-lo, os índices antigos passarão a compor a primeira coluna do *DataFrame* atualizado. 

### Uso do LOC & ILOC

Os comandos *loc* e *iloc* se diferenciam quando os índices do DataFrame são diferentes das posições. Por exemplo:

In [None]:
df = pd.DataFrame({'a':[23,24,25],'b':[54,53,52],'c':[65,64,67]})

In [None]:
df

Nesse caso, se quisermos imprimir o número 64 da coluna c, fazemos:

In [None]:
df['c'].loc[1]

In [None]:
df['c'].iloc[1]

In [None]:
df['c'][1] 

In [None]:
df.iloc[1][2] # [1] = linha e [2] = posição da coluna 

In [None]:
df.loc[1][2] # [1] = linha e [2] = posição da coluna 

Como você pôde ver, não houve diferença entre o *loc* e *iloc. Agora, vamos modificar o *DataFrame* df:

In [None]:
df = pd.DataFrame({'a':[23,24,25],'b':[54,53,52],'c':[65,64,67]}, index = ['A','B','C'])

In [None]:
df

Como imprimimos o valor 64 da coluna c?

In [None]:
df['c'].loc['B']

In [None]:
df['c'].iloc[1]

In [None]:
df['c'][1] 

In [None]:
df.iloc[1][2] # [1] = linha e [2] = posição da coluna 

In [None]:
df.loc['B'][2] # [1] = linha e [2] = posição da coluna 

O comando **loc** exige que você forneça o nome do índice, já o comando **iloc** pede a posição do índice daquele elemento que você procura. No caso, 64 se encontra na linha com índice 'B' que está na posição **1**. 

#### Exercício: Usando o loc e o iloc também imprima o número 52 que está na coluna b.

### Mudança de algum elemento dentro de um DataFrame

Vamos, agora, retornar ao DataFrame *dfsono*:

In [None]:
dfsono.head()

Vamos alterar o nome Patrick G. para João Neto:

In [None]:
dfsono['Nome'].iloc[3] = 'João Neto'

In [None]:
dfsono.head()

### Ordenação do DataFrame

Para ordenar o *DataFrame* fazemos uso de *sort_values*.

https://bit.ly/3i490U6

### Remover linha do DataFrame

Geralmente, para a exclusão de uma linha do DataFrame, utilizamos o comando *drop* (https://bit.ly/3i5GiCj).

Vamos excluir a linha de índice 4 do DataFrame *dfsono*.

### Adicionar nova coluna no DataFrame

A adição de colunas no *DataFrame* é bem simples, na verdade, para isso basta escrevermos o nome do DataFrame e entre [ ], escrevemos o nome da nova coluna, vamos ver um exemplo.

In [None]:
dfsono['ansiedade'] = ['alta','baixa','normal','alta','alta',
                       'baixa','normal','alta','alta','baixa',
                       'normal','alta','alta','baixa','normal','alta']

In [None]:
dfsono.head(2)

In [None]:
dfsono.tail(2)

### Remover coluna no DataFrame

Agora, remova a coluna *ansiedade* do DataFrame *dfsono* utilizando *drop*. 

Lembrando que *drop* como default elimina a linha do *DataFrame*, para eliminar a coluna precisamos informar isso ao Python pelo comando **axis = 1**.

### Segmentar os dados de um DataFrame dentro de intervalos

Na última aula, conhecemos o comando .cut (https://bit.ly/3BKDdPQ).

O que ele faz?

Ele classifica determinada coluna (que contém dados numéricos) do DataFrame dentro de intervalos de números. Por exemplo:

Vamos criar uma lista, chamada *intervalos*, que contém os seguintes intervalos:

In [None]:
intervalos = ['0-5.5','5.5-6.5','6.5-7.5','> 7.5']
intervalos

Contudo, essa lista é uma lista de strings e o Python não consegue entender que '0-5.5' significa números que são iguais ou maiores do que 0 e menores do que 5.5. Para que o Python faça essa interpretação corretamente, precisamos criar outra lista, mas que seja de números:

In [None]:
intervalos_num = [-1,5.5,6.5,7.5,24]
intervalos_num

Agora sim, com a lista *intervalos_num*, o Python interpreta do seguinte modo:

- O primeiro intervalo será entre 0 e 5.5, incluindo o 0 e excluindo o 5.5.
- O segundo intervalo será entre 5.5 e 6.5, incluindo o 5.5 e excluindo o 6.5.
- O terceiro intervalo será entre 6.5 e 7.5, incluindo o 6.5 e excluindo o 7.5.
- O quarto intervalo será entre 7.5 e 24, incluindo o 7.5 e excluindo o 24.

Matematicamente, os intervalos são: 
- intervalo 1: [0,5.5[
- intervalo 2: [5.5,6.5[
- intervalo 3: [6.5,7.5[
- intervalo 7: [7.5,24[

E a lista *intervalos* é a lista *label* que dá nome aos intervalos. 
Assim, temos:

- intervalo 1: [0,5.5[ ; label: '0-5.5'
- intervalo 2: [5.5,6.5[ ; label: '5.5-6.5'
- intervalo 3: [6.5,7.5[ ; label: '6.5-7.5'
- intervalo 7: [7.5,24[ ; label: '> 7.5


O comando *cut* irá então receber como entrada:

- coluna do DataFrame que irá ser classificada
- lista intervalos_num
- lista intervalos

Vamos aplicar o cut na coluna *horas* do DataFrame *dfsono* para que as horas de sono de cada pessoas seja classificada dentro dos intervalos especificados na lista *intervalos_num*. O método *cut* irá identificar a qual intervalo aquela hora pertence e como resposta irá imprimir o label daquele intervalo. O resultado dessa classificação será salvo em uma nova coluna no DataFrame *dfsono* que iremos chamas de *duracao*.

In [None]:
dfsono['duracao'] = pd.cut(dfsono['horas'],intervalos_num,labels = intervalos) 

In [None]:
dfsono