# Revisão do que vimos até agora nas aulas de Python

## Montagem do Drive no Google Colaboratory

Ao escrevermos o código no *Google Colaboratory*, temos a grande vantagem de não precisamos instalar o Python no nosso computador pessoal, pois programamos tudo no servidor do próprio Google. Contudo, para que isso seja possível, é necessário que nossa internet seja estável. 

Quando começamos a usar o *Google Colaboratory*, precisamos fazer o login na nossa conta Google e, automaticamente, uma pasta de nome **Colab Notebooks** aparece no nosso Google Drive. 

Para facilitar a nossa vida, podemos deixar armazenado nessa pasta todos os códigos que programamos no *Google Colaboratory*. Além do notebook em si, muitas vezes precisamos salvar uma figura ou outro formato de arquivo, como csv, por exemplo. 

Para que você consiga acessar ou salvar qualquer tipo de arquivo na pasta **Colab Notebooks**, você precisa **antes** fazer a montagem do drive. Com esse procedimento, você consegue acessar a sua pasta **Colab Notebooks** pelo notebook que você está programando dentro do *Google Colaboratory*. 

Vamos ver agora como se faz esse procedimento.

**1. Fazer a importação da biblioteca google.colab.**

In [None]:
from google.colab import drive 

Se você estiver rodando o notebook no Jupyter Notebook, pule essa seção, pois resultará em erro ao rodar a célula acima. 

Repare que o código da importação está um pouco diferente do código que escrevemos para importar as bibliotecas em aula. Geralmente fazemos:
- import *nome_da_biblioteca* as *abreviação_da_biblioteca*

O que houve agora é que não queremos importar todo o conteúdo da biblioteca *google.colab*, mas apenas a função *drive* que está contida dentro dessa biblioteca, por isso o código foi escrito como:
- from *nome_da_biblioteca* import *funcao_da_biblioteca*

**2. Solicitar a montagem do drive.**

In [None]:
drive.mount('/content/drive')

Ao rodar a célula acima, irá aparecer a mensagem para você acessar um link, você deve clicar no link e será redirecionado para outra aba do seu navegador. 

Nesse momento, possivelmente você precisará confirmar o seu login do Google a autorizar o Google a acessar o seu drive. Ao fazer isso, um código aparecerá para você copiar, você o copia clicando no "quadradinho" que aparece ao lado do código. 

Como último passo, você retorna a sua aba principal e cola esse código no espaço em branco que apareceu para você e aperte o ENTER do teclado. Pronto, a montagem do seu Drive será iniciada e você precisa aguardar. 

**3. Direcionar o Google Colaboratory para a sua pasta Colab Notebooks.**

In [None]:
import os

In [None]:
os.chdir('drive/MyDrive/Colab Notebooks')

In [None]:
!ls # serve para mostrar os arquivos da pasta atual

Nesse momento, o *Google Colaboratory* já está com acesso ao seu Drive, porém ao salvar alguma figura no seu notebook, a figura será sala na raíz do seu Drive. Para uma melhor organização, sugerimos que você direcione o *Google Colaboratory* para acessar a pasta *Colab Notebooks*. 

Para fazer isso, primeiro, é necessário importar a biblioteca *os*. Essa biblioteca é utilizada para lidar com informações e manipulação de diretórios e arquivos. Para mais informações, sobre essa biblioteca, ver o link https://docs.python.org/3/library/os.html.

Como passo seguinte, utilizamos a função *chdir* da biblioteca *os* e o endereço da pasta *Colab Notebooks*. 

A função *chdir* é empregada para mudar o diretório de trabalho atual para outro. Basicamente, você vai mudar a execução do código da raiz do seu drive para uma pasta específica facilitando o acesso a documentos e localização de informações como gráficos que vão ser gerados.

E pronto! =) ! Agora, você já consegue salvar e abrir arquivos que estão armazenados dentro da pasta *Colab Notebooks* do seu Google Drive. 

Para mais informações sobre o *Google Colaboratory* veja o artigo:
- https://bit.ly/2TErYr5

## Testando velocidade de processamento com GPU e sem GPU

Uma outra grande vantagem ao usarmos o Google Colaboratory é que ele permite que possamos usar o recurso de GPU para executar o seu programa, o que faz com que seu programa seja executado de modo muito mais rápido do que se estivesse usando o modo default. Para ativar essa opção, você precisa seguir o caminho:

- Edit > Notebook settings > Modifique a opção Hardware accelerator para GPU

Vamos testar se isso mesmo é verdade?

Para comparar a execução do código, vamos utilizar a biblioteca *time*. Essa biblioteca provê o tempo de execução de certa célula.

In [None]:
import time 

Para o teste, podemos usar um loop definido que vai de 0 até 1000. Para isso, vamos fazer uso do *for*. 

- Sem ativar o GPU:

In [None]:
nn = 1000
start = time.time() # inicializar o tempo inicial a ser levado em consideracao
j = 0
for i in range(nn):
    j = j + 1
end = time.time() # marca o tempo final a ser contabilizado
print(end - start) # aqui o print ira fornecer o tempo total executado da linha do start ate a linha do end

Na célula acima, primeio criamos a variável *nn* que recebe o valor de 1000. 
Na linha abaixo, criamos a variável *start* que irá armazenar o valor do tempo atual. Depois, a variável *j* foi declarada recebendo o valor 0. Finalmente, chegamos no loop definido com o *for* no qual tem o contador *i* que irá variar de 0 até *nn*. A cada iteração, o *j* é atualizado em 1 unidade pelo código: *j = j + 1*.

Saindo do loop, ahhh como eu eu sei saímos do loop?

Sabemos que esse loop tem apenas uma única linha, pois após a linha onde tem a atualização de *j* (*j=j+1*), a identação não existe mais, ou seja, a variável *end* é declarada no início da célula, alinhado com o *for*, não fazendo, então, parte do loop.  O *end* recebe o tempo atual e a contabilização do tempo é interrompida nesse momento. Por fim, o *print* irá imprimir para o usuário a duração total da execução do código desde a declaração do *start* até o *end*. 

Antes de ativar o GPU, vamos aumentar o *nn* para 100000000:

In [None]:
nn = 100000000
start = time.time() # inicializar o tempo inicial a ser levado em consideracao
j = 0
for i in range(nn):
    j = j + 1
end = time.time() # marca o tempo final a ser contabilizado
print(end - start) # aqui o print ira fornecer o tempo total executado da linha do start ate a linha do end

- Com o GPU ativado (Edit > Notebook settings > Modifique a opção Hardware accelerator para GPU):

In [None]:
nn = 1000
start = time.time() # inicializar o tempo inicial a ser levado em consideracao
j = 0
for i in range(nn):
    j = j + 1
end = time.time() # marca o tempo final a ser contabilizado
print(end - start) # aqui o print ira fornecer o tempo total executado da linha do start ate a linha do end

Antes de ativar o GPU, vamos aumentar o *nn* para 100000000:

In [None]:
nn = 100000000
start = time.time() # inicializar o tempo inicial a ser levado em consideracao
j = 0
for i in range(nn):
    j = j + 1
end = time.time() # marca o tempo final a ser contabilizado
print(end - start) # aqui o print ira fornecer o tempo total executado da linha do start ate a linha do end

## Observação

- No exemplo abordado conseguimos averiguar o ganho em termo de tempo de execução de uma aplicação simples. Porém sendo um código simples o ganho de performance não é tão evidente. Esse ganho é muito expressivo quando temos problemas mais complexos, sobretudo no treinamento de redes neurais que envolvem muitas operações. Nesses casos o processamento paralelo de uma GPU supera em proporções muito extraordinárias um processamento em série de uma CPU. 

# Declaração de variáveis

Em Python, assim como em toda linguagem de programação, a declaração de variáveis se faz:

- var = valor ou conjunto de valores

onde *var* é o nome da variável que o usuário escolheu. 

**1. Na célula a seguir, criamos a variável com nome *a* que recebe o número 10.**

In [None]:
a = 10

In [None]:
a

Conseguimos saber que *a* é do tipo inteiro, pela função do Python *type*.

In [None]:
type(a)

**2. Crie, agora uma variável do tipo real, chamada *b*, que irá receber o valor 5.2.**

In [None]:
b = 5.2

**3. Confirme o tipo de *b*.**

In [None]:
type(b),b

## Tipos de variáveis

Com a Júlia, vocês foram apresentados aos diversos tipos que as variáveis em Python podem ser: 
- string --> *str*
- inteiro --> *int*
- real --> *float*
- booleano --> *bool*
- tupla --> *tuple*
- lista --> *list*
- vetor --> *array*
- dicionário --> *dic*

Vamos, agora, criar uma variável chamada *a* e fazer *a* receber *'2'*, no qual  *'2'* é do tipo *string*:

In [None]:
a = '2'

Ao multiplicar *a* por 2, obtemos como resultado uma string *'22'*, pois o Python não entende que essa é uma operação matemática, mas sim uma concatenação de strings. 

In [None]:
a*2

Variáveis booleanas são, por exemplo, *False* e *True*.

In [None]:
type(True)

As variáveis do tipo *string* são variáveis que contém caracteres alfa-numéricos. Toda variável *string* que contém números, ela aparece entre aspas quando você a imprime na tela. Por exemplo:

In [None]:
var = '5'

In [None]:
var

In [None]:
type(var)

A variável *var* apesar de ser um número, ela é classificada como *string*. Como podemos fazer para convertê-la para uma variável do tipo *int*?

In [None]:
var = int(var)

In [None]:
var,type(var)

In [None]:
var*4

Dica, para converter variáveis para inteiro, utiliza-se a função *int*. 

Já para converter variáveis para string, utiliza-se a função *str* e para converter para real, emprega-se a função *float*.

In [None]:
c = str(5)
c, type(c)

In [None]:
nn = 4
print(nn, type(nn))
nn = float(nn)
nn,type(nn)

Na célula acima, utilizei o comando *print*, pois se não tivesse usado o mesmo, só seria impresso na tela a última linha da célula. 

Faça o teste.

In [None]:
nn = 4
nn, type(nn)
nn = float(nn)
nn,type(nn)

***

As listas são variáveis muito úteis em Python e que nos fornecem uma liberdade incrível, pois elas permitem que a gente armazene em uma única estrutura tipos diferentes de variáveis, vamos ver alguns exemplos. 

1. Lista de números inteiros

In [None]:
impares = [1,3,5,7,9,11,13,15,17,19,21]

In [None]:
impares

In [None]:
type(impares)

1.1. Imprima o número 17 da lista impares.

In [None]:
impares[-3],impares[8], impares[impares.index(17)]

In [None]:
impares.index(17)

1.2. Imprima a posição do número 19 na lista impares.

In [None]:
impares.index(19)

2. Lista de strings

In [None]:
frutas = ['maca','pera','banana','abacaxi','goiaba','melao']

In [None]:
frutas

In [None]:
type(frutas)

2.1. Imprima os elementos 'pera' e 'banana' da lista.

In [None]:
frutas[1:3]

In [None]:
frutas[1:2]

In [None]:
print(f'{frutas[1]},{frutas[2]}')

2.2. Imprima todos os elementos de frutas com exceção do primeiro.

In [None]:
frutas

In [None]:
frutas[1::],frutas[1:]

2.3. Imprima todos os elementos de frutas com exceção do primeiro e do último.

In [None]:
frutas[1:-1],frutas[1:5], frutas[1:len(frutas)-1]

3. Tudo misturado...

In [None]:
mistura = [1,2,'Python',[3.4,5,'a'],True]

In [None]:
mistura

3.1. Imprima o elemento 'a' de mistura

In [None]:
mistura[3][2], mistura[3][-1],mistura[-2][2],mistura[-2][-1]

In [None]:
mistura[2][1]

3.2. Troque *True* por *False* em mistura.

In [None]:
mistura[4] = False
mistura

## Funções aplicadas a listas

### len

Se eu quiser saber o tamanho total de uma lista, ou seja, quantos elementos a lista possui, eu uso a função *len*.

In [None]:
len(mistura)

In [None]:
len(frutas)

In [None]:
lista = [1,2,3,4,5,6]

In [None]:
len(lista)

#### Outras formas de determinar o comprimento de listas sem utilizar *len*

1. Solução proposta 1

In [None]:
tamanho = 0
for i in lista:
  #print(i)
  tamanho = tamanho+1
tamanho

Na solução 1, iniciamos a variável *tamanho* com o valor *0*. Depois empregamos um loop definido, pelo uso do *for*, onde o contador *i* a cada iteração recebe o valor do elemento armazenado em *listas*. 

Para ficar mais claro, rode a célula anterior, mas com o *print(i)* dentro do *for*. 

2. Solução proposta 2

In [None]:
for i,j in enumerate(lista):
    print(i,j)
'''
i --> posição dos elementos na lista
j --> elementos da lista
'''
tamanho = i + 1
tamanho 

In [None]:
for a in enumerate(lista):
    print(a)

Na solução proposta 2, também foi utilizado um loop definido, porém o *j* recebe, a cada iteração, o valor do elemento da lista, e o *i* recebe a posição do elemento na lista. 

Na célula acima, vemos como o enumerate funciona, como só foi "dado" o *a*, essa variável recebe uma tupla (i,j) a cada iteracão, onde o primeiro elemento da tupla é referente à posição do elemento da lista e o segundo elemento da tupla refere-se ao valor armazenado na lista. 

### sum

A função *sum* soma todos os elementos da lista, vamos testar?

In [None]:
sum(frutas)

Sum somente pode ser aplicado a uma lista de números inteiros ou reais, se não, resultará em erro.

In [None]:
sum(impares)

In [None]:
sum([2.,3.,4,5,6,7])

In [None]:
lista

In [None]:
sum(lista)

#### Outras formas de fazer o somatório da lista sem usar o *sum*

1. Modo 1

In [None]:
soma = 0
for i in lista:
    soma = soma + i
    print(i,soma)
print(f'Somatório da lista:{soma}')

In [None]:
lista

2. Modo 2

Para testar o modo 2, vamos criar uma nova lista chamada *lista2*. Essa nova lista será a cópia da lista original, porém o primeiro elemento dela será atualizado para *6*. 

In [None]:
lista2 = lista.copy()
lista2[0] = 6
lista2

In [None]:
lista3 = lista
lista3

In [None]:
lista3[1] = 10
lista3

In [None]:
lista

In [None]:
soma = 0
i = 0
while i != len(lista2):
    soma = soma + lista2[i]
    i = i + 1
print(f'Somatório da lista2:{soma}')

Foi utilizado o loop *while*, no qual para ele ser interrompido a condição entre ( ) tem que passar a ser *FALSA*. A condição dada no exemplo acima foi que o loop acontece enquanto *i* é diferente *(!=)* do comprimento da *lista2*. 

### max, min

As funções *max* e *min* são aplicadas para identificarmos os elementos máximo e mínimo de uma lista. 

In [None]:
max(impares)

In [None]:
min(impares)

In [None]:
impares

#### Outras formas de encontrar os valores máximo e mínimo da lista sem usar o *max* & *min*

1. Modo 1

In [None]:
maior_val = impares[0]
for i in range(1,len(impares)):
    if maior_val < impares[i]:
        maior_val = impares[i]
    print(i,maior_val)

2. Modo 2

In [None]:
maior_val = impares[0]
for i in impares:
    if i > maior_val:
        maior_val = i
print(f'maior valor:{maior_val}')

3. Modo 3

In [None]:
menor = impares[0]
maior = impares[0]

for i in impares:
    if i < menor:
        menor = i
    if i > maior:
        maior = i
print(f'maior valor:{maior}')
print(f'menor valor:{menor}')

4. Modo 4

In [None]:
menor = impares[0]
maior = impares[0]

for j,i in enumerate(impares):
    if i < menor:
        menor = i
    if i > maior:
        maior = i
print(f'maior valor:{maior}')
print(f'menor valor:{menor}')

5. Modo 5

O modo 5 foi proposto como alternativa para não atribuirmos às variáveis *maior* e *menor* o elemento armazenado em *impares[0]*. 

Para usar esse modo 5 de solução, precisamos fazer a importação da biblioteca *sys*. 

In [None]:
import sys

In [None]:
lista2 = [-10,-300,-20,-5]
lista2

Na próxima célula, a variável
- *maior* recebe o **MENOR** valor **possível** em Python que pode existir nesse servidor que estamos usando o *Google Colaboratory*.

Como descobrimos esse **MENOR** valor **possível**?

Bom, fazemos isso pela função *float_info.max* da biblioteca *sys*. O **MENOR** valor **possível** será o **MAIOR** valor **possível** multiplicado por *-1*. 

Por isso, *maior* recebe *-sys.float_info.max*.

De modo similar, a variável
- *menor* recebe o **MAIOR** valor **possível** em Python que pode existir nesse servidor que estamos usando o *Google Colaboratory*.

Por isso, *menor* recebe *sys.float_info.max*.

Por que *menor* e *maior* recebem o **MAIOR** e o **MENOR** valor respectivamente?

Para garantir que eles serão já na **primeira** verificação ser substituídos por um elemento que está armazenado em *lista2*. Assim, garantimos que a seleção do maior e do menor valor em *lista2* resulta em elementos pertencentes à essa lista. 

In [None]:
menor = sys.float_info.max
maior = -sys.float_info.max

for j,i in enumerate(lista2):
    if i < menor:
        print('loop1',i,menor)
        menor = i
        print('loop1',i,menor)
    if i > maior:
        print('loop2',i,maior)
        maior = i
        print('loop2',i,maior)
    input() # esse input esta aqui para pausar a execucao do codigo. Para continuar pressione enter
print(f'maior valor:{maior}')
print(f'menor valor:{menor}')

## Métodos aplicados a listas

Bom, temos as funções aplicadas a listas (que acabamos de ver) e temos os métodos aplicados a listas.

**Qual é a diferença entre métodos e listas?**

Na função, usamos o nome da função e entre ( ) escrevemos a lista na qual queremos que a função seja aplicada. Já em métodos, escrevemos o nome da lista ponto o método que queremos aplicar nessa lista. Vamos ver um exemplo:



### append

O *append* é um método usado para adicionar elementos na última posição da lista. Vamos adicionar a palavra "melancia" na lista frutas.

In [None]:
frutas

In [None]:
frutas.append('melancia')

In [None]:
frutas

Contudo, não podemos fazer a adição de mais de um elemento de modo simultâneo usando o *append*.

In [None]:
frutas.append(['morango','abacate'])

In [None]:
frutas

In [None]:
frutas[-1]

### extend

Para adicionar mais de um elemento de modo simultâneo dentro de uma lista, podemos usar o *extend*.

Adicionando 'morango' e 'limao' com um único comando na lista *frutas*:

In [None]:
frutas

In [None]:
frutas.extend(['morango','limao'])

In [None]:
frutas

In [None]:
frutas = frutas + ['morango','limao']
frutas

### pop

lista.pop(idx) remove e retorna o elemento de index igual a idx da lista:

In [None]:
frutas

In [None]:
frutas.pop(-5)

In [None]:
frutas 

In [None]:
frutas.pop(2)

Repare que a célula anterior imprimiu a palavra 'banana', indicando que esse elemento foi eliminado da lista *frutas*. Banana foi eliminada pois ocupava o index 2 da lista *frutas*.

In [None]:
frutas

In [None]:
elem_eliminado = frutas.pop(-1)
elem_eliminado 

## Identificação de elementos pertencentes a lista

Para checarmos se um elemento pertence ou não a uma lista, podemos fazer uso da palavra *in*. Por exemplo, na lista *frutas* vamos perguntar se 'goiaba' está presente:

In [None]:
frutas

In [None]:
'goiaba' in frutas

E uva?

In [None]:
'uva' in frutas

In [None]:
elemento = 'uva'
if elemento in frutas:
    print(elemento,frutas.index(elemento))
else:
    print(f'{elemento} nao pertence a frutas')

## Exercício

Quais são os comprimentos das seguintes listas?

Preencha na variável *comp* as suas respostas. Tente fazer a previsão do comprimento de cada lista sem utilizar a função *len*.

In [None]:
a = [1, 2, 3]
b = [1, [2, 3]]
c = []
d = [1, 2, 3][1:]

1. Resolução proposta 1

In [None]:
 def compr(x):
    if x == []:
        compr = 0
    else:
        compr = x.index(x[-1])+1
    return compr

In [None]:
comp = [compr(a),compr(b),compr(c),compr(d)]
comp 

2. Resolução proposta 2

In [None]:
def compr2(x):
    if x == []:
        return 0
    else:
        for i,j in enumerate(x):
            pass
    return i+1

In [None]:
comp = [compr2(a),compr2(b),compr2(c),compr2(d)]
comp 

3. Resolução proposta 3

In [None]:
def tamanho(lista):
    x = 0
    for i in lista:
        x += 1 # x = x + 1
    return x

In [None]:
comp = [tamanho(a),tamanho(b),tamanho(c),tamanho(d)]
comp 

***

## Dicionários

Os dicionários são uma estrutura de dados em Python integrada para mapear chaves para valores.

In [None]:
numeros = {'um':1, 'dois':2, 'tres':3}

In [None]:
numeros

In [None]:
type(numeros)

Nesse caso, 'um', 'dois' e 'tres' são as chaves e 1, 2 e 3 são seus valores correspondentes. 

In [None]:
numeros.keys()

In [None]:
numeros.values()

Os valores são acessados por meio de uma sintaxe de colchetes semelhante à indexação em listas. Outra forma é utilizar o método .get()

Imprimindo o número 3:

In [None]:
numeros['tres']

In [None]:
numeros.get('tres')

In [None]:
dicionario = {23:1,'a':2,'z':3}

In [None]:
dicionario.keys()

In [None]:
dicionario[23]

Podemos usar a mesma sintaxe para adicionar outra chave e valor:

In [None]:
numeros['quatro'] = 4

In [None]:
numeros

Ou para alterar o valor associado a uma chave existente

In [None]:
numeros['dois'] = 'Marte'

In [None]:
numeros

***

## Vetores

Vetores em Python são declarados com a biblioteca Numpy. Então, para trabalharmos com eles, precisamos fazer a importação dessa biblioteca.

Diferente das listas, os vetores só são capazes de armazenar números e do mesmo tipo. Você nunca terá um vetor com elementos inteiros e reais. Todos os elementos do vetor serão inteiros ou todos serão reais. 

In [None]:
import numpy as np

Geralmente, a biblioteca *numpy* leva a abreviação *np*. Mas isso é uma convenção, você pode, se quiser, colocar qualquer abreviação. 

### Declaração de vetores

In [None]:
pares = [0,2,4,6,8,10,12,14,16,18]

In [None]:
pares

In [None]:
type(pares)

In [None]:
vet0 = np.array(pares)

In [None]:
vet0

In [None]:
type(vet0)

Acabamos de criar um vetor chamado *vet0* que contém números pares de 0 até 18. Na hora de criamos esse vetor, utilizamos a função *array* da biblioteca *numpy* e dentro dos ( ) incluímos uma lista chamada *pares*. 

Outro modo de criar um vetor do zero...

In [None]:
vet1 = np.random.randint(0,20,10)

In [None]:
help(np.random.randint)

In [None]:
vet1

Acabamos de criar um vetor chamado *vet1* de números inteiros que foi criado a partir da função random.randint. Essa função recebe como variáveis de entrada **obrigatórias**: 

- limite inferior (incluído), 
- limite superior (não incluído),
- tamanho do vetor. 

os elementos desse vetor podem ser iguais ao limite inferior, porém não podem ser iguais ao limite superior. 

Um outro modo semelhante de criar um vetor através de números aleatórios, porém reais é:

In [None]:
vet2 = np.random.uniform(0,20,10)

In [None]:
vet2

A função *random.uniform* funciona de modo bem similar à função *random.randint*, porém a *random.uniform* gera números reais. Ambas as funções geram números aleatórios que seguem a distribuição uniforme, ou seja, cada valor dentro do intervalo especificado tem a mesma probabilidade de ser sorteado. 

Para mais informações a respeito da geração de números aleatórios, que seguem outros tipos de distribuições, utilizando *numpy*, assista o vídeo:

[Distribuições de Probabilidades](https://youtu.be/ld_CP_0H46k)

### Funções aplicadas a vetores

Existem funções prontas para:

- somatório: **np.sum( )**
- média: **np.mean( )**
- desvio padrão: **np.std( )**
- variância: **np.var( )**

#### Exercício: Aplique as 4 funções mostradas acima no vetor *vet2*.

In [None]:
np.sum(vet2)

In [None]:
np.mean(vet2)

In [None]:
np.std(vet2)

In [None]:
np.var(vet2)

In [None]:
vet2

E como podemos calcular a moda de um vetor? 

In [None]:
vet0  = np.random.randint(0,20,100)

In [None]:
vet0

- Utilizando *numpy*:

Podemos usar a função *unique* que mostra para a gente os elementos únicos armazenados em um vetor e também quantas vezes cada elemento único é repetido dentro desse conjunto de dados. 

*unic* --> recebe elementos únicos

*rep* --> recebe números de repetições de cada elemento único

O elemento único que mais se repete é a *moda* do conjunto de dados. 

In [None]:
unic, rep = np.unique(vet0,return_counts=True) 

In [None]:
unic

In [None]:
rep

Valor máximo de *rep*:

In [None]:
np.max(rep)

Agora, usando o método *argmax* conseguimos saber a posição do elemento máximo do vetor *rep*:

In [None]:
np.argmax(rep)

Para descobrir a moda, utilizamos a posição *np.argmax(rep)* no vetor *unic*.

In [None]:
unic[np.argmax(rep)]  

In [None]:
print(f'Moda de vet0: {unic[np.argmax(rep)]}')

- utilizando *stats* de *scipy*:

In [None]:
from scipy import stats

In [None]:
stats.mode(vet0)

In [None]:
print(f'Moda de vet0: {stats.mode(vet0)[0]}')

- utilizando statistics:

In [None]:
import statistics

In [None]:
print(f'Moda de vet0: {statistics.mode(vet0)}')

Documentação da biblioteca *statistics*:

[Biblioteca Statistics](https://docs.python.org/3/library/statistics.html)

# Funções

Bom, nós já vimos várias funções que existem em Python e que, para usá-las, não precisamos fazer a importação de nenhuma biblioteca. Porém, nós, como usuários, muitas vezes sentimos a necessidade de criarmos funções para facilitar nossa vida. 

O Python reconhece funções pela palavra **def**. 

A sintaxe da função é:
```bash
def nome_função(variáveis de entrada): --> Não esquecer os dois pontos ao final. 
    - código aqui linha 1
    - código aqui linha 2
    - código aqui linha 3
    return (variáveis de saída)
```
Depois de você pressionar o *ENTER* ao final dos :, todo código que estiver com ao menos 4 espaços afastados do *def* fará parte da função declarada. 4 espaços do teclado equivale a 1 TAB (1 identação). 

A função, se precisar retornar variáveis para o programa principal, termina com o *return* e ao lado do return as variáveis de saída. 

Vamos ver alguns exemplos de funções.

## Função menor_dif

In [None]:
def menor_dif(a, b, c):
    dif1 = abs(a - b)
    dif2 = abs(b - c)
    dif3 = abs(a - c)
    return min(dif1, dif2, dif3)

Criamos uma função chamada *menor_dif* que recebe três argumentos, *a*, *b* e *c*.

Pode-se notar que a função começou com o cabeçalho introduzido pela palavra-chave *def*. O bloco recuado de código após: é executado quando a função é chamada.

*return* é outra palavra-chave associada exclusivamente a funções. Quando o Python encontra uma instrução de retorno, ele sai da função imediatamente e passa o valor do lado direito para o contexto de chamada.

Está claro o que *menor_dif()* faz? Se não tivermos certeza, podemos sempre experimentar com alguns exemplos:

In [None]:
menor_dif(1, 10, 100)

In [None]:
menor_dif(1, 10, 10)

In [None]:
menor_dif(5, 6, 7)

In [None]:
help(menor_dif)

Infelizmente o Python não é inteligente o suficiente para ler o meu código e transformá-lo em uma boa descrição em inglês. 

No entanto, quando escrevo uma função, posso fornecer uma descrição que é chamada de *docstring*. Nada mais é do que a documentação da função (descrição dos argumentos, exemplos de resultados, etc).

In [None]:
def menor_dif(a, b, c):
    '''
    Retorna a menor diferença entre dois números quaisquer entre três números a, b e c.
    exemplo: 
    >>> menor_dif(1,10,100):
    9
    '''
    dif1 = abs(a - b)
    dif2 = abs(b - c)
    dif3 = abs(a - c)
    return min(dif1, dif2, dif3)

In [None]:
help(menor_dif)

O *help* pode sempre ser usado:

In [None]:
help(np.random.randint)

## Exercício

### Crie uma função chamada arredonda2 que recebe um número real e retorna esse número com apenas 2 casas decimais

In [None]:
def arredonda2(num):
    '''
    Funcao arredonda2 recebe um numero real e retorna esse numero com apenas 2 casas decimais
    exemplo:
    >> arredonda2(9.32432)
    >> 9.32
    ''' 
    #num = int(num*100)/100
    num = round(num,2)
    return num


In [None]:
def arredonda3(num):
  numero = str(num)
  a = numero.split(".")[0]
  b = numero.split(".")[1]
  print('b',b,b[:2])
  print(f'{a}.{b[:2]}')

In [None]:
arredonda3(8.56463)

In [None]:
int(10.3249*1000)/1000

In [None]:
round(9.2445,2)

Para essa função estamos assumindo que *num* é um número real. 

### Crie uma função que receba uma lista de números e retorne somente os números pares contidos na lista. 

Vamos assumir que a lista tem ao menos 10 elementos.

1. Solução proposta 1:

In [None]:
def retorna_par(lista):
    '''
    A funcao ira receber lista e retornara somente os numeros pares de lista
    exemplo:
    >> retorna_par([1,2,3,4,5,6,7])
    >> [2,4,6]
    '''
    lista2 = []
    for i in range(len(lista)): 
      if lista[i]%2 == 0:
        lista2.append(lista[i])
    return lista2

2. Solução proposta 2:

In [None]:
def retorna_par2(lista):
    lista2 = []
    for i in lista: 
      if i%2 == 0:
        lista2.append(i)
    return lista2

3. Solução proposta 3:

In [None]:
def retorna_par3(lista):
  listaPares = [i for i in lista if i%2 == 0]
  return listaPares

In [None]:
lista = [1,2,3,4]

In [None]:
[i for i in lista if i%2 == 0]

In [None]:
retorna_par3([1,2,3,4,5,6,7,8,9])

# DataFrame

Chegou a vez de falarmos da biblioteca **pandas**, que é a biblioteca mais popular para análise de dados. 

Para começarmos a usar *pandas*, primeiro precisamos importar essa biblioteca. Geralmente, a abreviação dada a *pandas* é *pd*. Contudo, como disse para a biblioteca *numpy*, as abreviações podem ser outras, somente convencionaram-se esses nomes e todo mundo sempre respeita isso. 

In [None]:
import pandas as pd 

Existem dois tipos de objetos em *pandas*:
- Dataframe
- Series

Um DataFrame é uma tabela. Ele contém uma matriz de entradas individuais, cada uma com um determinado valor. Cada entrada corresponde a uma linha (ou registro) e uma coluna.

Por exemplo, considere o seguinte DataFrame:

In [None]:
pd.DataFrame({'Sim': [50, 21,12], 'Nao': [131, 2,5]})

Neste exemplo, a entrada "0, Não" tem o valor 131. A entrada "0, Sim" tem o valor 50 e assim por diante.

As entradas de DataFrame não são limitadas a inteiros. Por exemplo, aqui está um DataFrame cujos valores são strings:

In [None]:
pd.DataFrame({'Bruno': ['Eu gostei.', 'Foi terrível.'], 'Suzana': ['Maravilhoso.', 'Sem graça.']})

Estamos usando o construtor *pd.DataFrame( )* para gerar esses objetos *DataFrame*. 

A sintaxe para declarar um novo é um dicionário cujas chaves são os nomes das colunas (Buno e Suzana neste exemplo) e cujos valores são uma lista de entradas. Essa é a maneira padrão de construir um novo DataFrame.

O construtor de lista de dicionário atribui valores aos rótulos de coluna, mas usa apenas uma contagem crescente de 0 (0, 1, 2, 3, ...) para os rótulos de linha. Às vezes, isso é normal, mas muitas vezes queremos atribuir esses rótulos nós mesmos.

A lista de rótulos de linha usada em um *DataFrame* é conhecida como **índice**. Podemos atribuir valores a ele usando um parâmetro de índice em nosso construtor:

In [None]:
pd.DataFrame({'Bruno': ['Eu gostei.', 'Foi terrível.'], 'Suzana': ['Maravilhoso.', 'Sem graça.']}, 
             index=['Produto A', 'Produto B'] )

In [None]:
type(pd.DataFrame({'Bruno': ['Eu gostei.', 'Foi terrível.'], 'Suzana': ['Maravilhoso.', 'Sem graça.']}, 
             index=['Produto A', 'Produto B'] ))

Em contraste, uma série é uma sequência de valores de dados. Se um *DataFrame* for uma tabela, *Series* é uma lista. E, na verdade, você pode criar uma série com nada mais do que uma lista:

In [None]:
pd.Series([1.3, 2.0, 3.2, 4, 5])

In [None]:
type(pd.Series([1, 2, 3, 4, 5]))

Uma série é, em essência, uma única coluna de um *DataFrame*. 

Portanto, você pode atribuir valores de coluna à série da mesma maneira que antes, usando um parâmetro de índice. No entanto, uma série não tem um nome de coluna: 

In [None]:
pd.Series([30, 35, 40], index=['2021 vendas', '2020 vendas', '2019 vendas'])

A série e o DataFrame estão intimamente relacionados. É útil pensar em um DataFrame como sendo apenas um monte de Séries "coladas".

Vamos revisitar o *DataFrame* que criamos na aula passada...

In [None]:
dfsono = pd.DataFrame({'Nome':['Amanda Lemette','Julia Potratz','Cezar Augusto','Patrick G.','Renan','Daiana Sicuro',
                     'Denis Nascimento','Igor Rocha','Graziela Machado','Filipe Faria','Daniel Werneck',
                     'Hudson Diniz','Jorge Junior','Marcos Silva','Gustavo Araujo','Daniel Galdino'],              
              'horas':[7,5.5,6,7,8,8,7,7,6.5,7,7.5,6,8,7,7.5,5]})

In [None]:
dfsono

## Visualização das primeiras 5 linhas do DataFrame

In [None]:
dfsono.head()

- E se quisermos visualizar somente 3 linhas, como fazer?

In [None]:
dfsono.head(3)

In [None]:
dfsono.head(10)

## Visualização das últimas 5 linhas do DataFrame

In [None]:
dfsono.tail()

In [None]:
dfsono.tail(2)

## Adição de novas entradas no DataFrame

### Adição de registro único: append

In [None]:
df = {'Nome':['Ana Maria'],'horas':[5]}
df

In [None]:
df = pd.DataFrame(df)
df

In [None]:
dfsono.append(df,ignore_index = True)

In [None]:
dfsono = dfsono.append({'Nome':'Ana Maria','horas':5},ignore_index = True)

In [None]:
dfsono 

Repare que foi preciso escrever o comando *ignore_index = True*. Se ele for removido, ao rodar a célula, dá erro. O *ignore_index = True* irá permitir com que o novo registro receba como índice o número seguinte ao último índice do DataFrame dfsono. 

Se o *ignore_index = True* não for usado, ele resulta em erro, pois o registro que estamos adicionando nesse caso não tem índice nenhum associado a ele, o que faz com que o Python fique perdido aqui. 

Contudo, se formos fazer a adição de um outro DataFrame, o *ignore_index = True* já não se faz mais obrigatório, vamos testar. 

### Adição de registros de modo simultâneo: 

In [None]:
dic = {'Nome':['Pedro Humberto','Leonardo Dantas'], 'horas':[4.5,7.5]}

In [None]:
dic 

Criado o dicionário com nome *dic*, agora, precisamos converter esse dicionário em um novo *DataFrame*:

In [None]:
df_dic = pd.DataFrame(dic)
df_dic

Agora, podemos adicionar o *DataFrame* *df_dic* em *dfsono*:

In [None]:
dfsono = dfsono.append(df_dic)
dfsono.tail(3)

Como o *ignore_index = True* não foi usado, os novos registros adicionados reinicializaram a numeração dos índices de *dfsono*.

### Reinicialização dos índices de um DataFrame

Para reincializar os índices do DataFrame, fazemos uso de: .reset_index(drop = True). 

O *drop=True* não é obrigatório, porém ao não incluí-lo, os índices antigos passarão a compor a primeira coluna do *DataFrame* atualizado. 

In [None]:
dfsono = dfsono.reset_index(drop = True)
dfsono

### Uso do LOC & ILOC

Os comandos *loc* e *iloc* se diferenciam quando os índices do DataFrame são diferentes das posições. Por exemplo:

In [None]:
df = pd.DataFrame({'a':[23,24,25],'b':[54,53,52],'c':[65,64,67]})

In [None]:
df

Nesse caso, se quisermos imprimir o número 64 da coluna c, fazemos:

In [None]:
df['c'].loc[1]

In [None]:
df['c'].iloc[1]

In [None]:
df['c'][1] 

In [None]:
df.iloc[1][2] # [1] = linha e [2] = posição da coluna 

In [None]:
df.loc[1][2] # [1] = linha e [2] = posição da coluna 

Como você pôde ver, não houve diferença entre o *loc* e *iloc. Agora, vamos modificar o *DataFrame* df:

In [None]:
df = pd.DataFrame({'a':[23,24,25],'b':[54,53,52],'c':[65,64,67]}, 
                  index = ['A','B','C'])

In [None]:
df

Como imprimimos o valor 64 da coluna c?

In [None]:
df['c'].loc['B']

In [None]:
df['c'].loc[1]

In [None]:
df['c'].iloc[1]

In [None]:
df['c'][1] 

In [None]:
df.iloc[1][2] # [1] = linha e [2] = posição da coluna 

In [None]:
df.loc['B'][2] # [1] = linha e [2] = posição da coluna 

O comando **loc** exige que você forneça o nome do índice, já o comando **iloc** pede a posição do índice daquele elemento que você procura. No caso, 64 se encontra na linha com índice 'B' que está na posição **1**. 

In [None]:
df['b']

In [None]:
df.b

In [None]:
df

In [None]:
df.loc['B']

In [None]:
df.loc[:,'b']

In [None]:
df

In [None]:
df2 = pd.DataFrame({'A':[23,24,25],'B':[54,53,52],'C':[65,64,67]}, 
                  index = ['A','B','C'])

In [None]:
df2

In [None]:
df2['B'].loc['C']

#### Exercício: Usando o loc e o iloc também imprima o número 52 que está na coluna b.

In [None]:
df['b'].loc['C']

In [None]:
df['b'].iloc[2]

### Mudança de algum elemento dentro de um DataFrame

Vamos, agora, retornar ao DataFrame *dfsono*:

In [None]:
dfsono

Vamos alterar o nome Julia para João Neto:

In [None]:
dfsono['Nome'].iloc[1] = 'João Neto'

In [None]:
dfsono.head()

### Ordenação do DataFrame

Para ordenar o *DataFrame* fazemos uso de *sort_values*.

https://bit.ly/3i490U6

In [None]:
dfsono.head()

In [None]:
dfsono.sort_values('Nome',ascending = False)

1. Ordenação primeiro pelas horas e depois pelos nomes, seguindo ordem crescente e alfabética.

In [None]:
dfsono.sort_values(by = ['horas','Nome'])

2. Ordenação primeiro pelas horas (crescente) e depois pelos nomes (não alfabetica)

In [None]:
dfsono.sort_values(by = ['horas','Nome'],ascending = [True,False])

In [None]:
dfsono.sort_values('horas')

### Remover linha do DataFrame

Geralmente, para a exclusão de uma linha do DataFrame, utilizamos o comando *drop* (https://bit.ly/3i5GiCj).

Vamos excluir a linha de índice 4 do DataFrame *dfsono*.

In [None]:
dfsono.head()

In [None]:
dfsono.head()

In [None]:
dfsono.drop(1).reset_index(drop = True)

In [None]:
dfsono.drop([3,4]) #. drop([linha ou linhas que queremos excluir])

### Adicionar nova coluna no DataFrame

A adição de colunas no *DataFrame* é bem simples, na verdade, para isso basta escrevermos o nome do DataFrame e entre [ ], escrevemos o nome da nova coluna, vamos ver um exemplo.

In [None]:
dfsono.tail(2)

In [None]:
dfsono['ansiedade'] = ['alta','baixa','normal','alta','alta',
                       'baixa','normal','alta','alta','baixa',
                       'normal','alta','alta','baixa','normal','alta'
                       ,'baixa','normal','alta']

In [None]:
dfsono.head(2)

In [None]:
dfsono.tail(2)

### Remover coluna no DataFrame

Agora, remova a coluna *ansiedade* do DataFrame *dfsono* utilizando *drop*. 

Lembrando que *drop* como default elimina a linha do *DataFrame*, para eliminar a coluna precisamos informar isso ao Python pelo comando **axis = 1**.

In [None]:
dfsono.drop('ansiedade',axis = 1)

In [None]:
dfsono.drop(columns = {'ansiedade'})

In [None]:
dfsono['nova_coluna'] = np.nan

In [None]:
dfsono.head()

### Segmentar os dados de um DataFrame dentro de intervalos

Na última aula, conhecemos o comando .cut (https://bit.ly/3BKDdPQ).

O que ele faz?

Ele classifica determinada coluna (que contém dados numéricos) do DataFrame dentro de intervalos de números. Por exemplo:

Vamos criar uma lista, chamada *intervalos*, que contém os seguintes intervalos:

In [None]:
intervalos = ['0-5.5','5.5-6.5','6.5-7.5','> 7.5']
intervalos

Contudo, essa lista é uma lista de strings e o Python não consegue entender que '0-5.5' significa números que são iguais ou maiores do que 0 e menores do que 5.5. Para que o Python faça essa interpretação corretamente, precisamos criar outra lista, mas que seja de números:

In [None]:
intervalos_num = [-1,5.5,6.5,7.5,24]
intervalos_num

Agora sim, com a lista *intervalos_num*, o Python interpreta do seguinte modo:

- O primeiro intervalo será entre 0 e 5.5, incluindo o 0 e excluindo o 5.5.
- O segundo intervalo será entre 5.5 e 6.5, incluindo o 5.5 e excluindo o 6.5.
- O terceiro intervalo será entre 6.5 e 7.5, incluindo o 6.5 e excluindo o 7.5.
- O quarto intervalo será entre 7.5 e 24, incluindo o 7.5 e excluindo o 24.

Matematicamente, os intervalos são: 
- intervalo 1: [0,5.5[
- intervalo 2: [5.5,6.5[
- intervalo 3: [6.5,7.5[
- intervalo 7: [7.5,24[

E a lista *intervalos* é a lista *label* que dá nome aos intervalos. 
Assim, temos:

- intervalo 1: [0,5.5[ ; label: '0-5.5'
- intervalo 2: [5.5,6.5[ ; label: '5.5-6.5'
- intervalo 3: [6.5,7.5[ ; label: '6.5-7.5'
- intervalo 7: [7.5,24[ ; label: '> 7.5


O comando *cut* irá então receber como entrada:

- coluna do DataFrame que irá ser classificada
- lista intervalos_num
- lista intervalos

Vamos aplicar o cut na coluna *horas* do DataFrame *dfsono* para que as horas de sono de cada pessoas seja classificada dentro dos intervalos especificados na lista *intervalos_num*. O método *cut* irá identificar a qual intervalo aquela hora pertence e como resposta irá imprimir o label daquele intervalo. O resultado dessa classificação será salvo em uma nova coluna no DataFrame *dfsono* que iremos chamas de *duracao*.

In [None]:
dfsono = pd.DataFrame({'Nome':['Amanda Lemette','Julia Potratz','Cezar Augusto','Patrick G.','Renan','Daiana Sicuro',
                     'Denis Nascimento','Igor Rocha','Graziela Machado','Filipe Faria','Daniel Werneck',
                     'Hudson Diniz','Jorge Junior','Marcos Silva','Gustavo Araujo','Daniel Galdino'],              
              'horas':[7,5.5,6,7,8,8,7,7,6.5,7,7.5,6,8,7,7.5,5]})

In [None]:
dfsono['duracao'] = pd.cut(dfsono['horas'],intervalos_num,labels = intervalos) 

In [None]:
dfsono

# Leitura de Arquivos em Python

## Leitura de arquivo de excel

Vamos ler a base de dados que se encontra no seguinte link do Kaggle: https://bit.ly/3l5ejEE

Faça o download da base de dados e salve o arquivo *all-euro-data-2019-2020.xlsx* na pasta do seu Google Drive *Colab Notebooks*.

Para fazer a leitura de um arquivo com extensão .xlsx vamos precisar primeiro importar a biblioteca *pandas*. 

In [None]:
import pandas as pd 

Depois, vamos utilizar a função *read_excel* da biblioteca *pandas*. Essa função recebe como variável de entrada o nome do arquivo que você tem interesse em fazer a leitura, nesse caso, *all-euro-data-2019-2020.xlsx*. 

In [None]:
!ls

In [None]:
df = pd.read_excel('all-euro-data-2019-2020.xlsx')  

Na célula acima, fizemos a leitura do arquivo *all-euro-data-2019-2020.xlsx* e a variável *df* recebeu esse arquivo. 

In [None]:
df 

Podemos ver que a leitura foi feita do modo correto, já que conseguimos ver que as colunas foram identificadas como deveriam e as linhas também. 

De acordo com a descrição fornecida no site da base de dados, as colunas significam:

- Div = League Division
- Date = Match Date (dd/mm/yy)
- Time = Time of match kick off
- HomeTeam = Home Team
- AwayTeam = Away Team
- FTHG and HG = Full Time Home Team Goals
- FTAG and AG = Full Time Away Team Goals
- FTR and Res = Full Time Result (H=Home Win, D=Draw, A=Away Win)
- HTHG = Half Time Home Team Goals
- HTAG = Half Time Away Team Goals
- HTR = Half Time Result (H=Home Win, D=Draw, A=Away Win)

Estatísticas de cada partida (se disponíveis):

- Attendance = Crowd Attendance
- Referee = Match Referee
- HS = Home Team Shots
- AS = Away Team Shots
- HST = Home Team Shots on Target
- AST = Away Team Shots on Target
- HHW = Home Team Hit Woodwork
- AHW = Away Team Hit Woodwork
- HC = Home Team Corners
- AC = Away Team Corners
- HF = Home Team Fouls Committed
- AF = Away Team Fouls Committed
- HFKC = Home Team Free Kicks Conceded
- AFKC = Away Team Free Kicks Conceded
- HO = Home Team Offsides
- AO = Away Team Offsides
- HY = Home Team Yellow Cards
- AY = Away Team Yellow Cards
- HR = Home Team Red Cards
- AR = Away Team Red Cards
- HBP = Home Team Bookings Points (10 = yellow, 25 = red)
- ABP = Away Team Bookings Points (10 = yellow, 25 = red)


Vamos analisar as primeiras 5 linhas de *df*:

In [None]:
df.head()

Vamos agora visualizar as últimas 5 linhas de *df*.

In [None]:
df.tail()

Bom, esse *DataFrame* possui no total 320 linhas e 106 colunas. 

Ao abrir o arquivo no computador, vemos que *all-euro-data-2019-2020.xlsx* possui várias planilhas. De acordo com a informação no site, cada planilha refere-se a uma liga diferente. 

Contudo, pelo procedimento feito aqui, somente fizemos a leitura da primeira planilha, identificada no Excel como *E0*. 

Como podemos, então, proceder para conseguirmos ler **TODAS** as planilhas desse arquivo?

### Leitura de todas as planilhas de um mesmo arquivo de Excel

In [None]:
dic = pd.read_excel('all-euro-data-2019-2020.xlsx',sheet_name=None)  

In [None]:
dic

Ao acrescentar *sheet_name = None* dentro de *read_excel*, eu informei ao Python que quero fazer a leitura de **todas** as planilhas de modo simultâneo. E foi o que o Python fez.

Contudo, em vez de termos como variável de saída um *DataFrame*, recebemos um dicionário, que nomeamos de *dic*.

In [None]:
type(dic)

Se eu quiser recuperar as informações armazenadas na primeira planilha, faço:

In [None]:
dic['E0']

Ou seja, temos um dicionário *dic* e cada chave de *dic* tem o nome do título da planilha e o valor correspondente a cada chave é um *DataFrame*. 

- Vamos simplificar isso!!!!

Vamos ver quais chaves *dic* armazena:

In [None]:
dic.keys()

Vamos criar uma lista com todas as chaves de *dic*:

In [None]:
chaves = list(dic.keys())
print(type(chaves))
chaves

Repare que foi preciso fazer a conversão de *dic.keys()* para lista e isso foi feito através da função *list*. 

Vamos, agora, ver quantas chaves existem:

In [None]:
num_chaves = len(dic.keys())
num_chaves

Nós já vimos anteriormente como podemos adicionar um *DataFrame* dentro do outro, certo? 

Usando o *append*. =)

Podemos, então criar um loop definido (com o for) no qual vamos adicionando um *DataFrame* por vez dentro de um *DataFrame* que, antes do loop, será vazio. 

E esse loop irá realizar *num_chaves* iterações, pois precisará garantir que todas as planilhas sejam percorridas. 

Como criar um *DataFrame* vazio?

In [None]:
data = pd.DataFrame()
data

pronto =)

Vamos agora escrever nosso loop:

In [None]:
chaves[0]

In [None]:
dic[chaves[1]]

In [None]:
for i in range(num_chaves):
    print(i)
    data = data.append(dic[chaves[i]],ignore_index=True)

In [None]:
data

**PRONTO**, agora temos um único *DataFrame* chamado *data* que contém **todas** as informações presentes no arquivo *all-euro-data-2019-2020.xlsx*.

### Leitura de arquivo de excel excluindo as primeiras linhas e colunas

Muitas vezes, quando queremos ler um arquivo de excel, ele não vem preenchido desde a linha 1 e coluna 1. Pode ser o caso de encontrarmos um aquivo que só contém dados a partir da linha 5 e coluna *'D'*. 

Nesse caso, como devemos proceder?

Para testar esse caso, vamos modificar o arquivo *all-euro-data-2019-2020.xlsx* deixando algumas linhas e colunas em branco. Vamos lá. 

In [None]:
df = pd.read_excel('all-euro-data-2019-2020b.xlsx',skiprows=4,usecols = "D:DE")  

In [None]:
df.head()

Como podemos ver, conseguimos fazer a leitura a partir da coluna 'D' com a especificação de quais colunas deveriam se incluídas na leitura pela palavra-chave *usecols*. Já para pular linhas, com a palavra-chave *skiprows*, conseguimos dizer quais linhas deveriam ser desconsideradas na leitura. 

## Leitura de arquivo csv

Para fazermos a leitura de um arquivo com extensão *.csv*, vamos usar a base de dados do link: https://bit.ly/3f7RJr5

Do mesmo modo que para o arquivo em excel, você deve fazer o download do arquivo *Olympics_Tokyo_tweets.csv* e colar o mesmo na sua pasta do Groogle Drive *Colab Notebooks*. 

Para ler aquivos do tipo *csv*, utilizamos a função *read_csv* da biblioteca *pandas*.

## Leitura de arquivo txt

Para fazer a leitura de um arquivo do tipo *txt*, não existe uma função da biblioteca *pandas* que seja específica para esse tipo de leitura. Contudo, podemos fazer uso da função *read_csv*, que ela irá funcionar sem problemas. Vamos testar?

A base de dados foi retirada do seguinte link: https://bit.ly/3f8JX0l

O arquivo texto *FEVData.txt* contém dados de um estudo sobre os efeitos de fumar em crianças. 

### Documentation for FEV data
==========================

It is now widely believed that smoking tends to impair lung function.
Much of the data to support this claim arises from studies of
pulmonary function in adults who are long-time smokers. A question
then arises whether such deleterious effects of smoking can be
detected in children who smoke. To address this question, measures
of lung function were made in 654 children seen for a routine
check up in a particular pediatric clinic. The children participating
in this study were asked whether they were current smokers.

A common measurement of lung function is the forced expiratory
volume (FEV), which measures how much air you can blow out of your 
lungs in a short period of time. A higher FEV is usually associated 
with better respiratory function. It is well known that prolonged 
smoking diminishes FEV in adults, and those adults with diminished 
FEV also tend to have decreased pulmonary function as measured by 
other clinical variables, such as blood oxygen and carbon dioxide 
levels.

The data set FEV (available in multiple formats) contains data on
654 children.
Available data includes measurement of age, height, sex, FEV, and
whether each child smokes or not. The variables are:

- SEQNBR = case number
- SUBJID = subject identification number
- AGE    = subject age at time of measurement (years)
- FEV    = measured FEV (liters per second)
- HEIGHT = subject height at time of measurement (inches)
- SEX    = subject sex (1 = male, 2 = female)
- SMOKE  = smoking habits (1 = yes, 2 = no)


In [None]:
df = pd.read_csv("FEVData.txt")

In [None]:
df.head(2)

Bom, por alguma razão o Python não entendeu que o arquivo *FEVData.txt* contém 7 colunas em vez de uma única. 

Isso ocorreu pois o modo default de leitura de aquivo do tipo *csv* considera que as colunas são separadas por , ou ; e não por espaços em branco. 

Para que a leitura de *FEVData.txt* seja feita do modo correto, precisamos informar ao Python que as colunas estão separadas por espaços em branco. Vamos lá.

In [None]:
df = pd.read_csv("FEVData.txt", delim_whitespace=True)

In [None]:
df.head(2)

Pronto, agora sim a leitura foi feita do modo correto. O que falta ajustar ainda é sobre o cabeçalho do *DataFrame*, pois como o arquivo *FEVData.txt* não tem cabeçalho, valores registrados foram colocados como nomes de colunas na leitura, o que está errado. Para consertar isso, precisamos informar no comando de leitura que não existe cabeçalho através de: *header = None*.

In [None]:
df = pd.read_csv("FEVData.txt", delim_whitespace=True, header = None)

In [None]:
df.head()

Agora sim. 

Bom, como sabemos o que cada coluna de *df* representa, vamos adicionar essa nomenclatura no *DataFrame*.

#### Adição de cabeçalho no DataFrame

Primeiro, precisamos criar uma lista com os nomes das colunas que queremos passar para *df*:

In [None]:
cols = ['SEQNBR','SUBJID','AGE','FEV','HEIGHT','SEX','SMOKE']
cols

In [None]:
df.columns = cols

In [None]:
df.head()

# Exportação de Arquivos em Python

## Exportação para arquivo de excel

### Salvando sem incluir os índices do DataFrame

## Exportação para arquivo csv

## Exportação para arquivo txt