# Strings

Na programação, normalmente chamamos um conjunto de caracteres de strings. Para criar uma string é necessário delimitar com aspas duplas ou simples. Como por exemplo:

In [2]:
print('Dino "Magri')

In [3]:
print('Dino \'Magri')

In [4]:
print("Dino 'Magri ")

In [5]:
print('Dino "Magri')

In [6]:
nome = "Dino Magri

**<span style="color:red;">O que faltou?</span>**

Faltou fechar as aspas duplas.

In [8]:
nome = '''Dino
Magri'''

In [9]:
print(nome)

## O que podemos fazer com strings?

* Podemos pular uma linha com o \n e tabular com o \t

In [11]:
print("Eu \n sou uma \n\t string")

* Podemos utilizar o prefixo r para que os caracteres de escape não sejam processados (raw strings)

In [13]:
teste = r"Testando os caracteres de escape \n e \t"
print(teste)

### Placeholders

* Para substituir símbolos em strings, podemos utilizar a função format

In [16]:
nome = "FIA"
idade = 35
print("A {} tem {} anos de idade".format(nome, idade))

* Também podemos definir as casas decimais que queremos imprimir.

In [18]:
import math
pi = math.pi
print(pi)

print("O número pi com {1} casas decimais é {0:1.4f}".format(pi, 4))

### Conctenar Strings

In [20]:
palavra = "Teste" + "-" + "Z"

In [21]:
print(palavra)

### Multiplicar Strings

In [23]:
print("Multiplicando strings:\n" + palavra * 3)

### Quantidade de caracteres

* Podemos saber quantos caracteres contém uma string, para isso utilizamos uma função ```len```.

In [25]:
mensagem = "Big Data + FIA"

In [26]:
tamanho = len(mensagem)

In [27]:
print(tamanho)

## Como funciona o index e o fatiamento (slice) de strings?

![Slices](slice.png)

Fonte: http://goo.gl/agfSe5

In [29]:
a = "Eu sou uma string"

In [30]:
# Imprimindo o primeiro elemento
print(a[0])

In [31]:
# Imprimindo os 6 primeiros caracteres 
print(a[:6])

In [32]:
# Imprimindo os 6 últimos caracteres
print(a[-6:])

In [33]:
# Imprimindo um intervalo
print(a[1:5])

In [34]:
# Imprimindo tudo menos o último caractere
print(a[:-1])

## Os métodos que existem por padrão em uma string!

Métodos são blocos de código que tem um nome e realizam alguma tarefa.

Por exemplo, quando criamos a variável ```nome```, definimos que seu valor era ```'Dino Magri'```. Quando o Python de fato definiu esse valor a variável nome, ele também definiu seu tipo.

**Como ele fez isso?**

Bom, como vimos na começo da aula Python tem tipagem dinâmica e forte, ou seja, ele realiza as conversões necessárias para identificar o tipo de um determinado valor. 

Para checar o tipo basta utilizar a função ```type(nome_variável)```

In [36]:
print(type(nome))

No momento da criação da variável e da atribuição de seu tipo, Python disponibiliza diversos métodos que realizam diferentes tipos de ações de acordo com esse tipo associado.

Esses métodos tem nome e recebem argumentos como parâmetro. Lembre-se da função len(), que conta quantos caracteres tem em uma string, recebe 1 argumento. Ou seja, a variável que contêm o valor da string é passada como parâmetro. ```print(len(nome))```.

Por exemplo, se quisermos alterar o nome todo para maiusculo, Python disponibiliza um método que faz isso.

**Note que para chamar o método de uma variável, utilizamos o ponto seguido pelo nome do método.**

In [38]:
nome = 'Dino Magri'
print(nome)
print(nome.upper())

* Contar quantas vezes aparecer um determinado caractere

In [40]:
mensagem.count('a')

* Podemos deixar tudo minúsculo

In [42]:
mensagem.lower()

* Podemos modificar a string para ter uma versão no estilo de título

In [44]:
mensagem.title()

* Podemos verificar se uma string começa ou termina com um determinado texto. Isso é útil para encontrar arquivos com determinadas extensões, URLs, entre outros.

In [46]:
mensagem.startswith('b')

In [47]:
nomearquivo = 'spam.txt'
nomearquivo.endswith('.txt')

In [48]:
url = 'http://dinomagri.com'
url.startswith('http:')

* Outros métodos de strings podem ser encontradas em https://docs.python.org/3/library/stdtypes.html#string-methods

## Exercício de strings

### 1 - Crie um string "Eu estou programando em Python" na variável txt.

#### a) Imprima a primeira letra de txt utilizando colchetes (e.g. txt[NUM])

In [50]:
txt = "Eu estou programando em Python"
print(txt[0])

#### b) Imprima a letra g.

In [52]:
print(txt[txt.index('g')])

#### c) Imprima a palavra estou

In [54]:
print(txt[3:8])

#### d) Imprima as ultimas 4 letras

In [56]:
print(txt[-4:])

#### e) Imprima o texto a partir do index 9 e mostre qual o texto resultante

In [58]:
print(txt[9:])

### 2 - Utilize os seguintes métodos:

#### a) Upper, lower, len e title

In [60]:
print(txt.upper())
print(txt.lower())
print(len(txt))
print(txt.title())

#### b) Conte (count) quantas letras [a, o] existem

In [62]:
print(txt.count('a'))
print(txt.count('o'))

#### c) Retorne o index da letra g

In [64]:
print(txt.index('g'))

#### d) Procure (find) o index inicial da palavra Python

In [66]:
print(txt.find('Python'))

# Listas

* Conjunto linear de valores indexados por um número inteiro:
    * Índices são iniciados em zero
    * Tipos mistos
    * E até outras listas

In [69]:
numeros = [1,2,3,4,5,6]
print(numeros)

In [70]:
letras = list("abcd")
print(letras)

* Listas também suportam operações de concatenação

In [72]:
numeros = numeros + [7,8,9,10]
print(numeros)

* Por ser do tipo mutável, é possível modificar o seu conteúdo

In [74]:
cubos = [1, 8, 27, 65, 125]

In [75]:
print(cubos[3])

In [76]:
cubos[3] = 64
print(cubos)

* Também é possível utilizar o método append() para adicionar valores

In [78]:
cubos.append(216) # cubo de 6

In [79]:
cubos.append(7 ** 3) # cubo de 7

In [80]:
print(cubos)

* Podemos contar quantos elementos tem na lista utilizando o método len()

In [82]:
print(len(cubos))

## É possível criar lista com diversos tipos

Podemos criar listas com números, strings e outras listas.

In [84]:
num = [1, 2, 3]
prod = ['Ipad','S7', 'Notebook', 'Tablet']

In [85]:
lst = [num, prod]

In [86]:
print(lst)

In [87]:
print(lst[0])

In [88]:
print(lst[1])

In [89]:
print(lst[1][0])

## Métodos do tipo lista

Como no Python, tudo é um objeto, uma lista possui um conjunto de operações próprias que permitem manipular os valores da lista. Isso é chamado de método.

In [91]:
n = ['c','a', 'b']
n.sort()

In [92]:
print(n)

In [93]:
print(dir(n))

## Alguns métodos

Alguns métodos listados abaixo. Acesse a lista completa em https://docs.python.org/3/tutorial/datastructures.html#more-on-lists


Método | Descrição
---- | ----
```list.append(x)``` | Adiciona um item ao fim da lista; equivalente a a[len(a):] = [x]
```list.extend(L)``` | Prolonga a lista, adicionando no fim todos os elementos da lista L passada como argumento; equivalente a a[len(a):] = L
```list.insert(i, x)``` | Insere um item em uma posição especificada
```list.remove(x)``` | Remove o primeiro item encontrado na lista cujo valor é igual a x
```list.pop([i])``` | Remove o item na posição dada e o devolve.
```list.index(x)``` | Devolve o índice do primeiro item cujo valor é igual a x, gerando ValueError se este valor não existe
```list.count(x)``` | Devolve o número de vezes que o valor x aparece na lista
```list.sort()``` | Ordena os itens na própria lista
```list.reverse()``` | Inverte a ordem dos elementos na lista

In [95]:
print(n)

In [96]:
n.append('d')
print(n)

In [97]:
lista2 = ['e', 'f', 'a']
n.extend(lista2)

In [98]:
print(n)

In [99]:
n.remove('f')

In [100]:
print(n)

In [101]:
item = n.pop(4)

In [102]:
print(item)
print(n)

In [103]:
n.index('d')

In [104]:
n.count('a')

## Exercícios

**Exercício 1** - Crie uma lista chamada ```num``` com números de 1 a 5. Crie uma segunda lista chamada ```cores``` com 5 cores diferentes. Junte as duas listas em uma terceira lista chamada ```total``` e imprima cada uma das três listas utilizando a lista chamada ```total```.

In [107]:
num = [1,2,3,4,5]

In [108]:
cores = ['azul', 'preto', 'vermelho', 'amarelo', 'branco']

In [109]:
total = [num, cores]

In [110]:
print(total)
print(total[0])
print(total[1])

**Exercício 2** - Crie uma lista e adicione o seu nome e sobrenome. Agora crie uma string e utilize os placeholders para imprimir seu nome completo. A mensagem deve estar no seguinte formato: "Olá, Dino Magri!"

In [112]:
ln = ['Dino', 'Magri']

In [113]:
print("Olá, {} {}!".format(ln[0], ln[1]))

# Tuplas

* Tuplas constroem grupos simples de objetos.
* Elas trabalham exatamente como listas, exceto que tuplas não podem ser modificadas (são imutáveis) e são normalmente escritas como uma série de itens em parênteses, não entre colchetes.
* Os itens das tuplas são acessados via índice.
* Não suporta operações de alteração.

In [116]:
t1 = ()
print(type(t1))

In [117]:
letras = tuple('abcd')
print(letras)

In [118]:
t2 = (1,)
print(type(t2))

Se não colocar a virgula depois do 1, ```t2``` será to tipo ```int```. Veja abaixo.

In [120]:
t3 = (1)
print(type(t3))

* Tuplas podem ser de diversos tipos, assim como as listas

In [122]:
t4 = (1, 'a', 3.4)

In [123]:
print(type(t4))

* Podemos concatenar

In [125]:
ts = (1, 2) + (3, 4)

In [126]:
print(ts)

* Podemos multiplicar

In [128]:
ts * 2

* Podemos Indexar e fatiar

In [130]:
ts[0]

In [131]:
ts[2:4]

In [132]:
ft = ts[0], ts[2:4]

In [133]:
print(ft)

In [134]:
print(type(ft))

* Podemos convert tuplas em listas e vice versa.

In [136]:
nl = list(ts)
print(nl)

In [137]:
tl = tuple(nl)
print(tl)

# Dicionários

* Um coleção de elementos onde é possível utilizar um índice de qualquer tipo imutável.

* Dicionários são encontrados em outras linguagens como "memória associativa" ou "arrays associativos".

* Diferentemente da lista, que são indexadas por um range de números, dicionários são indexados por chaves (keys), que podem ser qualquer tipo imutável (strings e números podem ser chaves (keys))


* Podemos pensar que um dicionário é um conjunto de chave : valor (key : value) não ordenado, com o requerimento que a **chave deve ser única**.


    - Chave é o índice
    - Valor é a informação correspondente a chave
    - { } utilizado para iniciar um dicionário
    - : separa os pares índice-valor por vírgula

In [140]:
alunos = {'jose': 35, 'bilbo' : 28}

In [141]:
print(alunos)

In [142]:
print(alunos['bilbo'])

In [143]:
print(alunos['jose'])

In [144]:
# Adicionar um novo elemento no dicionário
alunos['joao'] = 20

In [145]:
print(alunos)

In [146]:
# Remover um elemento do dicionário
del alunos['bilbo']
print(alunos)

## Os métodos disponíveis para Dicionários

Da mesma forma que o tipo lista contém métodos disponíveis, o dicionário tem os seguintes métodos:

Método | Descrição
--- | ---
```dic.keys()``` | Retorna uma lista com as chaves do dicionário.
```dic.values()``` | Retorna uma lista com os valores do dicionário.
```dic.items()``` | Retorna uma lista de tuplas com o conteúdo do dicionário, cada tupla contendo um par (chave, valor).
```dic.update(d2)``` | Atualiza o dicionário com base em um segundo. dicionário (d2) fornecido como parâmetro. Elementos do dicionário original que também existem no segundo elemento são atualizados. Elementos que existem no segundo mas não existem no original serão adicionados a este.
```dic.clear()``` | Remove todos os elementos do dicionário.
```dic.copy()``` | Realiza uma cópia do dicionário

* Recuperar os valores e chaves

In [149]:
alunos

In [150]:
a = alunos.keys()
print(a)

In [151]:
v = alunos.values()

In [152]:
print(v)

Para trabalhar como lista, precisamos explicitamente converter v para tipo lista

In [154]:
v = list(v)
print(type(v))
print(v)

* Recuperar os itens ```(chave : valor)```

In [156]:
alunos.items()

In [157]:
da = alunos.items()
type(da)

In [158]:
da = list(da)

In [159]:
da[0]

In [160]:
type(da[0])

* Adicionar elementos a partir de outro dicionário

In [162]:
n_alunos = {'maria': 30, 'james':60}

In [163]:
alunos.update(n_alunos)

In [164]:
print(alunos)

## Exercícios de 5 minutos

1 - Crie um dicionário chamado ```palavras```. Esse dicionário irá conter algumas palavras que aparecem repetidamente em um determinado texto. As palavras estão listas abaixo, crie um dicionário sendo a chave o nome da palavra e o valor a quantidade de vezes que a palavra apareceu.
    * big = 182 vezes
    * data = 342 vezes
    * python = 423 vezes

In [166]:
palavras = dict(big=182, data=342, python=423)

In [167]:
print(palavras)

2 - Utilizando o dicionário palavras que foi criado no exercício anterior, crie um programa para imprimir as frases:
    * a) A palavra python apareceu 423.
    * b) As palavras big, data e python apareceram 947 vezes.
    
É necessário utilizar placeholders. Ou seja, utilize o dicionário ```palavras``` para recuperar as palavras python, big e data bem como os valores.

Lembre-se do acesso via índice.

In [169]:
print("A palavra python apareceu {} vezes".format(palavras['python']))

In [170]:
total = palavras['big'] + palavras['data'] + palavras['python']

In [171]:
print("As palavras big, data e python apareceram {} vezes.".format(total))

In [172]:
sum(palavras.values())

# Estruturas de Controle

É importante controlar o fluxo do nosso código!

## IF, ELIF, ELSE

* Para controlar o fluxo do nosso código Python, podemos avaliar uma determinada expressão.
    * Um teste (expressão que avalia para verdadeiro (True) ou falso (False)
    * Um bloco de código que será executado se o teste for verdadeiro (True)
    * Um bloco de código que será executado se o teste for falso (False)

<img src="if-elif-else.png" alt="if-elif-else" style="width: 200px;"/>

In [175]:
isinstance?

In [176]:
n = int(input('Digite um número: '))

In [177]:
if n % 2 == 0:
    print('Par')
else:
    print('Impar')


Também podemos ter condições dentro de condições, por exemplo:

In [179]:
nome = 'fia2'

if nome == 'fia':
    idade = 35
    print(idade)
elif nome == 'usp':
    idade = 82
    print(idade)
else:
    print("Não corresponde a nenhum nome")
    

* Também podemos utilizar comparações boleanas

In [181]:
x = 10
y = 11
z = 12

In [182]:
if x < y and x < z:
    print("x é menor")
elif y < z:
    print("y é menor")
else:
    print("z é menor")

** Não existe estrutura do tipo switch/case**

## WHILE

É utilizado para execução repetitiva enquanto a expressão for verdadeira.

* Estamos começando a adicionar complexidade em nosso código.
    * Inicia com um teste
    * Se o teste resultar em verdadeiro (True), então o código do laço iterativo será executado uma única vez e então o código será redirecionado para que o teste seja refeito.
    * Esse processo é repetido até que o teste resulte em falso (False), saindo do laço iterativo.
    

<img src="while.png" alt="if-elif-else" style="width: 200px;"/>

In [185]:
lista = [1, 2, 3]
n = len(lista) - 1

while (n != -1):
    print(lista[n])
    n = n - 1

* O código acima escrito de outra forma

In [187]:
lista = [1, 2, 3]
n = len(lista) - 1
while True:
    print(lista[n])
    n = n - 1
    if n < 0:
        break


* Note que para pararmos a execução do laço, temos que explicitamente colocar o comando ```break``` para interromper a execução do laço. Isso não é feito no exemplo anterior, onde o "break" acontece quando o expressão é falsa.

## FOR

Para percorrer um conjunto de valores podemos utilizar o laço iterativo FOR.

In [190]:
produtos = ['ipad', 'celular', 'notebook', 'tv']

In [191]:
for item in produtos:
    print(item)

* Podemos utilizar a função ```enumerate()``` para recuperar a posição do index e o valor correspondente

In [193]:
for i, item in enumerate(produtos):
    print(i, item)

### A função ```range```

A função ```range(inicio, fim, passo)``` produz um objeto que tem uma sequencia de inteiros. O inicio se não for passado é 0 e é inclusivo, e o fim é a parada que é exclusivo.

Quando o passo for dado, ele incrementa ou decrementa.

In [195]:
list(range(5))

In [196]:
r1 = list(range(5))

In [197]:
for i in r1:
    print(i)

In [198]:
list(range(0, 10, 2))

In [199]:
r2 = range(0, 10, 2)
for i in r2:
    print(i)

* Para iterar em uma sequencia reversa, primeiro é necessário especificar a direção e então chamar a função ```reversed()```

In [201]:
for i in reversed(range(1, 10, 2)):
    print(i)

* Também podemos utilizar a função range() para iterar em uma sequencia reversa

In [203]:
num = 5
for num in range(num, 0, -1):
    print(num)

* Um exemplo um pouco mais completo

In [205]:
l1 = list("abcdef")

In [206]:
l1

In [207]:
for item in l1:
    print(item)

In [208]:
for i in range(0, len(l1)):
    print(l1[i])

* Para iterar em dicionários, podemos utilizar fazer da seguinte forma:

In [210]:
pessoas = dict([('jose',35), ('bilbo',28), ('joão',20)])

In [211]:
for c, v in pessoas.items():
    print(c, v)

### Pontos de atenção

* **break**: sai do loop mais próximo que a envolve
* **continue**: pula o início do loop mais próximo que a envolve
* **pass**: não faz absolutamente nada; trata-se de um lugar reservado de instrução, vazio.


**<span style="color:red;">No código abaixo quando executado o que irá imprimir????</span>**

In [214]:
numeros = [4, 5, 6, 7, 8, -3, 9, -4]
for num in numeros:
    if num < 0:
        print("negativo: {}".format(num))
        break

* Tanto o if quanto o while utilizam condições lógicas para controle, avaliando-as de maneira booleana.

* Em Python, podemos denotar falso:
    * Pelo booleano False,
    * Pelo valor 0 (zero)
    * Pela lista, dicionário, ou strings vazios, de tamanho zero
    * Pelo valor especial None, que significa nulo
    
**<span style="color:blue;">Qualquer outro valor é considerado verdadeiro</span>**

## Exercícios

#### 1 - Verifique se a lista números tem algum valor negativo.

    ```numeros = [4, 5, 6, 7, 8, -3, 9, -4]```

Utilize o for para iterar em cada item da lista, e verifique se o item é menor que do 0, se for menor imprima o item (utilizando if/else).

In [218]:
numeros = [4, 5, 6, 7, 8, -3, 9, -4]

In [219]:
for item in numeros:
    if item < 0:
        print(item)

#### 2 - Crie um laço que imprima os números pares do 0 ao 100. Primeiro utilize a função ```range()``` e depois o operador %.

In [221]:
for i in range(0, 100, 2):
    print(i, end=' ')

In [222]:
for i in range(100):
    if i % 2 == 0:
        print(i)

#### 3 - Crie uma lista com 5 aparelhos diferentes:

    aparelhos = ['iphone', 'pc', 'notebook', 'monitor', 'impressora']

Agora crie um laço que imprima cada valor da lista (com os números):
```
1 iphone
2 pc
3 notebook
4 monitor
5 impressora
```

In [224]:
aparelhos = ['iphone', 'pc', 'notebook', 'monitor', 'impressora']

In [225]:
for i, item in enumerate(aparelhos):
    print(i+1, item)

# Exercícios

**```1 - Crie um programa que irá perguntar ao usuário para digitar o nome e a idade. Imprima uma mensagem que diga qual é o ano em que ele irá fazer 100 anos.```**

In [229]:
nome = input("Digite seu nome: ")
idade = int(input("Digite sua idade: "))

In [230]:
print("Você irá fazer 100 anos em {}".format((100-28)+2016))

**```2 - Modifique o programa anterior e pergunte quantas vezes o usuário deseja imprimir a mensagem.```**

In [232]:
vezes = int(input("Digite quantas vezes deseja reptir a mensagem: "))

In [233]:
for v in range(0, vezes):
    print("{} - Você irá fazer 100 anos em {}".format(v+1, (100-28)+2016))

**```3 - Pergunte ao usuário para digitar um número. Verifique se o número digitado é par ou impar. Imprima a mensagem apropriada para cada caso.```**

In [235]:
num = int(input("Digite um número: "))

In [236]:
if num % 2 == 0:
    print("O {} é par.".format(num))
else:
    print("O {} é impar.".format(num))

**```4 - Utilize a lista lst = [1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89].```**

    a) Escreva um programa que irá imprimir todos os elementos menor ou igual a 5.
    b) Ao invés de imprimir os elementos um a um, faça uma nova lista que tenha todos os elementos que são menor ou igual a 5. Imprima essa lista.
    c) Peça ao usuário para digitar um número e imprima todos os números menores que os elementos da lista l.

In [238]:
lst = [1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89]

In [239]:
# a)
for i in lst:
    if i <= 5:
        print(i, end=' ')

In [240]:
# b)
n_lst = []
for i in lst:
    if i <= 5:
        n_lst.append(i)
print(n_lst)

In [241]:
# c)
n = int(input("Digite um número: "))

In [242]:
for i in lst:
    if i <= n:
        print(i, end=' ')

**```5 - Utilize as duas listas abaixo:```**
```
    l1 = [1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89]
    l2 = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13]
```
    Escreva um programa que irá retornar uma lista que contém apenas os elementos que são comuns entre as listas (sem duplica-los). 
    
    Tenha certeza que seu programa funcione com duas listas de tamanhos diferentes.

In [244]:
l1 = [1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89]
l2 = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13]

In [245]:
l_final = []
for item in l1:
    if item in l2:
        if not item in l_final:
            l_final.append(item)
print(l_final)

**```6 - Peça ao usuário para digitar uma frase. Escreva um programa para verificar a quantidade de letras maiúsculas e minúsculas da frase digitada pelo usuário. Utilize dicionários para salvar a quantidade de cada uma```**

    OBS: Utilize as funções isupper() islower() disponíveis em strings.

In [247]:
frase = input("Digite uma frase: ")

In [248]:
dicionario = {"Maiusculas" : 0, "Minusculas" : 0, "Outros" : 0}
for letra in frase:
    if letra.isupper():
        dicionario["Maiusculas"] += 1
    elif letra.islower():
        dicionario["Minusculas"] += 1
    else:
        dicionario["Outros"] += 1
print(dicionario)

## Referências

* http://www.practicepython.org/
* https://github.com/zhiwehu/Python-programming-exercises/
* http://introtopython.org/

In [251]:
# Funções Embutidas

Python já vem com diversas funções embutidas, que estão prontas para serem utilizadas.

Uma lista completa pode ser encontrada em https://docs.python.org/3/library/functions.html.

<img src="funções-embutidas.png"/>

<span style="color:blue;">Já utilizamos algumas delas! Quais?</span>

Vamos estudar mais algumas dessas funções:

- open
- sorted
- zip
- isinstance

## open

A função ```open```, permite abrir um arquivo para leitura e escrita.

    open(nome_do_arquivo, modo)
    
Modos:
        * r - abre o arquivo para leitura.
        * w - abre o arquivo para escrita.
        * a - abre o arquivo para escrita acresentando os dados no final do arquivo.
        * + - pode ser lido e escrito simultaneamente.

In [254]:
import os
os.remove("arquivo.txt")

In [255]:
arq = open("arquivo.txt", "w")

In [256]:
for i in range(1, 5):
    arq.write('{}. Escrevendo em arquivo\n'.format(i))

In [257]:
arq.close()

#### Métodos

* ```read()``` - retorna uma string única com todo o conteúdo do arquivo.
* ```readlines()``` - todo o conteúdo do arquivo é salvo em uma lista, onde cada linha do arquivo será uma elemento da lista.

In [259]:
f = open("arquivo.txt", "r")
print(f, '\n')
texto = f.read()
print(texto)
f.close()

In [260]:
f = open("arquivo.txt", "r")
texto = f.readlines()
print(texto)
#f.close()

In [261]:
help(f.readlines)

Para remover o ```\n``` podemos utilizar o método ```read``` que irá gerar uma única string e depois aplicamos o método ```splitlines```.

In [263]:
f = open("arquivo.txt", "r")
texto = f.read().splitlines()
print(texto)
f.close()

## sorted

A função ```sorted```, permite ordenar os elementos em uma ordem específica (crescente ou decrescente).

    sorted(obj_iteravel, key, reverse)
    
Os parâmetros possíveis:

- ```obj_iteravel``` – sequência (string, tuplas, listas) ou coleções (set, dicionário).
- ```reverse``` (opcional) – Se True, e lista é ordenada em ordem decrescente.
- ```key``` (opcional) – função que serve como chave para realizar a comparação na hora de ordenar.

**Exemplo 1** - Ordernar uma sequência de valores: string, lista ou tuplas.

In [266]:
lista1 = ['e', 'a', 'u', 'i', 'o']

In [267]:
print(sorted(lista1))

In [268]:
string1 = 'Python na FIA'

In [269]:
print(sorted(string1))

In [270]:
tupla1 = (4, 1, 3, 2)

In [271]:
print(sorted(tupla1))

**Exemplo 2** - Ordernar uma coleção de valores em ordem decrescente

In [273]:
set1 = ['e', 'o', 'i', 'a', 'u']

In [274]:
print(sorted(set1, reverse=True))

In [275]:
dict1 = {'Joao' : 30, 'Maria': 25, 'Ana': 55, 'Pedro':60}

In [276]:
print(sorted(dict1, reverse=True))

**Exemplo 3** - Ordernar utilizando a própria função com o parâmetro ```key```

In [278]:
lista2 = ['maça', 'banana', 'limao', 'manga', 'abcd']

In [279]:
print(sorted(lista2, key=len))

## zip

A função ```zip```, permite criar um objeto iterável que agrega elementos de duas ou mais estruturas.

    zip(*iteradores)
    
O parâmetro:

- ```iteradores``` – pode ser string, listas, set, dicionário, entre outros.

O retorno da função zip() retorna um novo iterador com as tuplas criadas agregando os elementos das estruturas utilizadas.

In [281]:
n_lista = [1, 2, 3, 4]
s_lista = ['Um', 'Dois', 'Três', 'Quatro']

In [282]:
resultado = zip()

In [283]:
# Convertemos para o tipo lista para visualizar o resultado de forma rápida.
print(list(resultado))

In [284]:
# Utilizando dois iteradores
resultado = zip(n_lista, s_lista)

In [285]:
print(list(resultado))

In [286]:
n_lista = [1, 2, 3]
s_lista = ['Um', 'Dois']
c_lista = ['ONE', 'TWO', 'THREE', 'FOUR']

In [287]:
resultado = zip(n_lista, c_lista)

In [288]:
print(list(resultado))

In [289]:
resultado = zip(n_lista, c_lista, s_lista)

In [290]:
print(list(resultado))

Podemos utilizar o operador * com o a função zip para descompactar os valores

In [292]:
coordenadas = ['x', 'y', 'z']
valores = [-90, 0, 90]

In [293]:
resultado = zip(coordenadas, valores)

In [294]:
resultadoLista = list(resultado)

In [295]:
print(resultadoLista)

In [296]:
coord, vals = zip(*resultadoLista)

In [297]:
print('Coordenadas:', coord)
print('Valores:', vals)

## isinstance

A função ```isinstance```, permite criar um objeto iterável que agrega elementos de duas ou mais estruturas.

    isinstance(objeto, info_classe)
    
O parâmetro:

- ```objeto``` – o objeto que se deseja verificar.
- ```info_classe``` – classe, tipo ou tupla de classes e tipos.

O retorno da função isinstance() retorna verdadeiro (True) se o objeto é uma instância ou subclasse. Retorna falso (False) caso contrário.

In [299]:
print(isinstance(1, int))

In [300]:
print(isinstance(1.0, int))

In [301]:
lista3 = [1, 2, 'a', 'b', 3.0, 5.1, [1, 2, 3]]

In [302]:
total = 0
for item in lista3:
    if isinstance(item, int) or isinstance(item, float):
        total = total + item
print(total)

# Funções

* Até agora, vimos diversos tipos de dados, atribuições, comparações e estruturas de controle.
* A ideia da função é dividir para conquistar, onde:
    * Um problema é dividido em diversos subproblemas
    * As soluções dos subproblemas são combinadas numa solução do problema maior.
* Esses subproblemas têm o nome de funções.


* Uma função tem 3 partes importantes:
```
def <nome> ( <parametros> ):
        <corpo da função>
```

* ```def``` é uma palavra chave
* ```<nome>``` é qualquer nome aceito pelo Python
* ```<parametros>``` é a quantidade de parâmetros que será passado para a função (pode ser nenhum).
* ```<corpo da função>``` contém o código da função.

Exemplo de função para calcular o máximo entre dois número:

In [305]:
def maximo(x, y):
    if x > y:
        return x
    else:
        return y

Utilizando a função:

In [307]:
z = maximo(3, 4)

In [308]:
print(z)

In [309]:
print("O maximo é {}".format(maximo(10,30)))

In [310]:
print("O maximo é {}".format(maximo(10,5)))

Os parâmetros são passados por posição ao não ser que explicitamente sejam definidos.

Considere a seguinte função:

In [312]:
def funcao1(seq1, seq2):
    res = []
    for x in seq1:
        if x in seq2:
            res.append(x)
    return res

É importante notar que uma variável que está dentro de uma função, não pode ser utilizada novamente enquanto a função não terminar de ser executada. 

No mundo da programação, isso é chamado de escopo. Vamos tentar imprimir o valor da variável ```res```.

In [314]:
print(res)

**<span style="color:blue;">Por que isso aconteceu?</span>**

Esse erro acontece pois a variável ```res``` somente existe dentro da ```funcao1```, ou seja, ela existe apenas no contexto **<span style="color:blue">local</span>** dessa função.

Quando uma variável é definida fora das funções (def), ela é **<span style="color:RED">global</span>** para todo o arquivo.

Considere o seguinte cógido:

In [317]:
nome = "Pedro"
idade = 30
def funcao2():
    res = []
    X = 20


**<span style="color:blue">Quais dessas variáveis são locais e globais?</span>**

**<span style="color:green">RESPOSTA:</span>** Clique **duas vezes** nessa cédula e adicione a sua resposta aqui:

As variáveis ```nome``` e ```idade``` são variáveis globais para esse arquivo. E as variáveis ```res``` e ```X``` são variáveis locais para a ```funcao2```.

### Argumentos

Existem diversas maneiras de passar argumentos para uma função. Iremos estudar algumas delas:

| Sintaxe                      | Descrição                                                                                |
|------------------------------|------------------------------------------------------------------------------------------|
|    def   func(nome)          |    Argumento   normal, corresponde a qualquer valor passado por posição ou nome.         |
|    def   func(nome=valor)    |    Valor   padrão é pré-definido se não for passado na chamada.                          |
|    def   func(*nome)         |    Corresponde   e coleta argumentos posicionais restantes em uma tupla.                 |
|    def   func(**nome)        |    Corresponde   e coleta os argumentos de palavras-chave restantes em um dicionário.    |

#### ```def func(nome)```

In [321]:
def f(a, b, c):
    print(a, b, c)

In [322]:
f(1, 2, 3)

In [323]:
f(c=1, a=3, b=2)

In [324]:
f(1, c=3, b=2)

#### ```def func(nome-valor)```

In [326]:
def f(a, b=2, c=3):
    print(a, b, c)

In [327]:
f(1)

In [328]:
f(1, 3)

In [329]:
f(1, b=7)

#### ```def func(*args)```

In [331]:
def f(*args):
    print(args)

In [332]:
f()

In [333]:
f(1)

In [334]:
f('Maria', 30, 1.65)

#### ```def func(**args)```

In [336]:
def f(**args):
    print(args)

In [337]:
f()

In [338]:
f(a=1, b=2)

In [339]:
f(nome='Maria', idade=30, altura=1.65)

### Exercícios

#### Exercício 1

Para cada item abaixo, crie uma função que receba como parâmetro uma lista de números e:

* a) Retorne o maior elemento
* b) Retorne a soma dos elementos
* c) Retorne a média dos elementos
* d) Retorne a soma dos elementos com valor negativo

Teste com as seguintes listas:

In [342]:
lista1 = [-1, 2, 0.0, 1, -2, 30, 40, -1]

In [343]:
lista2 = [-1, -1, -2, -3, -4, 5, 4, 3, 1, 10]

In [344]:
# a) Retorne o maior elemento

In [345]:
def maior_elemento(lista):
    maior = lista[0]
    for item in lista:
        if item > maior:
            maior = item
    return maior

In [346]:
maior_elemento(lista1)

In [347]:
maior_elemento(lista2)

In [348]:
# b) Retorne a soma dos elementos

In [349]:
def soma(lista):
    return sum(lista)

In [350]:
soma(lista1) # resultado esperado 69.0

In [351]:
soma(lista2) # resultado esperado 12

In [352]:
# c) Retorne a média dos elementos

In [353]:
def media(lista):
    return sum(lista)/len(lista)

In [354]:
media(lista1) # resultado esperado 8.625

In [355]:
media(lista2) # resultado esperado 1.2

In [356]:
# d) Retorne a soma dos elementos com valor negativo

In [357]:
def soma_negativos(lista):
    total = 0
    for item in lista:
        if item < 0:
            total += item
    return total

In [358]:
soma_negativos(lista1) # resultado esperado -4

In [359]:
soma_negativos(lista2) # resultado esperado -11

#### Exercício 2

Faça uma função que receba duas listas e retorna True se são iguais ou False caso contrário.

Obs: Duas listas são iguais se ambas possuem os mesmos valores e na mesma ordem

In [361]:
lista3 = [1, 2, 3, 4]
lista4 = [4, 3, 2, 1]
lista5 = [1, 2, 3, 4]

In [362]:
def verificar_igualdade(lst1, lst2):
    if lst1 == lst2:
        return True
    else:
        return False

In [363]:
# Teste com a lista3 e lista4. Resultado esperado: False
verificar_igualdade(lista3, lista4)

In [364]:
# Teste com a lista3 e lista5. Resultado esperado: True
verificar_igualdade(lista3, lista5)

In [365]:
# Teste com a lista1 e lista2. Resultado esperado: False
verificar_igualdade(lista1, lista2)

#### Exercício 3

Faça uma função que receba uma lista de números armazenados de forma crescente, e dois valores (limite inferior e limite superior) e exiba a sua sublista cujos elementos são maiores ou iguais ao limite inferior e menores ou iguais ao limite superior.

Regras:

    1) Caso a lista passada não esteja de forma cresce a mesma deve ser ordenada.
    2) Limite inferior é obrigatório
    3) Limite superior é opcional, sendo 30 o valor padrão.
    
Utilize as listas abaixo para testar seu código:

In [367]:
lst_ini_1 = [12, 15, 18, 20, 21, 22, 24, 32, 33, 42, 50]
lst_ini_2 = [40, 30, 25, 1, 2, 22, 24, 32, 33, 42, 43]

In [368]:
def sub_listas(lst_ini, limite_inf, limite_sup=30):
    lst_ini.sort()
    lst_final = []
    for item in lst_ini:
        if item >= limite_inf and item <= limite_sup:
            lst_final.append(item)
    return lst_final

In [369]:
# Teste com limite_inf = 14 para ambas as listas. 
# Resultado esperado: [15, 18, 20, 21, 22, 24]
sub_listas(lst_ini_1, 14)

In [370]:
# Resultado esperado: [22, 24, 25, 30]
sub_listas(lst_ini_2, 14)

In [371]:
# Teste com limite_inf = 14 e limite_sup = 43 para ambas as listas
# Resultado esperado: [15, 18, 20, 21, 22, 24, 32, 33, 42]
sub_listas(lst_ini_1, 14, 43)

In [372]:
# Resultado esperado: [22, 24, 25, 30, 32, 33, 40, 42, 43]
sub_listas(lst_ini_2, 14, 43)

In [373]:
# Teste com limite_inf = 42 e limite_sup = 50 para ambas as listas

In [374]:
# Resultado esperado: [42, 50]
sub_listas(lst_ini_1, 42, 50)

In [375]:
# Resultado esperado: [42, 43]
sub_listas(lst_ini_2, 42, 50)

## Classes e Objetos

In [378]:
class Pessoa:
    def __init__(self, nome, idade):
        self.nome = nome
        self.idade = idade

In [379]:
maria = Pessoa()

In [380]:
maria = Pessoa('Maria', 30)

In [381]:
maria.nome

In [382]:
maria.idade

In [383]:
maria.idade = 31

In [384]:
print(maria.idade)

### Exercício

- Modifique a classe Pessoa adicionando os seguintes atributos.
- Apenas os atributos nome e idade são obrigatórios.
- O método recuperar_info() deve imprimir todos os atributos.
- Os métodos falar() e andar retornar a seguinte string:
    - ```"{} está andando"```
    - ```"{} está falando"```

- Para testar, realize a instância da classe Pessoa para os objetos (variáveis) maria e pedro.

![](exercicio.PNG)

In [386]:
class Pessoa:
    def __init__(self, nome, idade):
        self.nome = nome
        self.idade = idade
        self.peso = None
        self.altura = None
        
    def falar(self):
        return f"{self.nome} está falando"
    
    def andar(self):
        return f"{self.nome} está andando"
    
    def recuperar_infos(self):
        return f"""
        Informações - {self.nome}
        =========================
        Idade - {self.idade}
        Peso - {self.peso}
        Altura - {self.altura}
        """

In [387]:
# Criar instância da classe Pessoa no objeto maria
maria = Pessoa('Maria', 25)

In [388]:
# Execute o método recuperar_infos()
print(maria.recuperar_infos())

In [389]:
# Altere os valores de peso e altura
maria.peso = 65.5
maria.altura = 1.72

In [390]:
# Execute novamente o método recuperar_infos()
print(maria.recuperar_infos())

In [391]:
# Criar instância da classe Pessoa no objeto pedro
pedro = Pessoa('Pedro', 30)

In [392]:
# Execute o método recuperar_infos()
print(pedro.recuperar_infos())

In [393]:
# Altere os valores de peso e altura
pedro.peso = 85.5
pedro.altura = 1.83

In [394]:
# Execute novamente o método recuperar_infos()
print(pedro.recuperar_infos())

## Herança

In [397]:
class Pessoa:
    def __init__(self, nome, idade):
        self.nome = nome
        self.idade = idade

    def andar(self):
        return(f"O {self.nome} está andando")
    
    def falar(self):
        return(f"O {self.nome} está falando")


In [398]:
joao = Pessoa('João', 30)

In [399]:
print(joao.nome)

In [400]:
print(joao.falar())

In [401]:
print(dir(joao))

In [402]:
class Atleta(Pessoa):
    def __init__(self, nome, idade, peso):
        Pessoa.__init__(self, nome, idade)
        self.peso = peso
        self.aposentado = False
        
    def aquecer(self):
        return(f"Atleta {self.nome} está aquecido")

    def aposentar(self):
        self.aposentado = True

In [403]:
pedro = Atleta('Pedro')

In [404]:
pedro = Atleta('Pedro', 30, 80)

In [405]:
print(dir(pedro))

In [406]:
class Corredor(Atleta):
    def correr(self):
        return(f"{self.nome} correndo")


In [407]:
class Nadador(Atleta):
    def nadar(self):
        return(f"{self.nome} nadando")


In [408]:
class Ciclista(Atleta):
    def pedalar(self):
        return(f"{self.nome} pedalando")

## Herança Múltipla

In [410]:
class Triatleta(Corredor, Nadador, Ciclista):
    def __init__(self, nome, idade, peso, num_inscricao):
        super().__init__(nome, idade, peso)
        self.num_inscricao = num_inscricao
        
    def realizar_prova(self):
        return f"""
        Número inscrição: {self.num_inscricao} - Iniciando a prova
        {"="*44}
        > {self.nadar()}
        > {self.pedalar()}
        > {self.correr()}
        > {self.nome} terminou a prova"""


In [411]:
bilbo = Triatleta()

In [412]:
bilbo = Triatleta('Bilbo', 34, 86, 1234)

In [413]:
print(bilbo.realizar_prova())

# Exercícios

## Exercício 1
1 - Escreva uma função chamada carregar_arquivo, que lê o conteúdo do arquivo dados.txt. Esse arquivo contém uma palavra em cada linha. Para cada linha lida, deve-se adicionar a palavra em uma lista. Ao final do código deve-se retornar a lista criada contendo todas as palavras. Lembre-se de remover o ```\n```.

In [416]:
def carregar_arquivo(nome_arquivo):
    arq = open(nome_arquivo, 'r')
    lst = arq.readlines()
    arq.close()
    aux_lst = []
    for item in lst:
        aux_lst.append(item[:-1])
    return aux_lst

A função acima também pode ser implementada da seguinte forma:

In [418]:
def carregar_arquivo2(nome_arquivo):
    arq = open(nome_arquivo, 'r')
    conteudo = arq.read() # arq.readlines()
    arq.close()
    dados = conteudo.split('\n')
    return dados

In [419]:
dados = carregar_arquivo('dados.txt')
print(dados)

## Exercício 2

Crie uma função chamada remover_repetidos. Essa função deve receber uma lista como parâmetro. Deve-se remover todos as palavras repetidas. Utilize uma lista auxiliar para facilitar. Ao final retorne a lista.

In [421]:
def remover_repetidos(dados):
    aux = []
    for item in dados:
        if item not in aux:
            aux.append(item)
            
    # Uma outra opção é utilizar o tipo de dados set.
    # Esse tipo de dados remove os repetidos e salva com o tipo set.
    # Depois é necessário converter novamente para lista.
    #aux_lst = list(set(lista))
    #print len(aux_lst)
    return aux

A função anterior poderia ser reescrita utilizando o set.

In [423]:
def remover_repetidos2(dados):
    return list(set(dados))

In [424]:
dados_unicos = remover_repetidos(dados)
print(dados_unicos)

## Exercício 3

Agora, crie uma função chamada ```verificar_repetidos```. Essa função irá receber duas lista como parâmetro. Uma com todas as palavras lidas do arquivo e outra sem as palavras repetidas. Verifique a quantidade de vezes que as palavras aparecem. Ao final imprima a lista de palavras e a quantidade de vezes de cada palavra.

    def verificar_repetidos(dados, dados_unicos):

Exemplo de saída:

    carro – 10
    fia - 8
    big data - 5

In [426]:
def verificar_repetidos(dados, dados_unicos):
    for item in dados_unicos:
        print("{} - {}".format(item, dados.count(item)))

In [427]:
verificar_repetidos(dados, dados_unicos)

## Exercício 4

Modifique a classe pessoa vista em aula:

    a) Crie um método para calcular a idade em meses, chamado calcular_meses.
    b) Instancie a classe com os seguintes argumentos
        Nome: 'João Silva'
        Idade: 42
    c) Imprima a seguinte frase:
        "Y tem X meses de vida", onde Y é o nome e X é o calculo da idade em meses.

In [429]:
# Resposta a)
class Pessoa(object):
    def __init__(self, nome, idade):
        self.nome = nome
        self.idade = idade
        
    def calcular_meses(self):
        self.total_meses = 12 * self.idade
        return self.total_meses

In [430]:
# Resposta b)
joao = Pessoa('João Silva', 42)

In [431]:
# Resposta c)
print("{} tem {} meses de vida".format(joao.nome, joao.calcular_meses()))

## Exercício 5

Implemente a classe `Funcionário`

<img src="exercicio5.png" width="300"/>

Exemplo de Uso:

    >>> pedro = Funcionario("Pedro", 7000)
    >>> pedro.aumentar_salario(10)
    >>> pedro.salario
    7700

In [433]:
class Funcionario:
    def __init__(self, nome, salario):
        self.nome = nome
        self.salario = salario
        
    def aumentar_salario(self, percentual):
        self.salario = self.salario + (self.salario * (percentual/100))

In [434]:
pedro = Funcionario("Pedro", 7000)

In [435]:
pedro.salario

In [436]:
pedro.aumentar_salario(10)

In [437]:
pedro.salario

In [438]:
pedro.aumentar_salario(-10)

In [439]:
pedro.salario

## Exercício 6

Implemente a classe Aluno. Regras:

- Quando o método `estudar(qtde_horas)` for executado deve-se acresentar a `qtde_horas` no atributo `tempo_sem_dormir`)
- Quando o método `dormir(qtde_horas)` for executado deve-se reduzir a `qtde_horas` do atributo `tempo_sem_dormir`)
- Crie um código de teste da classe, criando um objeto da classe aluno e utilize os métodos estudar e dormir. Ao final dos testes, imprima a quantidade de horas que o aluno está sem dormir.

<img src="exercicio5.png" width="300"/>

In [441]:
class Aluno:
    def __init__(self, nome):
        self.nome = nome
        self.tempo_sem_dormir = 0
        
    def estudar(self, qtde_horas):
        self.tempo_sem_dormir += qtde_horas
        
    def dormir(self, qtde_horas):
        self.tempo_sem_dormir -= qtde_horas

In [442]:
mario = Aluno('Mario')

In [443]:
mario.estudar(10)

In [444]:
mario.estudar(14)

In [445]:
mario.estudar(30)

In [446]:
mario.dormir(5)

In [447]:
mario.dormir(7)

In [448]:
# Resultado esperado 42 horas sem dormir.
print(f"{mario.nome} está {mario.tempo_sem_dormir} horas sem dormir")

# Exercícios Revisão

## Exercício 1

Considere a frase: `"Programando em Python na FIA!!!"`

**a) Escreva um programa que realize a contagem das letras maiúsculas,  minúsculas e caracteres especiais.**

Lembre-se dos métodos (funcionalidades) da string.

In [453]:
texto = "Programando em Python na FIA!!!"

In [454]:
res = {
    "maiuscula": 0,
    "minuscula": 0,
    "outros": 0
}
for caracter in texto:
    if caracter.isupper():
        res["maiuscula"] = res["maiuscula"] + 1
    elif caracter.islower():
        res["minuscula"] = res["minuscula"] + 1
    else:
        res["outros"] = res["outros"] + 1
        

In [455]:
print(res)

**b) Realize a contagem de caracteres na mesma frase**

In [457]:
frase = 'Programando em Python na FIA!!!'

In [458]:
dic = {}
for letra in frase:
    if letra in dic.keys():
        dic[letra] = dic[letra] + 1
    else:
        dic[letra] = 1
print(dic)       

## Exercício 2

Escreva um programa para imprimir apenas o caracteres (a, e, i, o, u) da seguinte frase `"Estou programando em Python"`. 

É necessário tratar caso a letra seja maiúscula e minúscula. 

Utilize estruturas de repetição e controle.

In [460]:
frase = "Estou programando em Python"

In [461]:
frase2 = frase.lower()
for c in frase2:
    if c in 'aeiou':
        print(c) # teste com o parâmetro end=' '

## Exercício 3

Escreva um programa em Python que irá somar todos os elementos numéricos da lista. 
Utilize a seguinte lista para resolver o exercício:

In [463]:
lista3 = [6, 1.5, 2, -8, 20, 1.23]

In [464]:
res = 0
for item in lista3:
    res = res + item
print(res)

In [465]:
lista4 = [6, 1.5, 2, "fia", -8, 20, 1.23, [1,2]]

In [466]:
res = 0
for item in lista4:
    if isinstance(item, float) or isinstance(item, int):
        res += item
print(res)

## Exercício 4

Crie uma função com o nome maior_str que receba dois textos (strings) por parâmetro e retorne o texto que tiver maior tamanho.
Teste a função com as seguintes situações:

    maior_str('python', 'fia') -> Deve retornar python
    maior_str('maria', 'ana') -> Deve retornar maria
    maior_str('python', 'codigo') -> Deve retornar python e codigo tem o mesmo tamanho
    maior_str('fia', 'ana') -> Deve retornar fia e ana tem o mesmo tamanho
Não é necessário tratar outros tipos de dados (nesse momento).

In [468]:
def maior_str(txt1, txt2):
    tam_1 = len(txt1)
    tam_2 = len(txt2)
    
    if tam_1 > tam_2:
        return txt1
    elif tam_2 > tam_1:
        return txt2
    else:
        return "{} e {} têm o mesmo tamanho".format(txt1, txt2)

In [469]:
maior_str('python', 'fia')

In [470]:
maior_str('maria', 'ana')

In [471]:
maior_str('python', 'codigo')

In [472]:
maior_str('fia', 'ana')

# Novos Conceitos

## Compreensão Lista

As listas podem ser filtradas através de compreensão.

A sintaxe básica é:

```python
[exprMap for elemento in listaOrigim if exprDeFiltragem]
```

- `ExprMap` – Expressão de mapeamento
- `listaOrigi`m – Lista original
- `exprDeFiltragem` – no caso de utilizar alguma pequena expressão de controle

Considere o seguinte exemplo:

    lista = [1, 2, 3, 4, 5]
    
Como podemos adicionar o valor 10 para cada item da minha lista?

In [475]:
lista = [1, 2, 3, 4, 5]
for i in range(len(lista)):
    lista[i] += 10
print(lista)

Utilizando o conceito de compreensão de lista, podemos reescrever o código da seguinte forma:

In [477]:
lista = [x + 10 for x in lista]
print(lista)

Considere a lista abaixo de nomes, como filtrar apenas os nomes que começam com o caractere `m` utilizando o conceito de compreensão de lista?

In [479]:
nomes = ['maria', 'pedro', 'marcos', 'paulo', 'joao']
nomes_filtrados = [n for n in nomes if n.startswith('m')]
print(nomes_filtrados)

Também podemos utilizar esse conceito para outros tipos de dados não-escalar, como é o caso da string.

Considere a variável nome, como podemos criar uma lista onde cada item dessa lista corresponde a um caractere da string?

In [481]:
nome = "Maria"

- Sem compressão de lista

In [483]:
caracteres = []
for letra in nome:
    caracteres.append(letra)
print(caracteres)

- Com compressão de lista

In [485]:
caracteres = [letra for letra in nome]
print(caracteres)

Também podemos utilizar laço aninhado, considere o seguinte código:

In [487]:
res = []
texto1 = 'abc'
texto2 = '12'

In [488]:
for i in texto1:
    for j in texto2:
        res.append(i + j)

In [489]:
print(res)

Utilizando compreensão de listas:

In [491]:
res = [i + j for i in texto1 for j in texto2]

In [492]:
print(res)

## Funções Anônimas

- As expressões lambdas são funções que não precisam ser nomeadas, chamadas de funções anônimas.

- As expressões lambdas são úteis quando usadas com as funções filter, map e reduce do Python.

### `filter`

Filter permite realizar a filtragem de elementos de uma estrutura não-escalar.

In [494]:
nums = [2, 6, 8, 12]

In [495]:
res = filter(lambda x : x % 3 == 0, nums)

In [496]:
print(res)

In [497]:
print(list(res))

É importante notar que por padrão a função `filter`, gera um objeto que permite a iteração sobre os elementos internos apenas uma vez, então caso execute novamente o comando list(res) será uma lista vazia, pois todos os dados já foram consumidos desse objeto.

In [499]:
print(list(res))

### `map`

Map permite realizar o mapeamento dos elementos de um estrutura não-escalar para uma nova estrutura não-escalar aplicando uma função.

In [501]:
nums = [2, 6, 8, 12]

In [502]:
res = map(lambda x : x * 2, nums)

In [503]:
print(res)

In [504]:
print(list(res))

É importante notar que por padrão a função `map`, gera um objeto que permite a iteração sobre os elementos internos apenas uma vez, então caso execute novamente o comando list(res) será uma lista vazia, pois todos os dados já foram consumidos desse objeto.

In [506]:
print(list(res))

### `reduce`

Reduce permite aplicar uma função em uma estrutura não-escalar para retornar uma valor único no final.

In [508]:
import functools

In [509]:
nums = [2, 6, 8, 12]

In [510]:
res = functools.reduce(lambda x,y : x + y, nums)

In [511]:
print(res)

## Introdução ao Pandas

O comando abaixo permite instalar bibliotecas de terceiros do Python diretamente do notebook, sem a necessidade de abrir o terminal/CMD do sistema operacional.

O uso da exclamação (`!`) no começo do comando informa ao juputer notebook para executar o comando no sistema operacional.

In [514]:
#!pip install pandas

### Carregando o conjunto de dados

In [516]:
import pandas as pd

In [517]:
df = pd.read_csv('dados.tsv', sep='\t')

In [518]:
print(type(df))

Podemos obter o número de linhas e de colunas.

In [520]:
df.shape

Podemos utilizar o atributo columns para recuperar o nome de todas as colunas.

In [522]:
print(df.columns)

Podemos visualizar os tipos (dtypes) de cada coluna.

In [524]:
print(df.dtypes)

Por fim, podemos obter mais informações sobre nossos dados.

In [526]:
print(df.info())

### Observando as colunas, linhas e células

In [528]:
# Mostrar as 5 primeiras linhas
df.head()

In [529]:
# Mostrar as 5 últimas linhas
df.tail()

Podemos selecionar várias colunas pelo nome. Para isso temos que passar uma lista. Ou seja, terá dois conjuntos de colchetes.

In [531]:
sub_conj = df[['pais', 'continente', 'ano']]

In [532]:
sub_conj.head()

#### iloc

Podemos usar o método ```.iloc``` do DataFrame para obter um subconjunto de linhas com base nos índices (número das linhas).

In [534]:
df.iloc[0]

In [535]:
df.iloc[[0, 99, 999]]

In [536]:
df.iloc[-1]

#### loc

Podemos usar o método ```.loc``` do DataFrame para obter um subconjunto de linhas com base no rótulo dos índices.

In [538]:
df.loc[0]

Para selecionar mais de uma linha, podemos passar uma lista Python com os rótulos (nomes) das linhas.

In [540]:
df.loc[[0, 99, 999]]

In [541]:
# Esse comando irá gerar um erro!
df.loc[-1]

Como vimos anteriormente, utilizar o -1 para recuperar o último elemento funciona apenas com o método iloc, uma vez que estamos indexando. Quando acessamos pelo nome, ele irá procurar o nome -1 e não o índice. Para recuperar o último elemento podemos utilizar um pequeno código Python para identificar o último índice.

In [543]:
qtde_linhas = df.shape[0]

ultimo_idx = qtde_linhas - 1

In [544]:
print(ultimo_idx)

In [545]:
df.loc[ultimo_idx]

Podemos confirmar com o método tail.

In [547]:
df.tail(n=1)

**<span style="color:RED">ATENÇÃO</span>**

Em nosso conjunto de dados, tanto o índice explicito (nome) e o índice implicito (número) são os mesmos, mas temos que ter atenção que eles podem ser diferentes.

Considere o seguinte exemplo:

In [549]:
s1 = pd.Series(['a', 'b', 'c'], index=[1,3,5])
s1

Note que quando utilizamos o loc e o iloc o resultado é diferente para ambos. Veja:

In [551]:
s1.loc[1]

In [552]:
s1.iloc[1]

O mesmo acontece quando estamos fatiando (recuperando um subconjunto):

In [554]:
# Nesse caso o intervalo fim faz parte!
s1.loc[1:3]

In [555]:
s1.iloc[1:3]

### Combinando colunas e linhas

Para obter um subconjunto de colunas com loc podemos utilizar a posição dois pontos ```:``` que é utilizado para selecionar todas as linhas.

In [557]:
df_aux = df.loc[:, ['ano', 'populacao']]

In [558]:
df_aux.head()

No caso do .iloc, para a seleção da coluna, é necessário utilizar inteiros como valor (sendo o indice da coluna). Nesse caso, o -1 funciona para recuperar a última coluna.

In [560]:
df_aux = df.iloc[:, [2, 4, -1]]
df_aux.head()

Também podemos utilizar a função range para gerar os intervalos para recuperar as colunas pelo indice.

In [562]:
df_aux = df.iloc[:, list(range(0, 3))]
df_aux.head()

**<span style="color:blue">RESPONDA:</span>** O que acontecerá se especificar um intervalo (0, 100) que estiver além do número de colunas existentes?

**<span style="color:green">RESPOSTA:</span>** Clique **duas vezes** nessa cédula e adicione a sua resposta aqui:

    Um erro de Index será gerado. Uma vez que só existem 6 colunas.

**<span style="color:red">EXERCÍCIO:</span>** Teste para os seguintes cenários:

    df.iloc[:, ::]
    df.iloc[:, :2]
    df.iloc[:4, :4]

In [565]:
df.iloc[:, ::]

In [566]:
df.iloc[:, :2]

In [567]:
df.iloc[:4, :4]

### Obtendo subconjuntos de linhas e de colunas

In [569]:
df.loc[42, 'pais']

In [570]:
df.iloc[42, 0]

Também, podemos acessar diversas linhas e colunas ao mesmo tempo

In [572]:
df.loc[[42, 111, 0], ['ano', 'pib', 'pais']]

In [573]:
df.iloc[[42, 111, 0], [0, 1 , 2]]

### Cálculos estatísticos básicos

Podemos realizar diversos cálculos estatísticos básicos para realizar algumas análises iniciais.

In [575]:
df.head(n=10)

Com base nos dados, podemos pensar em algumas perguntas:

    - Para cada ano, qual era a expectativa de vida média? 
    - Qual é a expectativa de vida média, a população e o PIB?
    -  E se agruparmos por ano e continente qual é expectativa de vida média, a população média e o PIB médio?
    - Quantos paises estão listados em cada continente?
    
Para responder essas perguntas podemos utilizar o método ```groupby``` nos DataFrames.

In [577]:
# Para cada ano, qual era a expectativa de vida média?
df_ex1 = df.groupby('ano').mean()
df_ex1 = df_ex1['expectativa vida']
df_ex1

In [578]:
# Essa opção do pandas format os tipos floats com quatro casas decimais.
pd.options.display.float_format = "{:.6f}".format

In [579]:
# Qual é a expectativa de vida média, a população média e o PIB médio?
df_ex2 = df.groupby('ano').mean()
df_ex2

In [580]:
# E se agruparmos por ano e continente qual é expectativa de vida média, a população média e o PIB médio?
df_ex3 = df.groupby(['ano', 'continente']).mean()
df_ex3

In [581]:
df_achatado = df_ex3.reset_index()
df_achatado

**<span style="color:blue">RESPONDA:</span>** A ordem da lista que utilizamos para agrupar os dados importa?

**<span style="color:green">RESPOSTA:</span>** Clique **duas vezes** nessa cédula e adicione a sua resposta aqui:

    Nenhum erro será gerado. A ordem impacta na análise que estamos fazendo. Pois podemos observar a evolução de cada ano em cada continente, mas também podemos observar a evolução de cada continente durante os anos analisados.

In [583]:
# Quantos paises estão listados em cada continente?
df.groupby('continente').nunique()['pais']

In [584]:
df.groupby('continente')

In [585]:
df.groupby('continente')['pais']

In [586]:
df.groupby('continente')['pais'].unique()

Além disso, podemos utilizar o método describe para recuperar as estatísticas básicas das variáveis numéricas.

In [588]:
df.describe()

# Series

In [591]:
import pandas as pd

Series é na verdade um array NumPy de 1 dimensão. Ele consiste de um array NumPy com um array de rótulos.

## Criando Series

O construtor geral para criar uma Series é da seguinte maneira:

```python
s = pd.Series(dados)
```

onde ```dados``` pode ser um dos itens abaixo:

    * um numpy.ndarray
    * um dicionário
    * um valor escalar
    
Para testar a criação das Series iremos utilizar os três itens citados acima.

### Utilizando ```numpy.ndarray```

Nesse caso, o índice deve ser do mesmo tamanho do dado. Se um índice não for específicado, o índice padrão ```[0, ... n-1]``` será criado, onde ```n``` é o tamanho do dado.

**```Exemplo 1: Para criar uma Series com 7 números randomicos entre 0 e 1, podemos utilizar o método rand do numpy. Note que não especificamos o índice.```**

In [594]:
import numpy as np

In [595]:
ser1 = pd.Series(np.random.rand(7))
ser1

**```Exemplo 2: Vamos criar uma Series com os 5 primeiros meses de um ano, sendo que os indices devem ser os nomes.```**

In [597]:
nome_meses = ['Jan', 'Fev', 'Mar', 'Abr', 'Mai']
print(nome_meses)

In [598]:
meses = pd.Series(range(1, 6), index=nome_meses)

In [599]:
meses.index

### Utilizando valores  escalares

Para dados escalares, um índice deve ser fornecido. O valor será repetido pela quantidade de valores que estão no índice.

Podemos utilizar esse método para fornecer uma rápida forma de inicialização.

In [601]:
ser2 = pd.Series(10, index=['col1', 'col2', 'col3'])
ser2

### Utilizando dicionário Python

Podemos utilizar um dicionário para criar uma Series. Nesse caso, se um índice for fornecido, os rótulos serão construídos a partir deles. Caso não seja fornecido, as chaves do dicionário serão utilizadas como rótulos.

Os valores dos dicionários são utilizados para popular a Series.

Considere o dicionário abaixo com preços de ações de algumas empresas.

In [604]:
preco_acoes = {'GOOG' : 737.44, \
               'FB' : 120.38, \
               'TWTR' : 18.44, \
               'AMZN' : 744.58, \
               'AAPL' : 99.40, \
               'NFLX' : 85.55}

In [605]:
acoes = pd.Series(preco_acoes)
acoes

Para criar o nosso próprio índice, iremos utilizar as chaves do dicionário que acabamos de criar.

In [607]:
rotulos = list(preco_acoes.keys())
print(rotulos)

Vamos adicionar um elemento (chave) que não existe no dicionário ```preco_acoes```.

In [609]:
rotulos.append('YHOO')

In [610]:
acoes = pd.Series(preco_acoes, index=rotulos)

In [611]:
acoes

O resultado é que o valor para essa chave será definido como ```NaN``` (Not A Number), indicando que está faltando.

## Operações em Series

O comportamento de Series é muito similar ao que fizemos em arrays NumPy, com uma diferença: quando realizamos a operação de fatiamento (slicing), ele também fatia o índice.

### Fatiamento (Slicing)

In [614]:
acoes[:4]

In [615]:
acoes[acoes > 100]

### Atribuições

Valores podem ser definidos e acessados utilizando o ínidice do rótulo da mesma forma que um dicionário.

In [617]:
print(acoes['GOOG'])

In [618]:
acoes['GOOG'] = 1200

In [619]:
acoes

In [620]:
print(acoes['AOL'])

Podemos evitar esse erro, utilizando o método ```get``` disponível. Nesse caso, o valor ```nan``` é devolvido caso não existe na Series.

In [622]:
acoes.get('AOL', np.NaN)

### Outras operações

Podemos utilizar operações aritméticas e estatísticas, da mesma forma que nos arrays NumPy.

In [625]:
acoes

In [626]:
# Média
np.mean(acoes)

In [627]:
# Desvio Padrão
np.std(acoes)

In [628]:
ser1

In [629]:
ser1 * 2

In [630]:
np.sqrt(ser1)

# DataFrame

Como vimos DataFrame é um array 2D com rótulos.

Os tipos das colunas podem ser heterogêneas (de diversos tipos). Ele tem as seguintes propriedades:

* Conceitualmente é semelhante a uma tabela ou planilha de dados.
* Colunas podem ser de diferentes tipos: float64, int, bool.
* Uma coluna do DataFrame é uma Series.
* Podemos pensar que é um dicionário de Series, onde as colunas e linhas são indexadas, denota ```index``` no caso da linhas e ```columns``` no caso de colunas.
* Seu tamanho é mutável: colunas podem ser inseridas e deletadas.
    
Cada eixo do DataFrame tem um índice, seja o padrão ou não. Os índices são necessários para acesso rápido aos dados, bem como para realizar as operações disponíveis.

In [633]:
import pandas as pd
import numpy as np

## Criação do DataFrame

O DataFrame é a estrutura de dados comumente utilizada no pandas. O construtor aceita diferentes tipos de argumentos:

* Dicionário de ndarrays de 1D, listas, dicionários, ou Series.
* Array 2D do NumPy
* Estruturado
* Series
* Outra estrutura DataFrame.
    
Podemos definir os índices das linhas e das colunas. Se eles não foram específicados, eles serão gerados a partir dos dados de entrada de maneira intuitiva. Por exemplo, as chaves do dicionário serão os rótulos das colunas.

### Utilizando dicionários de Series

Vamos criar um DataFrame utilizando um dicionário de Series e listas dentro de um dicionário.

In [635]:
resumoAcoes = {
    'GOOG' : pd.Series([740, 750], index=['Abertura', 'Fechamento']),
    'FB' : [110, 120], 
    'TWTR' : [20, 30], 
    'AMZN' : [740, 750],
    'AAPL' : [100, 90],
    'NFLX' : [70, 80]
}

In [636]:
acoesDF = pd.DataFrame(resumoAcoes)
print(acoesDF)

In [637]:
acoesDF.index

In [638]:
acoesDF.columns

## Operações do DataFrame

### Seleção

Uma coluna específica pode ser obtida como uma Series.

In [640]:
print(acoesDF['AAPL'])

In [641]:
print(acoesDF[['AAPL', 'FB']])

### Atribuição

Uma coluna pode ser adicionada via atribuição

In [643]:
acoesDF.loc['Abertura', 'NFLX'] = 30

In [644]:
acoesDF

In [645]:
acoesDF.iloc[0, 0] = 110

In [646]:
acoesDF

### Remoção

Uma coluna pode ser deletada utilizando o nome (rótudo) e a função ```del```conforme visto em dicionários.

In [648]:
del acoesDF['TWTR']

In [649]:
acoesDF

Também podemos utilizar o método ```pop```

In [651]:
nflx = acoesDF.pop('NFLX')
print(nflx)

In [652]:
acoesDF

Basicamente, um DataFrame pode ser tratado como se fosse um dicionário de Series. Colunas são inseridas no final. Para inserir uma coluna em um local específico podemos utilizar a função ```insert```.

In [654]:
acoesDF.insert(0, 'NFLX', nflx)
acoesDF

### Alinhamento

Objetos DataFrame alinham de uma maneira similar a Series, exceto que eles se alinham tanto nas colunas quanto nas linhas. O objeto resultante é uma união de colunas e linhas rotuladas.

In [656]:
acoesDF1 = acoesDF
acoesDF1

In [657]:
acoesDF2 = acoesDF * 2
acoesDF2['YHOO'] = 80
acoesDF2

In [658]:
acoesDF1 + acoesDF2

No caso onde não exite rótulos de linhas e colunas em comum, o valor é preenchido com ```NaN```, por exemplo, ```YHOO```.

Se combinarmos o DataFrame com uma Series, o comportamento padrão é difundir a Series nas linhas. Vamos utilizar o ```acoesDF1```:

In [660]:
acoesDF1

In [661]:
# Pode ser 10 ou tem que ser uma lista com 4 elementos.
acoesDF1 + pd.Series(10,
                  index = ['GOOG', 'FB', 'AMZN', 'NFLX'])

### Outras operações matemáticas

Operações matemáticas pode ser aplicadas em cada elemento do DF.

In [663]:
acoesDF1

In [664]:
np.sqrt(acoesDF1)

In [665]:
np.mean(acoesDF1)

# Exemplo Prático

Iremos utilizar o arquivo ```capitais.csv``` que é um arquivo que tem todas as capitais do Brasil, bem como a população e a área de cada capital (km2).

Vamos carregar esse arquivo na variável ```capitais```.

In [668]:
import pandas as pd

In [669]:
capitais = pd.read_csv('capitais.csv', sep=',')

In [670]:
# Imprime os 5 primeiros elementos do dataframe
capitais.head()

Note que o índice que foi gerado é o padrão e não o default. Para defirmos a coluna ```municipio``` como sendo o índice, precisamos passar o parâmetro

In [672]:
capitais = pd.read_csv('capitais.csv', sep=',', index_col='municipio')

In [673]:
capitais.head()

Agora sim! Como podemos dimensionar o nosso conjunto de dados? Imprima a quantidade de linhas e colunas.

In [675]:
# Qual comando podemos utilizar para imprimir a quantidade de linhas e colunas?
capitais.shape

In [676]:
capitais.columns

Para acessar uma coluna, podemos acessar da mesma maneira como fizemos com dicionários, passando o rótulo.

In [678]:
capitais["populacao 2015"].head()

Caso especificarmos uma coluna que não está listado no DataFrame, o erro ```KeyError``` irá aparecer. Por exemplo:

```python
capitais["populacao 2015"]['sao Paulo']
```

A saída será:

```python
KeyError: 'sao Paulo'

During handling of the above exception, another exception occurred:

KeyError                                  Traceback (most recent call last)
<ipython-input-34-5258a20fa59e> in <module>()
----> 1 capitais["populacao 2015"]['sao Paulo']
```

Podemos tratar esse erro, utilizando o método ```.get```.

In [681]:
capitais["populacao 2015"].get('sao Paulo', 'Não encontrou')

In [682]:
capitais["populacao 2015"].get('São Paulo', 'Não encontrou') # Se encontrar a chave, ele devolve o valor.

Outra forma de acessar os atributos de uma DF é utilizar o operador ponto.

Vale lembra que essa forma só funciona se o índice do elemento é um identificador válido Python. Por exemplo:

```python
capitais["populacao 2015"]
```

Se a chave for ```populacao 2015``` não irá funcionar, pois não é um identificador válido, afinal existe um espaço entre as duas palavras, o que não é aceito.

In [684]:
capitais.area_km2.head()

In [685]:
capitais.populacao 2015

Um identificador válido dever basicamente começar com letra e não ter espaços em bracos e alguns caracteres especiais. Segue a referência: https://docs.python.org/3/reference/lexical_analysis.html#identifiers

Podemos resolver esse problema, renomeando essa coluna. Vamos utilizar o método ```rename``` que recebe por parâmetro ```columns``` ou ```index``` para trocar o nome das colunas ou das linhas.

Ambos retornam um novo dataframe, desta forma podemos salvar na mesma variável.

In [687]:
capitais = capitais.rename(columns={'populacao 2015' : 'populacao_2015'})

In [688]:
capitais.head()

In [689]:
capitais.populacao_2015.head()

## Exercícios

Utilizando o DataFrame ```capitais```, faça os exercícios abaixo.

**```Exercício 1 - Selecione todas as capitais que tenham área maior que 400 km2. Quantas foram?```**

In [692]:
qtde = len(capitais[capitais.area_km2 > 400])
print(qtde)

In [693]:
capitais[capitais.area_km2 > 400]

**```Exercício 2 - Selecione as capitais que tenham população maior que 2 milhões.```**

In [695]:
capitais[capitais.populacao_2015 > 2000000]

**```Exercício 3 - Selecione os itens que tenham população maior que 1 milhão e area menor que 500 km2```**

In [697]:
capitais[(capitais.populacao_2015 > 1000000) & (capitais.area_km2 < 500)]

**```Exercício 4 - Selecione os itens que tenham população maior que 5 milhões ou area maior que 5000 km2```**

In [699]:
capitais[(capitais.populacao_2015 > 5000000) | (capitais.area_km2 > 5000)]

# Atualizando Status

Para utilizar qualquer API do Twitter temos que importar os módulos e definir as chaves e tokens de acesso.

In [702]:
!pip install tweepy

Caso algum erro aconteça na hora de importar a biblioteca `tweepy`, tente reiniciar o `jupyter notebook`.

In [704]:
import tweepy

In [705]:
# Adicione suas chaves aqui
consumer_key = ''
consumer_secret = ''
access_token = ''
access_token_secret = ''

Com as chaves e tokens de acesso, iremos criar a autenticação e definir o token de acesso.

In [707]:
autorizar = tweepy.OAuthHandler(consumer_key, consumer_secret)
autorizar.set_access_token(access_token, access_token_secret)

Com a autorização criada, vamos passar as credenciais de acesso para a API do Tweepy. Desta forma, teremos acesso aos métodos disponíveis na API.

In [709]:
api = tweepy.API(autorizar)
print(api)

In [710]:
tweepy.api

In [711]:
api.update_status(status="Big Data com Python na FIA")

## Salvando o retorno da publicação

In [713]:
info_tweet = api.update_status(status="O que é big data?")

In [714]:
print(type(info_tweet))

In [715]:
print(dir(info_tweet))

In [716]:
print(info_tweet.text) # Mensagem do tweet

In [717]:
print(info_tweet.id) # Id do Tweet

In [718]:
print(info_tweet.created_at) # Data da criação do Twitter

In [719]:
print(info_tweet.source) # De onde veio o Twitter

In [720]:
print(info_tweet.lang) # Idioma do Twitter

### Informações do Usuário que realizou o Tweet.

O comando abaixo ilustra todos os atributos disponíveis para o usuário que realizou o tweet.

In [722]:
print(dir(info_tweet.user))

#### Visualizar a data da criação do usuário

In [724]:
print(info_tweet.user.created_at) 

#### Visualizar a localização do usuário

In [726]:
print(info_tweet.user.location)

#### Visualizar a quantidade de amigos

In [728]:
print(info_tweet.user.friends_count) 

#### Visualizar a quantidade de seguidores

In [730]:
print(info_tweet.user.followers_count) 

#### Visualizar o nome do perfil do usuário

In [732]:
print(info_tweet.user.name) 

#### Visualizar  o nome do usuário - @nome_usuario

In [734]:
print(info_tweet.user.screen_name)

#### Visualizar o id do usuário

In [736]:
print(info_tweet.user.id)

#### Visualizar quantidade tweets feitos

In [738]:
print(info_tweet.user.statuses_count) 

### Removendo o tweet

Note que quando aplicamos o método destroy_status, um objeto será retornado com os dados da remoção do Tweet. O acesso aos dados é da mesma forma que fizemos anteriormente.

In [740]:
api.destroy_status(id=info_tweet.id_str)

# Recuperando Tweets

Para utilizar qualquer API do Twitter temos que importar os módulos e definir as chaves e tokens de acesso.

In [743]:
import tweepy

In [744]:
# Adicione suas chaves aqui
consumer_key = ''
consumer_secret = ''
access_token = ''
access_token_secret = ''

Com as chaves e tokens de acesso, iremos criar a autenticação e definir o token de acesso.

In [746]:
autorizar = tweepy.OAuthHandler(consumer_key, consumer_secret)
autorizar.set_access_token(access_token, access_token_secret)

Com a autorização criada, vamos passar as credenciais de acesso para a API do Tweepy. Desta forma, teremos acesso aos métodos disponíveis na API.

In [748]:
api = tweepy.API(autorizar)
print(api)

## Utilizar a home_timeline()

Esse método recupera as últimas 20 atualizações (inclue retweet) da timeline do usuário autenticada.

O retorno é um objeto parecido com uma lista que salva os resultados recuperados.

http://docs.tweepy.org/en/v3.5.0/api.html?highlight=home_timeline#API.home_timeline

In [750]:
# api. + TAB irá aparecer uma lista com os métodos disponíveis.

In [751]:
tweets_publicos = api.home_timeline(count=201)

In [752]:
print(type(tweets_publicos))

In [753]:
for i, tweet in enumerate(tweets_publicos, start=1):
    print("{} ---> {}".format(i, tweet.text))    

Além disso, podemos utilizar o parâmetro ```count``` para limitar a busca.

In [755]:
tweets_publicos = api.home_timeline(count=5)

In [756]:
for i, tweet in enumerate(tweets_publicos, start=1):
    print("Tweet número: {}".format(i))
    print("----------------")
    print("Usuário @{} disse:".format(tweet.user.screen_name))
    print(tweet.text)
    print("id do usuário: {}".format(tweet.user.id))
    print('\n')

## Utilizar a user_timeline()

Esse método recupera as últimas 20 atualizações do usuário autenticado ou do usuário especificado via parâmetro ```id```.

O retorno é um objeto parecido com uma lista que salva os resultados recuperados.

http://docs.tweepy.org/en/v3.5.0/api.html?highlight=user_timeline#API.user_timeline

In [758]:
tweets_publicos_usuario = api.user_timeline(id='267283568', count=5)

In [759]:
for tweet in tweets_publicos_usuario:
    print('----')
    print(tweet.text)
    print(tweet.id)
    print(tweet.lang)
    print(tweet.place)
    print(tweet.retweet_count)
    print(tweet.coordinates)
    print(tweet.user.id)


## Utilizar a retweets_of_me()

Esse método recupera os últimos 20 tweets do usuário autenticado que foi retweeted por outros.

O retorno é um objeto parecido com uma lista que salva os resultados recuperados.

http://docs.tweepy.org/en/v3.5.0/api.html?highlight=retweets_of_me#API.retweets_of_me

In [761]:
retweets = api.retweets_of_me(count=10)

In [762]:
for i, tweet in enumerate(retweets, start=1):
    print("{} - {}".format(i, tweet.text))

# O básico sobre tratamento de exceções


Erros detectados durante a execução são chamados de exceções e não são necessariamente fatais. A maioria das exceções não são lidadas pelos programas, entretanto, um resultado de mensagens de erros são ilustradas abaixo:

In [765]:
10 *(1/0)

In [766]:
4 + spam*3

In [767]:
'2' + 2

Podemos controlar o fluxo de execução quando algo inesperado ocorrer em nosso código.

In [769]:
produtos = ["ipda", "cel", "note"]
print(produtos[1])

In [770]:
print(produtos[3])

Para contornar esse erro, podemos utilizar o par try/catch.

In [772]:
try:
    print(produtos[3])
except:
    print("O vetor não possui a posição desejada")

Desta forma o erro não aparece, porém caso o erro seja de outro tipo, como:

In [774]:
produtos[3+'1']

In [775]:
try:
    print(produtos[3+'1'])
except:
    print("O vetor não possui a posição desejada")

Note que a saída será a mesma que definimos anteriormente. Portanto precisamos expecificar qual é o tipo no ```except```, assim temos certeza que o programa apresentar a exceção correta.

In [777]:
try:
    print(produtos[3+'1'])
except IndexError:
    print("O vetor não possui a posição desejada")

Para ter mais de uma except, é só adicionar o outro tipo abaixo:

In [779]:
try:
    print(produtos[3+'1'])
except IndexError:
    print("O vetor não possui a posição desejada")
except TypeError:
    print("Erro de Tipo")

### Tabela com os tipos de exceção existentes

Alguns tipos existentes de Erro estão listados na tabela abaixo:

Classe | Descrição
--- | ---
Exception | Base classe para a maioria dos tipos de erros.
AttributeError | Aparece quando um objeto não tem o membro desejado. Por exemplo, objeto.teste, se teste não existir, aparece essa exceção.
EOFError | Aparece quando um final de arquivo é alcançado pelo console ou pelo arquivo.
IOError | Aparece quando ocorre alguma operação de erro de I/O (por exemplo, abrir um arquivo).
IndexError | Aparece se o index de um sequencia está for a dos limites.
KeyError | Aparece se uma chave não existente é requisitada para um dicionário ou set.
KeyboardInterrupt | Aparece se o usuário digitar Ctrl-C enquanto o programa está executando
NameError | Aparece se um identificador não existente é utilizado
TypeError | Aparece quando um tipo errado do parâmetro é enviado para a função
ValueError | Aparece quando um parâmetro tem valor invalido, por exemplo, sqtr(-5)
ZeroDivisionError | Aparece quando qualquer divisão utiliza 0 como divisor


Mais sobre tratamento de exceções em: https://docs.python.org/3/tutorial/errors.html

## Exceções no Tweepy

As exceções estão disponíveis no módulo tweepy diretamente, o que significa que não é necessário importar ```tweepy.error```. Por exemplo, ```tweepy.error.TweepError``` está disponível por ```tweepy.TweepError```.

* ```exception TweepError``` - Erro comumente utilizado, ele aparece por diversos motivos. O código do erro pode ser acessado por ```TweepError.message[0]['code']```. Os códigos estão descritos na [página de códigos de erros da API do Twitter](https://dev.twitter.com/overview/api/response-codes).
* ```exception RateLimitError``` - Erro acontece quando o Twitter aplica algum limite, facilitando o tratamento do mesmo.


Referência: http://tweepy2.readthedocs.io/en/latest/api.html?highlight=tweepy.TweepError#tweepy-error-exceptions

Exemplo de código:

```python
try:
    novos_tweets = api.search(q='Python')
    
except tweepy.TweepError as e:
    print("Erro:", (e))
```

Abra o notebook [aula4-parte4-pesquisar-tweets.ipynb](aula4-parte4-pesquisar-tweets.ipynb) e altere uma das chaves de acesso para fazer o teste. Note que quando executar o while, a seguinte saída irá aparecer:

```
Erro: [{'code': 32, 'message': 'Could not authenticate you.'}]
```

### Outros exemplos

In [783]:
import tweepy

try:
    print(a)
except ZeroDivisionError:
    print("Divisão por zero")
except NameError:
    print("Variável não existe")
except Exception as e:
    print(e)

# Pesquisar por Tweets

Na API Rest também podemos utilizar o método ```search``` para procurar por tweets que combinam com o termo definido.

O método contém algumas opções como:

    api.search(q, count, max_id, lang)
    
* ```q``` - é o parâmetro que terá o termo a ser pesquisado.
* ```count``` - é a quantidade de tweets que serão retornados. O limite é 100 e o padrão é 15. 
* ```max_id``` - retorna apenas os tweets com o ID menor ou igual ao que foi especificado.
* ```lang``` - restringe a busca por tweets de um determinado idioma.

In [787]:
import tweepy

In [788]:
# Adicione suas chaves aqui
consumer_key = ''
consumer_secret = ''
access_token = ''
access_token_secret = ''

autorizar = tweepy.OAuthHandler(consumer_key, consumer_secret)
autorizar.set_access_token(access_token, access_token_secret)

In [789]:
api = tweepy.API(autorizar)
print(api)

## Pesquisando ...

In [791]:
tweets = api.search(q=['Python'], lang='pt')
#tweets = api.search(q=['Python', 'Big Data', 'FIA']) # Teste o parâmetro count=150, padrão é 15.

for i, tweet in enumerate(tweets, start=1):
    print("%d ---- %s" % (i, tweet.text))

## Recuperar 1000 tweets

In [793]:
tweets_salvos = []
ultimo_id = -1
qtde_tweets = 1000

In [794]:
while len(tweets_salvos) < qtde_tweets:
    contador = qtde_tweets - len(tweets_salvos)
    try:
        novos_tweets = api.search(q='Python', count=contador, max_id=str(ultimo_id - 1), lang='pt')
        if not novos_tweets:
            print("Nenhum tweet para recuperar")
            break
        tweets_salvos.extend(novos_tweets)
        ultimo_id = novos_tweets[-1].id
    
    except tweepy.TweepError as e:
        print("Erro:", (e))
        break

In [795]:
for i, tweet in enumerate(tweets_salvos, start=1):
    print("{} ---- {} -> {}".format(i, tweet.created_at, tweet.text))

Os códigos do parâmetro `lang` deve seguir a **ISO 639-1** - https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes

Maiores informações: https://dev.twitter.com/rest/public/timelines

### Escrevendo em arquivo

Podemos salvar a saída capturada em arquivo.

In [798]:
arq = open('saida.txt', 'a', encoding='utf-8')

In [799]:
for i, tweet in enumerate(tweets_salvos, start=1):
    arq.write("{} - {}\n".format(i, tweet.text))

In [800]:
arq.close()

### Imprimindo

In [802]:
arq = open('saida.txt', 'r', encoding='utf-8')
dados = arq.read().splitlines()
arq.close()

In [803]:
print(dados)

In [805]:
import tweepy

In [806]:
# Adicione suas chaves aqui
consumer_key = ''
consumer_secret = ''
access_token = ''
access_token_secret = ''

In [807]:
autorizar = tweepy.OAuthHandler(consumer_key, consumer_secret)
autorizar.set_access_token(access_token, access_token_secret)

In [808]:
api = tweepy.API(autorizar)
print(api)

**```Exercício 1 - Utilizando o método update_with_media, realize a atualização do status utilizando a imagem fia.jpg disponível na pasta da aula.```**

In [810]:
retorno = api.update_with_media(filename='fia.jpg', status="Programação com Twitter na FIA!")

In [811]:
retorno.text

**```Exercício 2 - Salve o retorno do tweet do exercício anterior e imprima as seguintes informações:```**
    * tweet
        * id
        * created_at
        * lang
        * text
    * user
        * screen_name,
        * friends_count
        * time_zone
    
Por fim, remova o tweet, utilizando o método ```destroy_status```.

In [813]:
print(retorno.id)
print(retorno.created_at)
print(retorno.lang)
print(retorno.text)

In [814]:
print(retorno.user.screen_name)
print(retorno.user.friends_count)
print(retorno.user.time_zone)

In [815]:
api.destroy_status(id=retorno.id)

**```Exercício 3 - Utilizando o método home_timeline(), recupere os 10 tweets atuais. Para cada um desses tweets, imprima:```**
    * o screen_name
    * o texto do tweet
    * o id do usuário

In [817]:
tweets_publicos = api.home_timeline(count=10)

In [818]:
for i, tweet in enumerate(tweets_publicos, start=1):
    print("{} - O @{} com id {} disse: {} \n".format(i, tweet.user.screen_name, tweet.user.id, tweet.text))

**```Exercício 4 - Para cada tweet do exercício anterior, utilize o id do usuário e imprima o texto dos 5 primeiros tweets de cada um dos 10 usuários (user_timeline).```**

In [820]:
for i, tweet in enumerate(tweets_publicos, start=1):
    print("\n {} - Tweets do usuário @{} com id {}".format(i, tweet.user.screen_name, tweet.user.id))
    print("------------------------------------------------------")
    tweets_usuario = api.user_timeline(id=tweet.user.id, count=5)
    for t in tweets_usuario:
        print("--> ", t.text)

# Twitter

In [823]:
import tweepy

In [824]:
# Adicione suas chaves aqui
consumer_key = ''
consumer_secret = ''
access_token = ''
access_token_secret = ''

In [825]:
autorizar = tweepy.OAuthHandler(consumer_key, consumer_secret)
autorizar.set_access_token(access_token, access_token_secret)

In [826]:
class DadosPublicosTwitter(tweepy.StreamListener):
    def on_status(self, dados):
        print("---> ", dados.text)

In [827]:
dados_twitter = DadosPublicosTwitter()

In [828]:
fluxo = tweepy.Stream(autorizar, dados_twitter)

In [829]:
fluxo.filter(track=['Big Data', 'FIA', 'Python'])

In [830]:
help(fluxo.filter)

# Desafio 1


## 1. Entender a API de Streaming do Twitter

Ver slides 14 até 21.

Da mesma forma que fizemos na API REST do Twitter, temos que salvar as chaves de acesso, bem como definir o objeto OAuthHandler para cuidar da autenticação e validação do acesso.

In [833]:
import tweepy

In [834]:
# Adicione suas chaves aqui
consumer_key = ''
consumer_secret = ''
access_token = ''
access_token_secret = ''

In [835]:
autorizar = tweepy.OAuthHandler(consumer_key, consumer_secret)
autorizar.set_access_token(access_token, access_token_secret)

## 2 .Criar uma classe herdando os atributos da classe StreamListener

In [837]:
tweepy.StreamListener.on_status

In [838]:
class DadosPublicosTwitter(tweepy.StreamListener):
    def on_status(self, dados):
        print("---> ", dados.text)

## 3. Instanciar essa classe e utilizá-la para se conectar a API através de um objeto de Stream.

In [840]:
dados_twitter = DadosPublicosTwitter()

In [841]:
fluxo = tweepy.Stream(autorizar, dados_twitter)

## 4. Iniciar um fluxo (Stream)

O parâmetro track aceita uma lista como argumento e cada elemento da lista é um termo que será filtrado.

Para parar a execução do código será necessário clicar em **Kernel -> Interrupt** ou no botão de parar, representado por um quadrado.

**<span style="color:red;">Um erro será gerado:</span>** Provavelmente o ```KeyboardInterrupt```.

In [843]:
#fluxo.filter(track=['Big Data'])

## Exercício

Modifique o código do item ```4. Iniciar um fluxo (Stream)``` para tratar o erro que apareceu quando interrompemos a execução do código: ```KeyboardInterrupt```.

Lembre-se antes de rodar esse exercício de reiniciar a execução desse notebook. (Kernel -> Restart).

In [845]:
try:
    fluxo.filter(track=['Big Data'])
except KeyboardInterrupt:
    print("\n\nParando execução via teclado (Ctrl+C)")

# Desafio 2

## 1. Entender a diferença entre os métodos on_status e on_data

Ver slide 32

Da mesma forma que fizemos na API REST do Twitter, temos que salvar as chaves de acesso, bem como definir o objeto OAuthHandler para cuidar da autenticação e validação do acesso.

In [848]:
import tweepy

In [849]:
# Adicione suas chaves aqui
consumer_key = ''
consumer_secret = ''
access_token = ''
access_token_secret = ''

In [850]:
autorizar = tweepy.OAuthHandler(consumer_key, consumer_secret)
autorizar.set_access_token(access_token, access_token_secret)

## 2. Modificar nossa classe para utilizar o método on_data

In [852]:
class DadosPublicosTwitter(tweepy.StreamListener):
    def on_data(self, dados):
        print(dados)
        return False

In [853]:
dados_twitter = DadosPublicosTwitter()
fluxo = tweepy.Stream(autorizar, dados_twitter)

In [854]:
try:
    fluxo.filter(track=['Big Data'])
except KeyboardInterrupt:
    print("\n\n **Execução foi encerrada via teclado (Ctrl+C)**")

Note que o retorno dos dados foi no formato JSON, veja o notebook sobre [JSON](aula5-parte3-json.ipynb)

## 3. Revisar a função embutida open para salvar os arquivos

Vamos alterar a classe DadosPublicosTwitter para que quando a mesma for instanciada, crie um arquivo chamado ```tweets.json``` e que cada tweet seja adicionado no fim do arquivo. Para isso vamos utilizar o ```mode='a'```.

In [857]:
class DadosPublicosTwitter(tweepy.StreamListener):
    def __init__(self):
        self.salvar_arquivo = open('tweets.json', mode='a')
    
    def on_data(self, dados):
        self.salvar_arquivo.write(dados)

In [858]:
dados_twitter = DadosPublicosTwitter()

In [859]:
fluxo = tweepy.Stream(autorizar, dados_twitter)

In [860]:
try:
    fluxo.filter(track=['Big Data', 'Python'])
except KeyboardInterrupt:
    print("\n\n **Execução foi encerrada via teclado (Ctrl+C)**")

Ótimo! Já estamos conseguindo salvar os tweets em um arquivo. **<span style="color:red;">Porém ainda temos alguns tratamentos que precisam ser realizados:</span>**

    1) Falta fechar o arquivo; 
    2) Falta finalizar a execução do Streaming; 
    3) Cada tweet deve ficar em uma linha; Abra o arquivo tweets.json e veja que existe uma linha em branco entre os tweets salvos.

**<span style="color:blue;">Vamos ao próximo Desafio!!!</span>**

# JSON


## Básico

Codificando objetos básicos do Python

<div class="alert alert-block alert-danger">
**Importante**: As strings dentro do JSON devem estar em aspas duplas.

In [864]:
import json

In [865]:
json_string = '{"pnome": "FIA", "unome":"Paulista"}'

In [866]:
arq_json = json.loads(json_string)

In [867]:
print(arq_json['pnome'])

In [868]:
json_lista = ['foo', {'bar': ('baz', None, 1.0, 2)}]

In [869]:
print(json.dumps(json_lista))

In [870]:
json_dic = {"c": 0, "b": 0, "a": 0}

In [871]:
print(json.dumps(json_dic, sort_keys=True))

Imprimindo com os espaços para melhor visualização

In [873]:
print(json.dumps(json_dic, sort_keys=True, indent=4 * ' '))

Outros exemplos podem ser visualizados na documentação: https://docs.python.org/3/library/json.html

# Desafio 3


## 1. Entender como funcionar o módulo time

Ver slide 47 e 48.

In [877]:
from time import sleep

In [878]:
sleep(5)
print("Dormiu por 5 segundos")

In [879]:
from time import time
print(time())

In [880]:
from time import gmtime
print(gmtime(0))

Referência e outros exemplos: https://docs.python.org/3/library/time.html

Além Da mesma forma que fizemos na API REST do Twitter, temos que salvar as chaves de acesso, bem como definir o objeto OAuthHandler para cuidar da autenticação e validação do acesso.

In [883]:
import tweepy

In [884]:
# Adicione suas chaves aqui
consumer_key = ''
consumer_secret = ''
access_token = ''
access_token_secret = ''

In [885]:
autorizar = tweepy.OAuthHandler(consumer_key, consumer_secret)
autorizar.set_access_token(access_token, access_token_secret)

## 2. Modificar nossa classe para ter duração de 5 minutos

Segue abaixo as soluções encontradas para os problemas do último desafio.

**```1) Falta fechar o arquivo e 2) Falta finalizar a execução do Streaming;```**

Para esses dois problemas conseguimos tratar dentro do método on_data. O retorno padrão da função é True, portanto enquanto não acontecer alguma ação que diga que não é mais True, o código irá recuperar dados.

Portanto, quando criamos a condição de parada (5 minutos), podemos retornar False, encerrando a execução do Streaming. Nessa mesma condição, antes do retorno, podemos fechar o arquivo. Como mostra o código abaixo.

```python
if(time() - self.tempo_inicial < self.limite):
    self.salvar_arquivo.write(dados)            
    return True
else:
    self.salvar_arquivo.close()
    return False
```



**```3) Cada tweet deve ficar em uma linha; Abra o arquivo tweets.json e veja que existe uma linha em branco entre os tweets salvos.```**

A função open tem um parâmetro chamado newline em que podemos definir como vazio, desta forma não teremos esse problema. Veja código abaixo:

```python
open(nome_arq, 'a', newline='')
```

Bom, vamos ao código final agora.

In [887]:
class DadosPublicosTwitter(tweepy.StreamListener):
    def __init__(self, nome_arq, limite):
        self.tempo_inicial = time()
        self.limite = limite # 5 minutos == 300 segundos
        self.salvar_arquivo = open(nome_arq, 'a', newline='')
        
    def on_data(self, dados):
        if(time() - self.tempo_inicial < self.limite):
            self.salvar_arquivo.write(dados)            
            #return True
        else:
            self.salvar_arquivo.close()
            return False

In [888]:
nome_arq = 'tweets_5min.json'
dados_twitter = DadosPublicosTwitter(nome_arq, 300)

In [889]:
fluxo = tweepy.Stream(autorizar, dados_twitter)

In [890]:
fluxo.filter(track=['Python', 'Big Data'])

**<span style="color:blue;">Agora sim, podemos salvar muitos tweets durante um determinado período de tempo!!!!</span>**

# Desafio 4

## 1. Introdução ao Pandas 

Já visto nas aulas anteriores.

## 2. Carregar o arquivo JSON

In [894]:
import json
import pandas as pd

In [895]:
dados = []
with open('tweets_5min.json') as arquivo:
    for linha in arquivo:
        dados.append(json.loads(linha))

In [896]:
dados[0]

In [897]:
df = pd.DataFrame(dados)

In [898]:
print(df.columns)

In [899]:
df.head()

In [900]:
print(len(df))

## 3. Definir o que iremos salvar!

Vamos salvar:

* text
* created_at
* coordinates
* retweet_count
* user -> screen_name
* user -> location
* user -> lang
* user -> followers_count

In [902]:
print("--> Dados do tweet")
print(df['text'][0])
print(df['created_at'][0])
print(df['coordinates'][0])
print(df['retweet_count'][0])

print("\n--> Dados do usuário")
print(df['user'][0]['screen_name'])
print(df['user'][0]['location'])
print(df['user'][0]['lang'])
print(df['user'][0]['followers_count'])


Agora vamos criar uma lista chamada colunas para salvar os nomes das colunas que queremos ter em nosso DataFrame.

In [904]:
colunas = ['text', 'created_at', 'coordinates', 'retweet_count', 'screen_name', 
           'location', 'lang', 'followers_count']

In [905]:
print(len(colunas))

Vamos criar um dataframe auxiliar para salvar somente os dados que queremos.

In [907]:
df_aux = pd.DataFrame(columns=colunas)
df_aux

Agora iremos adicionar apenas uma linha para entender como essa estrutura funciona.

Lembre-se que estamos recuperando informações do ```user```, sendo que os valores estão salvos em uma única coluna.

In [909]:
dados = [df['text'][0],
         df['created_at'][0],
         df['coordinates'][0],
         df['retweet_count'][0],
         df['user'][0]['screen_name'],
         df['user'][0]['location'],
         df['user'][0]['lang'],
         df['user'][0]['followers_count']
        ]

In [910]:
series_aux = pd.Series(dados, index=colunas)
df_aux = df_aux.append(series_aux, ignore_index=True)

É importante notar que se a cedula acima for executada mais de uma vez, o append irá adicionar repetidos. Tome cuidado!

In [912]:
df_aux

## 4. Preparar os dados para a visualização

### Hashtags

Agora iremos criar uma função que irá salvar as hashtags utilizadas no texto.

In [915]:
palavras = df['text'][0]
palavras.split()

In [916]:
for palavra in palavras.split():
    if palavra.startswith('#'):
        print(palavra)

** Exercicio - Crie uma função que salvar as hashtags separadas por um espaço em branco. Exemplo:**

**Entrada:** ```Estou #programando em #python```

**Saida:** ```'#programando #python'```

In [918]:
' '.join(['1', '2'])

In [919]:
def salvar_hashtags2(texto):
    return ' '.join([x for x in texto.split() if x.startswith('#')])

In [920]:
salvar_hashtags2('RT @tonyojeda3: An Introduction to #MachineLearning with #Python https://t.co/TMrLLJNskx #DataScience #BigData')

In [921]:
def salvar_hashtags(texto):
    palavras = texto.split()
    aux = []
    for palavra in palavras:
        if palavra.startswith('#'):
            aux.append(palavra)
    converter = ' '.join(aux)
    return converter

In [922]:
salvar_hashtags(df['text'][0])

### Criar as novas colunas no DataFrame

Vamos criar as 3 novas colunas em nosso DataFrame.

In [924]:
colunas = ['text', 'created_at', 'coordinates', 'retweet_count', 
           'screen_name', 'location', 'lang', 'followers_count', 'hastags']

In [925]:
df_aux = pd.DataFrame(columns=colunas)
len(df_aux.columns)

In [926]:
df_aux

Novamente vamos adicionar apenas um único item para verificar se está tudo correto.

In [928]:
dados = [
    df['text'][3],
    df['created_at'][3],
    df['coordinates'][3],
    df['retweet_count'][3],
    df['user'][3]['screen_name'],
    df['user'][3]['location'],
    df['user'][3]['lang'],
    df['user'][3]['followers_count'],
    salvar_hashtags(df['text'][3])
    ]

In [929]:
dados

In [930]:
series_aux = pd.Series(dados, index=colunas)
df_aux = df_aux.append(series_aux, ignore_index=True)

In [931]:
df_aux

### Repetir esse processo para todos os tweets que foram salvos!

Até agora só trabalhamos com uma única entrada de dados, que foi o primeiro twitter salvo no arquivo.

Agora precisamos verificar quais informações são realmente importante e não podem ser vazias.

Primeiro precisamos percorrer todo o conjunto de dados, linha a linha. Como podemos fazer isso?

In [933]:
df_aux = pd.DataFrame(columns=colunas)
df_aux

In [934]:
print(len(df))

In [935]:
import time

In [936]:
t0 = time.time()
for i in range(0, len(df)):
    if df['user'][i]['location'] != None:
        dados = [
                df['text'][i],
                df['created_at'][i],
                df['coordinates'][i],
                df['retweet_count'][i],
                df['user'][i]['screen_name'],
                df['user'][i]['location'],
                df['user'][i]['lang'],
                df['user'][i]['followers_count'],
                salvar_hashtags(df['text'][i])
        ]
        print(i,end=" ")
        series = pd.Series(dados,index=colunas)
        df_aux = df_aux.append(series, ignore_index=True)
tf = time.time() - t0
print("\n\nTempo total para o parse foi de {} minutos".format(round(tf/60, 3)))

In [937]:
len(df_aux)

In [938]:
df_aux.head()

## 5. Salvar os dados em CSV

In [940]:
print(df_aux.count())

In [941]:
df_aux.to_csv('tweets_5min.csv', sep=';', encoding='utf-8', index=False)

## Youtube API - Parte 1 - Pesquisar por videos

O primeiro passo é importar a biblioteca apiclient que deve ter sido instalada. Caso não tenha instalado, abra o CMD ou Terminal e digite:

    pip install google-api-python-client
    
Iremos importar uma função específica da biblioteca que irá construir a API.

In [945]:
from apiclient.discovery import build

Acesse https://console.developers.google.com/apis/credential e recupere a chave de acesso.

In [947]:
nome_servico = "youtube"
versao = "v3"
chave = ""

Para ter acesso as funcionalidades da API, iremos criar um objeto que contém o serviço a ser utilizado, a versão e a chave gerada anteriormente.

In [949]:
api = build(nome_servico, versao, developerKey=chave)

O método utilizado para realizar a pesquisa será ```search().list()```. Alguns dos parâmetros possíveis são apresentados abaixo:

_Parâmetros obrigatórios_
- ```part``` especifica uma lista separada por vírgulas de uma ou mais propriedades de recurso ```search``` que serão incluídas pela resposta da API. Os valores que podem ser incluídos são: ```id``` e ```snippet```.

_Parâmetros opcionais_
- ```q``` especifica o termo da consulta a ser pesquisado.
- ```maxResults``` especifica o número máximo e itens que devem ser retornados (máximo 50). **O valor padrão é 5.**
- ```order``` especifica o método que será utilizado para classificar os recursos na resposta da API.
    - ```date``` - são classificados em ordem da data mais atual para a mais antiga.
    - ```rating``` - são classificados da maior para a menor classificação.
    - ```relevance``` - são classificados com base em sua relevância para a consulta da pesquisa. **Este é o valor padrão.**
    - ```title``` - são classificados em ordem alfabética.
- ```type``` - restringe uma consulta de pesquisa para recuperar somente um tipo de recurso. Valores aceitáveis.
    - ```channel``` - Retorna os canais relacionados a busca.
    - ```playlist``` - Retorna as playlists relacionadas a busca.
    - ```video``` - Retorna os videos relacionados a busca.


Outros parâmetros podem ser visualizados em: https://developers.google.com/youtube/v3/docs/search/list?hl=pt-br

Para facilitar, iremos criar uma função que irá recuperar os vídeos com os seguintes parâmetros:

- ```api``` - objeto que contém as informações da API que se deseja utilizar, bem como a credencial de acesso.
- ```consulta``` - termo a ser pesquisado.
- ```quantidade``` - quantos videos queremos recuperar.
- ```part``` - propriedades de recurso que serão incluídas pela resposta da API.

In [951]:
def pesquisar_videos(api, consulta, quantidade, ordem='relevance', part='id,snippet'):
    resposta = api.search().list(
        q=consulta, 
        maxResults=quantidade, 
        order=ordem, 
        type="video", 
        part=part).execute()
    
    return resposta

In [952]:
dados = pesquisar_videos(api, 'Copa do Mundo 2018', 50)

In [953]:
dados.keys()

In [954]:
dados['pageInfo']

In [955]:
dados['regionCode']

In [956]:
len(dados['items'])

In [957]:
dados['items'][0]

### Estrutura os dados recuperados

In [959]:
import pandas as pd

In [960]:
df = pd.DataFrame(columns=['videoId', 'title', 'channelTitle', 'channelId', 'description', 'publishedAt', 'url_thumb'])

In [961]:
for i in range(len(dados['items'])):
    videoId = dados['items'][i]['id']['videoId']
    title = dados['items'][i]['snippet']['title']
    channelTitle = dados['items'][i]['snippet']['channelTitle']
    channelId = dados['items'][i]['snippet']['channelId']
    description = dados['items'][i]['snippet']['description']
    publishedAt = dados['items'][i]['snippet']['publishedAt']
    url_thumb = dados['items'][i]['snippet']['thumbnails']['high']['url']
    df.loc[i] = [videoId, title, channelTitle, channelId, description, publishedAt, url_thumb]

In [962]:
df

Persistir em disco os dados salvos.

In [964]:
df.to_csv('50_videos_copa_mundo.csv', sep=';', header=True, index=False, encoding='utf-8')

## Youtube API - Parte 2 - Recuperar métricas dos vídeos

Iremos recuperar as métricas dos videos previamente capturados.

In [967]:
import pandas as pd

In [968]:
df = pd.read_csv('50_videos_copa_mundo.csv', sep=';', encoding='utf-8')

In [969]:
df

In [970]:
len(df.videoId.unique())

In [971]:
len(df)

Será necessário utilizar a mesma chave anteriormente utilizada para acessar a API.

In [973]:
from apiclient.discovery import build

In [974]:
nome_servico = "youtube"
versao = "v3"
chave = ""

In [975]:
api = build(nome_servico, versao, developerKey=chave)

In [976]:
df_aux = df.copy()

### Recuperar as métricas dos videos

Iremos criar uma função para facilitar a recuperação das métricas por ```videoId```. 

Essa função recebe o id do vídeo e recupera as métricas. Caso não exista ou algo errado aconteça, retorna None.

In [978]:
def recuperar_metricas(api, id_video):
    metricas = api.videos().list(
        id=id_video,
        part='statistics'
    ).execute()
    try:
        return(metricas['items'][0]['statistics'])
    except:
        return None

Testando a função

In [980]:
tipos_metricas = recuperar_metricas(api, df_aux.videoId[1])

In [981]:
print(tipos_metricas)

Iremos adicionar essas métricas no dataframe criando uma coluna para cada métrica. Iremos popular as colunas com o valor 0.

In [983]:
for item in tipos_metricas:
    df_aux[item] = 0

In [984]:
df_aux.head()

In [985]:
from time import time

In [986]:
# Define o tempo inicial
ti = time()

# Para cada video (linha) no DF
for i in range(len(df_aux)):
    # Executa a função para recuperar as métricas
    metricas = recuperar_metricas(api, df_aux.videoId[i])
    
    # Se exisitir as métricas
    if metricas:
        # Para cada métrica
        for m in metricas:
            try:
                # Recupera a linha (i) e a coluna (m) e atribui o valor que foi recuperado pela métrica.
                df_aux.loc[i, m] = metricas[m]
            # Caso aconteça algum erro
            except Exception as e:
                print(e)
                pass

# Define o tempo final da execução
tf = time() - ti
print("Demorou {} segundos".format(tf))

Para facilitar os cálculos iremos converter as colunas para o tipo numérico.

In [988]:
df_final = df_aux.copy()

In [989]:
for m in tipos_metricas:
    df_final[m] = df_final[m].apply(pd.to_numeric)

In [990]:
pd.set_option('display.float_format', lambda x: '%.3f' % x)

In [991]:
df_final.describe()

In [992]:
df_final.to_csv('metricas_videos.csv', sep=';', header=True, index=False, encoding='utf-8')

In [993]:
df_final

### Exercícios - Realizando algumas análises

#### Quais os 5 vídeos mais visualizados?

In [995]:
top5_visualizados = df_final.viewCount.sort_values(ascending=False)[:5]
top5_visualizados

In [996]:
top5_visualizados.index

In [997]:
df_final.loc[top5_visualizados.index]

#### Quais os 5 vídeos mais comentados?

In [999]:
top5_comentados = df_final.commentCount.sort_values(ascending=False)[:5]
top5_comentados

In [1000]:
df_final.loc[top5_comentados.index]

#### Qual é o vídeo com mais dislike?

In [1002]:
mais_dislike = df_final.dislikeCount.sort_values(ascending=False)[:1]

In [1003]:
mais_dislike

In [1004]:
print(df_final.loc[mais_dislike.index].title.loc[mais_dislike.index])

## Youtube API - Parte 3 - Recuperar comentários

Iremos recuperar todos os comentários dos 50 vídeos que recuperamos anteriormente.

In [1007]:
import pandas as pd

In [1008]:
df = pd.read_csv('metricas_videos.csv', sep=';', encoding='utf-8')

In [1009]:
df

Acesse: https://console.developers.google.com/apis/credential e recupere a chave de acesso.

In [1011]:
from apiclient.discovery import build

In [1012]:
nome_servico = "youtube"
versao = "v3"
chave = ""

Cria o objeto com a API do Youtube, versão específica e a chave gerada.

In [1014]:
api = build(nome_servico, versao, developerKey=chave)

O método utilizado para recuperar os comentários é ```commentThreads().list()```. Alguns dos parâmetros que podem ser utilizados:

_Parâmetros obrigatórios_
- ```part``` especifica uma lista separada por vírgulas de uma ou mais propriedades de recurso ```commentThread``` que serão incluídas pela resposta da API. Os valores que podem ser incluídos são: ```id``` e ```snippet```.

_Parâmetros opcionais_
- ```videoId``` : necessário para identificar de qual vídeo os comentários devem ser recuperados.
- ```maxResults```: quantidade máxima de comentários por requisição. Máximo de 100. **Valor padrão 20.**
- ```pageToken```: token utilizado para recuperar mais de 100 comentários.

In [1016]:
def recuperar_comentarios(api, videoId, quantidade=100, token=None, part="id,snippet"):
    dados = api.commentThreads().list(
        videoId=videoId, 
        maxResults=quantidade, 
        pageToken=token,
        part=part
    ).execute()
    comentarios = [item for item in dados['items']]
    try:
        nexttoken = dados['nextPageToken']
        return (nexttoken, comentarios)
    except Exception as e:
        # Caso dê algum erro, definimos uma string de parada.
        nexttoken = "ultimo_comentario"
        return (nexttoken, comentarios)

Estrutura para salvar os dados recuperados.

In [1018]:
comentarios_dict = {
    'id_comentario' : [],
    'id_video' : [],
    'textDisplay' : [],
    'likeCount' : [],
    'authorDisplayName' : [],
    'publishedAt' : [],
    'updatedAt' : []
}

Função para estruturar os comentários recuperados.

In [1020]:
def estruturar_comentarios(api, videoId, token=None):
    novos_comentarios = recuperar_comentarios(api, videoId, token=token)
    token = novos_comentarios[0]
    comentarios = novos_comentarios[1]
    print(len(comentarios), end=" ")
    for comm in comentarios:
        comentarios_dict['id_comentario'].append(comm['id'])
        comentarios_dict['id_video'].append(comm['snippet']['topLevelComment']['snippet']['videoId'])
        comentarios_dict['textDisplay'].append(comm['snippet']['topLevelComment']['snippet']['textDisplay'])
        comentarios_dict['likeCount'].append(comm['snippet']['topLevelComment']['snippet']['likeCount'])
        comentarios_dict['authorDisplayName'].append(comm['snippet']['topLevelComment']['snippet']['authorDisplayName'])
        comentarios_dict['publishedAt'].append(comm['snippet']['topLevelComment']['snippet']['publishedAt'])
        comentarios_dict['updatedAt'].append(comm['snippet']['topLevelComment']['snippet']['updatedAt'])
        
    return token

### Recuperar todos comentários sobre todos videos

Antes de recuperar todos os comentários, podemos verificar quantos comentários de fato iremos tentar recuperar.

In [1022]:
df.commentCount.sum()

In [1023]:
import json

In [1024]:
from time import time, sleep

Para recuperar todos os comentários disponíveis dos 50 vídeos irá demorar cerca de 20 minutos.

In [1026]:
# Tempo inicial para recuperar todos os comentários dos 50 videos.
ti = time()

# Para cada item (linha) do DF
for i in range(len(df)):
    # Tempo inicial para um vídeo
    tii = time()
    
    # Recupera o Id
    print(i, '-->', df.videoId[i])
    videoId = df.videoId[i]
    
    # Tenta recuperar os comentários
    try:
        token = estruturar_comentarios(api, videoId)
        while token != "ultimo_comentario":
            try:
                token = estruturar_comentarios(api, videoId, token=token)
            except:
                # Caso dê alguma exceção, antes de tentar novamente, esperar 5 segundos.
                sleep(5)
                token = estruturar_comentarios(api, videoId, token=token)
        tff = time() - tii
        print("\nComentários recuperados para VideoId: {}. Demorou {} segundos.".format(videoId, tff))
    
    # Caso não seja possível, continue a execução para o próximo vídeo.
    except Exception as e:
        aux = json.loads(e.content)
        if aux['error']['errors'][0]['reason'] == 'commentsDisabled':
            pass
tf = time() - ti
print("\nDemorou {} segundos para recuperar os videos".format(tf))

In [1027]:
len(comentarios_dict['id_comentario'])

In [1028]:
todos_comentarios = pd.DataFrame(comentarios_dict)

In [1029]:
pd.set_option('display.max_colwidth', -1)

In [1030]:
todos_comentarios[33:38]

In [1031]:
todos_comentarios.to_csv('todos_comentarios.csv', header=True, sep=';', index=False, encoding='utf-8')

# Parte 1 - Web Scraping

Para realizar o download de páginas web iremos utilizar um módulo que já foi visto nas aulas anteriores.

In [1034]:
import requests

In [1035]:
req = requests.get("http://www.python.org")

In [1036]:
print(req.text)

Iremos criar uma função que irá realizar o download de uma página web e iremos retornar o HTML.

Quais problemas podemos ter?
- ```HTTP Error```
- ```Connection error```
- Caso aconteça algum erro, podemos tentar novamente (número de tentativas)

In [1038]:
from requests.exceptions import ConnectionError

In [1039]:
def download_html(url, numero_tentativas=2):
    print("Realizando o download da página:", url)
    try:
        req = requests.get(url)
        if req.status_code != 200:
            if numero_tentativas > 0:
                print("Não foi possível realizar o download. Erro:", req.status_code)
                print("\nRealizando nova tentativa:")
                return download_html(url, numero_tentativas - 1)
            else:
                print("Número de tentativas excedidas. Erro: {}".format(req.status_code))
                html = None
                return html
        html = req.text
        return html
    except ConnectionError as e:
        print("Erro no download:", e)
        html = None

Testando nosso código

In [1041]:
retorno = download_html('http://pythonscraping.com/pages/page1.html', 2)

In [1042]:
print(retorno)

In [1043]:
retorno = download_html('http://pythonsxxxcraping.com/pages/page1.html', 2)

In [1044]:
retorno = download_html('http://pythonscraping.com/pages/page2221.html', 2)

# Parte 2 - BeautifulSoup

Para utilizar esse notebook será necessário instalar o BeautilSoup, abra o terminal ou CMD e digite:

```base
pip install bs4
```

Utilizando a função desenvolvida no notebook anterior para recuperar HTML de uma URL.

In [1047]:
import requests
from requests.exceptions import ConnectionError

In [1048]:
def download_html(url, numero_tentativas=2):
    print("Realizando o download da página:", url)
    try:
        req = requests.get(url)
        if req.status_code != 200:
            if numero_tentativas > 0:
                print("Não foi possível realizar o download. Erro:", req.status_code)
                print("\nRealizando nova tentativa:")
                return download_html(url, numero_tentativas - 1)
            else:
                print("Número de tentativas excedidas. Erro: {}".format(req.status_code))
                html = None
                return html
        html = req.text
        return html
    except ConnectionError as e:
        print("Erro no download:", e)
        html = None

In [1049]:
html = download_html("http://pythonscraping.com/pages/page1.html")

In [1050]:
print(html)

## Analisando HTML

Para analisar e processar o HTML que foi recuperado anteriormente, iremos utilizar a biblioteca BeautifulSoup para essa tarefa.

In [1052]:
from bs4 import BeautifulSoup

In [1053]:
bs = BeautifulSoup(html, "html.parser")

In [1054]:
print(type(bs))

In [1055]:
print(bs)

In [1056]:
print(bs.html)

In [1057]:
print(bs.head)

In [1058]:
print(type(bs.head))

In [1059]:
print(bs.body)

In [1060]:
print(bs.body.h1)

In [1061]:
print(bs.body.h1.text)

In [1062]:
print(bs.body.h4)

**<span style="color:red">EXERCÍCIO:</span>** **Crie uma função chamada ```recuperar_titulo(url)```, que deverá retornar o título da URL (página) passada por parâmetro. Lembre-se de tratar os erros necessários. Reutilize códigos!**

In [1064]:
import requests

In [1065]:
def recuperar_titulo(url):
    # seu código aqui
    html = download_html(url)
    if html:
        bs = BeautifulSoup(html, "html.parser")
        if bs.h1 != None:
            return bs.h1.text
    else:
        return None

#### Teste a função com as seguintes URLs:

In [1067]:
recuperar_titulo("http://pythonscrapingxxx.com/pages/page1.html")

In [1068]:
recuperar_titulo("http://pythonscraping.com/pages/page12.html")

In [1069]:
titulo = recuperar_titulo("http://pythonscraping.com/pages/page3.html")

In [1070]:
print(titulo)

**Testando as funções em diversas URLs**

In [1072]:
urls = ["http://pythonscraping.com/pages/page1.html", 
        "http://pythonscraping.com/pages/page2.html", 
        "http://pythonscraping.com/pages/page3.html",
        "http://globo.com",
        "http://terra.com.br", 
        "https://submarino.com.br"]

In [1073]:
for url in urls:
    print(recuperar_titulo(url))
    print()

# Parte 3 - BeautifulSoup - Tags

In [1076]:
import requests
from bs4 import BeautifulSoup
from requests.exceptions import ConnectionError

In [1077]:
def download_html(url, numero_tentativas=2):
    print("Realizando o download da página:", url)
    try:
        req = requests.get(url)
        if req.status_code != 200:
            if numero_tentativas > 0:
                print("Não foi possível realizar o download. Erro:", req.status_code)
                print("\nRealizando nova tentativa:")
                return download_html(url, numero_tentativas - 1)
            else:
                print("Número de tentativas excedidas. Erro: {}".format(req.status_code))
                html = None
                return html
        html = req.text
        return html
    except ConnectionError as e:
        print("Erro no download:", e)
        html = None

In [1078]:
html = download_html("http://pythonscraping.com/pages/page3.html")

In [1079]:
bs = BeautifulSoup(html, "html.parser")

In [1080]:
bs.find({"span"})

In [1081]:
bs.findAll(name={"span"})

Além do parâmetro ```name``` utilizado anteriormente, é possível utilizar os seguintes parâmetros:
- ```attrs={}``` – Caso o nome a ser procurado seja uma palavra reservada do Python, utiliza-se o atributo attrs.
- ```recursive``` – Se a recursão for definida como True, a função descerá aos filhos e aos filhos dos filhos procurando tags que coincidam com seus parâmetros.
- ```text``` – procurar ocorrências de acordo com o conteúdo de texto das tags.
- ```limit``` – é utilizado no findAll e recupera os n primeiros itens da página.

In [1083]:
for item in bs.findAll({"span"}):
    print("-->", item.text)

## Lidando com filhos e outros descendentes

Se você o escrevesse usando a função ```descendants()``` em vez da função ```children()```, outras tags seriam encontradas (img, span, entre outros). **É muito importante diferenciar filhos e descendentes!**

Para listar as linhas de produtos da tabela ```giftList```, temos que criar um iterador e imprimir todos os filhos de uma tag.

In [1085]:
bs.find("table", {"id":"giftList"}).children

In [1086]:
# Recupera todas as linhas, inclusive a linha de titulo
for filho in bs.find("table", {"id":"giftList"}).children:
    print(filho)

## Lidando com irmãos
Para exibir todas as linhas de produtos da tabela.

In [1088]:
for irmao in bs.find("table", {"id":"giftList"}).tr.next_siblings:
    print(irmao)

### Acessando os elementos e estruturando com o Pandas

In [1090]:
import pandas as pd

In [1091]:
aux = []

for filho in bs.find("table", {"id":"giftList"}).children:
    aux.append(filho)

In [1092]:
aux_final = []
for i in range(1, len(aux), 2):
    aux_final.append(aux[i])

In [1093]:
colunas = [th.text.replace('\n', '') for th in aux_final[0].findAll('th')]
print(colunas)

In [1094]:
estrutura = {}
# Remove a coluna de Imagem
for col in colunas[:-1]:
    estrutura[col] = []

In [1095]:
for item in aux_final[1:]:
    aux = [td.text.replace('\n', '') for td in item.findAll('td')]
    estrutura['Item Title'].append(aux[0])
    estrutura['Description'].append(aux[1])
    str_aux = ["$", ","]
    preco = aux[2]
    for c in str_aux:
        preco = preco.replace(c, '')
    estrutura['Cost'].append(float(preco))

In [1096]:
estrutura

In [1097]:
df = pd.DataFrame(estrutura)

In [1098]:
df

In [1099]:
df.describe()

# Parte 4 - Recuperar informações da Wikipedia

In [1102]:
import requests

In [1103]:
from requests.exceptions import ConnectionError

In [1104]:
def download_html(url, numero_tentativas=2):
    print("Realizando o download da página:", url)
    try:
        req = requests.get(url)
        if req.status_code != 200:
            if numero_tentativas > 0:
                print("Não foi possível realizar o download. Erro:", req.status_code)
                print("\nRealizando nova tentativa:")
                return download_html(url, numero_tentativas - 1)
            else:
                print("Número de tentativas excedidas. Erro: {}".format(req.status_code))
                html = None
                return html
        html = req.text
        return html
    except ConnectionError as e:
        print("Erro no download:", e)
        html = None

In [1105]:
html = download_html("https://pt.wikipedia.org/wiki/Unidades_federativas_do_Brasil")

In [1106]:
from bs4 import BeautifulSoup

In [1107]:
bs = BeautifulSoup(html, "html.parser")

In [1108]:
print(bs.prettify())

In [1109]:
print(bs.h1.text)

In [1110]:
bs.h1

## Recuperar todos os links disponíveis nessa página

In [1112]:
bs.a

Note que apenas um único link foi retornado. Para retornar todos precisamos utilizar um método chamado ```findall()```.

In [1114]:
links = bs.findAll('a')
print(links)

In [1115]:
print(type(links))

Note que além dos links, tem outras informações.

In [1117]:
links[3]

Para imprimir/salvar apenas os links, precisamos iterar na lista que foi criada para pegar apenas o conteúdo do href.

In [1119]:
for link in links:
    print(link.get("href"))

É importante verificar que estamos trazendo todos os links (internos e externos) com essa abordagem.

## Recuperar uma tabela

Como vimos, iremos recuperar a tabela que está disponível na página, que lista todos os estados do Brasil, adicionando outras informações, como a abreviação, capital, area, população, mortalidade infantil, entre outras.

Existem duas formas de recuperarmos a tabela correta. A primeira, seria recuperar todas as tabelas disponível, iterar em cada uma delas e verificar a classe que ela pertecem.

A outra forma, é mais rápida e simples. No navegador Chrome, abrar a página em questão, clique com o Botão Direito em cima da tabela que deseja recuperar e depois clique em Inspecionar (Ctrl + Shift + I) e copie o nome da classe.

```
<table class="wikitable sortable jquery-tablesorter" style="text-align:center; font-size:85%">
```

Iremos utilizar ```wikitable sortable jquery-tablesorter``` para recuperar somente essa tabela.

In [1122]:
tabela = bs.findAll('table', 
                 class_='wikitable sortable')

In [1123]:
#print(len(tabela))
#tabela

Ótimo! Já temos a tabela recuperada.

O que iremos fazer agora é extrair as informações e adicionar em um DataFrame. Para isso precisamos iterar em cada linha (```tr```) e então atribuir cada elemento de tr (```td```) à uma variável e então adicionar a uma lista.

In [1125]:
colunas = [th.text.lower() for th in tabela[0].findAll('tr')[0].findAll('th')]

In [1126]:
#colunas

Antes de renomear o nome de cada coluna, iremos remover as acentuações para facilitar a criação das variáveis.

Essa função retorna a forma normal da string (sem acentuação). As opções são:

| Forma | Descrição |
| ---- | ----- |
| **NFD** - Normalization Form Canonical Decomposition | Os caracteres são decompostos pela equivalência canônica e vários caracteres combinados são organizados em uma ordem específica.  | 
| **NFC** - Normalization Form Canonical Composition | Os caracteres são decompostos e, em seguida, recompostos pela equivalência canônica. |
| **NFKD** - Normalization Form Compatibility Decomposition | Os caracteres são decompostos por compatibilidade e vários caracteres combinados são organizados em uma ordem específica. |
| **NFKC** - Normalization Form Compatibility Composition | Os caracteres são decompostos por compatibilidade e depois recompostos pela equivalência canônica. |



https://docs.python.org/3/library/unicodedata.html#unicodedata.normalize

In [1128]:
from unicodedata import normalize
def remover_acentos(txt):
    return normalize('NFKD', txt).encode('ASCII', 'ignore').decode('ASCII')

**Atenção**

Se testarmos a função ```remover_acentos``` sem o enconde/decode, nenhum erro será gerado, porém durante a normalização caso algum caractere não seja possível normalizar um erro será gerado. Utilizando os métodos encode/decode, podemos garantir que caso algum caractere não seja identificado corretamente, o mesmo seja ignorado e removido. Por exemplo:

In [1130]:
print("hello\xffworld".encode("ascii"))

In [1131]:
print("hello\xffworld".encode("ascii", 'ignore'))

In [1132]:
print("hello\xffworld".encode("ascii", 'ignore').decode('ASCII'))

In [1133]:
colunas = [remover_acentos(nome)[:-1] for nome in colunas]
colunas

In [1134]:
colunas[colunas.index('(% total) (2015)')] = "percentual_pib_2015"
colunas[colunas.index('pib per capita (r$) (2015)')] = 'pib_per_capita_reais_2015'

Remover os caracteres especiais ```(``` e ```)``` e substituir o espaco pelo caractere ```_```.

In [1136]:
colunas = [nome.replace('(', '') for nome in colunas]
colunas = [nome.replace(')', '') for nome in colunas]
colunas = [nome.replace(' ', '_') for nome in colunas]

In [1137]:
colunas

In [1138]:
linha = tabela[0].findAll('tr')[1].findAll('td')

In [1139]:
linha[0].find('a').get('href')

In [1140]:
linha[13].find(text=True)

In [1141]:
# Estruturando 
dados = {}
for nome in colunas:
    dados[nome] = []

In [1142]:
dados

In [1143]:
linhas = tabela[0].findAll('tr')
len(linhas)

In [1144]:
# Começa em 1, pois o 0 é o cabeçalho da tabela
for lin in range(1, len(linhas)):
    linha = tabela[0].findAll('tr')[lin].findAll('td')
    for i, chave in enumerate(colunas):
        if i == 0 and chave == 'bandeira':
            dados[chave].append(linha[i].find('a').get('href'))
        else:
            dados[chave].append(linha[i].find(text=True))

In [1145]:
dados

In [1146]:
import pandas as pd

In [1147]:
df = pd.DataFrame(dados)

In [1148]:
df.head()

Agora, basta criar o DataFrame

In [1150]:
import pandas as pd

In [1151]:
df_final = df.drop('bandeira', axis=1)

In [1152]:
df_final.head()

### Realizando ajustes e conversões de tipos

Para realizarmos algumas análises será necessário realizar as conversões de tipo.

Realizando uma copia do ```df_final``` para tratamento dos dados

In [1155]:
df_aux = df_final.copy()

Também será necessário selecionar as colunas que se deseja realizar o tratamento.

In [1157]:
print(len(df_aux.columns))

In [1158]:
colunas_removidas = ['abreviacao', 'sede_de_governo', 'unidade_federativa']

In [1159]:
aux_colunas = list(filter(lambda col: col not in colunas_removidas, df_aux.columns))

In [1160]:
print(len(aux_colunas))

Funções auxiliares para remover espaços e converter a pontuação.

In [1162]:
def remover_espacos(string):
    string = string.replace(u'%', '')
    string = string.replace(u'‰', '')
    string = string.replace(u'anos', '')
    return string.replace(u'\xa0', '')

In [1163]:
def converter_pontuacao(string):
    return string.replace(u',', '.')

Aplicando as funções criadas em cada uma das colunas definidas na variável ```colunas_float``` e ```colunas_int```.

In [1165]:
for coluna in aux_colunas:
    df_aux[coluna] = df_aux[coluna].apply(remover_espacos)
    df_aux[coluna] = df_aux[coluna].apply(converter_pontuacao)

In [1166]:
df_aux.head()

In [1167]:
print(type(df_aux.area_km2[0]))

Temos que realizar as conversões de tipo, para isso iremos utilizar o método do Pandas que realiza a conversão de maneira automatica seja para um tipo numérico.

In [1169]:
for coluna in aux_colunas:
    df_aux[coluna] = df_aux[coluna].apply(pd.to_numeric)

In [1170]:
df_aux.dtypes

Visualizando o DataFrame Final

In [1172]:
df_aux.head()

In [1173]:
df_aux.describe()

# Parte 5 - Expressão regular

Expressões regulares permitem encontrar padrões em texto.

Aplicações:
- Validação de entradas
- Filtragem de resultados em consultas
- Remoção de caracteres de texto
- Entre outros.

### ```search```

- A função search procura pela primeira ocorrência da expressão regular dentro da string.
- Essa funcionalidade irá procurar pelo padrão no texto, se encontrar retorna o objeto correspondente, se não encontrar retorna ```None```

In [1178]:
import re

In [1179]:
texto = 'Programando em python em 3 2 1!'

In [1180]:
r = re.search('python', texto)

In [1181]:
print(r)

In [1182]:
print(r.group())

Utilizando o conceito de grupos, podemos, por exemplo, recuperar o DDD separado do telefone.

In [1184]:
texto = 'Dino Magri - 11-999999999'

In [1185]:
r = re.search('(\d\d)-(\d{9})', texto)

In [1186]:
print(r)

In [1187]:
print(r.group())

In [1188]:
print(r.group(1))

In [1189]:
print(r.group(2))

### ```findall```

- Podemos utilizar o método findall para encontrar todas as ocorrências de um padrão em um texto.
- O retorno será uma lista com todas as correspondências.

In [1191]:
dados = """
01/02/2019 – IPAD 5 – R$ 1287,99
01/02/2019 – NOTE+ – R$ 987,56
"""

In [1192]:
datas = re.findall('\d\d/\d\d/\d{4}', dados)

In [1193]:
print(datas)

In [1194]:
print(dados)

### ```sub``` 
- Também podemos utilizar o método sub para substituir o padrão encontrado por um valor específico.
- Essa funcionalidade procura por todas as ocorrências de um padrão em um determinado texto e substitui.
- Utilizando a variável dados criada anteriormente, substitua a virgula por ponto.

In [1196]:
import re

In [1197]:
resultado = re.sub(',', '.', dados)

In [1198]:
resultado = re.sub(',', '.', dados)

In [1199]:
print(resultado)

### Exercícios

#### Exercício 1

Utilizando o arquivo ```dados.txt``` e o conceito de expressão regular, recupere todas as datas que estão disponíveis no arquivo. Lembre-se de utilizar a função ```open``` para abrir o arquivo, ler o conteúdo e salvar em uma variável.

**<span style="color:orange">Resposta Esperada:</span>** 23

In [1201]:
import re

In [1202]:
arquivo = open('dados.txt')

In [1203]:
dados = arquivo.read()

In [1204]:
arquivo.close()

In [1205]:
datas = re.findall('\d\d/\d\d\/\d{4}', dados)

In [1206]:
print(len(datas))

#### Exercício 2

Utilizando o arquivo ```dados.txt``` e o conceito de expressão regular, recupere todos os valores disponíveis, inclusive negativos. Lembre-se de utilizar a função ```open``` para abrir o arquivo, ler o conteúdo e salvar em uma variável.

Crie uma variável chamada ```resultado``` e salve todos os valores nessa variável.

In [1208]:
arquivo = open('dados.txt')
dados = arquivo.read()
arquivo.close()

In [1209]:
resultado = re.findall('-?\d+,\d+', dados)

In [1210]:
print(resultado)

#### Exercício 3

Utilizando a variável ```resultados``` e o conceito de expressão regular, substitua todos as virgulas para ponto. Por fim, recupere as seguintes estatísticas básicas:

- Minimo
- Média
- Mediana
- Moda
- Máximo

Lembre-se de converter possíveis tipos de dados.

In [1212]:
aux = []
for item in resultado:
    aux.append(float(re.sub(',', '.', item)))
print(aux)

In [1213]:
import statistics

In [1214]:
print("Mínimo:", min(aux))
print("Média:", statistics.mean(aux))
print("Mediana:", statistics.median(aux))
print("Moda:", statistics.mode(aux))
print("Máximo:", max(aux))

In [1216]:
# Parte 5 - Expressão regular

Expressões regulares permitem encontrar padrões em texto.

Aplicações:
- Validação de entradas
- Filtragem de resultados em consultas
- Remoção de caracteres de texto
- Entre outros.


### ```search```

- A função search procura pela primeira ocorrência da expressão regular dentro da string.
- Essa funcionalidade irá procurar pelo padrão no texto, se encontrar retorna o objeto correspondente, se não encontrar retorna ```None```

import re

texto = 'Programando em python em 3 2 1!'

r = re.search('python', texto)

print(r)

print(r.group())

Utilizando o conceito de grupos, podemos, por exemplo, recuperar o DDD separado do telefone.

texto = 'Dino Magri - 11-999999999'

r = re.search('(\d\d)-(\d{9})', texto)

print(r)

print(r.group())

print(r.group(1))

print(r.group(2))

### ```findall```

- Podemos utilizar o método findall para encontrar todas as ocorrências de um padrão em um texto.
- O retorno será uma lista com todas as correspondências.

dados = """
01/02/2019 – IPAD 5 – R$ 1287,99
01/02/2019 – NOTE+ – R$ 987,56
"""

datas = re.findall('\d\d/\d\d/\d{4}', dados)

print(datas)

print(dados)

### ```sub``` 
- Também podemos utilizar o método sub para substituir o padrão encontrado por um valor específico.
- Essa funcionalidade procura por todas as ocorrências de um padrão em um determinado texto e substitui.
- Utilizando a variável dados criada anteriormente, substitua a virgula por ponto.

import re

resultado = re.sub(',', '.', dados)

resultado = re.sub(',', '.', dados)

print(resultado)

### Exercícios

#### Exercício 1

Utilizando o arquivo ```dados.txt``` e o conceito de expressão regular, recupere todas as datas que estão disponíveis no arquivo. Lembre-se de utilizar a função ```open``` para abrir o arquivo, ler o conteúdo e salvar em uma variável.

**<span style="color:orange">Resposta Esperada:</span>** 23

import re

arquivo = open('dados.txt')

dados = arquivo.read()

arquivo.close()

datas = re.findall('\d\d/\d\d\/\d{4}', dados)

print(len(datas))

#### Exercício 2

Utilizando o arquivo ```dados.txt``` e o conceito de expressão regular, recupere todos os valores disponíveis, inclusive negativos. Lembre-se de utilizar a função ```open``` para abrir o arquivo, ler o conteúdo e salvar em uma variável.

Crie uma variável chamada ```resultado``` e salve todos os valores nessa variável.

arquivo = open('dados.txt')
dados = arquivo.read()
arquivo.close()

resultado = re.findall('-?\d+,\d+', dados)

print(resultado)

#### Exercício 3

Utilizando a variável ```resultados``` e o conceito de expressão regular, substitua todos as virgulas para ponto. Por fim, recupere as seguintes estatísticas básicas:

- Minimo
- Média
- Mediana
- Moda
- Máximo

Lembre-se de converter possíveis tipos de dados.

aux = []
for item in resultado:
    aux.append(float(re.sub(',', '.', item)))
print(aux)

import statistics

print("Mínimo:", min(aux))
print("Média:", statistics.mean(aux))
print("Mediana:", statistics.median(aux))
print("Moda:", statistics.mode(aux))
print("Máximo:", max(aux))



## Plot Pandas

Conhecendo os conjuntos de dados para realizar a análise exploratória.

Alguns gráficos que facilitam o entendimento das variáveis são:

- Histograma (Distribuição)
- Diagrama de dispersão (Relação entre as variáveis)
- Box-plot  (Diferenças entre grupos)
- Gráficos de linhas

In [1219]:
import pandas as pd

In [1220]:
df = pd.read_csv('preco_casas_final.csv', sep=';', encoding='utf-8')

In [1221]:
# Essa opção do pandas format os tipos floats com duas casas decimais.
pd.options.display.float_format = "{:.2f}".format

In [1222]:
df.head(3)

In [1223]:
len(df)

O Pandas permite plotar gráficos utilizando um DataFrame ou Series. Isso só é possível pois ele utilizar a biblioteca ```matplotlib```.

In [1225]:
%matplotlib notebook
df.preco.plot()

In [1226]:
%matplotlib inline
df.preco.plot()

O gráfico está indexado pelo quantidade de linhas (X) dos Dataframe. Note que apenas a coluna preço foi definida, pois utilizamos ela para realizar a plotagem.

Nesse gráfico podemos tirar alguns **Insights**, o primeiro deles é que a maioria dos imóveis ficam na faixa de 600 a 700 mil reais.

Agora que sabemos o básico de como criar os gráficos iremos focar:

- Histograma (Distribuição)
- Diagrama de dispersão (Relação entre as variáveis)
- Box-plot  (Diferenças entre grupos)
- Gráficos de linhas
- Gráfico de simetria

### Histograma

In [1229]:
%matplotlib inline
# Para ter uma controle maior sobre o objeto de plotagem podemos importar o módulo
# de plotagem para adicionar novos elementos.
import matplotlib.pyplot as plt

df.preco.hist(bins=10, 
              color='red', 
              alpha=0.7, 
              grid=False,
              edgecolor='white', 
              linewidth=1)
plt.title('Histograma de Preço' )
plt.xlabel('Bins')
plt.ylabel('Quantidade')

Também podemos criar o histograma com várias colunas:

In [1231]:
%matplotlib inline

df[['qtde_quartos', 'qtde_banheiros']].hist(bins=5, alpha=0.5, 
                                            color='green',
                                            grid=False,
                                            edgecolor='white', 
                                            linewidth=1)

**Quais insights podemos tirar desse gráfico?**

### Gráficos de Setores

O gráfico de setores apresenta uma visualização diferente da disposição dos valores de frequência, porém essa visualização não permite observar informações referente a curvas de frequência.

In [1234]:
df_agr = df.groupby('ano_venda')[['ano_venda']].count()
df_agr.plot.pie('ano_venda', 
                legend=False, 
                autopct='%.2f%%',
                startangle=90,
                explode=(0, 0, 0, 0.15, 0),
                shadow=True
               )

### Diagrama de dispersão

Podemos utilizar o diagrama de dispersão para visualizar a relação entre as variáveis

In [1236]:
%matplotlib inline

df.plot(x='qtde_quartos', y='preco', 
        kind='scatter', 
        title='Quantidade de Quartos x Preço', 
        color='green')

**Quais insights podemos tirar desse gráfico?**

Podemos verificar essa distribuição para todas as colunas numéricas para isso, podemos:

In [1239]:
%matplotlib inline

for col in df.describe().columns:
    if col != 'preco':
        df.plot(x=col, y='preco', 
        kind='scatter', 
        title='{} x preço'.format(col), 
        color='green')

### Box-Plot

In [1241]:
%matplotlib inline
df.boxplot(column='qtde_banheiros')

Esse gráfico mostra várias informações relevantes, como: o valor médio dos dados, o valor máximo e mínimo do conjunto de dados e também os **outliers**.

Como podemos visualizar que existe um ponto que se distancia bastante, esse valor é considerado um **outlier**.

Podemos plotar um gráfico do tipo BoxPlot de uma coluna agrupado por outra coluna:

In [1243]:
%matplotlib inline

df.boxplot(column='preco', by='qtde_quartos')

Esse gráfico permite visualizar os imóveis pela quantidade de quartos e seus respectivos preços.

### Gráfico de linhas

Adequados para apresentar observações medidas ao longo do tempo, enfatizando sua tendência ou periodicidade.

In [1246]:
df.head()

In [1247]:
df_line = df[['ano_venda', 'preco']].sort_values(by='ano_venda')

In [1248]:
df_line_grp = df_line.groupby('ano_venda')[['preco']].median()

In [1249]:
df_line_grp.plot()

### Correlação de Variáveis

É importante verificar se existe alguma correlação entre o número de quartos do imóvel e o seu preço?

Ou, o número de banheiros com o preço?

Para isso, podemos utilizar o método do pandas chamado corr() para que seja possível calcular a correlação entre todas as colunas do conjunto de dados.

In [1251]:
df.corr()

A correlação utilizada por padrão é a de Pearson.

Este coeficiente assume valores entre -1 e 1, onde um valor 1 significa uma correlação positiva perfeita entre as variáveis e um valor -1 uma correlação negativa perfeita entre as variáveis.

O valor 0 significa que não há uma correlação entre as variáveis.

### Tabulação Cruzada (crosstab)

Podemos utilizar essa funcionalidade para cruzar os valores das variáveis.

In [1254]:
pd.crosstab(df.qtde_quartos, df.condicao)

Analisando a tabela acima vemos que o **maior** número de imoveis na condição 5 são os imóveis com 3 quartos (462).

Também podemos visualizar esses dados em um gráfico de barras.

In [1256]:
tabela = pd.crosstab(df.qtde_quartos, df.condicao)

In [1257]:
%matplotlib inline
tabela.plot(kind='bar', width=1.0)

### Relatório

Para facilitar e ter uma visualização geral do conjunto de dados podemos utilizar a biblioteca ```pandas_profiling``` que permite visualizar um relatório do conjunto de dados. Primeiro precisamos instalar essa biblioteca:

In [1259]:
!pip install pandas-profiling

In [1260]:
import pandas_profiling

In [1261]:
relatorio = pandas_profiling.ProfileReport(df)

In [1262]:
relatorio.to_file('relatorio_conjunto_dados.html')

In [1263]:
relatorio

# Matplotlib

In [1266]:
import numpy as np
import matplotlib.pyplot as plt

In [1267]:
x = [1, 2, 3, 4, 5]

In [1268]:
y = [1, 4, 9, 16, 25]

In [1269]:
x, y

Podemos utilizar o ```;``` no final do comando de plotagem para ocultar as saídas parecidas com  ```<matplotlib.collections.PathCollection at 0x23b63367a58>```

In [1271]:
# Antes
plt.scatter(x, y)

In [1272]:
# Depois
plt.scatter(x, y);

## Plots e subplots

**<span style="color:blue">[PERGUNTA]:</span> Como posso aumentar o tamanho da figura?**

Muitas vezes, o tamanho padrão é muito pequeno. Podemos adicionar o argumento ```figsize``` e especificar a largura e altura que queremos. A medida é em polegadas e o padrão é ```[6.4, 4.8]```

In [1274]:
plt.figure(figsize=(20, 10))
plt.scatter(x, y)

**<span style="color:blue">[PERGUNTA]:</span> O que é uma subplot? Como podemos criar e navegar nas subplots?**
    
Subplots são grupos de pequenos eixos que existem dentro de uma única figura.

Podemos criar as subplots em qualquer forma.

Vamos criar uma 2 x 2.

In [1276]:
plt.subplots(2, 2);
plt.tight_layout()

Para acessar e trabalhar em cada uma das subplots, temos que criar objetos que representam cada uma delas.

In [1278]:
fig, axes = plt.subplots(2, 2)
fig.set_figwidth(20)
fig.set_figheight(10)
axes[0, 0].scatter(x, y)
axes[0, 1].plot(x, y)
axes[1, 0].plot(y)
axes[1, 1].plot(x);

Podemos compartilhar os eixos:

In [1280]:
fig, axes = plt.subplots(2, 2, sharex=True, sharey=True, figsize=(20, 10))
#print(axes)
axes[0, 0].scatter(x, y)
axes[0, 1].plot(x, y)
axes[1, 0].plot(y)
axes[1, 1].plot(x);

Também podemos desempactar as subplots diretamente em variáveis, ao invés de utilizar o indice.

In [1282]:
fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, sharex=True, sharey=True, figsize=(20, 10))
#print(axes)
ax1.scatter(x, y, marker='o', s=10)
ax1.set_title('Scatter')

ax2.plot(x, y, color='green', linestyle='-.', linewidth=4)

ax3.plot(y, marker='o', markersize=10)
ax3.plot(x)


ax4.plot(x)
ax4.set_title('Linha', fontsize=15)

fig.suptitle('Conjuntos de subplots', fontsize=30);

Note que cada método de plotagem implementa os parâmetros de maneira diferente, portanto é importante estudar as documentações corretamente para obter o resultado desejado.

# Seaborn

In [1286]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

In [1287]:
rest = pd.read_pickle('base_restaurante.pickle')

In [1288]:
rest.head()

Uma outra forma de explorar a distribuição de uma variável é trabalharmos com um gráfico de densidade.

Por padrão, o método ```displot``` irá plotar um histograma bem como um gráfico de densidade.

Um gráfico de densidade permite visualizar a distribuição de dados em um intervalo ou período de tempo contínuo. Este gráfico é uma variação de um histograma que usa a suavização de kernel para plotar os valores, permitindo visualizar as distribuições mais suaves quando existe o ruído.

Os picos no gráfico de densidade ajudam a exibir onde os valores são concentrados no intervalo.

Uma vantagem que os gráficos de densidade têm é que eles não são afetados pelo parâmetro ```bins``` que ocorre nos Histogramas. Um histograma composto por apenas 4 bins não produziria uma forma de distribuição suficientemente distinta, como faria um histograma de 20. No entanto, com o gráfico de densidade isso não é um problema.

In [1290]:
hist, ax = plt.subplots()
# trocar bins para 4, 20
ax = sns.distplot(rest['valor_conta'], kde=False, bins=4)
ax.set_title('Histograma com o gráfico de densidade para o Valor total da conta')
plt.show()

As plotagens de densida são outra forma de visualizar uma distribuição univariada. Essencialmente, são criadas usando uma distribuição normal centralizada em cada ponto de dado, e então suavizando as plotagens que se sobrepõem de modo que a área sob a curva seja 1.

Para plotar somente a plotagem de densidade, sem o histograma:

In [1292]:
den, ax = plt.subplots()
# trocar bins para 4, 20
ax = sns.distplot(rest['valor_conta'], hist=False, bins=4)
ax.set_title('Gráfico de densidade para o Valor total da conta')
plt.show()

Além disso, podemos utilizar os rugs plots (literalmente, plotagens de tapete) que podemos considerar que as marcas que aparecem nas bordas do gráfico, assemelham-se às franjas de um tapete.

Podemos unificar a plotagem de histograma, densidade e tapete (rugs plots).

In [1294]:
hist, ax = plt.subplots()
# trocar bins para 4, 20
ax = sns.distplot(rest['valor_conta'], rug=True, bins=20)
ax.set_title('Histograma com o gráfico de densidade e Rug para o Valor total da conta')
plt.show()

Os gráficos de dispersão são ótimos para comparar duas variáveis.

Porém, as vezes, há pontos demais para que um gráfico de dispersão seja significativo. Uma forma de contornar esse problema é reunir pontos no gráfico.

Assim como os histogramas podem reunir dados de uma variável para criar uma barra, o hdexbin pode fazer o mesmo com duas variáveis.

Um hexágono é usado com essa finalidade, pois é o formato mais eficiente para cobrir uma superfície 2D arbitrária.

Utiliza-se o método joinplot para criar o hexbin.

In [1296]:
hexbin = sns.jointplot(x='valor_conta', y='valor_gorgeta', data=rest, kind='hex')
hexbin.set_axis_labels(xlabel='Valor Conta', ylabel='Valor gorgeta')
hexbin.fig.suptitle('Hexbin Joint Plot de Valor Conta e Valor da Gorgeta', fontsize=15, y=1);

Podes utilizar a plotagem de barras (bar plots) para mostrar diversas variáveis. Por padrão, o barplot irá calcular uma média, mas é possível passar qualquer função para o parâmetro estimator.

In [1298]:
import numpy as np

In [1299]:
bar, ax = plt.subplots()
ax = sns.barplot(x='periodo', y='valor_conta', data=rest, estimator=np.mean)
ax.set_title('Faturamente médio pelo período do dia')
ax.set_xlabel('Período do Dia')
ax.set_ylabel('Gorgeta')
plt.show()

In [1300]:
bar, ax = plt.subplots()
ax = sns.boxplot(x='periodo', y='valor_conta', data=rest)
ax.set_title('Boxplot do valor_conta pelo período do dia')
ax.set_xlabel('Período do Dia')
ax.set_ylabel('Valor Total')
plt.show()

Podemos utilizar diferentes maneiras para incluir mais informações no gráficos, utilizando cores, tamanho e formato para distinguir os dados na plotagem.

Podemos utilizar as Facetas geram os subconjuntos e adicionam na figura de forma simples e rápida.

In [1302]:
faceta = sns.FacetGrid(rest, col='periodo')
# para cada valor de tempo, plota um histograma do total da conta
faceta.map(sns.distplot, 'valor_conta', rug=True)
plt.show()

In [1303]:
faceta = sns.FacetGrid(rest, col='dia', hue='sexo')
# para cada valor de tempo, plota um histograma do total da conta
facet = faceta.map(plt.scatter, 'valor_conta', 'valor_gorgeta')
facet = faceta.add_legend()
plt.show()

In [1304]:
faceta = sns.FacetGrid(rest, col='periodo', row='fumante', hue='sexo')
faceta.map(plt.scatter, 'valor_conta', 'valor_gorgeta')
plt.show()

Também podemos utilizar os objetos de plotagem do Matplotlib para adicionar novos gráficos

In [1306]:
fig, ax = plt.subplots()
ax = rest.plot.hexbin(x='valor_conta', y='valor_gorgeta', gridsize=10, ax=ax)
plt.show()

# Exercícios

## Exercício 1

Utilizando a base de dados `tweets_10min.csv` crie um gráfico para ilustrar os 10 usuários mais populares, lembre-se de adicionar o nome dos usuários no gráfico de barras.

In [1309]:
import pandas as pd

In [1310]:
df = pd.read_csv('tweets_10min.csv', sep=';')

In [1311]:
df.head(1)

In [1312]:
mais10 = df.sort_values(by='followers_count', ascending=False)[['screen_name', 'followers_count']][:10]

In [1313]:
mais10_plot = mais10.set_index('screen_name')

In [1314]:
mais10_plot.plot(kind='bar');

## Exercício 2

Utilizando a base `tweets_copa_mundo.csv` responda as seguintes questões:

In [1316]:
import pandas as pd

In [1317]:
df = pd.read_csv('tweets_copa_mundo.csv', sep=';', encoding='utf-8')

### a) Qual é o usuário mais antigo?

Imprima além do nome, a localização, o scren_name e a data da criação do usuário.

In [1319]:
df['user_created_at_user'] = pd.to_datetime(df.user_created_at)

In [1320]:
df.sort_values(by='user_created_at_user')[:1][['user_created_at_user', 'user_location', 'screen_name', 'name']]

### b) Qual é o usuário mais novo?

Imprima além do nome, a localização, o scren_name e a data da criação do usuário.

In [1322]:
df.sort_values(by='user_created_at_user', ascending=False)[:1][['user_created_at_user', 'user_location', 'screen_name', 'name']]

### c) Qual é o tweet mais favoritado?

Imprima além do tweet, o nome do usuário e quantidade da quantidade de vezes que ele foi favoritado.

In [1324]:
df.sort_values(by='favorite_count', ascending=False)[:1][['favorite_count', 'text', 'name']]

### d) Quais os 5 usuários que mais publicaram sobre a Copa do Mundo nessa base de dados?

In [1326]:
top5 = df.groupby('screen_name')['screen_name'].count().sort_values(ascending=False)[:5]

In [1327]:
top5

### e) Para cada usuário do exercício anterior e recupere todos os tweets

In [1329]:
for nome in top5.index:
    print(f"""
{'#' * (39 + len(nome))}
## Imprimindo os tweets do usuário: {nome} ##
{'#' * (39 + len(nome))}
    """)

    for i, tweet in enumerate(df[df.screen_name == nome]['text'].values):
        print(i, '->', tweet)
        print('-' * 10)

# Visualização de dados Geográficos com Google Maps

É possível plotar dados geográficos com Bokeh utilizando diferentes mecanismos utilizandos coordenadas geográficas:

- [GMapPlot](https://bokeh.pydata.org/en/latest/docs/user_guide/geo.html#google-maps-support): Utiliza o Google Maps.
- [TileSource](https://bokeh.pydata.org/en/latest/docs/user_guide/geo.html#tile-providers): em especial WMTSTileSource, que permite que os dados sejam sobrepostos em qualquer servidor, incluindo Google Maps, OpenStreatMap, Stamen, MapQuest, ou algum servidor próprio.
- [GeoJSONDataSource](https://bokeh.pydata.org/en/dev/docs/user_guide/geo.html#geojson-datasource): permite legar dados no formato GeoJSON para utilizar junto ao Bokeh.


## Carregando e tratando o conjunto de dados

In [1332]:
#!pip install pandas

In [1333]:
import pandas as pd

In [1334]:
df = pd.read_csv('tweets_10min.csv', sep=';', encoding='utf-8')

In [1335]:
df.head()

## Criando o Mapa

In [1337]:
#!pip install bokeh

In [1338]:
from bokeh.io import output_file, show, output_notebook

In [1339]:
from bokeh.models import (
    GMapPlot, GMapOptions, ColumnDataSource, Circle, Range1d, PanTool, WheelZoomTool, ResetTool
)

### Descrição dos modelos

- GMapPlot - É a classe que irá plotar o gráfico Bokeh no Google Maps. Os dados devem ser especificados no formato de coordenadas lat long em decimal (por exemplo: 37.123, -123.404). Esse formato será automaticamente convertido para o marcado web para ser projetado no Google Maps. Parâmetros:
    - api_key - Necessário para acessar a API do Google Maps.
    - map_options - Define as opções de visualização do gráfico;
    
- GMapOptions - Opções para o objeto GMapPlot. Parâmetros:
    - map_type - Define-se o tipo de mapa utilizado no GMapPlot. As opções podem ser visualizadas na documentação do Google Maps sobre os [MapType](https://developers.google.com/maps/documentation/javascript/reference#MapTypeId).  
    
- ColumnDataSource - Realiza o mapeamento dos nomes das colunas em uma sequencia ou array. É a estrutura de dados fundamental do Bokeh. Se a ColumnDataSource for inicializado com um único argumento, ele pode ser:
    - Um dicionário em Python, que mapeia o nome da string para sequencias de valores: e.g. listas, arryas, etc.
    ```python
    >>> data = {'x': [1,2,3,4], 'y': np.ndarray([10.0, 20.0, 30.0, 40.0])}
    >>> source = ColumnDataSource(data)
    ```
    - Um DataFrame do Pandas
    ```python
    source = ColumnDataSource(df)
    ```

- Circle - Renderiza um marcado no formato circular.

- Range1d - É uma classe que irá preencher automaticamente um intervalo contínuo em uma dimensão escalar. Os limites superior e inferior são definidos para o valor mínimo e máximo do dados.


São as ferramentas para realizar iterações nos gráficos gerados pelo Bokeh.
- PanTool
- WheelZoomTool
- xSelectTool

Para utilizar a API do Google Maps, é necessário gerar uma chave: https://developers.google.com/maps/documentation/javascript/get-api-key

In [1341]:
GOOGLE_API_KEY=""

Definindo as opções do Mapa, iremos criar o mapa, com a lat e long com o centro do mundo, definir o tipo de visualização do mapa e o zoom.

In [1343]:
map_options = GMapOptions(lat=-23.56, lng=-46.70, map_type="roadmap", zoom=3)

In [1344]:
plot = GMapPlot(
    x_range=Range1d(), y_range=Range1d(), map_options=map_options
)

In [1345]:
plot.title.text = "Mostrando a região de {} tweets".format(len(df.index))
plot.title.text_font_size="20pt"
plot.api_key = GOOGLE_API_KEY

In [1346]:
source = ColumnDataSource(df)

In [1347]:
print(source)

In [1348]:
df.head()

In [1349]:
circle = Circle(x="long", y="lat", size=15, fill_color="blue", 
                fill_alpha=0.8, line_color=None)
plot.add_glyph(source, circle)

### Adicionando as informações complementares.

In [1351]:
from bokeh.models import HoverTool

In [1352]:
plot.add_tools(PanTool(), WheelZoomTool(), ResetTool(), HoverTool(tooltips=[("user", "@screen_name"),("local", "@location")]))

In [1353]:
#output_file("gmap_plot.html")
output_notebook()

In [1354]:
show(plot)

# Parte 1 - Processamento de Linguagem Natural

Esse notebook descreve o passo a passo a ser aplicado para o Processamento de Linguagem Natural para criar uma análise de sentimento em comentários sobre o Youtube.

In [1357]:
!pip install nltk

In [1358]:
from time import time

In [1359]:
ti = time()

In [1360]:
# Essa biblioteca realiza o tratamento da linguagem natural 
# com diversas ferramentas disponíveis (NLTK - Natural Language Tookit)
import nltk

In [1361]:
# Necessário realizar o download das palavras StopWords
nltk.download('stopwords')

In [1362]:
# Lematizador para palavras em Portugues
nltk.download('rslp')

## 1. Carregar bases de dados

A base de dados está salvo em formato de CSV. Onde o primeiro elemento é o texto e o segundo elemento é a classe.

 | texto | classe |
 | --- | --- |
 |0	|@pandlrcom Quem é que liga pra copa gente? Pelo o amor de Deus	|negativo
|1	|Faz a seleção aí do teu time — eu e a carol no ataque, Thaynara e veve na zaga, Luise no gol!!! É esse? kkk	|neutro
|2|	Cristiano Ronaldo com grife, 78 milhões de euros 😎		|positivo


Iremos estruturar os dados para facilitar todo o processo de criação do algoritmo de análise de sentimento.

In [1364]:
import pandas as pd
pd.set_option('display.max_colwidth', -1)

In [1365]:
def carregar_dados(arquivo):
    dados = pd.read_csv(arquivo, sep=';', encoding='utf-8')
    
    base = []
    for i in range(len(dados)):
        base.append((dados.texto.loc[i], dados.classe.loc[i]))
    return base

In [1366]:
base_treino = carregar_dados('dados_treino.csv')

In [1367]:
base_treino[0]

In [1368]:
base_teste = carregar_dados('dados_teste.csv')

In [1369]:
base_teste[0]

In [1370]:
print("Tamanho base de treino: ", len(base_treino))
print("Tamanho base de teste: ", len(base_teste))

In [1371]:
print(base_treino[0])

## 2. Pré Processamento

Esta primeira etapa tem o propósito de realizar o pré-processamento dos dados, necessário para a preparação da base de dados para algoritmos de aprendizagem de máquina.

Essa etapa envolve os seguintes passos:

    2.1 - Remoção de pontuação, deixar tudo minúsculo e remoção de URLs, RT e @user
    2.2 - Remoção de Stopwords
    2.3 - Remoção do radical das palavras (Stemming)
    2.4 - Listagem de todas as palavras da base
    2.5 - Extração de palavras únicas
    2.6 - Junção de palavras únicas
    2.7 - Extração de palavras de cada frase

### 2.1 - Remoção de pontuação, deixar tudo minúsculo e remoção de URLs, RT e @user

O objetivo dessa etapa é realizar um tratamento no texto removendo as pontuações, urls, RTs, menção a usuários e também padronizar toda a frase e minúscula.

In [1374]:
import re

In [1375]:
def tratar_texto(texto):
    string_sem_url = re.sub(r"http\S+", "", str(texto))
    string_sem_user = re.sub(r"@\S+", "", str(string_sem_url))
    string_sem_rt = re.sub(r"RT+", "", str(string_sem_user))
    return str(string_sem_rt).strip()

In [1376]:
tratar_texto('Esse link é ótimo http://ashdfasdfa.com')

In [1377]:
tratar_texto('RT @user a copa está demais')

In [1378]:
tratar_texto('@user a copa está demais')

In [1379]:
tratar_texto('RT a copa está demais')

In [1380]:
import string

In [1381]:
def remover_pontuacao(base):
    """Essa função remove as pontuações da base.
    Args:
        base: contém todos tweets no formato (texto,classe).
    Returns:
        base_dados: É uma lista de tuplas.
    """
    frases_final = []
    for (frase, classe) in base:
        sem_pontuacao = []
        # Para cada palavra na frase
        frase = tratar_texto(frase)
        for p in frase:
            # Verifica se não é uma pontuação
            if p not in string.punctuation:
                sem_pontuacao.append(p)
        # Refaz a frase
        aux = ''.join(sem_pontuacao)
        # Salva na lista final no formato (texto,classe)
        frases_final.append((aux.lower(), classe))
    # Retorna todo o conjunto sem as pontuações
    return (frases_final)


In [1382]:
print(base_treino[0])

In [1383]:
print(remover_pontuacao([base_treino[0]]))

In [1384]:
print(string.punctuation)

In [1385]:
frases_sem_pontuacao = remover_pontuacao(base_treino)

In [1386]:
print(frases_sem_pontuacao[0])

### 2.2 - Remoção de Stopwords

As stopwords são palavras que não possuem significado para o desempenho dos algoritmos de classificação de texto. Por exemplo: 'é', 'muito', 'o', 'por', entre outros.

A permanência delas na base de dados, pode provocar maior lentidão no processamento dos dados, sem utilidade para o contexto em que estamos trabalhando.

A função ```remover_stopwords``` funciona da seguinte forma:

- O parâmetro "frases_sem_pontuacao" representa toda a base de dados já tratada.
- Essa base de dados contém um par de elementos sendo o primeiro a frase e o segundo a classe (positivo, negativo, neutro).
- A função percorre toda a base de dados, linha a linha, verificando em quais frases possuem as stopwords definidas na biblioteca NLTK. Uma vez identificadas, elas são removidas da frase. 
- O conjunto final é uma estrutura contendo a frase (sem as stopwords) e a classe (positivo, negativo, neutro).

In [1388]:
# Carrega as stopwords definidas na biblioteca para o idioma Português
stopwordsnltk = nltk.corpus.stopwords.words('portuguese')

# Adiciona novas stopwords
stopwordsnltk.append('vou')
stopwordsnltk.append('tão')

# Visualiza algumas
print(stopwordsnltk[:10])

In [1389]:
def remover_stopwords(frases_sem_pontuacao):
    """Essa função remove as stopwords da base.
    Args:
        frases_sem_pontuacao: É uma lista de tuplas.
    Returns:
        frases_final: É uma lista de tuplas (texto, classe).
    """
    stopwordsnltk = nltk.corpus.stopwords.words('portuguese')
    frases_final = []
    for (frase, classe) in frases_sem_pontuacao:
        sem_stop = []
        for palavra in frase.split():
            if palavra not in stopwordsnltk:
                sem_stop.append(palavra)  
        frases_final.append((sem_stop, classe))
    return frases_final




In [1390]:
# Variável que armazena o resultado da função remover_stopwords
frases_sem_stopwords = remover_stopwords(frases_sem_pontuacao)

In [1391]:
print(frases_sem_stopwords[0])

### 2.3 - Remoção do radical das palavras (Stemming)

Stemming é uma técnica utilizada para reduzir a dimensionalidade dos dados na etapa de pré-processamento. É baseada na redução de palavras em seu morfema, de acordo com as regras do idioma que o algoritmo será executado. 

Por exemplo, em português a palavra “casa” possui o morfema “cas” e suas variações: casinhas, casebre, casona.

A função ```aplicar_stemmer``` funciona da seguinte forma:

- Utiliza-se uma ferramenta da biblioteca NLTK para realizar essa técnica. Para isso, acessamos o pacote ```stem``` para realizar essa tarefa.
- ```nltk.stem.RSLPStemmer()``` indica que será utilizado a lingua portguesa.
- O parâmetro ```frases_sem_stopwords``` da função ```aplicar_stemmer``` representa a base de dados sem as stopwords que foram removidas anteriormente.

- A função percorre toda a base de dados aplicando o método ```stemmer.stem(palavra)``` em cada palavra de cada frase, cuja finalidade é deixar apenas o radical de cada palavra.

- Exemplo: A frase ```('eu sou admirada por muitos','positivo')```, após a função ```aplicar_stemmer``` ficará ```(['admir', 'muit'], 'positivo')```

Uma desvantagem da aplicação do algoritmo stemmer é quando duas palavras com sentidos diferentes possuem o mesmo radical, como por exemplo as palavras ```novamente``` e ```novo``` que possuem o radical ```nov``` dessa forma, na etapa de aprendizado de máquina o algoritmo pode perder algumas informações.

In [1393]:
def aplicar_stemmer(frases_sem_stopwords):
    """Função que reduz a palavra ao seu radical
    Args:
        frases_sem_stopwords: lista de tuplas.
    Returns:
        frases_stemming: lista de tuplas.
    """
    stemmer = nltk.stem.RSLPStemmer()
    frases_stemming =[]
    for (frase, classe) in frases_sem_stopwords:
        com_stemming = []
        # Para cada palavra na frase, aplicar o stemmer e salvar
        for palavra in frase:
            com_stemming.append(str(stemmer.stem(palavra)))
        frases_stemming.append((com_stemming, classe))    
    # Retornar todo o conjunto com o stemming aplicado
    return frases_stemming


In [1394]:
frases_com_stemmer = aplicar_stemmer(frases_sem_stopwords)

In [1395]:
print(frases_com_stemmer[0])

### 2.4 - Listagem de todas as palavras da base

A função ```extrair_palavras``` irá gerar uma nova lista com todas as palavras que já foram pré-processadas anteriormente porém sem a sua classificação (positivo, negativo e neutro) associada.

Funciona da seguinte forma:
- O parâmetro da função representa a lista gerada pela função aplicar_stemmer, que é a ```frases_com_stemmer```.
- Ela percorre toda a base e insere em uma lista com todas as palavras da base de dados, mas sem sua classificação associada.

In [1397]:
def extrair_palavras(frases_com_stemmer):
    """Função que unifica todas as palavras do conjunto de dados em uma única lista.
    Args:
        frases_com_stemmer: Frases com o Stemmer já aplicados.
    Returns:
        todas_palavras: lista com todas as palavras.
    """
    todas_palavras = []
    for (palavras, classe) in frases_com_stemmer:
        todas_palavras.extend(palavras)
    return todas_palavras



In [1398]:
palavras_sem_classe = extrair_palavras(frases_com_stemmer)

In [1399]:
palavras_sem_classe[:10]

### 2.5 - Extração de palavras únicas

Na função ```aplicar_frequencia``` iremos remover os radicais repitidos da base para otimizar o processamento dos dados utilizando o recurso do nltk ```FreqDist```.

A classe ```FreqDist``` unifica todas as palavras repetidas gerando um dicionário do tipo ```chave,valor``` dentro de uma lista, sendo a chave o radical e o valor a frequencia com que ele se repete. Ex: ```('am', 4)```. Nesse exemplo o radical ```am``` apareceu na base de dados 4 vezes.

In [1401]:
def aplicar_frequencia(palavras_sem_classe):
    """Função que aplica a frequencia das palavras
    Args:
        palavras_sem_classe: palvras sem a classificação.
    Returns:
        palavras: FreqDist
    """
    palavras = nltk.FreqDist(palavras_sem_classe)
    return palavras


In [1402]:
frequencia_palavras = aplicar_frequencia(palavras_sem_classe)

In [1403]:
frequencia_palavras

In [1404]:
# Visualizar as 50 frases mais completas
print(frequencia_palavras.most_common(50))



### 2.6 - Junção de palavras únicas

Além disso, temos que criar uma estrutura apenas com as palavras únicas da frequência gerada anteriormente.

In [1406]:
def extrair_palavras_unicas(frequencia_palavras):
    """Função que retorna as palavras únicas
    Args:
        frequencia_palavras: dicionário com a frequencia das palavras.
    Returns:
        freq: palavras unicas.
    """
    freq = frequencia_palavras.keys()
    return freq


In [1407]:
palavras_sem_repeticao = extrair_palavras_unicas(frequencia_palavras)

In [1408]:
# Para visualizar as 5 primeiras palavras é necessário realizar uma conversão direta para o tipo lista
print(list(palavras_sem_repeticao)[:5])


In [1409]:
# A estrutura criada é do tipo dict_keys, que representam as chaves de um dicionário
print(type(palavras_sem_repeticao))


### 2.7 - Extração de palavras de cada frase

O objetivo da função ```criar_caracteristicas``` é auxiliar a caracterização das frases a serem utilizadas no algoritmo Naive Bayes.

O método ```nltk.classify.apply_features``` realiza essa caracterização através do mapeamento de cada frase na função ```criar_caracteristicas```. O resultado desse mapeamento é um dicionário para cada frase onde as palavras que pertencem a respectiva frase sejam ```True```. Todas as outras palavras da base que não pertencem a frase serão definidas como ```False```.

O método ```nltk.classify.apply_features``` exige dois parâmetros, sendo o primeiro uma função que irá extrair as caracteristicas e o segundo é o conjunto de dados onde será aplicado essa caracterização.

Essa etapa é necessária para a preparação da base de dados para o algoritmo de aprendizagem de máquina Naive Bayes. É o resultado dessa função que irá ser passada como parâmetro para criar o classificador.

A função ```criar_caracteristicas``` recebe a lista com as palavras com o stemming e cria uma estrutura onde apenas as palavras que estão nessa lista será marcada como ```True```, todas as outras serão marcadas como ```False```.

In [1411]:
def criar_caracteristicas(documento):
    """Função que cria as características do documento, verificando se a palavra existe ou não no documento.
    Args:
        documento: lista com todas as palavras
    Returns:
        caracteristicas: dicionário com as características.
    """
    global palavras_sem_repeticao
    doc = set(documento)
    caracteristicas = {}
    # Para cada palavra
    for palavra in palavras_sem_repeticao:
        # Se a palavra existir no documento é atribuido True, caso contrário False.
        caracteristicas[palavra] = (palavra in doc)    
    # Listar com as caracteristicas da palavra
    return caracteristicas



O código abaixo é apenas para testar e validar a função ```criar_caracteristicas```.

In [1413]:
# Para testar a função acima, será utilizado duas frases que já foi aplicado o stemmer.
teste_caracteristica = frases_com_stemmer[0:2]


In [1414]:
print(teste_caracteristica)

In [1415]:
print(extrair_palavras(teste_caracteristica))

A execução ```nltk.classify.apply_features``` irá gerar uma lista, onde cada elemento dessa lista é uma tupla com dois elementos, sendo o primeiro o dicionário gerado pela função ```criar_caracteristicas``` e o segundo elemento com a classificação (positivo, negativo, neutro).

In [1417]:
frases_teste_final = nltk.classify.apply_features(criar_caracteristicas, teste_caracteristica)

In [1418]:
# Visualizar 1 elemento classificado
print(frases_teste_final[0])

Para facilitar a reutilização de todo o código criado anteriormente, iremos criar uma função para estruturar qualquer texto que desejamos classificar.

In [1420]:
def estruturar_dados(base):
    """Dada uma base de dados, é realizada toda a estruturação das bases.
    Args:
        base: contém todos tweets no formato (texto,classe).
    Returns:
        base_final: conjunto de dados estruturados.
    """
    global palavras_sem_repeticao
    # Aplicar as funções previamente definidas
    frases_sem_pontuacao = remover_pontuacao(base)
    frases_sem_stopwords = remover_stopwords(frases_sem_pontuacao)
    frases_com_stemmer = aplicar_stemmer(frases_sem_stopwords)
    palavras_sem_classe = extrair_palavras(frases_com_stemmer)
    frequencia_palavras = aplicar_frequencia(palavras_sem_classe)
    palavras_sem_repeticao = extrair_palavras_unicas(frequencia_palavras)
    base_final = nltk.classify.apply_features(criar_caracteristicas, frases_com_stemmer)
    # Retornar os dados estruturados para serem utilizados pela função NLTK.
    return (base_final)

## 3. Fase de treino do algoritmo Naive Bayes

Nesta etapa será realizado o treino do algoritmo Naive Bayes, que irá gerar um modelo a ser utilizado na classificação de novas frases em positivo, negativo ou neutro.

## 3.1 Classificação do texto

O algoritmo de Naive Bayes realiza a análise estatística e monta uma tabela de probabilidade. Após isso, é criada a classificação dos registros.

O método ```train``` da classe ```NaiveBayesClassifier``` recebe como parâmetro a ```base_treino``` já estruturada (```base_final```) e realiza a etapa de construção da tabela de probabilidades. O método ```show_most_informative_features``` retorna os atributos (palavras) mais significativos.

Por exemplo: 

- ```dia = True positi : negati = 2.3:1.0``` - Neste exemplo de saída a probabilidade de a frase ser classificada como ```positivo``` quando a palavra "dia" estiver presente na frase (```True```) é 2.3 vezes maior do que negativo.

- ```am = False negati : positi = 1.6:1.0``` - Já neste exemplo, a probabilidade de a frase ser classificada como ```negativo``` quando a palavra ```am``` **não** estiver presente na frase (```False```) é 1.6 vezes maior do que positivo.

In [1422]:
base_final = estruturar_dados(base_treino)

In [1423]:
%%time
# Cria o classificador (tabela de probabilidade) com base no conjunto de treinamento
classificador = nltk.NaiveBayesClassifier.train(base_final)

In [1424]:
# Retorna as classes da base de dados (positivo, negativo, neutro)
print(classificador.labels())

In [1425]:
# Retorna os 10 atributos mais significativos
print(classificador.show_most_informative_features(10))

### 3.2 Testando o classificador

Para testar o classificador, iremos utilizar uma frase para verificar a classificação realizada, uma vez que a base de dados já foi pré-processada e treinada com a base de dados para treino.

Para que a nova frase seja classificada temos que realizar toda a fase de pré-processamento. Como criamos a função ```estruturar_dados``` podemos simplesmente utilizá-la :)

In [1427]:
base_teste[0]

In [1428]:
frase_teste = estruturar_dados([base_teste[0]])
print(frase_teste)


In [1429]:
print(frase_teste[0][0])
caracteristica_teste = frase_teste[0][0]



Quando chamamos o método ```classificador.classify``` com o parâmetro ```frase_teste```, o algoritmo classifica a frase como rótulo ```negativo```.

In [1431]:
# Realizar a classificação
print(classificador.classify(caracteristica_teste))


Para visualizar a distribuição de probabilidade utiliza-se o método ```prob_classify``` que mostra a porcentagem para cada uma das classes.

In [1433]:
# Retorna a classe e o valor da distribuição de probabilidade
distribuicao = classificador.prob_classify(caracteristica_teste)

# Para cada classe, verifica-se a probabilidade
for classe in distribuicao.samples():
    print('%s: %f' % (classe, distribuicao.prob(classe)))

## 4. Fase de teste do algoritmo Naive Bayes

Na etapa de teste, utiliza-se outro conjunto de dados, com o objetivo de testar o algoritmo de aprendizado de máquina com novas frases. Para tal, a base de dados deve conter frases diferentes da base de treinamento e sem a informação de sua classificação (positivo, negativo e neutro).

O algoritmo é executado novamente e o método ```classify.accuracy```  mostra a proximidade entre o percentual obtido experimentalmente e o valor verdadeiro da classificação das frases.

Passamos como parâmetro o classificador, que nada mais é do que uma tabela de probabilidade que o Naive Bayes gera, e a base de dados para teste.

In [1435]:
frases_teste = estruturar_dados(base_teste)

In [1436]:
print(frases_teste[:3])

O método ```classify.accuracy``` funciona da seguinte forma: ele submete todos os registros da base de teste ao classificador e o classificador gera uma classificação para cada um dos registros. Após isso, realiza uma comparação entre a classificação gerada e a classifcação que já tinha sido realizada na base de dados, e devolve a taxa de acerto.

In [1438]:
print(nltk.classify.accuracy(classificador, frases_teste))

Esse resultado, possibilita realizar algumas análises, tais como:

1. **Análise de cenáro**: O percentual de acerto do algoritmo é bom ou ruim? 
2. **Análise do numero de classes**: A probabilidade mínima aceitavel para o algoritmo ser melhor do que usar a aleatoriedade é que a acurácia seja no mínimo maior que 33.33%, ou seja, dividir 100% pela quantidade de classes.
3. **ZeroRules**: Nessa análise, estamos comparando o resultado obtido pelo sistema, com o método de classificar uma frase de acordo com a classe que possui maior quantidade de frases na base de dados de treino e teste. Por exemplo, dividimos a classe com maior número de registros pelo total de registros na base de dados (```459/1374 = 33,40%```). Desta forma, conclui-se que o sistema apresenta mais acertos do que classificar todas as novas frases nessa classe.

In [1440]:
res = {'positivo' : 0, 'negativo' : 0, 'neutro' : 0}
total = 0
for (texto, classe) in base_teste:
    if classe == 'positivo':
        res[classe] += 1
    elif classe == 'negativo':
        res[classe] += 1
    elif classe == 'neutro':
        res[classe] += 1
    total += 1
print(res)

In [1441]:
print(res['negativo']/total)

## 5. Extra - Visualização de erros do algoritmo

É possível visualizar a classe já pré-classificada, a classe que o algoritmo classificou e a frase vinculada ao erro gerado.

Por exemplo: ```positivo negativo {'trabalh': False, ... , 'precis': True,'ingress': True, 'estrag': False,...}```. Essa saída nos diz qual a classe correta, ou seja, aquela que está na base de dados para teste é ```positivo```. O algoritmo classificou como ```negativo``` e a frase vinculada a classificação possui os radicais ```precis``` e ```ingress```.

Para identificar corretamente os acertos e erros podemos:

In [1443]:
erros =[]
for (frase, classe) in frases_teste:
    resultado = classificador.classify(frase)
    
    if resultado != classe:
        erros.append((classe, resultado, frase))
        
        

Desta forma, é possível verificar a porcentagem de erro e acerto realizado no conjunto de dados de teste.

In [1445]:
tamanho_base_teste = len(frases_teste)
quantida_erros = len(erros)

porcentagem_erros = (quantida_erros * 100) / tamanho_base_teste
porcentagem_acertos = 100 - porcentagem_erros

print("O algoritmo classificou {:.4}% das frases corretamente".format(porcentagem_erros))
print("O algoritmo classificou {:.4}% das frases incorretamente".format(porcentagem_acertos))



### 5.1 Matriz de confusão

Outra forma de visualização de erros e acertos, é a construção da matriz de confusão:

- Primeiramente importamos o pacote do ```nltk``` com a função da matriz de confusão.
- Criamos duas listas, uma com o resultado ```esperado``` e outra com o resultado ```previsto```, sendo que o esperado é o resultado desejado como resposta, e o previsto é de fato a classificação realizada.
- A saída do algoritmo mostra uma matriz com linhas que represantam o esperado e colunas que representam o previsto.
- A diagonal principal indica a quantidade de acertos de cada classe.

Esses resultados apresentam as classes que o algoritmo está mais errando e/ou acertando, sendo assim, é possível tomar decisões para melhorar a implementação da base de dados, bem como alguns parâmetros de otimização do algoritmo.

In [1447]:
from nltk.metrics import ConfusionMatrix

In [1448]:
esperado = []
previsto = []
for (frase, classe) in frases_teste:
    resultado = classificador.classify(frase)
    previsto.append(resultado)
    esperado.append(classe)

matriz = ConfusionMatrix(esperado, previsto)
print(matriz)




### 6. Salvar o modelo criado para realizar a análise de sentimento nos videos do Youtube

In [1450]:
import pickle

In [1451]:
def salvar_modelo(modelo, nome_arquivo):
    nome = str(nome_arquivo) + ".pickle"
    try:
        salvar_modelo = open(nome,"wb")
        pickle.dump(modelo, salvar_modelo)
        salvar_modelo.close()
        return True
    except Exception as e:
        return e

In [1452]:
if salvar_modelo(classificador,'naivebayes'):
    print("Modelo salvo para ser utilizado no futuro :)")
    

In [1453]:
print("Tempo total para executar esse notebook foi de {} segundos".format(time() - ti))

# Parte 2 - Analise de Sentimento

Esse notebook descreve o passo a passo para aplicar o classificador criado anteriormente para gerar a classificação dos comentários do Youtube em positivo, negativo ou neutro.

## 1. Carregar base do Youtube

In [1457]:
import pandas as pd

In [1458]:
dados_comentarios = pd.read_csv('todos_comentarios.csv', sep=';', encoding='utf-8')

In [1459]:
def carregar_dados(arquivo):
    dados = pd.read_csv(arquivo, sep=';', encoding='utf-8')
    
    base = []
    for i in range(len(dados)):
        base.append((dados.textDisplay.loc[i], None))
    return base[1:]

In [1460]:
dados_comentarios = carregar_dados('todos_comentarios.csv')

In [1461]:
dados_comentarios

In [1462]:
print(len(dados_comentarios))

## 2. Carregar classificador Naive Bayes

In [1464]:
import pickle

In [1465]:
def carregar_modelo(nome_arquivo):
    nome = str(nome_arquivo) + '.pickle'
    try:
        arquivo = open(nome, "rb")
        modelo = pickle.load(arquivo)
        arquivo.close()
        return modelo
    except Exception as e:
        return e

In [1466]:
classificador = carregar_modelo('naivebayes')

In [1467]:
classificador

## 3. Realizando a classificação para um comentário

Para que a nova frase seja classificada os seguintes passos devem ser realizados:
- Remover as stopwords
- Aplicar o Stemming
- Recuperar as características
- Realizar a classificação

Para facilitar o uso dessas funções, elas foram adicionadas em um arquivo chamda ```aula9_utils.py```. Para utiliza-las, basta importar o arquivo.

In [1469]:
import nltk

In [1470]:
from importlib import reload

In [1471]:
import aula9_utils

In [1472]:
reload(aula9_utils)

In [1473]:
dados_comentarios[0]

In [1474]:
frase = aula9_utils.estruturar_dados([dados_comentarios[0]])

In [1475]:
frase

In [1476]:
frase[0][0]

In [1477]:
resultado = aula9_utils.classificar_texto(classificador, frase[0][0])

In [1478]:
resultado

## 4. Realizando a classificação para TODOS comentários

In [1480]:
df_classificados = pd.DataFrame(columns=['texto', 'classe', 'prob_pos', 'prob_neg', 'prob_neu', 'emoticon'])
df_classificados

In [1481]:
from time import time

In [1482]:
print(len(dados_comentarios))

Para classificar mais de 167mil comentários irá demorar cerca de 2 horas e 30 minutos, dependendo da sua máquina. O arquivo `todos_comentarios_classificados.csv` contém todos os comentários classificados.

A linha comentada executa a classificação para todos.

In [1484]:
ti = time()

#for i in range(len(dados_comentarios)):
for i in range(10000):
    if i % 1000 == 0:
        print(i, end=" ")
    
    frase = aula9_utils.estruturar_dados([dados_comentarios[i]])
    resultado = aula9_utils.classificar_texto(classificador, frase[0][0])
    
    if resultado['classe'] == 'positivo':
        emoticon = u"\U0001F642"
    elif resultado['classe'] == 'neutro':
        emoticon = u"\U0001F610"
    elif resultado['classe'] == 'negativo':
        emoticon = u"\U0001F641"
    
    df_classificados.loc[i] = [
        dados_comentarios[i][0], 
        resultado['classe'],
        resultado['positivo'],
        resultado['neutro'],
        resultado['negativo'],
        emoticon]
tf = time() - ti
print("\nTempo total {} em segundos".format(tf))

In [1485]:
pd.set_option('display.max_colwidth', -1)

In [1486]:
df_classificados.head()

In [1487]:
%%time
df_classificados.to_csv('comentarios_classificados.csv', sep=';', header=True, index=False, encoding='utf-8')