# Library roulette

<img src="images/python-logo.jpg" alt="Python" style="width: 300px;"/>

Neste notebook vão poder ver algumas outras libraries e funcionalidades do Python, sem uma explicação detalhada sobre cada uma.
O principal objectivo é despertar a vossa curiosidade e servir como ponto de partida para o estudo autónomo.

## Data / hora

In [1]:
from datetime import date, datetime

In [2]:
date.today()

datetime.date(2020, 4, 11)

In [3]:
datetime.now()

datetime.datetime(2020, 4, 11, 15, 30, 44, 313691)

In [4]:
datetime.now().strftime("%Y-%m-%d %H:%M:%S")

'2020-04-11 15:30:44'

In [5]:
date_str = "2020...04...10"

actual_datetime = datetime.strptime(date_str, "%Y...%m...%d")

actual_datetime.date()

datetime.date(2020, 4, 10)

### Com o Pandas:

In [6]:
import pandas as pd

In [7]:
idx = pd.date_range(start='2020-04-01', end='2020-04-10')

df = pd.DataFrame(index=idx)

df['values'] = list(range(10))

In [8]:
df

Unnamed: 0,values
2020-04-01,0
2020-04-02,1
2020-04-03,2
2020-04-04,3
2020-04-05,4
2020-04-06,5
2020-04-07,6
2020-04-08,7
2020-04-09,8
2020-04-10,9


In [9]:
df.loc['2020-04-03':'2020-04-07']

Unnamed: 0,values
2020-04-03,2
2020-04-04,3
2020-04-05,4
2020-04-06,5
2020-04-07,6


## Números aleatórios

In [10]:
import numpy as np

In [11]:
np.random.random()

0.35557986684032716

In [12]:
for i in range(5):
    print(np.random.randint(0, 10))

3
9
6
4
9


In [13]:
np.random.random((3, 3))

array([[0.90417889, 0.8208397 , 0.80441206],
       [0.95683709, 0.98999711, 0.77039648],
       [0.43190062, 0.60840991, 0.03101777]])

## Input

In [14]:
x = input("Escreva um número: ")

Escreva um número: 


In [15]:
print(x)




## Web Scraping

Permite extrair dados de páginas web. Vamos "scrapar" a página inicial da Wikipedia:

In [16]:
from bs4 import BeautifulSoup
import requests

In [17]:
# Scraping da página inicial da Wikipedia
webpage = requests.get('http://en.wikipedia.org/wiki/Main_Page')

In [18]:
webpage.text[0:100]

'\n<!DOCTYPE html>\n<html class="client-nojs" lang="en" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<titl'

In [19]:
soup = BeautifulSoup(webpage.text, 'html.parser')

In [20]:
print(soup.get_text()[0:1000])






Wikipedia, the free encyclopedia
































Main Page

From Wikipedia, the free encyclopedia


Jump to navigation
Jump to search


Welcome to Wikipedia,
the free encyclopedia that anyone can edit.
6,055,174 articles in English


Arts
Biography
Geography
History
Mathematics
Science
Society
Technology
All portals





From today's featured article

Apollo 13's damaged service module

Apollo 13 (April 11–17, 1970) was the seventh crewed mission in the Apollo space program and the third meant to land on the Moon. The landing was aborted after an oxygen tank in the service module (pictured) failed two days into the mission. Apollo 13 was commanded by Jim Lovell with Jack Swigert as command module (CM) pilot and Fred Haise as lunar module (LM) pilot. Swigert was a late replacement for Ken Mattingly, who was grounded after exposure to rubella. After the explosion, the CM's systems had to be shut down to conserve resources, forcing the crew to transfer to the LM as a 

## Regular Expressions

Permite procurar expressões em texto. Vamos encontrar todos os números numa sequência de caractéres:

In [21]:
import re

In [22]:
lixo = "srgçsouurhoshgoru151355sngoiroinsogn9784sfniosenroisnefinio098120398ksdfonsofdnos123alnda"

In [23]:
re.findall("[0-9]+", lixo)

['151355', '9784', '098120398', '123']

Agora vamos verificar se um email é válido:

In [24]:
expressão_email = "^([a-zA-Z0-9_\-\.]+)@([a-zA-Z0-9_\-\.]+)\.([a-zA-Z]{2,5})$"

email_certo = "john.doe@gmail.com"
email_errado = "#$john_at_gmail.com"

if re.match(expressão_email, email_certo):
    print(f'{email_certo} : é um email válido.')
else:
    print(f'{email_certo} : é um email inválido.')
    
if re.match(expressão_email, email_errado):
    print(f'{email_errado} : é um email válido.')
else:
    print(f'{email_errado} : é um email inválido.')
 

john.doe@gmail.com : é um email válido.
#$john_at_gmail.com : é um email inválido.


## Time / Multiprocessing

Vamos ver quanto tempo demora um loop com um grande número de iterações. Depois vamos parallelizar este loop, e comparar o tempo.

In [25]:
import time
import multiprocessing

In [26]:
ITERACOES = 10000000

def quadrado(x):
    return x ** 2

start = time.time()

quadrados = []
for i in range(ITERACOES):
    quadrados.append(quadrado(i))

end = time.time()
print(f'Sequencialmente, demorou {end-start} segundos.')
    

Sequencialmente, demorou 4.973249435424805 segundos.


In [27]:
start = time.time()

pool = multiprocessing.Pool() 
pool = multiprocessing.Pool(processes=4) 
quadrados = pool.map(quadrado, range(ITERACOES))

end = time.time()

print(f'Em paralelo, demorou {end-start} segundos.')

Em paralelo, demorou 3.572565793991089 segundos.


In [28]:
quadrados[0:10]  # a ordem de operações não é preservada como no loop!

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

## Algumas outras...

* os: operações com o sistema operativo, listar ficheiros em diretórias, etc;
* pickle: guardar e carregar objectos;
* json: serialização de dados no formato JSON (muito importante!);
* Pillow: processamento de imagens;
* pygame: programação de jogos;
* sqlalchemy: conexão com bases de dados.

Recomendação pessoal do instrutor: **streamlit** - library para criar facilmente pequenas apps para data science/machine learning (https://www.streamlit.io/)