# Aprendendo python - Unidade 3

## Classes e Métodos em python

ABSTRAÇÃO - CLASSES E OBJETOS

objetos são os componentes de um programa OO. Um programa que usa a tecnologia OO é basicamente uma coleção de objetos. Uma classe é um modelo para um objeto. Podemos considerar uma classe uma forma de organizar os dados (de um objeto) e seus comportamentos (PSF, 2020a). Vamos pensar na construção de uma casa: antes do "objeto casa" existir, um arquiteto fez a planta, determinando tudo que deveria fazer parte daquele objeto. Portanto, a classe é o modelo e o objeto é uma instância. Entende-se por instância a existência física, em memória, do objeto.

ATRIBUTOS

Os dados armazenados em um objeto representam o estado do objeto. Na terminologia de programação OO, esses dados são chamados de atributos. Os atributos contêm as informações que diferenciam os vários objetos – os funcionários, neste caso.

MÉTODOS

O comportamento de um objeto representa o que este pode fazer. Nas linguagens procedurais, o comportamento é definido por procedimentos, funções e sub-rotinas. Na terminologia de programação OO, esses comportamentos estão contidos nos métodos, aos quais você envia uma mensagem para invocá-los. 

ENCAPSULAMENTO

O ato de combinar os atributos e métodos na mesma entidade é, na linguagem OO, chamado de encapsulamento (Weisfeld, 2013), termo que também aparece na prática de tornar atributos privados, quando estes são encapsulados em métodos para guardar e acessar seus valores.

HERANÇA

Por meio desse mecanismo, é possível fazer o reúso de código, criando soluções mais organizadas. A herança permite que uma classe herde os atributos e métodos de outra classe. Observe, na Figura 3.2, que as classes funcionário e cliente herdam os atributos da classe pessoa. A classe pessoa pode ser chamada de classe-pai, classe-base, superclasse, ancestral; por sua vez, as classes derivadas são as classes-filhas, subclasses.

<img src="./diagrama01.png"/>

POLIFORMISMO

Polimorfismo é uma palavra grega que, literalmente, significa muitas formas. Embora o polimorfismo esteja fortemente associado à herança, é frequentemente citado separadamente como uma das vantagens mais poderosas das tecnologias orientadas a objetos (WEISFELD, 2013). Quando uma mensagem é enviada para um objeto, este deve ter um método definido para responder a essa mensagem. Em uma hierarquia de herança, todas as subclasses herdam as interfaces de sua superclasse. No entanto, como toda subclasse é uma entidade separada, cada uma delas pode exigir uma resposta separada para a mesma mensagem.

In [1]:
class PrimeiraClasse:
    def imprimir_mensagem(self, nome):
        print(f"Olá {nome}, seja bem vindo!")

pessoa1 = PrimeiraClasse()
pessoa1.imprimir_mensagem('Ryan')

Olá Ryan, seja bem vindo!


In [2]:
class Calculadora:

    def somar(self, n1, n2):
        return n1 + n2

    def subtrair(self, n1, n2):
        return n1 - n2

    def multiplicar(self, n1, n2):
        return n1 * n2

    def dividir(self, n1, n2):
        return n1 / n2
    
    def dividir_resto(self, n1, n2):
        return n1 % n2

calc = Calculadora()

print('Soma:', calc.somar(4, 3))
print('Subtração:', calc.subtrair(13, 7))
print('Multiplicação:', calc.multiplicar(2, 4))
print('Divisão:', calc.dividir(16, 5))
print('Resto da divisão:', calc.dividir_resto(7, 3))

Soma: 7
Subtração: 6
Multiplicação: 8
Divisão: 3.2
Resto da divisão: 1


CONSTRUTOR DA CLASSE __INIT__()

Até o momento criamos classes com métodos, os quais utilizam variáveis locais. E os atributos das classes?
Nesta seção, vamos aprender a criar e utilizar atributos de instância, também chamadas de variáveis de instâncias. Esse tipo de atributo é capaz de receber um valor diferente para cada objeto. Um atributo de instância é uma variável precedida com o parâmetro self, ou seja, a sintaxe para criar e utilizar é self.nome_atributo.

In [3]:
class Televisao:
    def __init__(self):
        self.volume = 10
    
    def diminuir_volume(self, v):
        self.volume = self.volume - v
    
    def aumentar_volume(self, v):
        if self.volume < 10:
            self.volume = self.volume + v
        else:
            print("volume ja está no máximo!")

tv = Televisao()
print("Volume ao ligar a tv = ", tv.volume)
tv.aumentar_volume(3)
print("Volume atual ", tv.volume)
tv.diminuir_volume(5)
print("Volume atual ", tv.volume)

Volume ao ligar a tv =  10
volume ja está no máximo!
Volume atual  10
Volume atual  5


VARIÁVEIS E MÉTODOS PRIVADOS

Em linguagens de programação OO, como Java e C#, as classes, os atributos e os métodos são acompanhados de modificadores de acesso, que podem ser: public, private e protected. Em Python, não existem modificadores de acesso e todos os recursos são públicos. Para simbolizar que um atributo ou método é privado, por convenção, usa-se um sublinhado "_"  antes do nome; por exemplo, _cpf, _calcular_desconto() 

Conceitualmente, dado que um atributo é privado, ele só pode ser acessado por membros da própria classe. Portanto, ao declarar um atributo privado, precisamos de métodos que acessem e recuperam os valores ali guardados. Em Python, além de métodos para este fim, um atributo privado pode ser acessado por decorators.

In [6]:
class ContaCorrente:
    def __init__(self):
        self.saldo = None
    
    def depositar(self, valor):
        self._saldo += valor
    
    def sacar(self, valor):
        self._saldo -= valor

    def consultarSaldo(self):
        return self._saldo

In [None]:
class Pessoa:
    def __init__(self):
        self.cpf = None
        self.nome = None
        self.endereco = None

class Funcionario(Pessoa):
    def __init__(self):
        self.matricula = None
        self.salario = None
        self.senha = None
    
    def bater_ponto(self):
        
        pass
    
    def fazer_login(self):
        
        pass

class Cliente(Pessoa):
    def __init__(self):
        self.codigo = None
        self.data_cadastro = None

    def realizar_cadastro():
        
        pass

    def fazer_compra(self):
        
        pass
    
    def pagar_conta(self):
        
        pass

#Programa


    

## Bibliotecas e modulos em python

MÓDULOS E BIBLIOTECAS EM PYTHON

Uma opção para organizar o código é implementar funções, contexto em que cada bloco passa a ser responsável por uma determinada funcionalidade. Outra forma é utilizar a orientação a objetos e criar classes que encapsulam as características e os comportamentos de um determinado objeto. Conseguimos utilizar ambas as técnicas para melhorar o código, mas, ainda assim, estamos falando de toda a solução agrupada em um arquivo Python (.py).

Para utilizar um módulo é preciso importá-lo para o arquivo. Essa importação pode ser feita de maneiras distintas:

* import moduloXXText

* import moduloXX as apelido

* from moduloXX import itemA, itemB

~~~~python
import math

math.sqrt(25)
math.log2(1024)
math.cos(45)

import math as m

m.sqrt(25)
m.log2(1024)
m.cos(45)

from math import sqrt, log2, cos

sqrt(25)
log2(1024)
cos(45)

CLASSIFICAÇÃO DOS MÓDULOS (BIBLIOTECAS)

Podemos classificar os módulos (bibliotecas) em três categorias, cada uma das quais vamos estudar:

* Módulos built-in: embutidos no interpretador.
* Módulos de terceiros: criados por terceiros e disponibilizados via PyPI.
* Módulos próprios: criados pelo desenvolvedor.

MÓDULOS BUILT-IN

Ao instalar o interpretador Python, também é feita a instalação de uma biblioteca de módulos, que pode variar de um sistema operacional para outro.

MÓDULO RANDOM

Random é um módulo built-in usado para criar número aleatórios. Vamos explorar as funções:

* random.randint(a, b): retorna um valor inteiro aleatório, de modo que esse número esteja entre a, b.
* random.choice(seq): extrai um valor de forma aleatória de uma certa sequência.
* random.sample(population, k): retorna uma lista com k elementos, extraídos da população.

In [1]:
import random

print(random.randint(0, 100))
print(random.choice([1, 10, -1, 100]))
print(random.sample(range(100000), k=12))

31
10
[65251, 52388, 16946, 48344, 24898, 44606, 53650, 78937, 10640, 31081, 9537, 27853]


MÓDULO OS

OS é um módulo built-in usado para executar comandos no sistema operacional. Vamos explorar as funções:

* os.getcwd(): retorna uma string com o caminho do diretório de trabalho.
* os.listdir(path='.'): retorna uma lista com todas as entradas de um diretório. Se não for especificado um caminho, então a busca é realizada em outro diretório de trabalho.
* os.cpu_count(): retorna um inteiro com o número de CPUs do sistema.
* os.getlogin(): retorna o nome do usário logado.
* os.getenv(key): retorna uma string com o conteúdo de uma variável de ambiente especificada na key.
* os.getpid(): retorna o id do processo atual.

In [2]:
import os

os.getcwd()
os.listdir()
os.cpu_count()
os.getlogin()
os.getenv(key='path')
os.getpid()

9224

MÓDULO RE

O módulo re (regular expression) fornece funções para busca de padrões em um texto. Uma expressão regular especifica um conjunto de strings que corresponde a ela. As funções neste módulo permitem verificar se uma determinada string corresponde a uma determinada expressão regular. Essa técnica de programação é utilizada em diversas linguagens de programação, pois a construção de re depende do conhecimento de padrões. Vamos explorar as funções:

* re.search(pattern, string, flags=0): varre a string procurando o primeiro local onde o padrão de expressão regular produz uma correspondência e o retorna. Retorna None se nenhuma correspondência é achada.
* re.match(pattern, string, flags=0): procura por um padrão no começo da string. Retorna None se a sequência não corresponder ao padrão.
* re.split(pattern, string, maxsplit=0, flags=0): divide uma string pelas ocorrências do padrão.

Para entendermos o funcionamento da expressão regular, vamos considerar um cenário onde temos um nome de arquivo com a data: meuArquivo_20-01-2020.py. Nosso objetivo é guardar a parte textual do nome em uma variável para a usarmos posteriormente. Vamos utilizar os três métodos para fazer essa separação. O search() faz a procura em toda string, o match() faz a procura somente no começo (razão pela qual, portanto, também encontrará neste caso) e o split() faz a transformação em uma lista. Como queremos somente a parte textual, pegamos a posição 0 da lista.

In [3]:
import re

string = 'meuArquivo_20-01-2020.py'
padrao = "[a-zA-Z]*"

texto1 = re.search(padrao, string).group()
texto2 = re.match(padrao, string).group()
texto3 = re.split("_", string)[0]

print(texto1)
print(texto2)
print(texto3)

meuArquivo
meuArquivo
meuArquivo


Na linha 4, da entrada 6, construímos uma expressão regular para buscar por sequências de letras maiúsculas e minúsculas [a-zA-Z], que pode variar de tamanho 0 até N (*). Nas linhas 6 e 7 usamos esse padrão para fazer a procura na string. Ambas as funções conseguiram encontrar; e, então, usamos a função group() da re para capturar o resultado. Na linha 8, usamos o padrão "_" como a marcação de onde cortar a string, o que resulta em uma lista com dois valores – como o texto é a primeira parte, capturamos essa posição com o [0].

MÓDULO DATETIME

Trabalhar com datas é um desafio nas mais diversas linguagens de programação. Em Python há um módulo built-in capaz de lidar com datas e horas. O módulo datetime fornece classes para manipular datas e horas. Uma vez que esse módulo possui classes, então a sintaxe para acessar os métodos deve ser algo similar a: modulo.classe.metodo(). Dada a diversa quantidade de possibilidades de se trabalhar com esse módulo, vamos ver um pouco das classes datetime e timedelta.

In [4]:
import datetime as dt

# Operações com data e hora
hoje = dt.datetime.today()
ontem = hoje - dt.timedelta(days=1)
uma_semana_atras = hoje - dt.timedelta(weeks=1)

agora = dt.datetime.now()
duas_horas_atras = agora - dt.timedelta(hours=2)

# Formatação
hoje_formatado = dt.datetime.strftime(hoje, "%d-%m-%Y") #https://docs.python.org/3/library/datetime.html#strftime-strptime-behavior
ontem_formatado = dt.datetime.strftime(ontem, "%d de %B de %Y")

# Converção de string para data
data_string = '11/06/2019 15:30'
data_dt = dt.datetime.strptime(data_string, "%d/%m/%Y %H:%M")

Na entrada 7, usamos algumas funcionalidades disponíveis no módulo datetime. Repare que fizemos a importação com a utilização do apelido de dt, prática essa que é comum para nomes grandes.

Linha 4: usamos o método today() da classe datetime para capturar a data e a hora do sistema.

Linha 5: usamos a classe timedelta para subtrair 1 dia de uma data específica.

Linha 6: usamos a classe timedelta para subtrair 1 semana de uma data específica.

Linha 8: usamos o método now() da classe datetime para captura a data e hora do sistema.

Linha 9: usamos a classe timedelta para subtrair 2 horas de uma data específica.

Linhas 12 e 13: usamos o método strftime() da classe datetime para formatar a aparência de uma data específica. [Acesse o endereço https://bit.ly/2E33mzR para verificar as possibilidades de formatação.]

Linha 17: usamos o método strptime() da classe datetime, para converter uma string em um objeto do tipo datetime. Essa transformação é interessante, pois habilita as operações que vimos.

MÓDULOS DE TERCEIROS

Para utilizar uma biblioteca do repositório PyPI, é preciso instalá-la. Para isso, abra um terminal no sistema operacional e digite: pip install biblioteca [biblioteca é o nome do pacote que deseja instalar. Por exemplo: pip install numpy.]

No dia a dia, exitem bibliotecas que têm sido amplamente utilizadas, como as para tratamento e visualização de dados, para implementações de inteligência artificial (deep learning e machine learning), para tratamento de imagens, para conexão com banco de dados, dentre outras. Veja algumas a seguir:

**Bibliotecas para tratamento de imagens**

Pillow: esta biblioteca oferece amplo suporte aos formatos de arquivo, uma representação interna eficiente e recursos de processamento de imagem bastante poderosos.

OpenCV Python: é uma biblioteca de código aberto licenciada por BSD que inclui várias centenas de algoritmos de visão computacional.

Luminoth: é um kit de ferramentas de código aberto para visão computacional. Atualmente, atua com a detecção de objetos, mas a ideia é expandi-la.

Mahotas: é uma biblioteca de algoritmos rápidos de visão computacional (todos implementados em C++ para ganhar velocidade) que opera com matrizes NumPy.

**Bibliotecas para visualização de dados**

Matplotlib: é uma biblioteca abrangente para criar visualizações estáticas, animadas e interativas em Python.

Bokeh: é uma biblioteca de visualização interativa para navegadores modernos. Oferece interatividade de alto desempenho em conjuntos de dados grandes ou de streaming.

Seaborn: é uma biblioteca para criar gráficos estatísticos em Python.

Altair: é uma biblioteca declarativa de visualização estatística para Python.

**Bibliotecas para tratamento de dados**

Pandas: é um pacote Python que fornece estruturas de dados rápidas, flexíveis e expressivas, projetadas para facilitar o trabalho com dados estruturados (em forma de tabela).

NumPy: além de seus óbvios usos científicos, a NumPy também pode ser usada como um eficiente recipiente multidimensional de dados genéricos.

Pyspark: Spark é um sistema de computação em cluster rápido e geral para Big Data.

Pingouin: é um pacote estatístico Python baseado em Pandas.

**Bibliotecas para tratamento de textos**

Punctuation: esta é uma biblioteca Python que removerá toda a pontuação em uma string.

NLTK: o Natural Language Toolkit é um pacote Python para processamento de linguagem natural.

FlashText: este módulo pode ser usado para substituir palavras-chave em frases ou extraí-las.

TextBlob: é uma biblioteca Python para processamento de dados textuais.

**Internet, rede e cloud**

Requests: permite que você envie solicitações HTTP/1.1 com extrema facilidade. Não há necessidade de adicionar manualmente queries de consulta aos seus URLs ou de codificar os dados PUT e POST: basta usar o método JSON.

BeautifulSoup: é uma biblioteca que facilita a captura de informações de páginas da web.

Paramiko: é uma biblioteca para fazer conexões SSH2 (cliente ou servidor). A ênfase está no uso do SSH2 como uma alternativa ao SSL para fazer conexões seguras entre scripts Python.

s3fs: é uma interface de arquivos Python para S3 (Amazon Simple Storage Service).

**Bibliotecas para acesso a bancos de dados**

mysql-connector-python: permite que programas em Python acessem bancos de dados MySQL.

cx-Oracle: permite que programas em Python acessem bancos de dados Oracle.

psycopg2: permite que programas em Python acessem bancos de dados PostgreSQL.

SQLAlchemy: fornece um conjunto completo de padrões de persistência, projetados para acesso eficiente e de alto desempenho a diversos banco de dados, adaptado para uma linguagem de domínio simples e Python.

**Deep learning - Machine learning**

Keras: é uma biblioteca de rede neural profunda de código aberto.

TensorFlow: é uma plataforma de código aberto de ponta a ponta para aprendizado de máquina, desenvolvido originalmente pela Google.

PyTorch: é um pacote Python que fornece dois recursos de alto nível: i) computação de tensor (como NumPy) com forte aceleração de GPU; e ii) redes neurais profundas.

Scikit Learn: módulo Python para aprendizado de máquina construído sobre o SciPy (SciPy é um software de código aberto para matemática, ciências e engenharia).

**Biblioteca para jogos - PyGame**

PyGame: é uma biblioteca para a construção de aplicações gráficas e aplicação multimídia, utilizada para desenvolver jogos.

BIBLIOTECA REQUESTS

A biblioteca requests habilita funcionalidades do procotolo HTTP, como o get e o post. Dentre seus métodos, o get() é o responsável por capturar informação da internet. A documentação sobre ela está disponível no endereço https://requests.readthedocs.io/pt_BR/latest/. Essa biblioteca foi construída com o intuito de substituir o módulo urllib2, que demanda muito trabalho para obter os resultados. O método get() permite que você informe a URL de que deseja obter informação. Sua sintaxe é: requests.get('https://XXXXXXX'). Para outros parâmetros dessa função, como autenticação, cabeçalhos, etc., consulte a documentação.

In [7]:
import requests

info = requests.get('https://api.github.com/events')
info.headers

{'Server': 'GitHub.com', 'Date': 'Tue, 14 Mar 2023 22:39:48 GMT', 'Content-Type': 'application/json; charset=utf-8', 'Cache-Control': 'public, max-age=60, s-maxage=60', 'Vary': 'Accept, Accept-Encoding, Accept, X-Requested-With', 'ETag': 'W/"5572562ea23fe88a170e00bf19fecfc91501fe957d50117e5d1aaa4184baa1a1"', 'Last-Modified': 'Tue, 14 Mar 2023 22:34:48 GMT', 'X-Poll-Interval': '60', 'X-GitHub-Media-Type': 'github.v3; format=json', 'Link': '<https://api.github.com/events?page=2>; rel="next", <https://api.github.com/events?page=10>; rel="last"', 'x-github-api-version-selected': '2022-11-28', 'Access-Control-Expose-Headers': 'ETag, Link, Location, Retry-After, X-GitHub-OTP, X-RateLimit-Limit, X-RateLimit-Remaining, X-RateLimit-Used, X-RateLimit-Resource, X-RateLimit-Reset, X-OAuth-Scopes, X-Accepted-OAuth-Scopes, X-Poll-Interval, X-GitHub-Media-Type, X-GitHub-SSO, X-GitHub-Request-Id, Deprecation, Sunset', 'Access-Control-Allow-Origin': '*', 'Strict-Transport-Security': 'max-age=31536000; 

In [10]:
print(info.headers['date']) # Data de extração
print(info.headers['server']) # Servidor de origem
print(info.encoding) # Encoding do texto
print(info.headers['last-modified']) # Data da última modificação da informação

Tue, 14 Mar 2023 22:39:48 GMT
GitHub.com
utf-8
Tue, 14 Mar 2023 22:34:48 GMT


In [11]:
texto_str = info.text
print(type(texto_str))
texto_str[:100] # exibe somente os 100 primeiros caracteres

<class 'str'>


'[{"id":"27723106677","type":"CreateEvent","actor":{"id":19557880,"login":"begonaguereca","display_lo'

In [12]:
texto_json = info.json()
print(type(texto_json))
texto_json[0]

<class 'list'>


{'id': '27723106677',
 'type': 'CreateEvent',
 'actor': {'id': 19557880,
  'login': 'begonaguereca',
  'display_login': 'begonaguereca',
  'gravatar_id': '',
  'url': 'https://api.github.com/users/begonaguereca',
  'avatar_url': 'https://avatars.githubusercontent.com/u/19557880?'},
 'repo': {'id': 371111447,
  'name': 'valet-testing-integration/integration-tests-target',
  'url': 'https://api.github.com/repos/valet-testing-integration/integration-tests-target'},
 'payload': {'ref': 'convert-integration-tests-designer-freestyle-elephant-to-actions-20230314-223446',
  'ref_type': 'branch',
  'master_branch': 'main',
  'description': None,
  'pusher_type': 'user'},
 'public': True,
 'created_at': '2023-03-14T22:34:48Z',
 'org': {'id': 84097682,
  'login': 'valet-testing-integration',
  'gravatar_id': '',
  'url': 'https://api.github.com/orgs/valet-testing-integration',
  'avatar_url': 'https://avatars.githubusercontent.com/u/84097682?'}}

In [21]:
# primeiro passo extrair as informações com o request utilizando o método json().

import requests
import datetime as dt

jogos = requests.get('http://worldcup.sfg.io/matches').json()
print(type(jogos))

# segundo passo: percorrer cada dicionário da lista (ou seja, cada jogo) extraindo as informações

info_relatorio = []
file = open('relatorio_jogos.txt', "w") # cria um arquivo txt na pasta em que está trabalhando.

for jogo in jogos:
    data = jogo['datetime'] # extrai a data
    data = dt.datetime.strptime(data, "%Y-%m-%dT%H:%M:%SZ") # converte de string para data
    data = data.strftime("%d/%m/%Y") # formata
    
    nome_time1 = jogo['home_team_country']
    nome_time2 = jogo['away_team_country']

    gols_time1 = jogo['home_team']['goals']
    gols_time2 = jogo['away_team']['goals']
    
    linha = f"({data}) - {nome_time1} x {nome_time2} = {gols_time1} a {gols_time2}"
    file.write(linha + '\n') # escreve a linha no arquivo txt
    info_relatorio.append(linha)

file.close() # é preciso fechar o arquivo
info_relatorio[:5]

JSONDecodeError: Expecting value: line 1 column 1 (char 0)

MATPLOTLIB

Matplotlib é uma biblioteca com funcionalidades para criar gráficos, cuja documentação está disponível no endereço https://matplotlib.org/.  É composta por uma série de exemplos. Vamos utilizar a interface Pyplot para criar um gráfico simples baseado nas informações que salvamos sobre os jogos da Copa do Mundo de Futebol Feminino de 2019.

In [20]:
# ler o arquivo salvo
file = open('relatorio_jogos.txt', 'r')
print('file = ', file, '\n')
info_relatorio = file.readlines()
file.close()

print("linha 1 = ", info_relatorio[0])

# Extrair somente a parta 'dd/mm' da linha
datas = [linha[1:6] for linha in info_relatorio]
print(sorted(datas))

datas_count = [(data, datas.count(data)) for data in set(datas)]
print(datas_count)

%matplotlib inline
import matplotlib.pyplot as plt

eixo_x = datas_count.keys()
eixo_y = datas_count.values()

plt.figure(figsize=(15, 5))
plt.xlabel('Dia do mês')
plt.ylabel('Quantidade de jogos')
plt.xticks(rotation=45)

plt.bar(eixo_x, eixo_y)

plt.show()

FileNotFoundError: [Errno 2] No such file or directory: 'relatorio_jogos.txt'

### Desafio 

No Brasil, existe um órgão responsável por gerar as estatísticas da atividade econômica no país. Para tal tarefa, as atividades são classificadas em grupos; por exemplo, as atividades do grupo 262 referem-se à fabricação de equipamentos de informática e periféricos. "A CNAE, Classificação Nacional de Atividades Econômicas, é a classificação oficialmente adotada pelo Sistema Estatístico Nacional na produção de estatísticas por tipo de atividade econômica, e pela Administração Pública, na identificação da atividade econômica em cadastros e registros de pessoa jurídica." (API CNAE, 2017, [s.p.])

Como desenvolvedor em uma empresa de consultoria de software, você foi alocado em um projeto com base no qual o cliente deseja automatizar a extração dos dados do CNAE e gerar um relatório. Os dados estão disponíveis no endereço https://servicodados.ibge.gov.br/api/v2/cnae/classes. Você deve extraí-los e gerar as seguintes informações:

* Quantas atividades distintas estão registradas?
* Quantos grupos de atividades existem?
* Quantas atividades estão cadastradas em cada grupo?
* Qual grupo ou quais grupos possuem o maior número de atividades vinculadas?

RESOLUÇÃO

Para automatizar o processo de extração dos dados do CNAE e gerar o relatório, vamos ter de usar bibliotecas. Para fazer a extração dos dados do CNAE, podemos usar a biblioteca requests. Para responder às perguntas, vamos precisar manipular listas e dicionários. Então vamos começar pela extração.

In [3]:
import requests

dados = requests.get('https://servicodados.ibge.gov.br/api/v2/cnae/classes').json() #resulta em uma lista de dicionarios
dados[0]

{'id': '01113',
 'descricao': 'CULTIVO DE CEREAIS',
 'grupo': {'id': '011',
  'descricao': 'PRODUÇÃO DE LAVOURAS TEMPORÁRIAS',
  'divisao': {'id': '01',
   'descricao': 'AGRICULTURA, PECUÁRIA E SERVIÇOS RELACIONADOS',
   'secao': {'id': 'A',
    'descricao': 'AGRICULTURA, PECUÁRIA, PRODUÇÃO FLORESTAL, PESCA E AQÜICULTURA'}}},
 'observacoes': ['Esta classe compreende - o cultivo de alpiste, arroz, aveia, centeio, cevada, milho, milheto, painço, sorgo, trigo, trigo preto, triticale e outros cereais não especificados anteriormente',
  'Esta classe compreende ainda - o beneficiamento de cereais em estabelecimento agrícola, quando atividade complementar ao cultivo\r\n- a produção de sementes de cereais, quando atividade complementar ao cultivo',
  'Esta classe NÃO compreende - a produção de sementes certificadas dos cereais desta classe, inclusive modificadas geneticamente (01.41-5)\r\n- os serviços de preparação de terreno, cultivo e colheita realizados sob contrato (01.61-0)\r\n- o benefi

In [4]:
#quantidade distintas de atividades, basta saber o tamanho da lista.

qtde_atividades_distintas = len(dados)
print(qtde_atividades_distintas)

673


In [5]:
#criar uma lista dos grupos de atividades, extraindo a descricao

grupos = []
for registro in dados:
    grupos.append(registro['grupo']['descricao'])

grupos[:10] #exibe os 10 primeiros registros

['PRODUÇÃO DE LAVOURAS TEMPORÁRIAS',
 'PRODUÇÃO DE LAVOURAS TEMPORÁRIAS',
 'PRODUÇÃO DE LAVOURAS TEMPORÁRIAS',
 'PRODUÇÃO DE LAVOURAS TEMPORÁRIAS',
 'PRODUÇÃO DE LAVOURAS TEMPORÁRIAS',
 'PRODUÇÃO DE LAVOURAS TEMPORÁRIAS',
 'PRODUÇÃO DE LAVOURAS TEMPORÁRIAS',
 'HORTICULTURA E FLORICULTURA',
 'HORTICULTURA E FLORICULTURA',
 'EXTRAÇÃO DE MINERAIS METÁLICOS NÃO-FERROSOS']

In [7]:
#extraindo a quantidade de grupos de atividades
qtde_grupos_distintos = len(set(grupos)) # set cria uma estrutura de dados removendo as duplicações
print(qtde_grupos_distintos)

grupos_count = [(grupo, grupos.count(grupo)) for grupo in set(grupos)]
grupos_count[:5]

285


[('ATIVIDADES AUXILIARES DOS SEGUROS, DA PREVIDÊNCIA COMPLEMENTAR E DOS PLANOS DE SAÚDE',
  3),
 ('FABRICAÇÃO DE BRINQUEDOS E JOGOS RECREATIVOS', 1),
 ('EXTRAÇÃO DE MINÉRIO DE FERRO', 1),
 ('SEDES DE EMPRESAS E UNIDADES ADMINISTRATIVAS LOCAIS', 1),
 ('ARMAZENAMENTO, CARGA E DESCARGA', 2)]

In [9]:
#transformando a lista em dicionario
grupos_count = dict(grupos_count)
grupos_count

{'ATIVIDADES AUXILIARES DOS SEGUROS, DA PREVIDÊNCIA COMPLEMENTAR E DOS PLANOS DE SAÚDE': 3,
 'FABRICAÇÃO DE BRINQUEDOS E JOGOS RECREATIVOS': 1,
 'EXTRAÇÃO DE MINÉRIO DE FERRO': 1,
 'SEDES DE EMPRESAS E UNIDADES ADMINISTRATIVAS LOCAIS': 1,
 'ARMAZENAMENTO, CARGA E DESCARGA': 2,
 'EDUCAÇÃO INFANTIL E ENSINO FUNDAMENTAL': 3,
 'FABRICAÇÃO DE ARTEFATOS DE CONCRETO, CIMENTO, FIBROCIMENTO, GESSO E MATERIAIS SEMELHANTES': 1,
 'FABRICAÇÃO DE MÁQUINAS E EQUIPAMENTOS DE USO INDUSTRIAL ESPECÍFICO': 7,
 'ATIVIDADES IMOBILIÁRIAS POR CONTRATO OU COMISSÃO': 2,
 'TRANSPORTE RODOVIÁRIO DE PASSAGEIROS': 5,
 'COMÉRCIO ATACADISTA DE MÁQUINAS, APARELHOS E EQUIPAMENTOS, EXCETO DE TECNOLOGIAS DE INFORMAÇÃO E COMUNICAÇÃO': 6,
 'ATIVIDADES PROFISSIONAIS, CIENTÍFICAS E TÉCNICAS NÃO ESPECIFICADAS ANTERIORMENTE': 1,
 'FABRICAÇÃO E REFINO DE AÇÚCAR': 2,
 'FABRICAÇÃO DE PRODUTOS FARMACÊUTICOS': 3,
 'OUTROS TRANSPORTES AQUAVIÁRIOS': 2,
 'ATIVIDADES DE ASSOCIAÇÕES DE DEFESA DE DIREITOS SOCIAIS': 1,
 'ATIVIDADES DOS SE

In [11]:
# descobrindo quais grupos possuem mais atividades
valor_maximo = max(grupos_count.values())
grupos_mais_atividades = [chave for (chave, valor) in grupos_count.items() if valor == valor_maximo]
print(len(grupos_mais_atividades))
grupos_mais_atividades

1


['REPRESENTANTES COMERCIAIS E AGENTES DO COMÉRCIO, EXCETO DE VEÍCULOS AUTOMOTORES E MOTOCICLETAS']

In [12]:
import requests

from datetime import datetime


class ETL:
    def __init__(self):
        self.url = None

    def extract_cnae_data(self, url):
        self.url = url
        data_extracao = datetime.today().strftime("%Y/%m/%d - %H:%M:%S")
        # Faz extração
        dados = requests.get(self.url).json()
        
        # Extrai os grupos dos registros
        grupos = []
        for registro in dados:
            grupos.append(registro['grupo']['descricao'])

        # Cria uma lista de tuplas (grupo, quantidade_atividades)
        grupos_count = [(grupo, grupos.count(grupo)) for grupo in set(grupos)]
        grupos_count = dict(grupos_count)  # transforma a lista em dicionário

        valor_maximo = max(grupos_count.values())  # Captura o valor máximo de atividades
        # Gera uma lista com os grupos que possuem a quantidade máxima de atividades
        grupos_mais_atividades = [chave for (chave, valor) in grupos_count.items() if valor == valor_maximo]
        
        # informações
        qtde_atividades_distintas = len(dados)
        qtde_grupos_distintos = len(set(grupos))
        
        print(f"Dados extraídos em: {data_extracao}")
        print(f"Quantidade de atividades distintas = {qtde_atividades_distintas}")
        print(f"Quantidade de grupos distintos = {qtde_grupos_distintos}")
        print(f"Grupos com o maior número de atividades = {grupos_mais_atividades}, atividades = {valor_maximo}")
        
        return None

In [13]:
# Usando a classe ETL

ETL().extract_cnae_data('https://servicodados.ibge.gov.br/api/v2/cnae/classes')

Dados extraídos em: 2023/03/14 - 20:15:26
Quantidade de atividades distintas = 673
Quantidade de grupos distintos = 285
Grupos com o maior número de atividades = ['REPRESENTANTES COMERCIAIS E AGENTES DO COMÉRCIO, EXCETO DE VEÍCULOS AUTOMOTORES E MOTOCICLETAS'], atividades = 9


## Aplicação de banco de dados com python

### LINGUAGEM DE CONSULTA ESTRUTURADA - SQL

NTRODUÇÃO A BANCO DE DADOS

Grande parte dos softwares que são desenvolvidos (se não todos) acessa algum tipo de mecanismo para armazenar dados. Podem ser dados da aplicação, como cadastro de clientes, ou então dados sobre a execução da solução, os famosos logs. Esses dados podem ser armazenados em arquivos, cenário no qual se destacam os arquivos delimitados, com extensão CSV (comma separated values), os arquivos JSON (JavaScript Object Notation) e os arquivos XML (Extensible Markup Language). Outra opção para persistir os dados é utilizar um sistema de banco de dados.

CONEXÃO COM BANCO DE DADOS RELACIONAL

Ao criar uma aplicação em uma linguagem de programação que precisa acessar um sistema gerenciador de banco de dados relacional (RDBMS), uma vez que são processos distintos, é preciso criar uma conexão entre eles. Após estabelecida a conexão, é possível (de alguma forma) enviar comandos SQL para efetuar as ações no banco (RAMAKRISHNAN; GEHRKE, 2003). Para fazer a conexão e permitir que uma linguagem de programação se comunique com um banco de dados com a utilização da linguagem SQL, podemos usar as tecnologias ODBC (Open Database Connectivity) e JDBC (Java Database Connectivity). 

CONEXÃO DE BANCO DADOS SQL EM PYTHON

Agora que já sabemos que para acessar esse tipo de tecnologia precisamos de um mecanismo de conexão (ODBC ou JDBC) e uma linguagem para nos comunicarmos com ele (SQL), vamos ver como atuar em Python.

Para se comunicar com um RDBMS em Python, podemos utilizar bibliotecas já disponíveis, com uso das quais, por meio do driver de um determinado fornecedor, será possível fazer a conexão e a execução de comandos SQL no banco. Por exemplo, para se conectar com um banco de dados Oracle, podemos usar a biblioteca cx-Oracle, ou, para se conectar a um PostgreSQL, temos como opção o psycopg2. Visando à padronização entre todos os módulos de conexão com um RDBMS e o envio de comandos, o PEP 249 (Python Database API Specification v2.0) elenca um conjunto de regras que os fornecedores devem seguir na construção de módulos para acesso a banco de dados. Por exemplo, a documentação diz que todos módulos devem implementar o método connect(parameters...) para se conectar a um banco.

BANCO DE DADOS SQLITE

Essa tecnologia pode ser embutida em telefones celulares e computadores e vem incluída em inúmeros outros aplicativos que as pessoas usam todos os dias. Ao passo que a maioria dos bancos de dados SQL usa um servidor para rodar e gerenciar, o SQLite não possui um processo de servidor separado. O SQLite lê e grava diretamente em arquivos de disco, ou seja, um banco de dados SQL completo com várias tabelas, índices, triggers e visualizações está contido em um único arquivo de disco.

O interpretador Python possui o módulo built-in sqlite3, que permite utilizar o mecanismo de banco de dados SQLite. 

CRIANDO UM BANCO DE DADOS

O primeiro passo é importar o módulo sqlite3. Como o módulo está baseado na especificação DB-API 2.0 descrita pelo PEP 249, ele utiliza o método connnect() para se conectar a um banco de dados. Em razão da natureza do SQLite (ser um arquivo no disco rígido), ao nos conectarmos a um banco, o arquivo é imediatamente criado na pasta do projeto (se estiver usando o projeto Anaconda, o arquivo é criado na mesma pasta em que está o Jupyter Notebook). Se desejar criar o arquivo em outra pasta, basta especificar o caminho juntamente com o nome, por exemplo: C:/Users/Documents/meu_projeto/meus_bancos/bancoDB.db. Observe do código a seguir.

In [14]:
import sqlite3

conn = sqlite3.connect('aulaDB.db')
print(type(conn))

<class 'sqlite3.Connection'>


In [15]:
ddl_create = """ 
  CREATE TABLE fornecedor (
    id_fornecedor INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
    nome_fornecedor TEXT NOT NULL,
    cnpj VARCHAR(18) NOT NULL,
    cidade TEXT,
    estado VARCHAR(2) NOT NULL,
    cep VARCHAR(9) NOT NULL,
    data_cadastro DATE NOT NULL
);
"""

cursor = conn.cursor()
cursor.execute(ddl_create)
print(type(cursor))

print("Tabela criada!")
print("Descrição do cursor: ", cursor.description)
print("Linhas afetadas: ", cursor.rowcount)
cursor.close()
conn.close()


<class 'sqlite3.Cursor'>
Tabela criada!
Descrição do cursor:  None
Linhas afetadas:  -1


CRUD - CREATE, READ, UPDATE, DELETE

CRUD é um acrônimo para as quatro operações de DML que podemos fazer em uma tabela no banco de dados. Podemos inserir informações (create), ler (read), atualizar (update) e apagar (delete). Os passos necessários para efetuar uma das operações do CRUD são sempre os mesmos: (i) estabelecer a conexão com um banco; (ii) criar um cursor e executar o comando; (iii) gravar a operação; (iv) fechar o cursor e a conexão.

In [2]:
# Só é preciso importar a biblioteca uma vez. Importamos novamente para manter todo o código em uma única célula
import sqlite3

conn = sqlite3.connect('aulaDB.db')
cursor = conn.cursor()

cursor.execute("""
INSERT INTO fornecedor (nome_fornecedor, cnpj, cidade, estado, cep, data_cadastro)
VALUES ('Empresa A', '11.111.111/1111-11', 'São Paulo', 'SP', '11111-111', '2020-01-01')
""")

cursor.execute("""
INSERT INTO fornecedor (nome_fornecedor, cnpj, cidade, estado, cep, data_cadastro)
VALUES ('Empresa B', '22.222.222/2222-22', 'Rio de Janeiro', 'RJ', '22222-222', '2020-01-01')
""")

cursor.execute("""
INSERT INTO fornecedor (nome_fornecedor, cnpj, cidade, estado, cep, data_cadastro)
VALUES ('Empresa C', '33.333.333/3333-33', 'Curitiba', 'PR', '33333-333', '2020-01-01')
""")

conn.commit()

print("Dados inseridos!")
print("Descrição do cursor: ", cursor.description)
print("Linhas afetadas: ", cursor.rowcount)
cursor.close()
conn.close()

Dados inseridos!
Descrição do cursor:  None
Linhas afetadas:  1


READ

Agora que temos dados na tabela fornecedor, podemos avançar para a segunda operação, que é recuperar os dados. Também precisamos estabelecer uma conexão e criar um objeto cursor para executar a instrução de seleção. Ao executar a seleção, podemos usar o método fetchall() para capturar todas as linhas, através de uma lista de tuplas. Observe o código a seguir.

In [3]:
import sqlite3

conn = sqlite3.connect('aulaDB.db')
cursor = conn.cursor()

cursor.execute("SELECT * FROM fornecedor")
resultado = cursor.fetchall()

print("Descrição do cursor: ", cursor.description)
print("Linhas afetadas: ", cursor.rowcount)

resultado[:2]

Descrição do cursor:  (('id_fornecedor', None, None, None, None, None, None), ('nome_fornecedor', None, None, None, None, None, None), ('cnpj', None, None, None, None, None, None), ('cidade', None, None, None, None, None, None), ('estado', None, None, None, None, None, None), ('cep', None, None, None, None, None, None), ('data_cadastro', None, None, None, None, None, None))
Linhas afetadas:  -1


[(1,
  'Empresa A',
  '11.111.111/1111-11',
  'São Paulo',
  'SP',
  '11111-111',
  '2020-01-01'),
 (2,
  'Empresa B',
  '22.222.222/2222-22',
  'Rio de Janeiro',
  'RJ',
  '22222-222',
  '2020-01-01')]

In [4]:
cursor.execute("SELECT * FROM fornecedor WHERE id_fornecedor = 5")
resultado = cursor.fetchall()
print(resultado)

cursor.close()
conn.close()

[]


UPDATE

Ao inserir um registro no banco, pode ser necessário alterar o valor de uma coluna, o que pode ser feito por meio da instrução SQL UPDATE. Observe o código a seguir.

In [5]:
import sqlite3

conn = sqlite3.connect('aulaDB.db')
cursor = conn.cursor()

cursor.execute("UPDATE fornecedor SET cidade = 'Campinas' WHERE id_fornecedor = 5")
conn.commit()

cursor.execute("SELECT * FROM fornecedor")
for linha in cursor.fetchall():
    print(linha)

cursor.close()
conn.close()

(1, 'Empresa A', '11.111.111/1111-11', 'São Paulo', 'SP', '11111-111', '2020-01-01')
(2, 'Empresa B', '22.222.222/2222-22', 'Rio de Janeiro', 'RJ', '22222-222', '2020-01-01')
(3, 'Empresa C', '33.333.333/3333-33', 'Curitiba', 'PR', '33333-333', '2020-01-01')


DELETE

Ao inserir um registro no banco, pode ser necessário removê-lo no futuro, o que pode ser feito por meio da instrução SQL DELETE. Observe o código a seguir.

In [6]:
import sqlite3

conn = sqlite3.connect('aulaDB.db')
cursor = conn.cursor()

cursor.execute("DELETE FROM fornecedor WHERE id_fornecedor = 2")
conn.commit()

cursor.execute("SELECT * FROM fornecedor")
for linha in cursor.fetchall():
    print(linha)

cursor.close()
conn.close()

(1, 'Empresa A', '11.111.111/1111-11', 'São Paulo', 'SP', '11111-111', '2020-01-01')
(3, 'Empresa C', '33.333.333/3333-33', 'Curitiba', 'PR', '33333-333', '2020-01-01')


INFORMAÇÕES DO BANCO DE DADOS E DAS TABELAS

Além das operações de CRUD, é importante sabermos extrair informações estruturais do banco de dados e das tabelas. Por exemplo, considerado um banco de dados, quais tabelas existem ali? Quais são os campos de uma tabela? Qual é a estrutura da tabela, ou seja, qual DDL foi usada para gerá-la? Os comandos necessários para extrair essas informações podem mudar entre os bancos, mas vamos ver como extraí-las do SQLite. No código a seguir (entrada 11), temos uma instrução SQL capaz de retornar as tabelas no banco SQLite (linha 8) e outra capaz de extrair as DDLs usadas para gerar as tabelas (linha 15).

In [7]:
import sqlite3

conn = sqlite3.connect('aulaDB.db')
cursor = conn.cursor()

# Lista as tabelas do banco de dados
cursor.execute("""SELECT name FROM sqlite_master WHERE type='table' ORDER BY name""")
print('Tabelas:')
for tabela in cursor.fetchall():
    print(tabela)

# Captura a DDL usada para criar a tabela
tabela = 'fornecedor'
cursor.execute(f"""SELECT sql FROM sqlite_master WHERE type='table' AND name='{tabela}'""")
print(f'\nDDL da tabela {tabela}:')
for schema in cursor.fetchall():
    print("%s" % (schema))
    
cursor.close()
conn.close()

Tabelas:
('fornecedor',)
('sqlite_sequence',)

DDL da tabela fornecedor:
CREATE TABLE fornecedor (
    id_fornecedor INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
    nome_fornecedor TEXT NOT NULL,
    cnpj VARCHAR(18) NOT NULL,
    cidade TEXT,
    estado VARCHAR(2) NOT NULL,
    cep VARCHAR(9) NOT NULL,
    data_cadastro DATE NOT NULL
)


DESAFIO

Como desenvolvedor em uma empresa de consultoria de software, você foi alocado para construir uma solução parametrizável capaz de criar banco de dados na tecnologia SQLite, criar e apagar tabelas, o nome do banco, das tabelas e a DDL necessária para criar uma tabela (tudo deve ser parametrizável). Você também deve construir uma solução capaz de fazer um CRUD em um banco SQLite – veja que o componente deve funcionar para qualquer nome de banco e de tabela, ou seja, parâmetros. As regras que lhe foram passadas são as seguintes:

* Para criar uma nova base de dados, é necessário informar o nome.
* Para criar uma nova tabela, é necessário informar o nome do banco que receberá a tabela e a DDL de criação.
* Para excluir uma tabela, é necessário informar o nome do banco e da tabela.
* Para inserir um novo registro em uma tabela, é preciso informar: o nome do banco e da tabela e um dicionário contendo a chave e o valor a ser inserido. Por exemplo, {'nome': 'João', 'idade': 30}.
* Para recuperar, os dados é preciso informar o nome do banco e da tabela.
* Para atualizar um novo registro em uma tabela é preciso informar: o nome do banco e da tabela e dois dicionários, um contendo a chave e o valor a ser atualizado e outro contendo a chave e o valor da condição do registro que será atualizado.
* Para excluir um registro em uma tabela, é preciso informar: o nome do banco e da tabela e um dicionário contendo a chave e o valor da condição para localizar o registro a ser inserido. Por exemplo, {'id_cliente': 10}.