# Reimportando as bibliotecas

In [1]:
!pip install apache_beam
import re
import apache_beam as beam
from apache_beam.io import ReadFromText
from apache_beam.io.textio import WriteToText
from apache_beam.options.pipeline_options import PipelineOptions
pipeline_options = PipelineOptions(argv = None)
pipeline = beam.Pipeline(options = pipeline_options)

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting apache_beam
  Downloading apache_beam-2.41.0-cp37-cp37m-manylinux2010_x86_64.whl (10.9 MB)
[K     |████████████████████████████████| 10.9 MB 25.7 MB/s 
Collecting fastavro<2,>=0.23.6
  Downloading fastavro-1.6.1-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.4 MB)
[K     |████████████████████████████████| 2.4 MB 50.8 MB/s 
Collecting hdfs<3.0.0,>=2.1.0
  Downloading hdfs-2.7.0-py3-none-any.whl (34 kB)
Collecting cloudpickle<3,>=2.1.0
  Downloading cloudpickle-2.2.0-py3-none-any.whl (25 kB)
Collecting dill<0.3.2,>=0.3.1.1
  Downloading dill-0.3.1.1.tar.gz (151 kB)
[K     |████████████████████████████████| 151 kB 52.3 MB/s 
[?25hCollecting orjson<4.0
  Downloading orjson-3.8.0-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (270 kB)
[K     |████████████████████████████████| 270 kB 57.2 MB/s 
Collecting pymongo<4.0.0,>=3.8.0
  Downloading pymongo-3.12.

# Reimportando os métodos

In [2]:
def TextoParaLista(elemento,delimitador = '|'):
  """
  Recebe um texto e um limitador
  Retorna uma lista de elementos pelo delimitador
  """
  return elemento.split(delimitador)



In [3]:
colunas_dengue = [ #todas as colunas que vem do dataset
'id',
'data_iniSE',
'casos',
'ibge_code',
'cidade',
'uf',
'cep',
'latitude',
'longitude']

In [4]:
def ListaParaDicionario(elemento, colunas):
  """
  Recebe duas listas e retorna um dicionário
  """
  return dict(zip(colunas, elemento))

In [5]:
def TrataDatas(elemento):
  """
  Recebe um dicionário e cria um novo campo com ano-mês
  """
  elemento['ano-mes'] = '-'.join(elemento['data_iniSE'].split('-')[:2])
  #Supondo que temos a data 2022-05-18 o split retornará uma lista com ['2022','05','18']
  #Então fariaremos a lista usando um [:2] no final pegando as informações até o segundo elemento
  #Aplicamos também o join com o parâmetro '-' que nos retornará uma STRING no formato 2022-05
  return elemento

In [6]:
def ChaveUf(elemento):
  """
  Receber um dicionário
  Retornar uma tupla com o estado(uf) e o elemento
  """
  chave = elemento['uf']
  return (chave, elemento)

In [7]:
def CasosDengue(elemento):
  """
  Recebe uma tupla (RS, [{},{}])
  Retorna uma tupla ('RS-2014-12, 8')
  """
  uf, registros = elemento
  for registro in registros:
    if bool(re.search(r'\d', registro['casos'])):
      yield (f"{uf}-{registro['ano-mes']}", float(registro['casos'])) #Diferente do return o yield vai executar até retornar todos os elementos
    else:
      yield (f"{uf}-{registro['ano-mes']}", 0.0)

In [8]:
def ChaveUfMes(elemento):
  """
  Receber uma lista de elementos
  Retorna uma tupla ('UF-ANO-MES', casos)
  """
  data, mm, uf = elemento
  ano_mes = '-'.join(data.split('-')[:2])
  chave = f'{uf}-{ano_mes}'
  if float(mm) < 0:
    mm = 0.0
  else:
    mm = float(mm)
  return chave, mm

In [9]:
def arredonda(elemento):
  """
  Recebe um elemento 
  retorna o float com uma ou duas casas decimais.
  """
  chave, mm = elemento
  return (chave, round(mm,1))

In [10]:
def FiltraCamposVazios(elemento):
  """
  Remove elementos que contenam chaves vazias
  """
  chave, dados = elemento
  if all([dados['chuvas'], dados['dengue']]):
      return True
  return False

In [11]:
def DescompactarElementos(elem):
  """
  Recebe uma tupla ('CE-2015-01', {'chuvas': [85.8], 'dengue': [175.0]})
  retorna uma tupla ('CE', '2015', '11', '0.4', '21.0')
  """
  chave, dados = elem
  chuva = dados['chuvas'][0]
  dengue = dados['dengue'][0]
  uf, ano, mes = chave.split('-')
  return uf, ano, mes, str(chuva), str(dengue)

In [12]:
def PrepararCSV(elem, delimitador = ';'):
  """
  Recebe uma tupla ('CE', 2015, 01, 85.8, 175.0)
  Retornar uma string delimitada "CE;2015;01;85.8;175.0"
  """
  return f"{delimitador}".join(elem)

# Pcollections

In [13]:
dengue = (
    pipeline
    | "Leitura do dataset de dengue" >>
      ReadFromText('/content/drive/MyDrive/Colab Notebooks/Dados/casos_dengue.txt', skip_header_lines=1) 
    | "De texto para lista"  >> beam.Map(TextoParaLista)
    | "Lista para dicionário" >> beam.Map(ListaParaDicionario, colunas_dengue)
    | "Criar campo ano-mês" >> beam.Map(TrataDatas)
    | "Criar chave pelo estado" >> beam.Map(ChaveUf)
    | "Agrupor por estado" >> beam.GroupByKey()
    | "Descompactar casos de dengue" >> beam.FlatMap(CasosDengue)
    | "Soma dos casos pela chave" >> beam.CombinePerKey(sum) 

)

chuvas = (
    pipeline
    | "Leitura do dataset de chuvas" >>
      ReadFromText('/content/drive/MyDrive/Colab Notebooks/Dados/chuvas.csv', skip_header_lines=1)
    | "De texto para lista (chuvas)"  >> beam.Map(TextoParaLista,delimitador = ',') 
    | "Criando chave UF-ANO-MES" >> beam.Map(ChaveUfMes)
    | "Combinando o total de chuvas pela chave" >> beam.CombinePerKey(sum)
    | "Arredondar resultados de chuvas" >> beam.Map(arredonda)
)

resultado = (
    
    ({'chuvas': chuvas,'dengue': dengue})
    | "Mesclar pcols" >> beam.CoGroupByKey()
    | "Filtrar dados vazios" >> beam.Filter(FiltraCamposVazios)
    | "Descompactar elementos" >> beam.Map(DescompactarElementos)
    | "Preparar csv" >> beam.Map(PrepararCSV)
)

header = 'UF;ANO;MES;CHUVA;DENGUE'

resultado | 'Criar arquivo CSV' >> WriteToText('resultado', file_name_suffix='.csv', header = header)

pipeline.run()






<apache_beam.runners.portability.fn_api_runner.fn_runner.RunnerResult at 0x7f624f028d50>

# Analisando os dados

O Processamento anterior dura em torno de 5 a 10 minutos, pois analisará os dois datasets. Agora, iremos mostrar esses dados. 

In [14]:
import pandas as pd

In [15]:
arquivo = '/content/resultado-00000-of-00001.csv'
df = pd.read_csv(arquivo, delimiter = ';')

In [17]:
df.head() #Mostrando os 5 primeiros resultados

Unnamed: 0,UF,ANO,MES,CHUVA,DENGUE
0,SP,2015,1,4465.0,772.0
1,SP,2015,2,6595.0,3086.0
2,SP,2015,3,6210.6,8824.0
3,SP,2015,4,1862.0,9932.0
4,SP,2015,5,2756.6,8919.0


In [18]:
df.shape #420 linhas e 5 colunas

(420, 5)

In [22]:
df.groupby(['UF', 'ANO'])[['CHUVA','DENGUE']].mean().reset_index()

Unnamed: 0,UF,ANO,CHUVA,DENGUE
0,CE,2015,771.783333,5014.25
1,CE,2016,533.7,5433.083333
2,CE,2017,775.35,5519.666667
3,CE,2018,797.95,1070.083333
4,CE,2019,809.0,2559.25
5,ES,2015,575.65,3734.0
6,ES,2016,733.916667,4560.75
7,ES,2017,903.883333,1028.666667
8,ES,2018,1399.166667,1407.5
9,ES,2019,1122.35,6716.083333
