<a href="https://colab.research.google.com/github/felipeCaetano/dadosprocon/blob/main/DadosProcon.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **DADOS PROCON - NOTEBOOK**
Gera os arquivos csv com base nos dados publicos do Procon Sindec

In [None]:
import os

import pandas as pd
import seaborn as sns 
from google.colab import files

Funções usadas para gerar dataframes em Lote:

**generate_dataframes**: gera dataframes das entidades de acordo com os dataframes atualizados.

**write_csv**: salva os dataframes em arquivos .csv nomeados.

**drop_columns**: remove colunas de uma lista de dataframes.

In [69]:
def drop_columns(dataframes, columns, inplace=True):
  """
  Elimina as colunas irrelevantes.
  param: dataframes: list - dataframes que serão afetados
  param: columns: list - lista com as colunas que serão removidas
  param: inplace: Bool - Retorna uma copia do dataframe caso seja False
  """
  if inplace:
    for dataframe in dataframes:
      dataframe.drop(columns, axis=1, inplace=inplace)
  else:
    dfs = []
    for dataframe in dataframes:
      df.append(dataframe.drop(columns, axis=1, inplace=inplace))
    return dfs


def generate_dataframes(dataframe1, dataframe2, columns):
  """Gera os dataframes automaticamente.
  Exemplo de uso: 
  df_atendimento1, df_atendimento2 = generate_dataframes(dftrim1, dftrim2, ['CodigoTipoAtendimento', 'DescricaoTipoAtendimento'])
  df_atendimento = generate_dataframes(dftrim1, dftrim2, ['CodigoTipoAtendimento', 'DescricaoTipoAtendimento'])
  """
  df_1 = dataframe1[columns]
  df_2 = dataframe2[columns]
  return df_1, df_2


def write_csv(dataframes, filename, encoding='utf-8', sep=';', index=False):
  """Salva o(s) dataframe em formato csv de acordo com os parametros especificados.
  param dataframe: list - dataframes que serão salvos
  param filename: string - nome do arquivo de destino
  param encoding: string - encoding do arquivo
  param sep: string - separador usado no arquivo
  param index: Bool - se o index do dataframe será utilizado
  Exemplo de uso:
  >> write_csv(df_atendimento, 'tipoatendimento', encoding='utf-8', sep=',', index=False)
  >> write_csv(df_atendimento, 'tipoatendimento')
  """
  for i, df in enumerate(dataframes):
    file = filename + str(i+1) + '.csv'
    df.to_csv(file, encoding=encoding, sep=sep, index=index)

Para carregar as bases de dados remotas:

In [None]:
dftrim1 = pd.read_csv('https://storage.googleapis.com/dados-modelagem-de-dados-20201-bsi-ufrpe-grupo-taciana/atendimentofornecedor20201trimestre.csv', encoding = 'utf-8', sep=';')
dftrim2 = pd.read_csv('https://storage.googleapis.com/dados-modelagem-de-dados-20201-bsi-ufrpe-grupo-taciana/atendimentofornecedor20202trimestre.csv', encoding = 'utf-8', sep=';')
#dftrim3 = pd.read_csv('https://storage.cloud.google.com/dados-modelagem-de-dados-20201-bsi-ufrpe-grupo-taciana/atendimentos-por-fornecedor-3-trimestre---2020.csv', encoding = 'utf-8', sep='\t')
#dftrim4 = pd.read_csv('https://storage.googleapis.com/dados-modelagem-de-dados-20201-bsi-ufrpe-grupo-taciana/atendimentofornecedordadosabertos4t2020.csv', encoding = 'utf-8', sep=',')

Eliminar colunas irrelevantes para os problemas:

In [None]:
drop_columns([dftrim1, dftrim2], ['NomeFantasiaRFB','CEPConsumidor','Regiao', 'SexoConsumidor', 'FaixaEtariaConsumidor', 'RazaoSocialRFB', 'UF', 'TipoFornecedor'])
#dftrim1.drop(['NomeFantasiaRFB','CEPConsumidor','Regiao', 'SexoConsumidor', 'FaixaEtariaConsumidor', 'RazaoSocialRFB', 'UF', 'TipoFornecedor'], axis=1, inplace=True)
#dftrim2.drop(['NomeFantasiaRFB','CEPConsumidor','Regiao', 'SexoConsumidor', 'FaixaEtariaConsumidor', 'RazaoSocialRFB', 'UF', 'TipoFornecedor'], axis=1, inplace=True)

Gera novos arquivos .CSV:

In [70]:
write_csv([dftrim1, dftrim2], 'TabelaAtualizadaTrimestre')
#dftrim2.to_csv('TabelaAtualizadaTrimestre2.csv', encoding='utf-8', sep=';', index=False)
#dftrim1.to_csv('TabelaAtualizadaTrimeste1.csv', encoding='utf-8', sep=';', index=False)

Baixar e Salvar os arquivos CSV
Em seguida realizar novo carregamento dos dataframes:

In [None]:
dftrim1 = pd.read_csv('https://storage.googleapis.com/procon1/TabelaAtualizadaTrimeste1%20(1).csv', encoding='utf-8', sep=';')
dftrim2 = pd.read_csv('https://storage.googleapis.com/procon1/TabelaAtualizadaTrimestre2.csv', encoding='utf-8', sep=';')

#dftrim1.head()

A celula abaixo le os arquivos que estão na pasta do colab sem precisar baixar e subir no storage:

In [76]:
dftrim1 = pd.read_csv('TabelaAtualizadaTrimestre1.csv', encoding='utf-8', sep=';')
dftrim2 = pd.read_csv('TabelaAtualizadaTrimestre2.csv', encoding='utf-8', sep=';')

#as linhas asseguir removem as linhas com dados faltantes
dftrim1.dropna(inplace=True)
dftrim2.dropna(inplace=True)

In [None]:
"""df_atendimento = dftrim2[['CodigoTipoAtendimento', 'DescricaoTipoAtendimento']]
df_assunto = dftrim2[['CodigoAssunto', 'DescricaoAssunto', 'GrupoAssunto']]
df_forncedor = dftrim2[['RadicalCNPJ', 'RazaoSocialSindec', 'NomeFantasiaSindec']]
df_reclamacao = dftrim2[['AnoAtendimento', 'TrimestreAtendimento', 'MesAtendimento', 'DataAtendimento']]
df_CNAe = dftrim2[['CodigoCNAEPrincipal', 'DescricaoCNAEPrincipal']]
df_problema = dftrim2[['CodigoProblema', 'DescricaoProblema', 'GrupoProblema']]"""


In [None]:
"""df_atendimento.to_csv('TipoAtendimento.csv',encoding='utf-8', sep=';', index=False)
df_assunto.to_csv('assunto.csv', encoding='utf-8', sep=';', index=False)
df_forncedor.to_csv('forncedor.csv', encoding='utf-8', sep=';', index=False)
df_reclamacao.to_csv('reclamacao.csv', encoding='utf-8', sep=';', index=False)
df_CNAe.to_csv('CNAe.csv', encoding='utf-8', sep=';', index=False)
df_problema.to_csv('problema.csv', encoding='utf-8', sep=';', index=False)"""

Gerar os dataframes individuais por tabela:

In [77]:
# esta celula pode substituir a celula 10

df_atendimento = generate_dataframes(dftrim1, dftrim2, ['CodigoTipoAtendimento', 'DescricaoTipoAtendimento'])
df_assunto = generate_dataframes(dftrim1, dftrim2, ['CodigoAssunto', 'DescricaoAssunto', 'GrupoAssunto'])
df_fornecedor = generate_dataframes(dftrim1, dftrim2, ['RadicalCNPJ', 'RazaoSocialSindec', 'NomeFantasiaSindec'])
df_reclamacao = generate_dataframes(dftrim1, dftrim2, ['AnoAtendimento', 'TrimestreAtendimento', 'MesAtendimento', 'DataAtendimento'])
df_CNAe =generate_dataframes(dftrim1, dftrim2, ['CodigoCNAEPrincipal', 'DescricaoCNAEPrincipal'])
df_problema = generate_dataframes(dftrim1, dftrim2, ['CodigoProblema', 'DescricaoProblema', 'GrupoProblema'])


Salvar os dataframes como .csv
Em seguida realizar os downloads para carregamento no banco.

In [78]:
#Esta celula pode substituir a celula 11:

write_csv(df_atendimento, 'atendimento')
write_csv(df_assunto, 'assunto')
write_csv(df_fornecedor, 'fornecedor')
write_csv(df_CNAe, 'cnae')
write_csv(df_problema, 'problema')
write_csv(df_reclamacao, 'reclamacao')

Para fazer o Download dos arquivos:
 - infelizmente n consegui fazer o download apenas dos arquivos, tive que baixar toda a pasta content

In [73]:
# baixa todos os arquivos de vez:

for file in os.listdir():
  if os.path.isfile(file):
    files.download(file)


#baixa um zip com todo conteudo de content
#!zip -r /content/file.zip /content

#files.download(file.zip)

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>