# Nível Pandas

**Importação das bibliotecas necessárias:**

In [None]:
pip install pandera

In [None]:
import pandas as pd
import numpy as np
import pandera as pa
pd.set_option('chained_assignment',None)

**Extração de dados para o DataFrame:**

In [None]:
#Dataset 2012

df = pd.read_csv('gs://deloitte_g10/entrada/PROCON/PROCON-2012.csv', 
                 parse_dates=['DataArquivamento', 'DataAbertura', 'AnoCalendario'],
                 sep=',', 
                 dayfirst=True,
                 low_memory=False
)

#Dataset 2013

df1 = pd.read_csv('gs://deloitte_g10/entrada/PROCON/PROCON-2013.csv', 
                 parse_dates=['DataArquivamento', 'DataAbertura', 'AnoCalendario'],
                 sep=',', 
                 dayfirst=True,
                 low_memory=False
)

#Dataset 2014

df2 = pd.read_csv('gs://deloitte_g10/entrada/PROCON/PROCON-2014.csv', 
                 parse_dates=['DataArquivamento', 'DataAbertura', 'AnoCalendario'],
                 sep=',', 
                 dayfirst=True,
                 low_memory=False
)

#Dataset 2015

df3 = pd.read_csv('gs://deloitte_g10/entrada/PROCON/PROCON-2015.csv',
                 parse_dates=['DataArquivamento', 'DataAbertura', 'AnoCalendario'],
                 sep=',', 
                 dayfirst=True,
                 low_memory=False
)

#Dataset 2016

df4 = pd.read_csv('gs://deloitte_g10/entrada/PROCON/PROCON-2016.csv', 
                 parse_dates=['DataArquivamento', 'DataAbertura', 'AnoCalendario'],
                 sep=',', 
                 dayfirst=True,
                 low_memory=False
)



**Concatenando DataSets:**

In [None]:
frames = [df, df1, df2, df3, df4]
dataframe = pd.concat(frames)

**Analisando o DataFrame:**

In [None]:
#Verificando assuntos que sejam relacionados ao tema do projeto
sorted(pd.unique(dataframe['DescricaoAssunto']))

In [None]:
#Verificando os tipos das colunas
dataframe.dtypes

**Filtragem dos Dados:**

In [None]:
normalized = dataframe.loc[dataframe['DescricaoAssunto'].isin(['Banco comercial',
                                    'Cartão de Crédito'])] 


inplace=True


**Renomeando Colunas:**

In [None]:
normalized.rename(
    columns={
        'strRazaoSocial':'RazaoSocial',
        'strNomeFantasia':'NomeFantasia',
        'DescCNAEPrincipal':'AtividadePrincipal',
        'Atendida':'StatusAtendimento',
        }

, inplace=True
)

**Dropando Colunas:**

In [None]:
#Dropando colunas que nao sao relativas para analise
normalized.drop(['CodigoRegiao',
         'Tipo', 
         'NumeroCNPJ', 
         'CNAEPrincipal', 
         'CEPConsumidor',
         'NomeFantasiaRFB',
         'RadicalCNPJ',
         'RazaoSocialRFB',
         'CodigoProblema',
         'CodigoAssunto'], 
        
axis=1, inplace=True)

**Verificando inconsistência dos Dados:**

In [None]:
# Verificar em cada coluna para valores unicos e possíveis inconsistências
for i in normalized.columns:
    print(i)
    print(normalized[i].unique())
    

In [None]:
pd.unique(normalized['RazaoSocial'])

In [None]:
#Os valores nulos serão excluídos devido a baixa representatividade.
normalized.isnull().sum()

In [None]:
#Verificar o percentil de nulos no DataFrame
total_valores = np.product(normalized.shape)
total_nulos = normalized.isnull().sum().sum()

percentual_nulos = total_nulos / total_valores * 100

f'Total de valores nulos no DataFrame: {percentual_nulos.round(2)}'

In [None]:
#Padronizações de nomes das Instituições
normalized.replace('BANCO BMG S/A', 'BANCO BMG SA',inplace=True)
normalized.replace('BANCO  BMG    S/A', 'BANCO BMG SA',inplace=True)
normalized.replace('BANCO BMG S/A - GRUPO BMG - AOP', 'BANCO BMG SA',inplace=True)

normalized.replace('CAIXA ECONÔMICA FEDERAL', 'CAIXA ECONOMICA FEDERAL',inplace=True)
normalized.replace('CAIXA ECONÔMICA FEDERAL - CEF', 'CAIXA ECONOMICA FEDERAL',inplace=True)
normalized.replace('CAIXA ECONÔMICA FEDERAL - CEOUV', 'CAIXA ECONOMICA FEDERAL',inplace=True)
normalized.replace('CAIXA ECONOMICA FEDERAL-CEOUV', 'CAIXA ECONOMICA FEDERAL',inplace=True)
normalized.replace('CAIXA ECONÔMICA FEDERAL S/A - AOP - RECLAMAÇÕES', 'CAIXA ECONOMICA FEDERAL',inplace=True)
normalized.replace('SUPERINTENDÊNCIA CAIXA ECONÔMICA FEDERAL', 'CAIXA ECONOMICA FEDERAL',inplace=True)
normalized.replace('CAIXA ECONÔMICA FEDERAL (SUPERINT.REGIONAL DO RN)', 'CAIXA ECONOMICA FEDERAL',inplace=True)
normalized.replace('CAIXA ECONÔMICA FEDERAL  - CENTRAL DE ATENDIMENTO', 'CAIXA ECONOMICA FEDERAL',inplace=True)
normalized.replace('CAIXA ECONOMICA FEDERAL @', 'CAIXA ECONOMICA FEDERAL',inplace=True)
normalized.replace('CAIXA ECONOMICA FEDERAL MATRIZ', 'CAIXA ECONOMICA FEDERAL',inplace=True)

normalized.replace('BRADESCO', 'BANCO BRADESCO SA',inplace=True)
normalized.replace('BRADESCO BANCO', 'BANCO BRADESCO SA',inplace=True)
normalized.replace('BANCO BRADESCO', 'BANCO BRADESCO SA',inplace=True)
normalized.replace('BANCO BRADESCO S/A', 'BANCO BRADESCO SA',inplace=True)
normalized.replace('BANCO BRADESCO S.A.', 'BANCO BRADESCO SA',inplace=True)
normalized.replace('BANCO BRADESCO S.A.', 'BANCO BRADESCO SA',inplace=True)
normalized.replace('BANCO BRADESCO CARTOES S.A', 'BANCO BRADESCO SA',inplace=True)
normalized.replace('BANCO BRADESCO CARTÕES S/A', 'BANCO BRADESCO SA',inplace=True)
normalized.replace('BANCO BRADESCO SA - BMC - FINASA- AMERICAN EXPRESS', 'BANCO BRADESCO SA',inplace=True)
normalized.replace('BANCO BRADESCO - OUVIDORIA', 'BANCO BRADESCO SA',inplace=True)
normalized.replace('ADMINISTRADORA DE CARTÃO DE CREDITO BRADESCO', 'BANCO BRADESCO SA',inplace=True)
normalized.replace('BANCO BRADESCO FINANCIAMENTOS S.A. (BMC)', 'BANCO BRADESCO SA',inplace=True)
normalized.replace('BANCO BRADESCO FINANCIAMENTOS S.A.', 'BANCO BRADESCO SA',inplace=True)
normalized.replace('BANCO BRADESCO FINANCIAMENTOS S.A(BANCO BMC/FINASA', 'BANCO BRADESCO SA',inplace=True)
normalized.replace('BANCO BRADESCO FINANCIAMENTOS S.A(BANCO BMC/FINASA)', 'BANCO BRADESCO SA',inplace=True)
normalized.replace('BANCO BRADESCO FINANCIAMENTOS S.A(EX-FINASA)', 'BANCO BRADESCO SA',inplace=True)
normalized.replace('BANCO BRADESCO IBI S.A', 'BANCO BRADESCO SA',inplace=True)
normalized.replace('BANCO BRADESCO S/A ( AGENCIAS )', 'BANCO BRADESCO SA',inplace=True)
normalized.replace('BANCO BRADESCO SA @', 'BANCO BRADESCO SA',inplace=True)
normalized.replace('BANCO BRADESCO SA - BMC - FINASA - BANKPAR - AMEX', 'BANCO BRADESCO SA',inplace=True)
normalized.replace('BRADESCO PROMOTORA - BANCO BMC SA', 'BANCO BRADESCO SA',inplace=True)
normalized.replace('BANCO BRADESCO, AG.1716-B.JUNDIAÍ', 'BANCO BRADESCO SA',inplace=True)
normalized.replace('BANCO BRADESCO CARTÕES SA', 'BANCO BRADESCO SA',inplace=True)
normalized.replace('BRADESCO SEGUROS E PREVIDÊNCIA', 'BANCO BRADESCO SA',inplace=True)
normalized.replace('BRADESCO CARTÕES', 'BANCO BRADESCO SA',inplace=True)


normalized.replace('BANCO DO BRASIL', 'BANCO DO BRASIL SA',inplace=True)
normalized.replace('BANCO DO BRASIL S/A.', 'BANCO DO BRASIL SA',inplace=True)
normalized.replace('BANCO DO BRASIL S/A', 'BANCO DO BRASIL SA',inplace=True)
normalized.replace('BANCO DO BRASIL S/A - UNIDADE DE OUVIDORIA', 'BANCO DO BRASIL SA',inplace=True)
normalized.replace('BANCO DO BRASIL S/A - UNIDADE DE OUVIDORIA', 'BANCO DO BRASIL SA',inplace=True)
normalized.replace('BANCO DO BRASIL SA - END. ÚNICO PARA AUDIÊNCIA', 'BANCO DO BRASIL SA',inplace=True)
normalized.replace('BANCO DO BRASIL SA - END.ÚNICO PARA CIP ELETRÔNICA', 'BANCO DO BRASIL SA',inplace=True)
normalized.replace('SUPERINTENDENCIA DO BANCO DO BRASIL SA', 'BANCO DO BRASIL SA',inplace=True)
normalized.replace('BANCO DO BRASIL SA - SUPERINTENDENCIA SC', 'BANCO DO BRASIL SA',inplace=True)
normalized.replace('BANCO DO BRASIL - SUPERINTENDENCIA', 'BANCO DO BRASIL SA',inplace=True)
normalized.replace('BANCO DO BRASIL - SUP. REGIONAL/RN', 'BANCO DO BRASIL SA',inplace=True)
normalized.replace('BANCO DO BRASIL S/A - OUROCARD', 'BANCO DO BRASIL SA',inplace=True)
normalized.replace('BANCO INDUSTRIAL DO BRASIL S/A', 'BANCO DO BRASIL SA',inplace=True)


normalized.replace('BANCO ITAUCARD S.A.', 'BANCO ITAUCARD SA',inplace=True)
normalized.replace('BANCO ITAUCARD S/A - AOP', 'BANCO ITAUCARD SA',inplace=True)
normalized.replace('BANCO ITAUCARD S.A / UNICARD/ CREDICARD ITAÚ', 'BANCO ITAUCARD SA',inplace=True)
normalized.replace('BANCO ITAUCARD S.A / CREDICARD', 'BANCO ITAUCARD SA',inplace=True)
normalized.replace('BANCO ITAU CARD S/A', 'BANCO ITAUCARD SA',inplace=True)

normalized.replace('BANCO ITAU S/A', 'BANCO ITAU SA',inplace=True)
normalized.replace('BANCO ITAU', 'BANCO ITAU SA',inplace=True)
normalized.replace('BANCO ITAU S.A.', 'BANCO ITAU SA',inplace=True)
normalized.replace('BANCO ITAÚ S/A  -  AOP', 'BANCO ITAU SA',inplace=True)
normalized.replace('BANCO ITAU BBA S.A.', 'BANCO ITAU SA',inplace=True)
normalized.replace('BANCO ITAU BBA SA', 'BANCO ITAU SA',inplace=True)
normalized.replace('BANCO ITAU BMG CONSIGNADO S.A.', 'BANCO ITAU SA',inplace=True)
normalized.replace('ITAU SEGUROS S/A', 'BANCO ITAU SA',inplace=True)
normalized.replace('BANCO ITAUCARD S/A', 'BANCO ITAUCARD SA',inplace=True)



normalized.replace('ITAÚ UNIBANCO S/A', 'ITAU UNIBANCO SA',inplace=True)
normalized.replace('ITAU UNIBANCO S/A', 'ITAU UNIBANCO SA',inplace=True)
normalized.replace('ITAU UNIBANCO S.A.', 'ITAU UNIBANCO SA',inplace=True)
normalized.replace('BANCO ITAÚ UNIBANCO S.A.', 'ITAU UNIBANCO SA',inplace=True)
normalized.replace('UNIBANCO-UNIAO DE BANCOS BRASILEIROS S.A.', 'ITAU UNIBANCO SA',inplace=True)

normalized.replace('BANCO SANTANDER (BRASIL) S.A.', 'BANCO SANTANDER SA',inplace=True)
normalized.replace('BANCO SANTANDER (BRASIL) S/A', 'BANCO SANTANDER SA',inplace=True)
normalized.replace('BANCO SANTANDER S.A.', 'BANCO SANTANDER SA',inplace=True)
normalized.replace('BANCO SANTANDER S/A', 'BANCO SANTANDER SA',inplace=True)
normalized.replace('BANCO SANTANDER BRASIL S/A', 'BANCO SANTANDER SA',inplace=True)
normalized.replace('BANCO SANTANDER (BRASIL) S/A(NOTIFICAR SEMPRE)', 'BANCO SANTANDER SA',inplace=True)

normalized.replace('BANCO CIFRA S.A.', 'BANCO CIFRA SA',inplace=True)
normalized.replace('CIFRA S.A. CREDITO, FINANCIAMENTO E INVESTIMENTO', 'BANCO CIFRA SA',inplace=True)

normalized.replace('BANCO CETELEM S.A.', 'BANCO CETELEM SA',inplace=True)
normalized.replace('CETELEM BRASIL S/A- CRÉDITO FINANCIMENTO E INVEST.', 'BANCO CETELEM SA',inplace=True)

normalized.replace('BANCO CBSS S/A', 'BANCO CBSS SA',inplace=True)
normalized.replace('BANCO CBSS S.A', 'BANCO CBSS SA',inplace=True)

normalized.replace('BANCO PANAMERICANO SA / BANCO PAN', 'BANCO PAN',inplace=True)
normalized.replace('BANCO PANAMERICANO S.A.', 'BANCO PAN',inplace=True)
normalized.replace('BANCO PAN / PANAMERICANO SA', 'BANCO PAN',inplace=True)
normalized.replace('BANCO PAN S/A (ANTIGO BANCO PANAMERICANO)', 'BANCO PAN',inplace=True)
normalized.replace('BANCO PAN ( ANTIGO PANAMERICANO )', 'BANCO PAN',inplace=True)

normalized.replace('HSBC BANK BRASIL S.A', 'HSBC BANK BRASIL SA',inplace=True)
normalized.replace('HSBC BANK BRASIL S.A. - BANCO MULTIPLO - OUVIDORIA', 'HSBC BANK BRASIL SA',inplace=True)
normalized.replace('HSBC BANK BRASIL S.A. - BANCO MÚLTIPLO', 'HSBC BANK BRASIL SA',inplace=True)
normalized.replace('HSBC BANK BRASIL S.A. - BANCO MÚLTIPLO', 'HSBC BANK BRASIL SA',inplace=True)




In [None]:
#Trocando os valores NaN ou Null por "Não informado"
normalized.loc[normalized.NomeFantasia.isna(), ['NomeFantasia']] = 'Não informado'


In [None]:
#Trocando os valores NaN ou Null por "Não informado"
normalized.loc[normalized.AtividadePrincipal.isnull(), ['AtividadePrincipal']] = 'Não informado'

In [None]:
#Trocando os valores NaN ou Null por "Não informado"
normalized.loc[normalized.RazaoSocial.isnull(), ['RazaoSocial']] = 'Não informado'

In [None]:
#Trocando os valores NaN ou Null por "Não informado"
normalized.loc[normalized.DescricaoProblema.isnull(), ['DescricaoProblema']] = 'Não informado'

In [None]:
#Verificando dados duplicados
normalized = normalized.drop_duplicates()

**Otimização de String:**

In [None]:
def mem_usage(pandas_obj):
    '''
    Função para cálculo do uso de memória
    pelo DataFrame
    '''
    if isinstance(pandas_obj,pd.DataFrame):
        usage_b = pandas_obj.memory_usage(deep=True).sum()
    else: # Presuposto de que se não for um DF é uma série 
        usage_b = pandas_obj.memory_usage(deep=True)
    usage_mb = usage_b / 1024 ** 2 # Conversão de bits para megabites
    return "{:03.2f} KB".format(usage_mb)

In [None]:
#Media do uso de memoria para colunas do tipo Float, Int, Object, String
for dtype in ['float','int','object', 'string']:
    selected_dtype = normalized.select_dtypes(include=dtype)
    mean_usage_b = selected_dtype.memory_usage(deep=True).mean()
    mean_usage_mb = mean_usage_b / 1024 ** 2
    print("Média do uso de memória para colunas do tipo {}: {:03.2f} MB".format(dtype,mean_usage_mb))

In [None]:
# Seleção das colunas dtype = OBJ
normalized_obj = normalized.select_dtypes(include=['object'])
# Instanciando novo DataFrame para receber as transformações
normalized_obj_optmized = pd.DataFrame()

# Iterar em cada coluna no DF de dtype = OBJECT
for col in normalized_obj.columns:
    # Contar numero de valores unicos
    num_unique_values = len(normalized_obj[col].unique())
    # Contar o numero total de valores
    num_total_values = len(normalized_obj[col])
    # Se os valores unicos forem menores que 50% do total...
    if num_unique_values / num_total_values < 0.5:
        normalized_obj_optmized.loc[:,col] = normalized_obj[col].astype('category')
    # Se nao foram permanecem como originais
    else:
        normalized_obj_optmized.loc[:,col] = normalized_obj[col]

In [None]:
# Gerando um novo DataFrame com os valores otimizados
normalized_obj[normalized_obj_optmized.columns] = normalized_obj_optmized
mem_usage(normalized_obj)
print('Antes: ' + mem_usage(normalized))
print('Depois: ' + mem_usage(normalized_obj))

**Validando os dados do DataFrame usando a biblioteca panderas:**

In [None]:
sch_df = {
'AnoCalendario':pa.Column(pa.DateTime),
'DataArquivamento':pa.Column(pa.DateTime), 
'DataAbertura':pa.Column(pa.DateTime), 
'Regiao':pa.Column(pa.String),
'UF':pa.Column(pa.String), 
'RazaoSocial':pa.Column(pa.String), 
'NomeFantasia':pa.Column(pa.String),
'AtividadePrincipal':pa.Column(pa.String), 
'StatusAtendimento':pa.Column(pa.String), 
'DescricaoAssunto':pa.Column(pa.String),
'DescricaoProblema':pa.Column(pa.String), 
'SexoConsumidor':pa.Column(pa.String), 
'FaixaEtariaConsumidor':pa.Column(pa.String),
}

schema = pa.DataFrameSchema(columns=sch_df)

schema.validate(normalized)

**Exportando para Bucket:**

In [None]:
normalized.to_csv('gs://deloitte_g10/saída/Pandas/PROCON/Procon_normalizado.csv',index=False)

# Conexão com o Cassandra


### Instalação do Cassandra driver

In [None]:
'''pip install cassandra-driver'''

In [None]:
#Conector

'''from cassandra.cluster import Cluster
from cassandra.connection import EndPoint
cluster = Cluster(['34.95.193.147'])
                               

session = cluster.connect('procon')

df = normalized.values.tolist()
for i in df:

## Migracao para o Cassandra

    query = "INSERT INTO procon_rec(chave,anocalendario,dataarquivamento,dataabertura,regiao,uf,razaosocial,nomefantasia,atividadeprincipal,statusatendimento,descricaoassunto,descricaoproblema,sexoconsumidor,faixaetariaconsumidor) VALUES(uuid(),'{}','{}','{}','{}','{}','{}','{}','{}','{}','{}','{}','{}','{}')".format(i[0], i[1], i[2], i[3], i[4], i[5], i[6], i[7], i[8], i[9], i[10], i[11], i[12])
    session.execute(query)

cluster.shutdown()    '''