In [None]:
import pandas as pd
#import pandas_profiling # gera diversas análises de uma só vez
import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
from IPython.display import Image
%matplotlib inline

### Sobre o vaex
* Instalação: https://pypi.org/project/vaex/
* Documentação oficial: https://vaex.readthedocs.io/en/latest/index.html
* https://en.wikipedia.org/wiki/Lazy_evaluation

### Utilização
* A library Vaex será considerada quando a amostragem for estratificada por SG_UF e CEP a partir do universo de clientes do SICLI em produção, situação essa que abrangerá mais de 200 milhoes de registros como fator de confidência a ser considerado.

In [None]:
#import vaex, pandas as pd
#df_pandas = pd.read_csv("cli_amostra_minas_gerais_202005281322.csv", sep=';', low_memory=False)
#df = vaex.from_pandas(df_pandas)

In [None]:
#df.data_type('dt_fim')

In [None]:
#df.plot('vr_renda_bruta', 'vr_renda_liquida', what=['mean(vr_renda_bruta)', 'correlation(vr_renda_bruta, vr_renda_liquida)'])

In [None]:
#df.plot1d(df.r)

## Conjunto de Dados - Temática: Endereço

In [None]:
#f_end = pd.read_csv("cli_end_amostra_minas_gerais_202005281312_1000.csv", sep=';')
df_end = pd.read_csv("cli_end_amostra_minas_gerais_202005281312.csv", sep=';', low_memory=False)
features_end = ['nu_pessoa','nu_cep','ic_origem_cdsto','ic_validacao','ic_comprovacao','nu_ano_mes_inicio',
                'nu_ano_mes_fim','dt_apuracao_endereco','nu_cep']
label_end = ['nu_cep']

In [None]:
df_end.info()

## Conjunto de Dados - Temática: Renda

In [None]:
df_renda = pd.read_csv("cli_amostra_minas_gerais_202006051503.csv", sep=';')
#df_renda = pd.read_csv("cli_amostra_minas_gerais_202006051503.csv", sep=';', low_memory=False)

In [None]:
# atributos int ou float
features = ['nu_pessoa', 'dt_nascimento', 'ic_tipo_renda', 'vr_renda_bruta',
       'vr_renda_liquida', 'dt_inicio', 'dt_fim', 'ic_principal',
       'nu_tipo_renda_p76', 'no_atividade', 'de_local_trabalho',
       'ic_infmo_renda', 'dt_apuracao_renda', 'ic_sexo', 'ic_situacao',
       'ic_inconsistencia', 'nu_estdo_civil_p27', 'de_estado_civil',
       'nu_nivel_insto_p14', 'de_nivel_instrucao']

features_grp = ['ic_tipo_renda', 'ic_principal', 'nu_tipo_renda_p76', 'no_atividade',
                'ic_infmo_renda', 'ic_sexo', 'ic_situacao', 'ic_inconsistencia', 'nu_estdo_civil_p27']

features_renda = ['nu_pessoa','vr_renda_bruta','vr_renda_liquida']

#label_renda = ['ic_principal','nu_tipo_renda_p76','ic_infmo_renda','ic_situacao']
label_renda = ['ic_situacao']

In [None]:
df_renda.info()

In [None]:
pd.set_option('float_format', '{:0.2f}'.format) ## Coloca na notação de números reais.
df_renda[features_renda].describe()

In [None]:
df_renda[features_renda].quantile()

In [None]:
df_renda[['vr_renda_bruta','vr_renda_liquida']].plot.box()

In [None]:
#renda_situacao = pd.DataFrame()
#renda_situacao = df_renda[features_renda].groupby(df_renda.ic_situacao.astype(str)).count()
#renda_situacao.describe()
df_renda[features_renda].groupby(df_renda.ic_situacao.astype(str)).count()

In [None]:
df_renda[features_renda].groupby(df_renda.nu_tipo_renda_p76.astype(str)).count()

In [None]:
df_renda[features_renda].groupby(df_renda.ic_infmo_renda.astype(str)).count()

In [None]:
df_renda[features_renda].groupby(df_renda.ic_sexo.astype(str)).count()

In [None]:
df_renda[features_renda].groupby(df_renda.ic_tipo_renda.astype(str)).count()

In [None]:
df_renda[features_renda].groupby(df_renda.ic_principal.astype(str)).count()

In [None]:
df_renda[features_renda].groupby(df_renda.nu_estdo_civil_p27.astype(str)).count()

In [None]:
df_renda[features_renda].groupby(df_renda.ic_inconsistencia.astype(str)).count()

In [None]:
pd.set_option('display.max_rows', 150)
df_renda[features_renda].groupby(df_renda.no_atividade.astype(str)).count()

## Funções para geração de gráficos estatísticos em valores numéricos e categóricos

In [None]:
def diagnostic_number_plots(df):
    for v in df:
        if pd.api.types.is_numeric_dtype(df[v]) == True:
            # define figure size
            plt.figure(figsize=(16, 4))

            # histogram
            plt.subplot(1, 3, 1)
            sns.distplot(df[v], bins=30)
            plt.title('Histogram')

            # Q-Q plot
            plt.subplot(1, 3, 2)
            stats.probplot(df[v], dist="norm", plot=plt)
            plt.ylabel(v+' quantiles')

            # boxplot
            plt.subplot(1, 3, 3)
            sns.boxplot(y=df[v])
            plt.title('Boxplot')

            plt.show()

In [None]:
diagnostic_number_plots(df_renda[features_renda])

In [None]:
def diagnostic_category_plots(df):
    for v in df:
        if pd.api.types.is_numeric_dtype (df[v]) == False:
            #plt.figure(figsize=(16, 4))
            print(df[v], '\n')
            #df.plot.box

In [None]:
diagnostic_category_plots(df_renda)

### Tratar missing values de ENDEREÇOS

In [None]:
def tratar_cep(df):
    df = df.dropna(axis=0)
    return df != (df / 10000)

In [None]:
df_end['valida_cep'] = tratar_cep(df_end['nu_cep'])

In [None]:
print(df_end['valida_cep'])

In [None]:
df_end

In [None]:
#s.str.slice(stop=2)
#s.str.slice(start=1)
#s.str.slice(start=0, stop=5, step=3)

nu_cep0 = [nu_cep]
nu_cep2 = [df_end.nu_cep.str.slice(stop=2)]
nu_cep3 = [df_end.nu_cep.str.slice(stop=3)]
nu_cep4 = [df_end.nu_cep.str.slice(stop=4)]
nu_cep5 = [df_end.nu_cep.str.slice(stop=5)]
#sg_uf   = [df_end.sg_uf.upper()]

cep0 = df_end.nu_cep.isin(nu_cep0)
cep2 = df_end.nu_cep.isin(nu_cep2)
cep3 = df_end.nu_cep.isin(nu_cep3)
cep4 = df_end.nu_cep.isin(nu_cep4)
cep5 = df_end.nu_cep.isin(nu_cep5)

#uf_cep  = (sg_uf & criterio_cep0)
where_ac_cep2  = [69,69]
where_al_cep2  = [57,57]
where_am1_cep2 = [69,69]
where_am2_cep2 = [69,69]
where_ap_cep2  = [68,68]
where_ba_cep2  = [40,48]
where_ce_cep2  = [60,63]
where_df1_cep2 = [70,72]
where_df1_cep2 = [73,73]
where_es_cep2  = [29,29]
where_go1_cep2 = [72,72]
where_go2_cep2 = [73,76]
where_ma_cep2  = [65,65]
where_mg_cep2  = [30,39]
where_ms_cep2  = [79,79]
where_mt_cep2  = [78,78]
where_pa_cep2  = [66,68]
where_pb_cep2  = [58,58]
where_pe_cep2  = [50,56]
where_pi_cep2  = [64,64]
where_pr_cep2  = [80,87]
where_rj_cep2  = [20,28]
where_rn_cep2  = [59,59]
where_ro_cep2  = [76,76]
where_rr_cep2  = [69,69]
where_rs_cep2  = [90,99]
where_sc_cep2  = [88,89]
where_se_cep2  = [49,49]
where_sp_cep2  = ['01',19]
where_to_cep2  = [77,77]

select_columns_t = ['PassengerId']
select_columns_f = ['PassengerId']

print('Sobreviventes: ', + dataset.loc[criterio_final_t, select_columns_t].count())
print('Não sobreviventes: ', + dataset.loc[criterio_final_f, select_columns_f].count())

In [None]:
df_end[['nu_cep','valida_cep']][df_end['valida_cep'] == False]

In [None]:
def tratar_ic_origem_cdsto(df,v):
    if df[v].astype == object:
        df_end['ic_origem_cdsto'] = df_end['ic_origem_cdsto'].str.split(',')
        df = df.drop[(df[v] != 'O') | (df[v] | 'B')]
    else:
        df = df.drop[(df[v] != 'O') | (df[v] | 'B')]
    return df

In [None]:
df_end.info()

In [None]:
#df_end['ic_origem_cdsto'].astype(str)
df_end['ic_origem_cdsto'] = df_end['ic_origem_cdsto'].str.split(',')

In [None]:
df_end['ic_origem_cdsto']

In [None]:
df_end['valida_ic_origem_cdsto'] = tratar_ic_origem_cdsto(df_end,'ic_origem_cdsto')

In [None]:
df_end[['ic_origem_cdsto','valida_ic_origem_cdsto']][df_end['ic_origem_cdsto'] == False]

### Tratar missing values de RENDA

In [None]:
def tratar_dt_nascimento(df):
    df = df.dropna(axis=0)
    return df

In [None]:
df_end['valida_dt_nascimento'] = tratar_dt_nascimento(df_end['dt_nascimento'])

In [None]:
df_end = df_end.drop(columns=['qtd_cep_nulo','isnull_cep'])

In [None]:
df_end

## Definindo limites máximos e mínimos

In [None]:
def find_boundaries(df, variable, distance):
    # argumento distance: std = 0.1 até 3.0

    IQR = df[variable].quantile(0.75) - df[variable].quantile(0.25)

    lower_boundary = df[variable].quantile(0.25) - (IQR * distance)
    upper_boundary = df[variable].quantile(0.75) + (IQR * distance)

    return upper_boundary, lower_boundary

## Delimitando os outliers em co_unidade

## co_unidade

In [None]:
nu_produto_upper_limit, nu_produto_lower_limit = find_boundaries(dataset, 'co_unidade', 1.35)
nu_produto_upper_limit, nu_produto_lower_limit

In [None]:
outliers_co_unidade =  np.where(dataset['co_unidade'] > nu_produto_upper_limit, True,
                       np.where(dataset['co_unidade'] < nu_produto_lower_limit, True, False))
dataset['outliers_co_unidade'] = outliers_co_unidade
dataset

In [None]:
# limpar do dataset somente os outliers

df_trimmed = dataset.loc[~outliers_co_unidade]

dataset.shape, df_trimmed.shape

In [None]:
diagnostic_number_plots(df_trimmed, features)