Vamos começar lendo os dados de um arquivo csv disponibilizado na aula sobre exploração de dados da EBAC, para isso utilizaremos um dataframe pandas    

In [2]:
import pandas as pd

df = pd.read_csv('https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/develop/dataset/credito.csv', na_values='na')

df.head()

Unnamed: 0,id,default,idade,sexo,dependentes,escolaridade,estado_civil,salario_anual,tipo_cartao,meses_de_relacionamento,qtd_produtos,iteracoes_12m,meses_inativo_12m,limite_credito,valor_transacoes_12m,qtd_transacoes_12m
0,768805383,0,45,M,3,ensino medio,casado,$60K - $80K,blue,39,5,3,1,"12.691,51","1.144,90",42
1,818770008,0,49,F,5,mestrado,solteiro,menos que $40K,blue,44,6,2,1,"8.256,96","1.291,45",33
2,713982108,0,51,M,3,mestrado,casado,$80K - $120K,blue,36,4,0,1,"3.418,56","1.887,72",20
3,769911858,0,40,F,4,ensino medio,,menos que $40K,blue,34,3,1,4,"3.313,03","1.171,56",20
4,709106358,0,40,M,3,sem educacao formal,casado,$60K - $80K,blue,21,5,0,1,"4.716,22",81608,28


conhecendo melhor a estrutura de dados:

In [3]:
df.shape #retorna uma tupla (quantidade de linhas e de colunas)

(10127, 16)

In [4]:
df[df['default'] == 0].shape #estamos filtrando as informações baseada em uma coluna de interesse, neste caso a coluna 'default' que é a coluna que mostra clientes inadimplentes ou adimplentes
#Os clientes com 'default' == 0 são clientes adimplentes 

(8500, 16)

In [6]:
df[df['default'] == 1].shape #O mesmo código de cima, porém agora com clientes inadimplentes

(1627, 16)

In [11]:
quantidade_total, _ = df.shape
quantidade_inadimplente, _ = df[df['default'] == 1].shape
quantidade_adimplente, _ = df[df['default'] == 0].shape

print (f'A proporção de clientes Adimplentes é de {round(100 * quantidade_adimplente / quantidade_total, 2)}%')
print (f'A proporção de clientes Inadimplentes é de {round(100 * quantidade_inadimplente / quantidade_total, 2)}%')


A proporção de clientes Adimplentes é de 83.93%
A proporção de clientes Inadimplentes é de 16.07%


Schema: relaciona o assunto tradado em uma coluna, com o tipo do dado que esta presente dentro dela

Colunas e seus respectivos tipos de dados:

In [12]:
df.dtypes

id                          int64
default                     int64
idade                       int64
sexo                       object
dependentes                 int64
escolaridade               object
estado_civil               object
salario_anual              object
tipo_cartao                object
meses_de_relacionamento     int64
qtd_produtos                int64
iteracoes_12m               int64
meses_inativo_12m           int64
limite_credito             object
valor_transacoes_12m       object
qtd_transacoes_12m          int64
dtype: object

Atributos categóricos:

In [15]:
df.select_dtypes('object').describe().transpose() #filtrando a coluna em relação ao seu tipo. Método describe traz resumos sobre os dados selecionados

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
default,10127.0,0.16066,0.367235,0.0,0.0,0.0,0.0,1.0
idade,10127.0,46.32596,8.016814,26.0,41.0,46.0,52.0,73.0
dependentes,10127.0,2.346203,1.298908,0.0,1.0,2.0,3.0,5.0
meses_de_relacionamento,10127.0,35.928409,7.986416,13.0,31.0,36.0,40.0,56.0
qtd_produtos,10127.0,3.81258,1.554408,1.0,3.0,4.0,5.0,6.0
iteracoes_12m,10127.0,2.455317,1.106225,0.0,2.0,2.0,3.0,6.0
meses_inativo_12m,10127.0,2.341167,1.010622,0.0,2.0,2.0,3.0,6.0
qtd_transacoes_12m,10127.0,64.858695,23.47257,10.0,45.0,67.0,81.0,139.0


Atributos numéricos:

In [17]:
df.drop('id',   axis=1).select_dtypes('number').describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
default,10127.0,0.16066,0.367235,0.0,0.0,0.0,0.0,1.0
idade,10127.0,46.32596,8.016814,26.0,41.0,46.0,52.0,73.0
dependentes,10127.0,2.346203,1.298908,0.0,1.0,2.0,3.0,5.0
meses_de_relacionamento,10127.0,35.928409,7.986416,13.0,31.0,36.0,40.0,56.0
qtd_produtos,10127.0,3.81258,1.554408,1.0,3.0,4.0,5.0,6.0
iteracoes_12m,10127.0,2.455317,1.106225,0.0,2.0,2.0,3.0,6.0
meses_inativo_12m,10127.0,2.341167,1.010622,0.0,2.0,2.0,3.0,6.0
qtd_transacoes_12m,10127.0,64.858695,23.47257,10.0,45.0,67.0,81.0,139.0


Dados faltantes:

Dados faltantes podem ser :
* Vazios (**);
* Nulos (Nune);
* Não disponíveis ou aplicaveis (na, NA, etc);
* Não numérico (nan, NaN, NAN, etc)

Podemos verificar quais colunas possuem dados faltantes:

In [18]:
df.isna().any() #método 'isna' para encontrar todos os dados faltantes e método 'any' para as colunas de interesse

id                         False
default                    False
idade                      False
sexo                       False
dependentes                False
escolaridade                True
estado_civil                True
salario_anual               True
tipo_cartao                False
meses_de_relacionamento    False
qtd_produtos               False
iteracoes_12m              False
meses_inativo_12m          False
limite_credito             False
valor_transacoes_12m       False
qtd_transacoes_12m         False
dtype: bool

Os dados que resultaram em "True" possuem dados faltantes

A função a baixo levanta algumas estatísticas sobre as colunas com dados faltantes

In [23]:
def stats_dados_faltantes (df: pd.DataFrame) -> None:
    
    stats_dados_faltantes=[]
    for col in df.columns:
        if df[col].isna().any():
            qtd,_=df[df[col].isna()].shape
            total,_=df.shape
            dict_dados_faltantes={col:{'Quantidade: ':qtd, 'Porcentagem: ': round(100 * qtd/total, 2)}}
            stats_dados_faltantes.append(dict_dados_faltantes)
    for stat in stats_dados_faltantes:
        print(stat)    

Dataframe inteiro:

In [24]:
stats_dados_faltantes(df=df)

{'escolaridade': {'Quantidade: ': 1519, 'Porcentagem: ': 15.0}}
{'estado_civil': {'Quantidade: ': 749, 'Porcentagem: ': 7.4}}
{'salario_anual': {'Quantidade: ': 1112, 'Porcentagem: ': 10.98}}


Dataframe apenas com os Adimplentes:

In [26]:
stats_dados_faltantes(df=df[df['default'] == 0])

{'escolaridade': {'Quantidade: ': 1263, 'Porcentagem: ': 14.86}}
{'estado_civil': {'Quantidade: ': 620, 'Porcentagem: ': 7.29}}
{'salario_anual': {'Quantidade: ': 925, 'Porcentagem: ': 10.88}}


Dataframe apenas com os Inadimplentes:

In [27]:
stats_dados_faltantes(df=df[df['default'] == 1])

{'escolaridade': {'Quantidade: ': 256, 'Porcentagem: ': 15.73}}
{'estado_civil': {'Quantidade: ': 129, 'Porcentagem: ': 7.93}}
{'salario_anual': {'Quantidade: ': 187, 'Porcentagem: ': 11.49}}
