## NERD DOS DADOS - Utilizando Filtros e Criando Categorias

In [1]:
# Importando os pacotes que serão utilizados
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
# Carregando o arquivo de dados
df_original = pd.read_csv("dados.csv")

In [3]:
# Visualizando as primeiras linhas do arquivo
df_original.head()

Unnamed: 0,CODIGO_CLIENTE,RENDA,UF,QT_DIAS_ATRASO
0,5695,1800.0,MT,202
1,5705,3000.0,GO,531
2,5711,3600.0,MT,191
3,5727,2500.0,GO,113
4,5994,2000.0,BA,2220


In [4]:
# Visualizar os dias mínimos e máximos de atraso
print(df_original['QT_DIAS_ATRASO'].min())
print(df_original['QT_DIAS_ATRASO'].max())

-57
2735


In [5]:
# Vamos filtrar e utilizar somente valores igual ou maior que zero
df_original = df_original.loc[df_original['QT_DIAS_ATRASO'] >= 0]

In [6]:
# Visualizando novamente após o ajuste
print(df_original['QT_DIAS_ATRASO'].min())
print(df_original['QT_DIAS_ATRASO'].max())

0
2735


In [7]:
# Vamos avaliar os valores mínimos e máximos de renda
print(df_original['RENDA'].min())
print(df_original['RENDA'].max())

0.0
3000000000.0


In [8]:
# Ajustar para obtermos somente os valores acima de 1.000 e menor que 100.000
df_original = df_original.loc[df_original['RENDA'] > 1000]
df_original = df_original.loc[df_original['RENDA'] <= 100000]

In [9]:
# Visualizando novamente após o ajuste
print(df_original['RENDA'].min())
print(df_original['RENDA'].max())

1000.2
100000.0


In [10]:
# Vamos criar um novo campo que será uma categoria de RISCO
bins = [-100, 0, 30, 60, 120,999999999]
labels = ['Zero', 'Baixo', 'Medio', 'Alto', 'Máximo']
df_original['RISCO'] = pd.cut(df_original['QT_DIAS_ATRASO'], bins=bins, labels=labels)
pd.value_counts(df_original.RISCO)

Máximo    91896
Alto       6430
Baixo      3192
Medio      3159
Zero         39
Name: RISCO, dtype: int64

In [11]:
# Vamos criar um novo campo que será uma categoria de faixa de renda
bins = [-100, 2000, 6000, 100000]
labels = ['Baixa', 'Media', 'Alta']
df_original['FAIXA_RENDA'] = pd.cut(df_original['RENDA'], bins=bins, labels=labels)
pd.value_counts(df_original.FAIXA_RENDA)

Media    54946
Baixa    31199
Alta     18571
Name: FAIXA_RENDA, dtype: int64

In [12]:
# Visualizando o DataFrame
df_original.head()

Unnamed: 0,CODIGO_CLIENTE,RENDA,UF,QT_DIAS_ATRASO,RISCO,FAIXA_RENDA
0,5695,1800.0,MT,202,Máximo,Baixa
1,5705,3000.0,GO,531,Máximo,Media
2,5711,3600.0,MT,191,Máximo,Media
3,5727,2500.0,GO,113,Alto,Media
4,5994,2000.0,BA,2220,Máximo,Baixa


In [None]:
# Gerando o gráfico de contagem Risco
plt.rcParams["figure.figsize"] = [14.00, 5.00]
plt.rcParams["figure.autolayout"] = True

sns.countplot(x = 'RISCO', data = df_original,order=df_original['RISCO'].value_counts().index)

plt.show()

In [None]:
# Gerando o gráfico de contagem por faixa de renda
plt.rcParams["figure.figsize"] = [14.00, 5.00]
plt.rcParams["figure.autolayout"] = True

sns.countplot(x = 'FAIXA_RENDA', data = df_original,order=df_original['FAIXA_RENDA'].value_counts().index)

plt.show()