Qual profissão tem mais tendência a fazer um empréstimo? De qual tipo?

In [24]:
import pandas as pd
dataset_total = pd.read_csv('bank-full.csv', sep = ';')

É preciso verificar a quantidade de pessoas que fez empréstimo em pelo menos uma das modalidades, pra cada profissão. Para isso, determinamos a quantidade de pessoas que fizeram empréstimo em pelo menos um dos modos (dataset_yes) e comparamos com o total de pessoas, as que fizeram empréstimo e as que não fizeram (dataset_yes + dataset_no):

In [25]:
dataset_yes = dataset_total[(dataset_total.housing == 'yes') | (dataset_total.loan == 'yes')].groupby(['job']).size()
dataset_no = dataset_total[(dataset_total.housing == 'no') & (dataset_total.loan == 'no')].groupby(['job']).size()

A partir desses dados, é possível determinar a porcentagem de pessoas que fizeram algum tipo de empréstimo para cada profissão (pct_yes):

In [26]:
pct_yes = dataset_yes * 100 / (dataset_yes + dataset_no)
print(pct_yes)

job
admin.           69.019532
blue-collar      78.082614
entrepreneur     68.325488
housemaid        39.516129
management       55.244238
retired          30.874558
self-employed    54.718176
services         73.736158
student          27.398721
technician       60.655522
unemployed       45.203377
unknown           9.722222
dtype: float64


Com esse resultado, é possível perceber que a profissão com maior porcentagem de pessoas que fizeram algum tipo de empréstimo é a de profissionais menos qualificados (blue-collar), com 78,08%. Para determinar qual é o tipo de empréstimo mais realizado, é preciso separar a quantidade de pessoas que fizeram somente empréstimo imobiliário(dataset_housing), a de pessoas que fizeram somente empréstimo pessoal (dataset_loan) e a de pessoas que fizeram os dois tipos de empréstimo(dataset_ambos).

In [27]:
dataset_housing = dataset_total[(dataset_total.housing == 'yes') & (dataset_total.loan == 'no') & (dataset_total.job == 'blue-collar')].groupby(['job']).size()
dataset_loan = dataset_total[(dataset_total.housing == 'no') & (dataset_total.loan == 'yes') & (dataset_total.job == 'blue-collar')].groupby(['job']).size()
dataset_ambos = dataset_total[(dataset_total.housing == 'yes') & (dataset_total.loan == 'yes') & (dataset_total.job == 'blue-collar')].groupby(['job']).size()

In [28]:
print(dataset_housing.reset_index(name = 'housing'))
print(dataset_loan.reset_index(name = 'loan'))
print(dataset_ambos.reset_index(name = 'ambos'))

           job  housing
0  blue-collar     5915
           job  loan
0  blue-collar   551
           job  ambos
0  blue-collar   1133


Com esses dados, é possível calcular suas respectivas porcentagens (pct_housing, pct_loan, pct_ambos):

In [29]:
pct_housing = dataset_housing * 100 / (dataset_housing + dataset_loan + dataset_ambos)
pct_loan = dataset_loan * 100 / (dataset_housing + dataset_loan + dataset_ambos)
pct_ambos = dataset_ambos * 100 / (dataset_housing + dataset_loan + dataset_ambos)

In [30]:
print(pct_housing.reset_index(name = 'housing'))
print(pct_loan.reset_index(name = 'loan'))
print(pct_ambos.reset_index(name = 'ambos'))

           job    housing
0  blue-collar  77.839189
           job      loan
0  blue-collar  7.250954
           job      ambos
0  blue-collar  14.909857


Assim, verficamos que o tipo de empréstimo mais realizado pelos profissionais menos qualificados é o empréstimo imobiliário, com 77,84% de profissionais que fizeram somente esse empréstimo e mais 14,91% que fizeram este tipo de empréstimo, além do empréstimo pessoal.