In [38]:
import pandas as pd
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import roc_auc_score
from sklearn.metrics import recall_score
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import cohen_kappa_score
from sklearn.metrics import f1_score


falso = pd.read_csv("falso.csv")
er = pd.read_csv("er.csv")

x = er
y = falso["ind_cco_fin_ult1"]


treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.3,
                                                         stratify = y)

modelo = DecisionTreeClassifier(max_depth=5)
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuidade = accuracy_score(teste_y, previsoes) * 100
print("A acuidade foi %.2f%%" % acuidade)

precision = precision_score(teste_y, previsoes) * 100
print("A precisão foi %.2f%%" % precision)

recall = recall_score(teste_y, previsoes) * 100
print("A recall foi %.2f%%" % recall)

curva = roc_auc_score(teste_y, previsoes) * 100
print("O AUC foi %.2f%%" % curva)

F1 = 2 * (precision * recall) / (precision + recall)
print("O f-measure foi %.2f%%" % F1)

k = cohen_kappa_score(teste_y, previsoes) * 100
print("O kappa %.2f%%" % k)

A acuidade foi 77.69%
A precisão foi 86.49%
A recall foi 65.46%
O AUC foi 77.65%
O f-measure foi 74.52%
O kappa 55.34%


In [39]:
import pandas as pd
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import roc_auc_score
from sklearn.metrics import recall_score
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import cohen_kappa_score


falso = pd.read_csv("falso.csv")
er = pd.read_csv("er.csv")

x = er
y = falso["ind_cco_fin_ult1"]


treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.3,
                                                         stratify = y)

scaler = StandardScaler()
scaler.fit(treino_x)
treino_x = scaler.transform(treino_x)
teste_x = scaler.transform(teste_x)

modelo = SVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuidade = accuracy_score(teste_y, previsoes) * 100
print("A acuidade foi %.2f%%" % acuidade)

precision = precision_score(teste_y, previsoes) * 100
print("A precisão foi %.2f%%" % precision)

recall = recall_score(teste_y, previsoes) * 100
print("A recall foi %.2f%%" % recall)

curva = roc_auc_score(teste_y, previsoes) * 100
print("O AUC foi %.2f%%" % curva)

F1 = 2 * (precision * recall) / (precision + recall)
print("O f-measure foi %.2f%%" % F1)

k = cohen_kappa_score(teste_y, previsoes) * 100
print("O  kappa %.2f%%" % k)



A acuidade foi 77.61%
A precisão foi 88.13%
A recall foi 63.65%
O AUC foi 77.56%
O f-measure foi 73.92%
O  kappa 55.18%


In [41]:
import pandas as pd
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import roc_auc_score
from sklearn.metrics import recall_score
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import BernoulliNB
from sklearn.metrics import cohen_kappa_score


falso = pd.read_csv("falso.csv")
er = pd.read_csv("er.csv")

x = er
y = falso["ind_cco_fin_ult1"]


treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.3,
                                                         stratify = y)

modelo = BernoulliNB()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuidade = accuracy_score(teste_y, previsoes) * 100
print("A acuidade foi %.2f%%" % acuidade)

precision = precision_score(teste_y, previsoes) * 100
print("A precisão foi %.2f%%" % precision)

recall = recall_score(teste_y, previsoes) * 100
print("A recall foi %.2f%%" % recall)

curva = roc_auc_score(teste_y, previsoes) * 100
print("O AUC foi %.2f%%" % curva)

F1 = 2 * (precision * recall) / (precision + recall)
print("O f-measure foi %.2f%%" % F1)

k = cohen_kappa_score(teste_y, previsoes) * 100
print("O  kappa %.2f%%" % k)

A acuidade foi 72.67%
A precisão foi 72.96%
A recall foi 71.75%
O AUC foi 72.66%
O f-measure foi 72.35%
O  kappa 45.33%


In [42]:
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import roc_auc_score
from sklearn.metrics import recall_score
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import cohen_kappa_score

falso = pd.read_csv("falso.csv")
er = pd.read_csv("er.csv")

x = er
y = falso["ind_cco_fin_ult1"]


treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.3,
                                                         stratify = y)

modelo = MLPClassifier()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuidade = accuracy_score(teste_y, previsoes) * 100
print("A acuidade foi %.2f%%" % acuidade)

precision = precision_score(teste_y, previsoes) * 100
print("A precisão foi %.2f%%" % precision)

recall = recall_score(teste_y, previsoes) * 100
print("A recall foi %.2f%%" % recall)

curva = roc_auc_score(teste_y, previsoes) * 100
print("O AUC foi %.2f%%" % curva)

F1 = 2 * (precision * recall) / (precision + recall)
print("O f-measure foi %.2f%%" % F1)

k = cohen_kappa_score(teste_y, previsoes) * 100
print("O  kappa %.2f%%" % k)

A acuidade foi 55.41%
A precisão foi 73.10%
A recall foi 16.68%
O AUC foi 55.29%
O f-measure foi 27.16%
O  kappa 10.61%




In [45]:
import pandas as pd
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import roc_auc_score
from sklearn.metrics import recall_score
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import cohen_kappa_score


falso = pd.read_csv("falso.csv")
er = pd.read_csv("er.csv")

#x = falso[["ncodpers","ind_empleado","pais_residencia","sexo","age","AgeStatus","ind_nuevo","antiguedad","indrel","indrel_1mes","tiprel_1mes","indresi","indext","indfall","tipodom","cod_prov","ind_actividad_cliente","renta","segmento","ind_ahor_fin_ult1","ind_aval_fin_ult1","ind_cder_fin_ult1","ind_cno_fin_ult1","ind_ctju_fin_ult1","ind_ctma_fin_ult1","ind_ctop_fin_ult1","ind_ctpp_fin_ult1","ind_deco_fin_ult1","ind_deme_fin_ult1","ind_dela_fin_ult1","ind_ecue_fin_ult1","ind_fond_fin_ult1","ind_hip_fin_ult1","ind_plan_fin_ult1","ind_pres_fin_ult1","ind_reca_fin_ult1","ind_tjcr_fin_ult1","ind_valo_fin_ult1","ind_viv_fin_ult1","ind_nomina_ult1","ind_nom_pens_ult1","ind_recibo_ult1"]]
x = er
y = falso["ind_cco_fin_ult1"]


treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.3,
                                                         stratify = y)

modelo = RandomForestClassifier(max_depth=5)
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuidade = accuracy_score(teste_y, previsoes) * 100
print("A acuidade foi %.2f%%" % acuidade)

precision = precision_score(teste_y, previsoes) * 100
print("A precisão foi %.2f%%" % precision)

recall = recall_score(teste_y, previsoes) * 100
print("A recall foi %.2f%%" % recall)

curva = roc_auc_score(teste_y, previsoes) * 100
print("O AUC foi %.2f%%" % curva)

F1 = 2 * (precision * recall) / (precision + recall)
print("O f-measure foi %.2f%%" % F1)

k = cohen_kappa_score(teste_y, previsoes) * 100
print("O  kappa %.2f%%" % k)

A acuidade foi 77.76%
A precisão foi 85.77%
A recall foi 66.40%
O AUC foi 77.73%
O f-measure foi 74.86%
O  kappa 55.50%




In [46]:
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import roc_auc_score
from sklearn.metrics import recall_score
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import cohen_kappa_score


falso = pd.read_csv("falso.csv")
er = pd.read_csv("er.csv")

x = er
y = falso["ind_cco_fin_ult1"]

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.3,
                                                         stratify = y)

modelo = GradientBoostingClassifier(max_depth=5)
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuidade = accuracy_score(teste_y, previsoes) * 100
print("A acuidade foi %.2f%%" % acuidade)

precision = precision_score(teste_y, previsoes) * 100
print("A precisão foi %.2f%%" % precision)

recall = recall_score(teste_y, previsoes) * 100
print("A recall foi %.2f%%" % recall)

curva = roc_auc_score(teste_y, previsoes) * 100
print("O AUC foi %.2f%%" % curva)

F1 = 2 * (precision * recall) / (precision + recall)
print("O f-measure foi %.2f%%" % F1)

k = cohen_kappa_score(teste_y, previsoes) * 100
print("O  kappa %.2f%%" % k)

A acuidade foi 77.18%
A precisão foi 83.54%
A recall foi 67.51%
O AUC foi 77.15%
O f-measure foi 74.67%
O  kappa 54.33%


In [55]:
import pandas
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import roc_auc_score
from sklearn.metrics import recall_score
from sklearn.model_selection import train_test_split
from sklearn.tree import ExtraTreeClassifier
from sklearn.metrics import cohen_kappa_score

falso = pd.read_csv("falso.csv")
er = pd.read_csv("er.csv")

x = er
y = falso["ind_cco_fin_ult1"]

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.3,
                                                         stratify = y)

modelo = ExtraTreeClassifier()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuidade = accuracy_score(teste_y, previsoes) * 100
print("A acuidade foi %.2f%%" % acuidade)

precision = precision_score(teste_y, previsoes) * 100
print("A precisão foi %.2f%%" % precision)

recall = recall_score(teste_y, previsoes) * 100
print("A recall foi %.2f%%" % recall)

curva = roc_auc_score(teste_y, previsoes) * 100
print("O AUC foi %.2f%%" % curva)

F1 = 2 * (precision * recall) / (precision + recall)
print("O f-measure foi %.2f%%" % F1)

k = cohen_kappa_score(teste_y, previsoes) * 100
print("O  kappa %.2f%%" % k)

A acuidade foi 71.06%
A precisão foi 70.84%
A recall foi 71.28%
O AUC foi 71.06%
O f-measure foi 71.06%
O  kappa 42.12%


In [60]:
import pandas
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import roc_auc_score
from sklearn.metrics import recall_score
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import cohen_kappa_score

falso = pd.read_csv("falso.csv")
er = pd.read_csv("er.csv")

x = er
y = falso["ind_cco_fin_ult1"]

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.3,
                                                         stratify = y)

modelo = LogisticRegression()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuidade = accuracy_score(teste_y, previsoes) * 100
print("A acuidade foi %.2f%%" % acuidade)

precision = precision_score(teste_y, previsoes) * 100
print("A precisão foi %.2f%%" % precision)

recall = recall_score(teste_y, previsoes) * 100
print("A recall foi %.2f%%" % recall)

curva = roc_auc_score(teste_y, previsoes) * 100
print("O AUC foi %.2f%%" % curva)

F1 = 2 * (precision * recall) / (precision + recall)
print("O f-measure foi %.2f%%" % F1)

k = cohen_kappa_score(teste_y, previsoes) * 100
print("O  kappa %.2f%%" % k)

A acuidade foi 77.41%
A precisão foi 87.17%
A recall foi 64.12%
O AUC foi 77.37%
O f-measure foi 73.89%
O  kappa 54.79%


