In [2]:
import pandas as pd
import seaborn as sb

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn import metrics 
from sklearn.metrics import classification_report, plot_confusion_matrix, accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV


import os
os.environ['PATH'].split(os.pathsep)
os.environ['PATH'] += os.pathsep + 'C:\\Program Files (x86)\\Graphviz2.38\\bin'




In [4]:
# carrega o dataset
dataset = pd.read_csv('https://raw.githubusercontent.com/jblancoperez/fiap-desafio/main/solicitacoescredito.csv')



In [5]:
# periodoDemonstrativoEmMeses -> converte valores nulos ou 0 em 1
dataset['periodoDemonstrativoEmMeses'] = dataset['periodoDemonstrativoEmMeses'].replace(np.nan, 1)
dataset['periodoDemonstrativoEmMeses'] = dataset['periodoDemonstrativoEmMeses'].replace(0, 1)

# faturamentoBruto -> converte valores nulos em 0 e divide pelo periodoDemonstrativoEmMeses
dataset['faturamentoBruto'] = dataset['faturamentoBruto'].replace(np.nan, 0)
dataset['faturamentoBruto'] = dataset['faturamentoBruto'] / dataset['periodoDemonstrativoEmMeses']


NameError: name 'np' is not defined

In [None]:
# Ok, agora veja que a variavel Survived é binária

# # Checking for missing values
# É fácil checar missing values usando método isnull() com o método sum(), o número retornado condiz com a quantidade True para o teste, ou seja, quantidade de valores nulos nas variaveis

titanic.isnull().sum()

titanic.info()


# Ok, então existem 891 linhas no dataframe. Cabin é quase todo composto por missing values, então podemos eliminar essa variável completamente! Mas e quanto à idade? A age parece um preditor relevante para a sobrevivência, certo? Nós queremos manter as variáveis, mas tem 177 missing values. Precisamos encontrar uma maneira de nos aproximarmos desses valores em falta!

# # Lidando com missing values
# Removendo missing values
# Vamos além dos missing values... Vamos descartar todas as variáveis que não são relevantes para a predição de Survived.


#E quanto ao nome de uma pessoa, número do bilhete e número de identificação do passageiro? Eles são irrelavantes para prever a capacidade de sobrevivência. E, como você se lembra, a variável cabine é quase todoa com missing values!!
titanic_data = titanic.drop(['PassengerId','Name','Ticket','Cabin'], 1)
titanic_data.head()


# Agora, o dataframe foi reduzido para apenas variáveis relevantes, mas agora precisamos lidar com os valores ausentes na variável age.

# # Imputing missing values
# Vejamos como a idade do passageiro está relacionada à sua classe como passageiro no barco.


sb.boxplot(x='Pclass', y='Age', data=titanic_data, palette='hls')


# Falando mais ou menos, poderíamos dizer que quanto mais jovem é um passageiro, mais provável é que ele esteja na 3ª classe. Quanto mais velho for um passageiro, maior a probabilidade de estarem na 1ª classe. Portanto, há um relacionamento frouxo entre essas variáveis. Então, vamos escrever uma função que se aproxime da idade dos passageiros, com base em sua classe. Na caixa, parece que a idade média dos passageiros de 1ª classe é de cerca de 37 anos, os passageiros de 2ª classe são 29 e os passageiros de 3ª classe são 24.
# 
# Então, vamos escrever uma função que encontre cada valor nulo na variável Age e, para cada nulo, verifique o valor da Pclass e atribua um valor de idade de acordo com a idade média dos passageiros nessa classe.


def age_approx(cols):
    Age = cols[0]
    Pclass = cols[1]
    
    if pd.isnull(Age):
        if Pclass == 1:
            return 37
        elif Pclass == 2:
            return 29
        else:
            return 24
    else:
        return Age


# Após definir a função, vamos executar apenas para os valores nulos de Age

titanic_data['Age'] = titanic_data[['Age', 'Pclass']].apply(age_approx, axis=1)
titanic_data.isnull().sum()
# Existem ainda 2 valores nulos na variável Embarked. Podemos eliminar esses dois registros sem perder muitas informações importantes do nosso conjunto de dados, então faremos isso.
titanic_data.dropna(inplace=True)
titanic_data.isnull().sum()

# # Converting categorical variables to a dummy indicators
gender = pd.get_dummies(titanic_data['Sex'],drop_first=True)
gender.head()

embark_location = pd.get_dummies(titanic_data['Embarked'],drop_first=True)
embark_location.head()


#Ainda não alteramos os dados! Vamos alterar em seguida.
titanic_data.head()

titanic_data.drop(['Sex', 'Embarked'],axis=1,inplace=True)
titanic_data.head()

titanic_dmy = pd.concat([titanic_data,gender,embark_location],axis=1)
titanic_dmy.head()

titanic_dmy.drop(['Pclass'],axis=1,inplace=True)
titanic_dmy.head()

titanic_dmy.drop(['Q'],axis=1,inplace=True)
titanic_dmy.head()

X = titanic_dmy.iloc[:,[1,2,3,4,5,6]].values
y = titanic_dmy.iloc[:,0].values


#Normalização do Conjunto
X = StandardScaler().fit_transform(X)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = .3, random_state=25)



classificador = SVC(kernel="sigmoid", gamma=2)
#classificador = SVC(gamma=2, C=1)
classificador.fit(X_train, y_train)
y_pred = classificador.predict(X_test)


print(classification_report(y_test, y_pred))
print(accuracy_score(y_test, y_pred))

cm = confusion_matrix(y_test, y_pred)
print(cm)
plot_confusion_matrix(classificador, X_test, y_test, normalize = 'true')


#param_grid = {'C': [0.001, 0.01, 0.1, 1, 10, 100, 1000],  
#              'gamma': [1000,100, 10, 1, 0.1, 0.01, 0.001, 0.0001], 
#              'kernel': ['rbf', 'sigmoid', 'linear']}


param_grid = {'C': [0.001, 0.01, 0.1, 1, 10, 100],  
              'gamma': [100, 10, 1, 0.1, 0.01, 0.001], 
              'kernel': ['rbf', 'sigmoid', 'linear']}


grid_search = GridSearchCV(SVC(), param_grid,verbose = 3, cv=5, n_jobs=-1)
grid_result = grid_search.fit(X_train, y_train)  

#Imprime os Melhores parâmetros Encontrados
print(grid_search.best_params_)

#Imprime os Melhores parâmetros Encontrados
print(grid_search.best_score_)

bestSVM = grid_search.best_estimator_

y_pred = bestSVM.predict(X_test)

print(classification_report(y_test, y_pred))
print(accuracy_score(y_test, y_pred))

cm = confusion_matrix(y_test, y_pred)
print(cm)
plot_confusion_matrix(bestSVM, X_test, y_test, normalize = 'true')

