In [None]:
import pandas as pd
import numpy as np

In [None]:
dados = pd.read_csv('../input/company-bankruptcy-prediction/data.csv')

In [None]:
dados.head()

In [None]:
nullvalues = dados.isnull().sum()
nullvalues[nullvalues > 0]

In [None]:
dados.columns = dados.columns.str.replace(" ", "")

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
correlacao = dados.corr()
correlacao2 = correlacao['Bankrupt?']
correlacao2[correlacao2 > 0.1]

$$ Debt Ratio = \frac{TotalDebt}{TotalAsset} $$

In [None]:
ax, fig = plt.subplots(figsize=(12,6))
sns.barplot(y = dados["debtratio%"]*100, x = dados['Bankrupt?']).set_title('Grau de Endividamento')
sns.set_theme(context='paper', style='darkgrid', font_scale=1.9)
plt.show()

### Nota-se que as empresas que faliram possuíam um grau de endividamento consideravelmente acima de 10% ou 15%, beirando patamares próximos a 20%, o que implica diretamente em problemas de insustentabilidade da dívida e insolubilidade da empresa. Por outro lado, vemos que as empresas que não faliram possuíam um grau de endividamento próximo a 10%. Isso indica que um grau saudável de endividamento, que garanta a sustentabilidade da empresa, gira em torno de 10%. ###

In [None]:
ax, fig = plt.subplots(figsize=(12,6))
sns.barplot(x = dados['Bankrupt?'], y = dados['borrowingdependency']).set_title("Dependência de Empréstimo")
sns.set_theme(context='paper', style='darkgrid', font_scale=1)
plt.show()

### No caso da dependência de empréstimos os resultados não são tão discrepantes, entretanto, nota-se ainda que as empresas que faliram possuíam uma dependência maior de empréstimos. ###

In [None]:
ax, fig = plt.subplots(figsize=(12,6))
sns.barplot(x = dados['Bankrupt?'], y = dados['totalexpense/assets']).set_title("Gastos / Ativos")
sns.set_theme(context='paper', style='darkgrid', font_scale=1)
plt.show()

### Quanto a relação entre gastos e ativos, nota-se que as empresas que vieram a falência apresentam uma relação muito mais elevada dos gastos em relaçãão aos ativos, enquanto as empresas que não faliram aprensentam uma relação menos elevada. Isso indica que para a empresa se manter financeiramente saudável é importante manter a sustentabilidade dos gastos, baseando-se na relaçãão entre gastos e ativos.

In [None]:
y = dados.loc[:,'Bankrupt?']
x = dados.drop('Bankrupt?', axis=1)

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.model_selection import train_test_split

In [None]:
x_test, x_train, y_test, y_train = train_test_split(x, y, random_state = 0, test_size = 0.2)

In [None]:
modelo = RandomForestClassifier()
modelo.fit(x_train, y_train)

In [None]:
predicao = modelo.predict(x_test)

In [None]:
print(confusion_matrix(y_test, predicao))

In [None]:
print(classification_report(y_test, predicao))

In [None]:
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA

In [None]:
cluster = KMeans(n_clusters=2)
modelo = cluster.fit(x_train, y_train)

In [None]:
predicao = modelo.predict(x_test)
print(classification_report(y_test, predicao))

In [None]:
transformar = PCA(n_components=2)
dados2 = transformar.fit_transform(x_test)

In [None]:
dados2 = pd.DataFrame(dados2, columns = ['PCA1','PCA2'])
dados2['GRUPO'] = predicao

In [None]:
dados2.head()

In [None]:
sns.scatterplot(x = dados2['PCA1'], y = dados2['PCA2'], hue = dados2['GRUPO'])