In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import scipy.stats as st

# Configuring matplotlib to display and save images with a white background
plt.rcParams['figure.facecolor'] = 'white'

# Reading the data from the csv file
raw_data = pd.read_csv('../input/insolv1/Insol.csv', decimal=",", sep=";")
np.set_printoptions(suppress=True)

# Defining some regular bins
# Bin for variation coefiecient
bins_var = [-1, -0.8, -0.6, -0.4, -0.2, 0, 0.2, 0.4, 0.6, 0.8, 1]

# Bin for values between 0 and 1
bins_from_zero = [0, 0.2, 0.4, 0.6, 0.8, 1]

In [2]:
curColumn = raw_data['Distrito']

fPorDistrito = curColumn[raw_data['Insolvencia'] == 1]
empresasFalidasPorDistrito = pd.DataFrame(fPorDistrito.value_counts().sort_index())
empresasFalidasPorDistrito.columns = ['Nº de empresas falidas']

colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
dfSummary = pd.DataFrame(colSummary)
dfSummary.columns = ['Valor']
display(dfSummary)

totalPerAtrr = pd.DataFrame(curColumn.value_counts().sort_index())
totalPerAtrr.columns = ['Nº de empresas']
display(totalPerAtrr)
display(empresasFalidasPorDistrito)

curColumn.value_counts().sort_index().plot.pie(
    autopct='%1.1f%%',
    startangle=90,
    radius=2,
    pctdistance=1.1,
    labeldistance=0.5
)



In [None]:
curColumn = raw_data['NACE1']

colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
dfSummary = pd.DataFrame(colSummary)
dfSummary.columns = ['Valor']
display(dfSummary)

fPorNace = curColumn[raw_data['Insolvencia'] == 1]
naceInsolvidos = pd.DataFrame(fPorNace.value_counts().sort_index())
naceInsolvidos.columns = ['Nº de Empresas']
display(naceInsolvidos)


totalPerAtrr = pd.DataFrame(curColumn.value_counts().sort_index())
totalPerAtrr.columns = ['Nº de Empresas']
display(totalPerAtrr)
curColumn.value_counts().sort_index().plot.pie(
    autopct='%1.1f%%',
    startangle=90,
    radius=2,
    pctdistance=1.1,
    labeldistance=0.5
)



In [None]:
curColumn = raw_data['NACE2']
var_nace2 = curColumn.unique()
var_nace2.sort()

colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
dfSummary = pd.DataFrame(colSummary)
dfSummary.columns = ['Valor']
display(dfSummary)

totalPerAtrr = pd.DataFrame(curColumn.value_counts().sort_index())
totalPerAtrr.columns = ['Nº de empresas']
display(totalPerAtrr)

curColumn.value_counts().sort_index().plot.pie(
    autopct='%1.1f%%',
    startangle=90,
    radius=2,
    pctdistance=1.1,
    labeldistance=0.5
)

In [None]:
curColumn = raw_data['Numero_Empregados']
var_empregados = curColumn.unique()
var_empregados.sort()

colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
dfSummary = pd.DataFrame(colSummary)
dfSummary.columns = ['Valor']

bins = [1, 100, 200, 300, 400, 500, 600, 1200, 1400]
curColumn = pd.cut(curColumn, bins)

dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Número de Empresas dentro do intervalo']

display(dfSummary)
display(dfIntervals)
curColumn.value_counts().sort_index().plot.bar()


In [None]:
curColumn = raw_data['Num_anos_disponiveis_base']
var_num_anos_disponiveis_base = curColumn.unique()

colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
dfSummary = pd.DataFrame(colSummary)
dfSummary.columns = ['Valor']

dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Número de registos (anos disponíveis base)']

display(dfSummary)
display(dfIntervals)

curColumn.value_counts().sort_index().plot.pie(
    autopct='%1.1f%%',
    startangle=90,
    radius=2,
    pctdistance=1.1,
    labeldistance=0.5
)

In [None]:
curColumn = raw_data['Variacao_das_vendas']
var_variacao_vendas = curColumn.unique()
var_variacao_vendas.sort()

colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
colSummary.loc['confidence-interval'] = st.norm.interval(alpha=0.95, loc=np.mean(curColumn), scale=st.sem(curColumn))
dfSummary = pd.DataFrame(colSummary)
dfSummary.columns = ['Valor']

curColumn = pd.cut(curColumn, bins_var)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com variação de vendas dentro do intervalo']

display(dfSummary)
display(dfIntervals)
curColumn.value_counts().sort_index().plot.bar()


In [None]:
curColumn = raw_data['Variacao_resultado_operacional']
var_variacao_resultado_op = curColumn.unique()
var_variacao_resultado_op.sort()

colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
colSummary.loc['confidence-interval'] = st.norm.interval(alpha=0.95, loc=np.mean(curColumn), scale=st.sem(curColumn))
dfSummary = pd.DataFrame(colSummary)
dfSummary.columns = ['Valor']

curColumn = pd.cut(curColumn, bins_var)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com variação de resultado operacional dentro do intervalo']
display(dfSummary)
display(dfIntervals)
curColumn.value_counts().sort_index().plot.bar()

In [None]:
curColumn = raw_data['Variacao_do_activo']
var_variacao_ativo = curColumn.unique()
var_variacao_ativo.sort()

colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
dfSummary = pd.DataFrame(colSummary)
dfSummary.columns = ['Valor']

curColumn = pd.cut(curColumn, bins_var)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com variação de ativo dentro do intervalo']
display(dfSummary)
display(dfIntervals)
curColumn.value_counts().sort_index().plot.bar()

In [None]:
curColumn = raw_data['Variacao_dos_capitais_proprios']
var_variacao_dos_capitais_proprios = curColumn.unique()
var_variacao_dos_capitais_proprios.sort()

colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
colSummary.loc['confidence-interval'] = st.norm.interval(alpha=0.95, loc=np.mean(curColumn), scale=st.sem(curColumn))
dfSummary = pd.DataFrame(colSummary)
dfSummary.columns = ['Valor']

curColumn = pd.cut(curColumn, bins_var)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com variação dos capitais proprios dentro do intervalo']
display(dfSummary)
display(dfIntervals)

curColumn.value_counts().sort_index().plot.bar()

In [None]:
curColumn = raw_data['Variacao_do_ativo_circulante']
var_variacao_do_ativo_circulante = curColumn.unique()
var_variacao_do_ativo_circulante.sort()

colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
colSummary.loc['confidence-interval'] = st.norm.interval(alpha=0.95, loc=np.mean(curColumn), scale=st.sem(curColumn))
dfSummary = pd.DataFrame(colSummary)
dfSummary.columns = ['Valor']

curColumn = pd.cut(curColumn, bins_var)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com variação de ativo circulante dentro do intervalo']
display(dfSummary)
display(dfIntervals)
curColumn.value_counts().sort_index().plot.bar()

In [None]:
curColumn = raw_data['Variacao_das_existencias']
var_variacao_das_existencias = curColumn.unique()
var_variacao_das_existencias.sort()

colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
colSummary.loc['confidence-interval'] = st.norm.interval(alpha=0.95, loc=np.mean(curColumn), scale=st.sem(curColumn))
dfSummary = pd.DataFrame(colSummary)
dfSummary.columns = ['Valor']

curColumn = pd.cut(curColumn, bins_var)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com variação das existencias dentro do intervalo']
display(dfSummary)
display(dfIntervals)
curColumn.value_counts().sort_index().plot.bar()

In [None]:
curColumn = raw_data['Variacao_do_imobilizado']
var_variacao_do_imobilizado = curColumn.unique()
var_variacao_do_imobilizado.sort()

colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
colSummary.loc['confidence-interval'] = st.norm.interval(alpha=0.95, loc=np.mean(curColumn), scale=st.sem(curColumn))
dfSummary = pd.DataFrame(colSummary)
dfSummary.columns = ['Valor']

curColumn = pd.cut(curColumn, bins_var)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com variação do imobilizado dentro do intervalo']
display(dfSummary)
display(dfIntervals)
curColumn.value_counts().sort_index().plot.bar()

In [None]:
curColumn = raw_data['Fundo_de_maneio']
var_fundo_de_maneio = curColumn.unique()
var_fundo_de_maneio.sort()

bins = np.linspace(curColumn.min()-1, curColumn.max()+1, 10)

colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
dfSummary = pd.DataFrame(colSummary).apply(lambda s: s.apply('{0:.5f}'.format))
dfSummary.columns = ['Valor']

curColumn = pd.cut(curColumn, bins)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com fundo de maneio dentro do intervalo']
display(dfSummary)
display(dfIntervals)
curColumn.value_counts().sort_index().plot.bar()

In [None]:
curColumn = raw_data['REPV']
var_repv = curColumn.unique()
var_repv.sort()

bins = np.linspace(curColumn.min()-1, curColumn.max()+1, 5)
colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
dfSummary = pd.DataFrame(colSummary).apply(lambda s: s.apply('{0:.5f}'.format))
dfSummary.columns = ['Valor']

curColumn = pd.cut(curColumn, bins)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com REPV dentro do intervalo']
display(dfSummary)
display(dfIntervals)

In [None]:
curColumn = raw_data['Prazo_medio_de_recebimento']
var_prazo_medio_de_recebimento = curColumn.unique()
var_prazo_medio_de_recebimento.sort()

bins = np.linspace(curColumn.min()-1, curColumn.max()+1, 5)
colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
dfSummary = pd.DataFrame(colSummary).apply(lambda s: s.apply('{0:.5f}'.format))
dfSummary.columns = ['Valor']

curColumn = pd.cut(curColumn, bins)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com prazo medio de recebimento dentro do intervalo']
display(dfSummary)
display(dfIntervals)

In [None]:
curColumn = raw_data['Liquidez_geral']
var_liquidez_geral = curColumn.unique()
var_liquidez_geral.sort()

bins = np.linspace(curColumn.min()-1, curColumn.max()+1, 10)
colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
dfSummary = pd.DataFrame(colSummary).apply(lambda s: s.apply('{0:.5f}'.format))
dfSummary.columns = ['Valor']

curColumn = pd.cut(curColumn, bins)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com liquidez geral dentro do intervalo']
display(dfSummary)
display(dfIntervals)

In [None]:
curColumn = raw_data['Liquidez_reduzida']
var_liquidez_reduzida = curColumn.unique()
var_liquidez_reduzida.sort()

bins = np.linspace(curColumn.min()-1, curColumn.max()+1, 10)
colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
dfSummary = pd.DataFrame(colSummary).apply(lambda s: s.apply('{0:.5f}'.format))
dfSummary.columns = ['Valor']

curColumn = pd.cut(curColumn, bins)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com liquidez reduzida dentro do intervalo']
display(dfSummary)
display(dfIntervals)

In [None]:
curColumn = raw_data['Solvabilidade']
var_solvabilidade = curColumn.unique()
var_solvabilidade.sort()

bins = np.linspace(curColumn.min()-1, curColumn.max()+1, 10)
colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
dfSummary = pd.DataFrame(colSummary).apply(lambda s: s.apply('{0:.5f}'.format))
dfSummary.columns = ['Valor']

curColumn = pd.cut(curColumn, bins)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com solvabilidade dentro do intervalo']
display(dfSummary)
display(dfIntervals)
curColumn.value_counts().sort_index().plot.bar()

In [None]:
curColumn = raw_data['Autonomia_financeira']
var_autonomia_financeira = curColumn.unique()
var_autonomia_financeira.sort()

bins = np.linspace(curColumn.min()-1, curColumn.max()+1, 10)
colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
colSummary.loc['confidence-interval'] = st.norm.interval(alpha=0.95, loc=np.mean(curColumn), scale=st.sem(curColumn))
dfSummary = pd.DataFrame(colSummary)
dfSummary.columns = ['Valor']

curColumn = pd.cut(curColumn, bins)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com autonomia financeira dentro do intervalo']
display(dfSummary)
display(dfIntervals)
curColumn.value_counts().sort_index().plot.bar()

In [None]:
curColumn = raw_data['Endividamento']
var_endividamento = curColumn.unique()
var_endividamento.sort()

bins = np.linspace(curColumn.min()-1, curColumn.max()+1, 10)
colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
colSummary.loc['confidence-interval'] = st.norm.interval(alpha=0.95, loc=np.mean(curColumn), scale=st.sem(curColumn))
dfSummary = pd.DataFrame(colSummary)
dfSummary.columns = ['Valor']

curColumn = pd.cut(curColumn, bins)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com endividamento dentro do intervalo']
display(dfSummary)
display(dfIntervals)
curColumn.value_counts().sort_index().plot.bar()

In [None]:
curColumn = raw_data['Estrutura_financeira']
var_estrutura_financeira = curColumn.unique()
var_estrutura_financeira.sort()

bins = np.linspace(curColumn.min()-1, curColumn.max()+1, 20)
colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
dfSummary = pd.DataFrame(colSummary).apply(lambda s: s.apply('{0:.5f}'.format))
dfSummary.columns = ['Valor']

curColumn = pd.cut(curColumn, bins)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com estrutura financeira dentro do intervalo']
display(dfSummary)
display(dfIntervals)

In [None]:
curColumn = raw_data['Passivo_de_curto_prazo_a_dividir_passivo_total']
var_passivo_de_curto_prazo_a_dividir_passivo_total = curColumn.unique()
var_passivo_de_curto_prazo_a_dividir_passivo_total.sort()

colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
dfSummary = pd.DataFrame(colSummary).apply(lambda s: s.apply('{0:.5f}'.format))
dfSummary.columns = ['Valor']

curColumn = pd.cut(curColumn, bins_from_zero)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com passivo de curto prazo (div passivo total) dentro do intervalo']
display(dfSummary)
display(dfIntervals)
curColumn.value_counts().sort_index().plot.bar()

In [None]:
curColumn = raw_data['Custos_dos_encargos_financeiros_dividir_resultado_operacional']
var_custos_dos_encargos_financeiros_dividir_resultado_operacional = curColumn.unique()
var_custos_dos_encargos_financeiros_dividir_resultado_operacional.sort()

bins = np.linspace(curColumn.min()-1, curColumn.max()+1, 10)
colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
dfSummary = pd.DataFrame(colSummary).apply(lambda s: s.apply('{0:.5f}'.format))
dfSummary.columns = ['Valor']

curColumn = pd.cut(curColumn, bins)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com custos dos encargos (div res op) dentro do intervalo']
display(dfSummary)
display(dfIntervals)


In [None]:
curColumn = raw_data['Rendibilidade_operacional_vendas']
var_rendibilidade_operacional_vendas = curColumn.unique()
var_rendibilidade_operacional_vendas.sort()

colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
dfSummary = pd.DataFrame(colSummary).apply(lambda s: s.apply('{0:.5f}'.format))
dfSummary.columns = ['Valor']


curColumn = pd.cut(curColumn, bins_var)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com rendibilidade operacional de vendas dentro do intervalo']
display(dfSummary)
display(dfIntervals)

In [None]:
curColumn = raw_data['Rendibilidade_liquida_das_vendas']
var_rendibilidade_liquida_das_vendas = curColumn.unique()
var_rendibilidade_liquida_das_vendas.sort()

colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
dfSummary = pd.DataFrame(colSummary).apply(lambda s: s.apply('{0:.5f}'.format))
dfSummary.columns = ['Valor']

curColumn = pd.cut(curColumn, bins_var)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com rendibilidade liquida das vendas dentro do intervalo']
display(dfSummary)
display(dfIntervals)
curColumn.value_counts().sort_index().plot.bar()

In [None]:
curColumn = raw_data['Rendibilidade_do_ativo']
var_rendibilidade_do_ativo = curColumn.unique()
var_rendibilidade_do_ativo.sort()

colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
colSummary.loc['confidence-interval'] = st.norm.interval(alpha=0.95, loc=np.mean(curColumn), scale=st.sem(curColumn))
dfSummary = pd.DataFrame(colSummary)
dfSummary.columns = ['Valor']

curColumn = pd.cut(curColumn, bins_var)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com rendibilidade do ativo dentro do intervalo']
display(dfSummary)
display(dfIntervals)
curColumn.value_counts().sort_index().plot.bar()

In [None]:
curColumn = raw_data['Rendibilidade_capitais_proprios']
var_rendibilidade_capitais_proprios = curColumn.unique()
var_rendibilidade_capitais_proprios.sort()

colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
dfSummary = pd.DataFrame(colSummary)
dfSummary.columns = ['Valor']

bins = np.linspace(curColumn.min()-1, curColumn.max()+1, 10)
curColumn = pd.cut(curColumn, bins)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com rendibilidade de capitais proprios dentro do intervalo']
display(dfSummary)
display(dfIntervals)
curColumn.value_counts().sort_index().plot.bar()

In [None]:
curColumn = raw_data['Passivo_curto_prazo_dividir_vendas']
var_passivo_curto_prazo_dividir_vendas = curColumn.unique()
var_passivo_curto_prazo_dividir_vendas.sort()

colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
colSummary.loc['confidence-interval'] = st.norm.interval(alpha=0.95, loc=np.mean(curColumn), scale=st.sem(curColumn))
dfSummary = pd.DataFrame(colSummary)
dfSummary.columns = ['Valor']

bins = np.linspace(curColumn.min()-1, curColumn.max()+1, 10)
curColumn = pd.cut(curColumn, bins_from_zero)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com passivo curto prazo dividir vendas dentro do intervalo']
display(dfSummary)
display(dfIntervals)
curColumn.value_counts().sort_index().plot.bar()

In [None]:
curColumn = raw_data['Peso_das_amortizacoes_dividir_vendas']
var_peso_das_amortizacoes_dividir_vendas = curColumn.unique()
var_peso_das_amortizacoes_dividir_vendas.sort()

colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
dfSummary = pd.DataFrame(colSummary).apply(lambda s: s.apply('{0:.5f}'.format))
dfSummary.columns = ['Valor']

bins = np.linspace(curColumn.min()-1, curColumn.max()+1, 10)
curColumn = pd.cut(curColumn, bins_from_zero)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com peso das amortizações dividir vendas dentro do intervalo']
display(dfSummary)
display(dfIntervals)
curColumn.value_counts().sort_index().plot.bar()

In [None]:
curColumn = raw_data['Peso_encargos_financeiros_dividir_vendas']
var_peso_encargos_financeiros_dividir_vendas = curColumn.unique()
var_peso_encargos_financeiros_dividir_vendas.sort()

colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
dfSummary = pd.DataFrame(colSummary).apply(lambda s: s.apply('{0:.5f}'.format))
dfSummary.columns = ['Valor']

bins = np.linspace(curColumn.min()-1, curColumn.max()+1, 10)
curColumn = pd.cut(curColumn, bins_from_zero)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com peso encargos financeiros dentro do intervalo']
display(dfSummary)
display(dfIntervals)
curColumn.value_counts().sort_index().plot.bar()

In [None]:
curColumn = raw_data['Produtividade_por_trabalhador']
var_produtividade_por_trabalhador = curColumn.unique()
var_produtividade_por_trabalhador.sort()

colSummary = curColumn.describe()
colSummary.loc['mode'] = curColumn.mode().tolist()[0]
colSummary.loc['confidence-interval'] = st.norm.interval(alpha=0.95, loc=np.mean(curColumn), scale=st.sem(curColumn))
dfSummary = pd.DataFrame(colSummary)
dfSummary.columns = ['Valor']

bins = np.linspace(curColumn.min()-1, curColumn.max()+1, 10)
curColumn = pd.cut(curColumn, bins)
dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com produtividade por trabalhador dentro do intervalo']
display(dfSummary)
display(dfIntervals)
curColumn.value_counts().sort_index().plot.bar()

In [None]:
curColumn = raw_data['Certificacao_legal_contas']
var_certificacao_legal_contas = curColumn.unique()
var_certificacao_legal_contas.sort()

dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas com/sem certificação legal de contas']
display(dfIntervals)
curColumn.value_counts().sort_index().plot.pie(
    autopct='%1.1f%%',
    startangle=90,
    radius=2,
    pctdistance=1.1,
    labeldistance=0.5
)

In [None]:
curColumn = raw_data['Insolvencia']
var_insolvencia = curColumn.unique()
var_insolvencia.sort()

dfIntervals = pd.DataFrame(curColumn.value_counts().sort_index())
dfIntervals.columns = ['Nº empresas em insolvencia (sim/nao)']
display(dfIntervals)
curColumn.value_counts().sort_index().plot.pie(
    autopct='%1.1f%%',
    startangle=90,
    radius=2,
    pctdistance=1.1,
    labeldistance=0.5
)

In [3]:
# Configuring the matplotlib figure size and title
fig, ax = plt.subplots(figsize=(30,30))
ax.set_title('Correlation between variables in dataset')

# Excluding the categorical columns from dataframe
filtered_data = raw_data.drop(["Distrito", "NACE1", "NACE2", "Certificacao_legal_contas", "Insolvencia"], axis=1)
heatmap = sns.heatmap(filtered_data.corr(), vmin=-1, vmax=1, annot=True, ax=ax, cmap="icefire")

# Saving the image to a file
plt.savefig('correlation_matrix.png', bbox_inches="tight")

In [None]:
raw_data.head()

In [None]:
import seaborn as sn
m=raw_data.corr()
sn.heatmap(m, annot=True)

In [None]:
sn.set_theme(style="dark")
g=sn.pairplot(raw_data, hue="Insolvencia")
g.savefig("scatterplot_matrix.png")