# Introdução
___
Este arquivo tem por objetivo realizar o tratamento de dados do arquivo `cs_bisnode_panel.csv`.

### Objetivos do tratamento de dados:
* Remova as colunas ['COGS', 'finished_prod', 'net_dom_sales', 'net_exp_sales', 'wages', 'D']  pois elas apresentam um percentual considerável de missing data ✅
* Remova de seus dados os registros do ano de 2016 ✅
* Criar uma coluna para variavel resposta (use o conceito de que uma empresa deixou de operar se ela esteve ativa no
ano X, mas não apresentou vendas em X + 2 anos) `# trabalhar nisso`
* Filtre para trabalhar apenas com empresas do ano de 2012 ✅
* usar np.where para ajustar Sales < 0 você já pode substituir por 0 ✅
* * Criar uma nova coluna para a escala logaritima de `Sales`✅
* Essa variável (`Sales`) é bastante assimétrica, concorda? Será que vale criar novas
colunas que representem o valor em log  dessa coluna?✅
* Será que isso também se aplica para as demais? `checar isso durante o loop de retreinamento`
* Crie novas colunas, como idade da empresa (faça isso pela subtração de
founded_year  e year ). Ah, cuide bem dos missing values. np.where pode ajudar
bastante!✅
* Filtre seus dados para ter empresas que possuem receita (revenue) abaixo de 10
milhões de euros e acima de 1000 euros✅
* Busque sempre embasar qualquer decisão de tratamento das variáveis. Faça isso
com o auxílio de estatísticas descritivas e também de gráficos de apoio.✅


# Importação dos dados e tratamento

In [1]:
import pandas as pd
import numpy as np

In [2]:
#pip install missingno

In [3]:
import missingno as msno

In [4]:
df = pd.read_csv("cs_bisnode_panel.csv")
df.head()

Unnamed: 0,comp_id,begin,end,COGS,amort,curr_assets,curr_liab,extra_exp,extra_inc,extra_profit_loss,...,gender,origin,nace_main,ind2,ind,urban_m,region_m,founded_date,exit_date,labor_avg
0,1001034.0,2005-01-01,2005-12-31,,692.59259,7266.666504,7574.074219,0.0,0.0,0.0,...,mix,Domestic,5630.0,56.0,3.0,1,Central,1990-11-19,,
1,1001034.0,2006-01-01,2006-12-31,,603.703674,13122.222656,12211.111328,0.0,0.0,0.0,...,mix,Domestic,5630.0,56.0,3.0,1,Central,1990-11-19,,
2,1001034.0,2007-01-01,2007-12-31,,425.925934,8196.295898,7800.0,0.0,0.0,0.0,...,mix,Domestic,5630.0,56.0,3.0,1,Central,1990-11-19,,
3,1001034.0,2008-01-01,2008-12-31,,300.0,8485.185547,7781.481445,0.0,0.0,0.0,...,mix,Domestic,5630.0,56.0,3.0,1,Central,1990-11-19,,
4,1001034.0,2009-01-01,2009-12-31,,207.40741,5137.037109,15300.0,0.0,0.0,0.0,...,mix,Domestic,5630.0,56.0,3.0,1,Central,1990-11-19,,0.083333


In [5]:
#msno.matrix(df)

## retirnado as colunas `'COGS', 'finished_prod', 'net_dom_sales','net_exp_sales', 'wages', 'D'` e checando missing em outras colunas
___

Retirando todas as colunas com alta taxa de missing, de acorda com um limite pré-definido:

In [6]:
#Checando as colunas e seus respectivos valores de missing
percent_missing = df.isnull().mean() * 100
missing_columns = percent_missing[percent_missing > 0].sort_values(ascending=False)
print(missing_columns)

D                    100.000000
finished_prod         93.925213
wages                 93.752193
COGS                  93.656998
net_dom_sales         93.656998
net_exp_sales         93.656998
exit_year             86.499276
exit_date             80.481466
labor_avg             50.909394
birth_year            38.848761
founded_year          19.614771
ceo_count             19.604348
origin                19.604348
gender                19.604348
inoffice_days         19.604348
female                19.604348
foreign               19.604348
extra_inc              6.437503
extra_exp              6.437503
extra_profit_loss      5.976813
profit_loss_year       3.433983
ind                    3.394029
material_exp           2.793325
personnel_exp          2.793325
amort                  2.793325
inc_bef_tax            2.583826
sales                  2.583826
tang_assets            0.510720
nace_main              0.360631
ind2                   0.360631
region_m               0.291840
intang_a

Retirando as colunas com valor de missing acima do limite exceto a coluna `founded_year` que será necessária adiante

In [7]:
limite = 0.1  # limite da taxa de missing

# Excluindo as colunas acima do limite de missing, exceto 'founded_year'
colunas_para_manter = df.columns[df.isnull().mean() <= limite].tolist()

# Garantindo que a coluna 'founded_year' esteja na lista, mesmo que tenha mais de 10% de missing
if 'founded_year' not in colunas_para_manter:
    colunas_para_manter.append('founded_year')

# Criando o DataFrame filtrado
df = df[colunas_para_manter]

# Verificando o DataFrame resultante
print(df)


             comp_id       begin         end       amort   curr_assets  \
0       1.001034e+06  2005-01-01  2005-12-31  692.592590   7266.666504   
1       1.001034e+06  2006-01-01  2006-12-31  603.703674  13122.222656   
2       1.001034e+06  2007-01-01  2007-12-31  425.925934   8196.295898   
3       1.001034e+06  2008-01-01  2008-12-31  300.000000   8485.185547   
4       1.001034e+06  2009-01-01  2009-12-31  207.407410   5137.037109   
...              ...         ...         ...         ...           ...   
287824  4.641209e+11  2011-01-01  2011-12-31    0.000000   1807.407349   
287825  4.641209e+11  2012-01-01  2012-12-31    0.000000   1518.518555   
287826  4.641209e+11  2013-01-01  2013-12-31    0.000000    988.888916   
287827  4.641209e+11  2014-01-01  2014-12-31    0.000000    644.444458   
287828  4.641209e+11  2015-01-01  2015-12-31    0.000000    166.666672   

           curr_liab  extra_exp  extra_inc  extra_profit_loss  fixed_assets  \
0        7574.074219        0.0 

Preenchendo valores faltantes nas colunas que sobraram de acordo com o tipo da coluna:

In [8]:
# Substituir valores Inf por NaN, para que sejam removidos ou preenchidos corretamente
df.replace([np.inf, -np.inf], np.nan, inplace=True)

# Estratégia 1: Para colunas numéricas, preencher com a mediana
numerical_cols = df.select_dtypes(include=['float64', 'int64']).columns
df[numerical_cols] = df[numerical_cols].fillna(df[numerical_cols].median())

# Estratégia 2: Para colunas categóricas, preencher com a moda (valor mais frequente)
categorical_cols = df.select_dtypes(include=['object', 'category']).columns
df[categorical_cols] = df[categorical_cols].fillna(df[categorical_cols].mode().iloc[0])

# Verificando o DataFrame resultante
print(df.isnull().sum())  # Deve retornar 0 missing values se o preenchimento foi bem sucedido


comp_id                 0
begin                   0
end                     0
amort                   0
curr_assets             0
curr_liab               0
extra_exp               0
extra_inc               0
extra_profit_loss       0
fixed_assets            0
inc_bef_tax             0
intang_assets           0
inventories             0
liq_assets              0
material_exp            0
personnel_exp           0
profit_loss_year        0
sales                   0
share_eq                0
subscribed_cap          0
tang_assets             0
balsheet_flag           0
balsheet_length         0
balsheet_notfullyear    0
year                    0
nace_main               0
ind2                    0
ind                     0
urban_m                 0
region_m                0
founded_date            0
founded_year            0
dtype: int64


Como a base de dados possuí um número alto de colunas, fizemos um filtro mais rigoroso para missing, uma vez que isso não afetará o numero de variavéis para treinamento do modelo de forma muito significativa, e nos garantirá um modelo melhor por ser treinado em um banco de dados com baixa taxa de missing.

In [9]:
# Checando a taxa de missing nas colunas após filtragem
percent_missing = df.isnull().mean() * 100
missing_columns = percent_missing[percent_missing > 0].sort_values(ascending=False)
print(missing_columns)

Series([], dtype: float64)


In [10]:
# checando as colunas presentas no dataframe para ver quantas variaveis teremos para trabalhar em nosso modelo
df.shape[1]

32

## Removendo dados do ano de 2016
___

### convertendo as colunas para o formato datetime: 

In [11]:
df["begin"] = pd.to_datetime(df['begin'])
df["end"] = pd.to_datetime(df['end'])

In [12]:
# retinrando os dados em que o ano seja 2016 ou maior
df = df[df["begin"] < "2016"]
df.head()

Unnamed: 0,comp_id,begin,end,amort,curr_assets,curr_liab,extra_exp,extra_inc,extra_profit_loss,fixed_assets,...,balsheet_length,balsheet_notfullyear,year,nace_main,ind2,ind,urban_m,region_m,founded_date,founded_year
0,1001034.0,2005-01-01,2005-12-31,692.59259,7266.666504,7574.074219,0.0,0.0,0.0,1229.629639,...,364,0,2005,5630.0,56.0,3.0,1,Central,1990-11-19,1990.0
1,1001034.0,2006-01-01,2006-12-31,603.703674,13122.222656,12211.111328,0.0,0.0,0.0,725.925903,...,364,0,2006,5630.0,56.0,3.0,1,Central,1990-11-19,1990.0
2,1001034.0,2007-01-01,2007-12-31,425.925934,8196.295898,7800.0,0.0,0.0,0.0,1322.222168,...,364,0,2007,5630.0,56.0,3.0,1,Central,1990-11-19,1990.0
3,1001034.0,2008-01-01,2008-12-31,300.0,8485.185547,7781.481445,0.0,0.0,0.0,1022.222229,...,365,0,2008,5630.0,56.0,3.0,1,Central,1990-11-19,1990.0
4,1001034.0,2009-01-01,2009-12-31,207.40741,5137.037109,15300.0,0.0,0.0,0.0,814.814819,...,364,0,2009,5630.0,56.0,3.0,1,Central,1990-11-19,1990.0


### Criando a coluna indicadora de operação da empresa 
(se a empresa está operante em x+2 anos ou Não)

In [13]:
# Ordenando o DataFrame original por 'comp_id' e 'begin' para garantir a ordem cronológica
df_sorted = df.sort_values(by=['comp_id', 'begin'])

# Criando a variável resposta 'operates_within_2_years' no DataFrame ordenado
df_sorted['operates_within_2_years'] = df_sorted.groupby('comp_id')['sales'].shift(-2).gt(0).astype(int)

# Adicionando a nova coluna 'operates_within_2_years' de df_sorted ao df original
df['operates_within_2_years'] = df_sorted['operates_within_2_years']

In [14]:
# Verificando as primeiras linhas do df para garantir que a coluna foi adicionada corretamente
df[["comp_id", "sales", "operates_within_2_years"]].head(30)

Unnamed: 0,comp_id,sales,operates_within_2_years
0,1001034.0,62751.85,1
1,1001034.0,64625.93,1
2,1001034.0,65100.0,1
3,1001034.0,78085.19,1
4,1001034.0,45388.89,0
5,1001034.0,9929.63,0
6,1001034.0,0.0,0
7,1001034.0,0.0,0
8,1001034.0,0.0,0
9,1001034.0,0.0,0


* `groupby('comp_id')`: Agrupa os dados por empresa usando comp_id para que o cálculo de sales dois anos à frente seja feito separadamente para cada empresa.
* `.shift(-2)`: Pega o valor de sales duas linhas à frente dentro de cada grupo, o que equivale a dois anos à frente, devido à ordenação das datas.
* `apply(lambda x: 1 if x > 0 else 0)`: Define 1 se o valor for positivo e 0 caso contrário.

## Trabalhando as incosistencias
___

### Ajustando a coluna sales

### Filtrando os dados para empresas com revenue abaixo de 10 milhões
Como não há uma coluna `revenue`, iremos considerar que `sales` corresponde à receita da empresa

In [15]:
df['sales'].describe()

count    2.781140e+05
mean     4.766486e+05
std      3.822759e+06
min     -1.472559e+07
25%      5.207407e+03
50%      3.250370e+04
75%      1.065472e+05
max      1.110294e+08
Name: sales, dtype: float64

In [16]:
df['sales'] = np.where(df['sales'] < 0, 0, df['sales']) # retirando valores negativos
df = df[(df['sales'] > 1000) & (df['sales'] < 10_000_000)] # filtrando os dados

In [17]:
df['sales'].describe()

count    2.257230e+05
mean     2.403047e+05
std      7.746056e+05
min      1.003704e+03
25%      1.708148e+04
50%      4.389259e+04
75%      1.363593e+05
max      9.997007e+06
Name: sales, dtype: float64

Checando assimetria nas outras colunas:

## Filtro para trabalhar apenas com empresas do ano de 2012
___

In [18]:
df = df[df['begin'] == "2012"]

In [19]:
df.head()

Unnamed: 0,comp_id,begin,end,amort,curr_assets,curr_liab,extra_exp,extra_inc,extra_profit_loss,fixed_assets,...,balsheet_notfullyear,year,nace_main,ind2,ind,urban_m,region_m,founded_date,founded_year,operates_within_2_years
14,1001541.0,2012-01-01,2012-12-31,481.481476,9629.629883,1303.703735,0.0,0.0,0.0,190566.671875,...,0,2012,5610.0,56.0,3.0,3,Central,2008-02-24,2008.0,1
23,1002029.0,2012-01-01,2012-12-31,14929.629883,203885.1875,120444.453125,0.0,0.0,0.0,23459.259766,...,0,2012,2711.0,27.0,2.0,3,East,2006-07-03,2006.0,1
35,1003200.0,2012-01-01,2012-12-31,25.925926,22.222221,10996.295898,0.0,0.0,0.0,0.0,...,0,2012,5630.0,56.0,3.0,1,Central,2003-10-21,2003.0,0
56,1011889.0,2012-01-01,2012-12-31,36625.925781,160166.671875,18911.111328,0.0,0.0,0.0,933574.0625,...,0,2012,5510.0,55.0,3.0,2,West,1992-11-09,1992.0,1
68,1014183.0,2012-01-01,2012-12-31,12551.851562,199903.703125,8274.074219,0.0,7.407407,7.407407,118229.632812,...,0,2012,5510.0,55.0,3.0,2,Central,2001-12-21,2001.0,1


In [20]:
import numpy as np

# Verificar se as colunas necessárias estão presentes no DataFrame
required_columns = ['liq_assets', 'curr_liab', 'profit_loss_year', 'sales', 'share_eq']
missing_columns = [col for col in required_columns if col not in df.columns]

if missing_columns:
    print(f"As seguintes colunas estão faltando no DataFrame: {missing_columns}")
else:
    # Criando as colunas derivadas e lidando com NaN ou infinito
    # Razão de Liquidez: Se houver divisão por zero ou NaN, o resultado será substituído por 0
    df.loc[:, 'liquidity_ratio'] = np.where(
        df['curr_liab'] == 0, 0, df['liq_assets'] / df['curr_liab']
    )
    df['liquidity_ratio'].replace([np.inf, -np.inf, np.nan], 0, inplace=True)

    # Margem de Lucro: Lidando com valores faltantes ou divisões por zero
    df.loc[:, 'profit_margin'] = np.where(
        df['sales'] == 0, 0, df['profit_loss_year'] / df['sales']
    )
    df['profit_margin'].replace([np.inf, -np.inf, np.nan], 0, inplace=True)

    # Alavancagem: Substituindo divisões por zero ou NaN por 0
    df.loc[:, 'leverage_ratio'] = np.where(
        df['share_eq'] == 0, 0, df['curr_liab'] / df['share_eq']
    )
    df['leverage_ratio'].replace([np.inf, -np.inf, np.nan], 0, inplace=True)

    # Removendo as colunas originais após a criação das variáveis derivadas
    df = df.drop(columns=['liq_assets', 'curr_liab', 'profit_loss_year', 'share_eq'])

    # Verificando as primeiras linhas para garantir o resultado
    print(df.head())


      comp_id      begin        end         amort    curr_assets  extra_exp  \
14  1001541.0 2012-01-01 2012-12-31    481.481476    9629.629883        0.0   
23  1002029.0 2012-01-01 2012-12-31  14929.629883  203885.187500        0.0   
35  1003200.0 2012-01-01 2012-12-31     25.925926      22.222221        0.0   
56  1011889.0 2012-01-01 2012-12-31  36625.925781  160166.671875        0.0   
68  1014183.0 2012-01-01 2012-12-31  12551.851562  199903.703125        0.0   

    extra_inc  extra_profit_loss   fixed_assets   inc_bef_tax  ...  ind2  ind  \
14   0.000000           0.000000  190566.671875  -7696.296387  ...  56.0  3.0   
23   0.000000           0.000000   23459.259766  11818.518555  ...  27.0  2.0   
35   0.000000           0.000000       0.000000  -2337.037109  ...  56.0  3.0   
56   0.000000           0.000000  933574.062500  96751.851562  ...  55.0  3.0   
68   7.407407           7.407407  118229.632812  -1429.629639  ...  55.0  3.0   

    urban_m  region_m  founded_date  f

### Checando a assimetria da coluna `Sales`

In [21]:
df["sales"].skew()

7.3575254808666255

Como a skewness esta acima de zero (bem acima) temos que a coluna `sales` possuí alta assímetria positiva

Criando uma nova coluna para a escala logaritima de `sales`

In [22]:
df["sales"] = np.log1p(df['sales'])

In [23]:
df["sales"].skew()

0.316052241336789

Agora temos que a escala logaritima da coluna `sales_log` possue sua assimetria bem mais próxima de zero em relação à `sales`, indicando uma alta redução na assimetria

Checando a assimetria de outras colunas do dataset

In [24]:
# Verificando a assimetria (skewness) de todas as colunas numéricas
numeric_cols = df.select_dtypes(include=[np.number]).columns
skewed_cols = df[numeric_cols].skew().sort_values(ascending=False)

# Exibir as colunas com alta assimetria positiva (por exemplo, acima de 1)
print("Colunas com alta assimetria:")
print(skewed_cols[skewed_cols > 1])

# Criando uma lista para armazenar colunas que devem ser removidas
colunas_para_remover = []

# Aplicando a transformação logarítmica apenas às colunas com alta assimetria e sem valores negativos
for col in skewed_cols[skewed_cols > 1].index:
    if (df[col] >= 0).all():  # Verificar se todos os valores são >= 0
        df[col] = np.log1p(df[col])  # Usando log1p para evitar problemas com valores zero ou negativos
    else:
        print(f"Coluna '{col}' contém valores negativos e será removida.")
        colunas_para_remover.append(col)

# Verificando a nova assimetria após a transformação
new_skewed_cols = df[numeric_cols].skew().sort_values(ascending=False)
print("Assimetria após transformação logarítmica:")
print(new_skewed_cols)

# Remover colunas que possuem alta assimetria após a transformação
for col in new_skewed_cols[new_skewed_cols > 1].index:
    print(f"Coluna '{col}' ainda possui alta assimetria e será removida.")
    colunas_para_remover.append(col)

# Remover as colunas do DataFrame
df = df.drop(columns=colunas_para_remover)

# Exibir as colunas restantes
print("Colunas restantes no DataFrame:")
print(df.columns)

Colunas com alta assimetria:
extra_exp               144.239349
extra_inc               131.848404
profit_margin           119.134898
liquidity_ratio         113.729951
extra_profit_loss        70.527671
tang_assets              49.958755
intang_assets            47.803916
fixed_assets             44.407217
inventories              40.124228
subscribed_cap           35.680029
amort                    27.633604
leverage_ratio           25.717661
curr_assets              15.651846
balsheet_notfullyear     12.613409
personnel_exp            12.395337
material_exp              8.257318
dtype: float64
Coluna 'extra_exp' contém valores negativos e será removida.
Coluna 'extra_inc' contém valores negativos e será removida.
Coluna 'profit_margin' contém valores negativos e será removida.
Coluna 'liquidity_ratio' contém valores negativos e será removida.
Coluna 'extra_profit_loss' contém valores negativos e será removida.
Coluna 'intang_assets' contém valores negativos e será removida.
Coluna '

### Criando a coluna `Idade_da_empresa`

In [25]:
df['Idade_da_empresa'] = np.where(
    (df['year'].isna()) | (df['founded_year'].isna()),  # Condição: se 'year' ou 'founded_year' forem NaN
    np.nan,  # Se a condição for verdadeira (há missing values), preenche com NaN
    df['year'] - df['founded_year']  # Caso contrário, realiza a subtração normalmente
)
df['Idade_da_empresa'].head()

14     4.0
23     6.0
35     9.0
56    20.0
68    11.0
Name: Idade_da_empresa, dtype: float64

### Codificando as colunas não numéricas para serem utilizadas nos modelos: 

In [26]:
# 2. Codificar 'region_m' (aqui estou usando Label Encoding)
# Se houver poucas categorias, podemos usar Label Encoding
df['region_m_encoded'] = df['region_m'].astype('category').cat.codes

# Alternativamente, para One-Hot Encoding:
# df = pd.get_dummies(df, columns=['region_m'], drop_first=True)

# 3. Codificar 'founded_date' extraindo o ano
df['founded_year'] = pd.to_datetime(df['founded_date']).dt.year

# Agora, removemos as colunas originais que foram codificadas
df = df.drop(columns=['begin', 'end', 'region_m', 'founded_date'])

### Checando colunas com números nulos:

In [27]:
#colunas = ["balsheet_length", "year","comp_id","ind","ind2","urban_m"]
dadosR = df.drop(columns="comp_id")
dadosR.head()

Unnamed: 0,fixed_assets,inc_bef_tax,sales,tang_assets,balsheet_flag,balsheet_length,year,nace_main,ind2,ind,urban_m,founded_year,operates_within_2_years,Idade_da_empresa,region_m_encoded
14,12.157763,-7696.296387,7.093989,12.157763,0,365,2012,5610.0,56.0,3.0,3,2008,1,4.0,0
23,10.063063,11818.518555,13.943478,10.063063,0,365,2012,2711.0,27.0,2.0,3,2006,1,6.0,1
35,0.0,-2337.037109,7.932429,0.0,0,365,2012,5630.0,56.0,3.0,1,2003,0,9.0,0
56,13.746777,96751.851562,12.980034,13.745129,0,365,2012,5510.0,55.0,3.0,2,1992,1,20.0,2
68,11.680393,-1429.629639,11.773216,11.680393,0,365,2012,5510.0,55.0,3.0,2,2001,1,11.0,0


## Criando o dataset para treinar o modelo

In [28]:
# Verificando o total de valores NaN e imprimindo apenas colunas com NaN
print("Colunas com valores NaN no dataset:")
nan_cols = dadosR.isnull().sum()
print(nan_cols[nan_cols > 0])

# Verificando se há valores Inf no dataset e imprimindo apenas colunas com Inf
print("Colunas com valores Inf no dataset:")
inf_cols = (dadosR == np.inf).sum() + (dadosR == -np.inf).sum()
print(inf_cols[inf_cols > 0])


Colunas com valores NaN no dataset:
Series([], dtype: int64)
Colunas com valores Inf no dataset:
Series([], dtype: int64)


In [29]:
# retirando colunas sem significado aparente
dadosR = dadosR.drop(columns = ["nace_main","ind","ind2","urban_m"])

In [30]:
dadosR.to_csv("dados_para_o_R.csv", index = True)
print(f"O dataset final tem {dadosR.shape[0]} linhas e {dadosR.shape[1]} colunas")

O dataset final tem 21069 linhas e 11 colunas
