# Dependências

In [None]:
# Instala as dependências
!pip install -r ../../../requirements.txt

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import plotly.express as px
from sklearn.preprocessing import LabelEncoder


# Configurações

In [None]:
# aumenta a visualização de colunas e de linhas
pd.set_option('display.max_columns', 350)
pd.set_option('display.max_rows', 350)

# Leitura dos Dados
Após análise do mínimo impacto dos dados do documento de classes no treinamento do modelo preditivo, optou-se por descartá-los

In [None]:
dados = pd.read_csv('../../../data/dados_cvm.csv')

# Exploração dos Dados

In [None]:
dados.info(max_cols=321)

In [None]:
colunas_categoricas = dados.select_dtypes(include='object').columns
colunas_numericas = dados.drop(colunas_categoricas, axis=1).columns

print(f'Há {len(colunas_categoricas)} Colunas Categóricas: {list(colunas_categoricas)}')
print(f'Há {len(colunas_numericas)} Colunas Numéricas: {list(colunas_numericas)}')

A priori, nesta etapa da análise descritiva, é essencial entender a qualidade dos dados contidos no DataFrame em consideração. Uma das métricas-chave para avaliar essa qualidade é o percentual de dados nulos em cada coluna. A inclusão da célula que apresenta o percentual de dados nulos por coluna é fundamental por diversas razões:

1. **Identificação de Problemas:** A presença de valores nulos pode indicar problemas na coleta, no processo de entrada de dados ou até mesmo na integridade dos dados. Ao visualizar os percentuais de dados nulos em cada coluna, é possível identificar quais colunas possuem uma quantidade significativa de valores ausentes, permitindo um direcionamento eficaz para futuras ações corretivas.

2. **Tomada de Decisões:** A compreensão dos dados faltantes é crucial ao tomar decisões informadas durante a análise. Dependendo do domínio do problema, a escolha entre imputar valores ausentes, remover colunas com alto percentual de nulos ou manter os dados como estão pode ter um impacto significativo nos resultados finais.

3. **Contextualização dos Resultados:** Ao apresentar conclusões e *insights* a *stakeholders*, incluir informações sobre a qualidade dos dados é essencial para uma interpretação precisa. Informar sobre as colunas com alto percentual de dados nulos pode ajudar a contextualizar qualquer limitação ou incerteza nos resultados da análise.

Portanto, a célula abaixo apresenta o percentual de dados nulos em cada coluna do DataFrame `dados`, em ordem decrescente.

In [None]:
# Percentual de dados nulos por coluna em ordem decrescente, em um dataframe novo
dados_nulos = ((dados.isnull().sum() / dados.shape[0])).sort_values(ascending=False)
# formata como dataframe
dados_nulos = pd.DataFrame(dados_nulos, columns=['Percentual de nulos'])
# nomeia o index
dados_nulos.index.name = 'Coluna'
dados_nulos.query('`Percentual de nulos` > 0.05').head(10)

Após avaliar o percentual de dados nulos em cada coluna, observamos que algumas colunas apresentam mais de 49% de valores ausentes. A decisão de excluir tais colunas foi tomada com base em considerações de qualidade e relevância dos dados. Essas colunas podem conter informações limitadas e não representativas, o que poderia impactar negativamente os resultados da análise.

In [None]:
porcentagem_nulos = (dados.isnull().sum() / len(dados)) * 100

colunas_com_mais_nulos = porcentagem_nulos[porcentagem_nulos >= 49]

print(colunas_com_mais_nulos)

dados_v0 = dados.drop(colunas_com_mais_nulos.index, axis=1)

print(f"Quantidade de colunas antes da remoção de colunas com mais de 49% de valores nulos: {dados.shape[1]}")
print(f"Quantidade de colunas após a remoção de colunas com mais de 49% de valores nulos: {dados_v0.shape[1]}")

O uso do método `describe()` desempenha um papel fundamental na análise exploratória dos dados, proporcionando uma visão concisa e abrangente das estatísticas descritivas das variáveis numéricas. Ao empregar o `describe()`, é possível obter informações cruciais, como média, desvio padrão, valores mínimo e máximo, bem como os quartis. Esses *insights* permitem uma compreensão inicial da distribuição e da variação dos dados, auxiliando na identificação de possíveis padrões, tendências e *outliers*. A utilização do `describe()` agiliza a análise ao fornecer um resumo estatístico prontamente interpretável.

In [None]:
variaveis_pouco_uteis = ["ID_Participante", "ID_Documento", "CNPJ", "CNPJ_Administrador"]

dados_v0.drop(columns=variaveis_pouco_uteis).describe()

Durante a exploração dos dados utilizando o método `describe()`, uma análise detalhada das estatísticas descritivas revelou a presença de colunas que apresentam valores zerados em toda a extensão do conjunto de dados. Essas colunas zeradas, ao não fornecerem variação ou contribuição informativa, podem não desempenhar um papel significativo na análise subsequente ou na modelagem. Como parte de uma abordagem eficaz de limpeza e preparação dos dados, optamos por excluir essas colunas. A decisão de exclusão foi baseada na premissa de que essas variáveis não acrescentariam *insights* relevantes à análise e, portanto, a remoção dessas colunas simplificaria o conjunto de dados e reduziria a complexidade, possibilitando um foco mais claro nas informações verdadeiramente relevantes. Assim, ao utilizar o `describe()` para identificar e fundamentar a exclusão dessas colunas zeradas, estamos aprimorando a qualidade e a eficácia da análise exploratória, visando resultados mais precisos e interpretações mais confiáveis.

In [None]:
colunas_a_dropar = ["Ativo_Direitos_Sem_Aquisicao_Creditos_Empresas_Recuperacao", "Ativo_Direitos_Sem_Aquisicao_Creditos_Receitas_Publicas",
"Ativo_Direitos_Sem_Aquisicao_Creditos_Fator_Risco", "Ativo_Coberturas_Prestadas", "Carteira_Creditos_Tributarios", 
"Carteira_Royalties", "Taxas_Titulos_Federais_Juros_Venda_Minina", "Taxas_Titulos_Federais_Juros_Venda_Maxima",
"Taxas_CDB_Desconto_Venda_Minina", "Taxas_CDB_Desconto_Venda_Media_Ponderada", "Taxas_CDB_Desconto_Venda_Maxima",
"Taxas_CDB_Juros_Venda_Minina", "Taxas_CDB_Juros_Venda_Media_Ponderada", "Taxas_CDB_Juros_Venda_Maxima"]

dados_v0 = dados_v0.drop(colunas_a_dropar, axis=1)
dados_v0.shape

# Criando colunas de valores totais

Agregando valores com e sem riscos e benefícios em colunas de valores totais

In [None]:
dados_v0['Inadimplencia_Total'] = dados_v0['Carteira_Direitos_Aquisicao_Inadimplentes'] + dados_v0['Carteira_Direitos_Sem_Aquisicao_Inadimplentes']
dados_v0['Provisao_Total'] = dados_v0['Ativo_Direitos_Aquisicao_Provisao_Reducao'] + dados_v0['Ativo_Direitos_Sem_Aquisicao_Provisao_Reducao']

## Cálculo do VR

Nesta célula, estamos criando novas variáveis de interesse e um alvo (*target*) com base em cálculos específicos. O objetivo é agregar informações relevantes para análise.

Primeiramente, estamos calculando duas novas variáveis:
- `vr_sem_riscos_e_beneficios`: Calculada a partir da soma de algumas colunas relacionadas a ativos sem aquisição e inadimplências, ajustada pela subtração de uma coluna referente a inadimplências de carteira direitos sem aquisição e uma coluna de provisão de redução.
- `vr_com_riscos_e_beneficios`: Calculada de forma similar à variável anterior, mas considerando ativos com aquisição.

Em seguida, calculamos o alvo (`target`) usando a fórmula:


In [None]:
dados_v0 = dados_v0.assign(vr_sem_riscos_e_beneficios = dados_v0['Ativo_Direitos_Sem_Aquisicao_Parcelas_Inadimplentes']  + dados_v0['Ativo_Direitos_Sem_Aquisicao_Creditos_Inadimplentes'] - dados_v0['Carteira_Direitos_Sem_Aquisicao_Inadimplentes_1_30_Dias'] - dados_v0['Ativo_Direitos_Sem_Aquisicao_Provisao_Reducao'])
dados_v0  = dados_v0.assign(vr_com_riscos_e_beneficios = dados_v0['Ativo_Direitos_Aquisicao_Parcelas_Inadimplentes']  + dados_v0['Ativo_Direitos_Aquisicao_Creditos_Inadimplentes'] - dados_v0['Carteira_Direitos_Aquisicao_Inadimplentes_1_30_Dias'] - dados_v0['Ativo_Direitos_Aquisicao_Provisao_Reducao'])

dados_v0  = dados_v0.assign(target = (dados_v0['vr_sem_riscos_e_beneficios'] + dados_v0['vr_com_riscos_e_beneficios']))

## Análise do Target e das Variáveis

Durante a análise exploratória, identificamos a presença de valores infinitos no *target* do conjunto de dados. Valores infinitos podem ocorrer devido a erros de cálculo ou problemas de integração dos dados. A inclusão desses valores pode afetar significativamente a validade das análises posteriores e prejudicar a qualidade dos resultados. Portanto, é necessário remover tais ocorrências.

In [None]:
valores_infinitos_target = dados_v0[dados_v0['target'].apply(np.isinf)]

dados_v0 = dados_v0.drop(valores_infinitos_target.index)

- Analisar a frequência de valores do target é um aspecto fundamental dessa análise, consideraremos dados tanto isolando os target positivos, que indicam que o fundo está em risco e merece atenção, quanto os target negativos, que não indicam perigo. Essa análise inicial depois será validada ou não com a análise de correlação e impacto do target em fundos que quebraram ou não, também podendo avaliar o que significam os outliers, tanto targets extremamente positivos quanto extremamente negativos.

In [None]:
frequencia_target = dados_v0.query("target > 0")["target"].value_counts()
frequencia_target

In [None]:
dados_v0.target.describe()

- A seguinte análise de assimetria identifica a assimetria na distribuição dos valores dos dados. Idealmente, o valor cálculado pelo método "skew" deveria se aproximar de 0, indicando simetria nos dados analisados. Um valor negativo significa assimetria à esquerda, enquanto um positivo indica assimetria à direita.

In [None]:
assimetria = dados_v0['target'].skew()
assimetria

- Esses próximos gráficos representam a correlação e o comportamento do target em relação ao valor de risco tanto com quanto sem riscos e benefícios.

In [None]:
ax = px.scatter(dados_v0, x="target", y="vr_com_riscos_e_beneficios", color="target", title="Dispersão entre o target e o valor com riscos e benefícios", labels={"target": "Target", "vr_com_riscos_e_beneficios": "Valor com riscos e benefícios"})
ax.show()

- O gráfico abaixo mostra o como há muitos vr_sem_riscos_e_beneficios zerados e também o como eles impactam menos o target do que os vr_com_riscos_e_beneficios. Tendo assim uma menor correlação proporcional.

In [None]:
ax = px.scatter(dados_v0, x="target", y="vr_sem_riscos_e_beneficios", color="target", title="Dispersão entre o target e o valor sem riscos e benefícios", labels={"target": "Target", "vr_sem_riscos_e_beneficios": "Valor sem riscos e benefícios"})
ax.show()

In [None]:
ax = px.scatter(dados_v0, x="vr_com_riscos_e_beneficios", y="Ativo_Direitos_Aquisicao_Provisao_Reducao", color="target", marginal_y="violin", marginal_x="box", trendline="ols", template="simple_white", title="Dispersão entre a provisão e o valor de risco", labels={"vr_com_riscos_e_beneficios": "Valor com riscos e benefícios", "Ativo_Direitos_Aquisicao_Provisao_Reducao": "Provisao"})
ax.show()

In [None]:
ax = px.scatter(dados_v0, x="Ativo_Direitos_Aquisicao_Parcelas_Inadimplentes", y="vr_com_riscos_e_beneficios", color="target", title="Dispersão entre as parcelas inadimplentes e o valor de risco", labels={"Ativo_Direitos_Aquisicao_Parcelas_Inadimplentes": "Parcelas inadimplentes", "vr_com_riscos_e_beneficios": "Valor com riscos e benefícios"})
ax.show()

- Esse gráfico retrata o como supostamente há um aumento no target com a compra de créditos inadimplentes, mas que depois param de influenciar, indicando uma possível inconsistencia nos dados ou análise equivocada.

In [None]:
ax = px.scatter(dados_v0, x="Ativo_Direitos_Aquisicao_Creditos_Inadimplentes", y="target", color="target", title="Dispersão entre os créditos inadimplentes e o target", labels={"Ativo_Direitos_Aquisicao_Creditos_Inadimplentes": "Créditos inadimplentes", "target": "Target"})
ax.show()

O seguinte gráfico demonstra uma possível relação entre a inadimplência total e o valor do target. Entretanto, ao observá-lo, é possível perceber que o comportamento não é necessariamente o esperado

In [None]:
ax = px.scatter(dados_v0, x="Inadimplencia_Total", y="target", color="target", title="Dispersão entre a inadimplência total e o target", labels={"Inadimplencia_Total": "Inadimplência", "target": "Target"})
ax.show()

O gráfico abaixo demonstra a relação de dispersão entre o target e a provisão total. Ao contrário da imagem anterior, aqui o target se comporta de forma esperada (diminui conforme a provisão aumenta)

In [None]:
ax = px.scatter(dados_v0, x="Provisao_Total", y="target", color="target", title="Dispersão entre a provisão total e o target", labels={"Provisao_Total": "Provisão", "target": "Target"})
ax.show()

- O gráfico de bolhas permite análisar em 3 dimensões o vr com riscos e benefícios, a provisão e os créditos inadimplentes, permitindo uma visão mais detalhada da correlação entre essas variáveis.

In [None]:
fig = px.scatter(dados_v0, 
                 x="vr_com_riscos_e_beneficios", 
                 y="Ativo_Direitos_Aquisicao_Provisao_Reducao", 
                 size="Ativo_Direitos_Aquisicao_Creditos_Inadimplentes",
                 opacity=0.5,  # alpha equivalente a opacidade
                 title="Dispersão entre a provisão, o valor de risco e o tamanho dos créditos inadimplentes",
                 labels={"vr_com_riscos_e_beneficios": "Valor de Risco", 
                         "Ativo_Direitos_Aquisicao_Provisao_Reducao": "Provisão",
                         "Ativo_Direitos_Aquisicao_Creditos_Inadimplentes": "Creditos Inadimplentes"},
                 color_discrete_sequence=["black"],  # cor das bordas
                 template="plotly",  # Estilo do gráfico
                )

fig.update_traces(marker=dict(line=dict(width=1, color='blue')))  # Definindo as bordas

fig.update_layout(plot_bgcolor="azure")  # Cor de fundo

fig.show()

In [None]:
fig = px.scatter(dados_v0.query("Ativo < 2000000000"),
                 x='Ativo',
                 y='target',
                 title='Relação entre Ativo e Target',
                 labels={'Ativo': 'Ativo', 'target': 'Target'},
                 template='plotly',  # Estilo do gráfico
                )

fig.update_layout(xaxis=dict(tickangle=45))  # Rotacionar os rótulos do eixo x

fig.show()

- Esse próximo gráfico permite demonstrar o como fundos abertos (FIDCs em que os cotistas podem resgatar suas cotas sem esperar o fim do fundo) tem um target maior, indicando que eles são mais arriscados nos dados apresentados.

In [None]:
# Criar um gráfico de barras interativo
fig = px.bar(dados_v0, x='Forma_Condominio', y='target', title='Valor de Risco por Tipo do Fundo', template='plotly', color='Forma_Condominio')
fig.update_xaxes(tickangle=45, title='Forma de Condomínio')
fig.update_layout(xaxis_title='Tipo do Fundo', yaxis_title='Target')
fig.show()

## Carteiras por Segmento
- Nessa análise plotamos um gráfico para visualizar a quantidade de carteiras por segmento, fazendo uma classificação sobre os dados recebidos. Essa informação é relevante tanto para ver a distribuição dos FIDCs em carteiras, quanto para posteriormente analisar a hipótese 5 sugerida pela CVM, que relaciona o valor de risco a ramos de atividade econômica.

In [None]:
def classificar_carteira(fundo):
    carteiras = {
        "Industrial": fundo["Carteira_Industrial"],
        "Comercial_Total": fundo["Carteira_Comercial_Total"],
        "Servicos_Total": fundo["Carteira_Servicos_Total"],
        "Agronegocio": fundo["Carteira_Agronegocio"],
        "Financeiro": fundo["Carteira_Financeiro"],
        "Cartao_Credito": fundo["Carteira_Cartao_Credito"],
        "Factoring": fundo["Carteira_Factoring"],
        "Setor_Publico": fundo["Carteira_Setor_Publico"],
        "Acoes_Judiciais": fundo["Carteira_Acoes_Judiciais"],
        "Propriedade_Intelectual": fundo["Carteira_Propriedade_Intelectual"],
        "Mercado_Imobiliario": fundo["Carteira_Mercado_Imobiliario"],
        "Carteira_Middle_Market": fundo["Carteira_Middle_Market"],
        "Carteira_Credito_Pessoal_Consignado": fundo["Carteira_Credito_Pessoal_Consignado"],
    }

    for key, value in carteiras.items():
        if value > 0.99 * fundo['Carteira']:
            return key

    return 'Multimercado'

In [None]:
dados_v0['Carteira_Classificação'] = dados.apply(classificar_carteira, axis=1)

In [None]:
# Contar a frequência de cada carteira
carteira_frequencia = dados_v0['Carteira_Classificação'].value_counts().reset_index()
carteira_frequencia.columns = ['Carteira_Classificação', 'Frequência']

# Criar um gráfico de barras interativo
fig = px.bar(carteira_frequencia, x='Carteira_Classificação', y='Frequência', title='Frequência das Carteiras')
fig.update_xaxes(tickangle=45, tickmode='linear')
fig.update_layout(xaxis_title='Carteira', yaxis_title='Frequência')
fig.show()

# Pré Processamento

## Patrimônio Líquido Zerado
- Primeiro são preenchidos os NaNs com 0.

In [None]:
dados_v1 = dados_v0

dados_v1['Patrimonio_Liquido'].fillna(0)

# Patrimonio_Real é todo patromônio que não é zero
dados_v1['Patrimonio_Real'] = dados_v1.query("Patrimonio_Liquido > 0")['Patrimonio_Liquido']

- Após tratar uma pequena parcela de PLs, retiramos os dados em que o patrimônio líquido ainda é inconsistente, como sendo zero ou abaixo de zero, o que indica que ou o fundo quebrou, deve ou então preenche os dados de forma equivocada.

In [None]:
dados_v2 = dados_v1.drop(columns=['Patrimonio_Liquido'])
dados_v2.reset_index(drop=True, inplace=True)
dados_v2.shape

## Colunas Desnecessárias
- Nesse próximo bloco, serão removidas colunas tanto por critérios de dados inconsistentes, ou então difíceis de tratar, como por critérios de relevância para a análise.
    - Esse critério foi decidido considerando aspectos de negócio e a influência das variáveis na análise e na construção do modelo. A remoção de colunas irrelevantes para a análise e para a modelagem simplifica o conjunto de dados e reduz a complexidade, possibilitando um foco mais claro nas informações verdadeiramente relevantes.
    - Essas deleções não necessariamente são definitivas, com maior analise do modelo e do negócio podemos retornar o ciclo do CRISP-DM, e então processar os dados novamente para a análise do modelo e sua performance.

- Nesse trecho são excluídas colunas com:
    - Dados administrativos como CNPJ, nome do fundo, etc.
    - Taxas de titulos não relacionados a direitos creditórios.
    - Liquidez de resgate.
- A decisão de excluir essas taxas é porque elas não influenciam diretamente nas provisões do fundo, afinal elas dizem respeito a compra de títulos públicos, CDBs, entre outros, e não a inadimplência dos direitos creditórios. E a decisão de tirar a liquidez é porque ela informa a facilidade de resgate do fundo aberto para o pagamento de cotistas, o que pode ser relevante para medir o quão saudável um fundo aberto é em determinado momento, mas não determina diretamente a inadimplência dos direitos creditórios e a segurança do fundo a longo prazo.

In [None]:
colunas_nao_usadas = ["ID_Documento", "SK_Documento", "CNPJ", "Data_Entrega", "CNPJ_Administrador",
                      "Nome_Administrador", "Nome_Fundo"]

taxas_titulos = [col for col in dados_v2.columns if col.startswith('Taxas_')]

liquidez = [col for col in dados_v2.columns if col.startswith('Liquidez_')]

colunas_nao_usadas = colunas_nao_usadas + taxas_titulos + liquidez

dados_v3 = dados_v2.drop(colunas_nao_usadas, axis=1)

dados_v3.shape

- As taxas mantidas são as que dizem respeito a direitos creditórios(DC), pois elas que influenciam as provisões do fundo e refletem as escolhas dos gestores em relação a quais tipos de DCs comprar.

In [None]:
# porém, há algumas taxas que são importantes para o modelo
taxas_importantes = ["Taxas_Direitos_Aquisicao_Desconto_Compra_Media_Ponderada", 
                    "Taxas_Direitos_Aquisicao_Juros_Compra_Media_Ponderada",
                    "Taxas_Direitos_Sem_Aquisicao_Desconto_Compra_Media_Ponderada",
                    "Taxas_Direitos_Sem_Aquisicao_Juros_Compra_Media_Ponderada"]

dados_v3[taxas_importantes] = dados_v2[taxas_importantes]

dados_v3.shape

- Optamos por manter apenas as colunas de valor para alienação, recompra e substituição para assim ficar uma análise mais enxuta, que também pode refletir a quantidade, mas com menos dimensionalidade.

In [None]:
colunas_nao_usadas = ["Negocios_Substituicoes_Quantidade", "Negocios_Substituicoes_Valor_Contabil",
                    "Negocios_Recompras_Quantidade", "Negocios_Recompras_Valor_Contabil",
                    "Negocios_Alienacoes_Cedente_Quantidade", "Negocios_Alienacoes_Cedente_Valor_Contabil",
                    "Negocios_Alienacoes_Prestadores_Quantidade", "Negocios_Alienacoes_Prestadores_Valor_Contabil",
                    "Negocios_Alienacoes_Terceiros_Quantidade", "Negocios_Alienacoes_Terceiros_Valor_Contabil",
                    'Negocios_Aquisicoes_Direitos_Aquisicao_Quantidade',
                    'Negocios_Aquisicoes_Direitos_Sem_Aquisicao_Quantidade',
                    'Negocios_Aquisicoes_Direitos_Vencer_Parcelas_Adimplentes_Quantidade',
                    'Negocios_Aquisicoes_Direitos_Vencer_Parcelas_Inadimplentes_Quantidade',
                    'Negocios_Aquisicoes_Direitos_Inadimplentes_Quantidade']

colunas_uteis = ["Negocios_Alienacoes_Cedente_Valor", "Negocios_Alienacoes_Prestadores_Valor",
                "Negocios_Alienacoes_Terceiros_Valor"]

soma_colunas_uteis = dados_v3[colunas_uteis].sum(axis=1)
dados_v3["Negocios_Alienacoes_Valor"] = soma_colunas_uteis

dados_v3 = dados_v3.drop(colunas_nao_usadas, axis=1)

dados_v3.shape

- Muitas colunas de ativos são práticamente irrelevantes para a análise e comparação, contendo mais de 98% dos dados zerados, o que não adiciona muitas informações para nossa análise e modelagem, então optamos por excluí-las.

In [None]:
ativos_com_mais_zeros = [col for col in dados_v3.columns if col.startswith('Ativo_') and (dados_v3[col] == 0).sum() / len(dados_v3) * 100 > 98]

dados_v3 = dados_v3.drop(ativos_com_mais_zeros, axis=1)

dados_v3.shape

## Dados Nulos
- Nesse bloco analisamos as colunas que ainda contém a maior quantidade de dados nulos, para então tratá-los ou removê-los.

In [None]:
dados_v3.isnull().sum().sort_values(ascending=False)

In [None]:
dados_v3.fillna(0, inplace=True)

dados_v3.isnull().sum().sum()

## Categorização e Codificação - Variáveis Categóricas

- Identificando colunas com variáveis categóricas

In [None]:
print(dados_v3.select_dtypes(include='object').columns)

### Transformando as colunas `Forma_Condominio`, `Cotistas_Vinculados_Interesse`, e `Fundo_Exclusivo` em variáveis binárias 
- A transformação de variáveis numéricas binárias desempenha um papel crucial na etapa de preparação de dados para análises estatísticas e modelagem. Essa conversão é essencial, uma vez que modelos dependem da natureza numérica das variáveis para garantir um processamento preciso. Além de satisfazer essa exigência, a transformação em variáveis binárias conserva a natureza categórica das informações originais, permitindo sua utilização de forma apropriada.

In [None]:
# Substitui os valores de 'Sim' e 'Não' por 1 e 0, respectivamente e 'ABERTO' e 'FECHADO' por 1 e 0, respectivamente
mapeamento = {'Sim': 1, 'Não': 0, 'ABERTO': 1, 'FECHADO':0}
dados_v4 = dados_v3.replace(mapeamento)

# Mostra a coluna "Cotistas_Vinculados_Interesse" e "Fundo_Exclusivo"
dados_v4[['Forma_Condominio','Cotistas_Vinculados_Interesse', 'Fundo_Exclusivo']]

- A coluna Data_Competencia é transformada em datetime para então ser utilizada na manipulação de datas com uma ampla gama de funcionalidades, principalmente cálculos temporais.

In [None]:
dados_v4['Data_Competencia'] = pd.to_datetime(dados_v4['Data_Competencia'], format='%Y-%m-%d')
dados_v4['Data_Competencia']

- Ao utilizar o Label Encoding na coluna "Carteira_Classificação", estamos atribuindo um valor numérico único a cada categoria presente nessa coluna. Essa transformação é necessária para que o algoritmo de aprendizado de máquina possa interpretar essas informações de forma adequada.


In [None]:
# Cria instância do LabelEncoder
label_encoder = LabelEncoder()

# Ajusta e transforma os valores da coluna usando o LabelEncoder
dados_v4['Carteira_Classificação_encoded'] = label_encoder.fit_transform(dados_v4['Carteira_Classificação'])


# Remove a coluna "Sistema_Origem"
dados_v4 = dados_v4.drop(columns=['Sistema_Origem', 'Carteira_Classificação'])


In [None]:
# Verifica se todas as colunas são numéricas
print(dados_v4.select_dtypes(include='object').columns)


## Normalização - Variáveis Numéricas



In [None]:
# Verifica o tipo de dado da coluna
dados_v4["Taxas_Direitos_Aquisicao_Desconto_Compra_Media_Ponderada"] 

In [None]:
# Transforma a coluna em numérica
dados_v4["Taxas_Direitos_Aquisicao_Desconto_Compra_Media_Ponderada"] = pd.to_numeric(dados_v4["Taxas_Direitos_Aquisicao_Desconto_Compra_Media_Ponderada"], errors='coerce')
print(dados_v4.select_dtypes(include='object').columns) # Verificando se todas as colunas são numéricas


In [None]:
# transforma dados nulos da coluna  "Taxas_Direitos_Aquisicao_Desconto_Compra_Media_Ponderada" em 0
dados_v4["Taxas_Direitos_Aquisicao_Desconto_Compra_Media_Ponderada"].fillna(0, inplace=True)

* Este trecho de código tem como objetivo remover colunas específicas do DataFrame `dados_v4` que começam com o prefixo `Ativo`. Essa ação visa simplificar o DataFrame, eliminando colunas que não são relevantes para a análise ou modelo em questão.

In [None]:
# Exclusão de Colunas de Ativos

# Criação da lista de colunas de ativos a serem excluídas
ativos = [col for col in dados_v4.columns if col.startswith('Ativo')]

# Criação de um novo DataFrame sem as colunas de ativos especificadas
dados_v5 = dados_v4.drop(ativos, axis=1)

# Exibição das primeiras linhas do novo DataFrame resultante
dados_v5.head()


### Exclusão de Colunas de Passivos

Eliminando todas as colunas do DataFrame `dados_v5` que começam com o prefixo "Passivo". Esse processo visa simplificar ainda mais o DataFrame, removendo as colunas relacionadas a passivos que possam não ser relevantes para a análise ou modelo.

In [None]:
# Exclusão de Colunas de Passivos

# Criação da lista de colunas de passivos a serem excluídas
passivos = [col for col in dados_v4.columns if col.startswith('Passivo')]

# Criação de um novo DataFrame sem as colunas de passivos
dados_v5 = dados_v5.drop(passivos, axis=1)

# Obtenção da dimensão (número de linhas e colunas) do novo DataFrame resultante
shape_dados_v5 = dados_v5.shape
shape_dados_v5


### Exclusão de Colunas de Carteiras

 O código a seguir remove todas as colunas do DataFrame `dados_v5` que se iniciam com o prefixo "Carteira", com exceção das colunas `Carteira_Direitos_Sem_Aquisicao_Inadimplentes` e `Carteira_Direitos_Aquisicao_Inadimplentes`. Essa ação tem o propósito de simplificar ainda mais o DataFrame, eliminando colunas associadas a informações de carteiras que podem não ser necessárias para a análise ou modelagem.

In [None]:
# Exclusão de Colunas de Carteiras

# Criação da lista de colunas de carteiras a serem excluídas
carteiras = [col for col in dados_v5.columns if col.startswith('Carteira_Direitos')]

# Criação de um novo DataFrame sem as colunas de carteiras
dados_v5 = dados_v5.drop(carteiras, axis=1)

# Obtenção da dimensão (número de linhas e colunas) do novo DataFrame resultante
shape_dados_v5 = dados_v5.shape
shape_dados_v5


### Exclusão das colunas de garantias

In [None]:

garantias = ["Garantias_Percentual", "Garantias_Valor_Total"]

# Criação de um novo DataFrame sem as colunas de carteiras
dados_v5 = dados_v5.drop(garantias, axis=1)

# Obtenção da dimensão (número de linhas e colunas) do novo DataFrame resultante
shape_dados_v5 = dados_v5.shape
shape_dados_v5


### Exclusão de Colunas de VRs (Valores de Riscos)

Eliminando colunas específicas do DataFrame `dados_v5` relacionadas a valores resgatáveis (VRs). Essas colunas são identificadas pelos nomes `vr_sem_riscos_e_beneficios` e `vr_com_riscos_e_beneficios`. A exclusão dessas colunas contribui para uma simplificação adicional do DataFrame, concentrando-se nos atributos mais relevantes para a análise ou modelagem.



In [None]:
# Definição da lista de colunas de VRs a serem excluídas
vrs = ["vr_sem_riscos_e_beneficios", "vr_com_riscos_e_beneficios"]

# Criação de um novo DataFrame sem as colunas de VRs
dados_v5 = dados_v5.drop(vrs, axis=1)

# Obtenção da dimensão (número de linhas e colunas) do novo DataFrame resultante
shape_dados_v5 = dados_v5.shape
shape_dados_v5

### Exclusão de Fundos Exclusivos e com Cotistas Vinculados por Interesse

Eliminando fundos exclusivos e fundos com cotistas vinculados por interesse do DataFrame `dados_v5`. A exclusão desses fundos visa simplificar a análise, concentrando-se apenas em fundos que não possuam essas características específicas.



In [None]:
# Exclusão de fundos exclusivos
dados_v5 = dados_v5.query("Fundo_Exclusivo == 0")
dados_v5 = dados_v5.drop("Fundo_Exclusivo", axis=1)

# Exclusão de fundos com cotistas vinculados por interesse
dados_v5 = dados_v5.query("Cotistas_Vinculados_Interesse == 0")
dados_v5 = dados_v5.drop("Cotistas_Vinculados_Interesse", axis=1)

# Obtenção da dimensão (número de linhas e colunas) do DataFrame resultante
shape_dados_v5 = dados_v5.shape
shape_dados_v5

### Remoção de Duplicatas

Este código tem como objetivo remover linhas duplicadas do DataFrame `dados_v5`, resultando em um DataFrame limpo e sem duplicatas.



In [None]:
# Utilização do método .drop_duplicates() para remover linhas duplicadas do DataFrame dados_v5
dados_v5 = dados_v5.drop_duplicates()

# Obtenção da dimensão (número de linhas e colunas) do DataFrame resultante
shape_dados_v5 = dados_v5.shape
shape_dados_v5


### Normalizando os dados numéricos presentes no DataFrame dados_v4 utilizando a técnica Min Max Scaler da biblioteca Scikit-Learn. 
* A normalização é uma etapa crucial na preparação de dados para modelos de Machine Learning, pois coloca todas as variáveis numéricas em uma faixa com valores entre 0 e 1, mantendo a proporção relativa entre elas.

* O Min Max Scaler é uma técnica que redimensiona os valores de forma que o menor valor se torne 0 e o maior valor se torne 1, enquanto os demais valores são escalados proporcionalmente entre esses extremos. Isso é útil para algoritmos sensíveis à escala dos dados, como regressões lineares e k-means clustering.

In [None]:
# Normalização dos Dados com Min Max Scaler
from sklearn.preprocessing import MinMaxScaler

# Inicialização do objeto MinMaxScaler
scaler = MinMaxScaler()

# Seleção das colunas numéricas dos dados
colunas_numericas = dados_v5.select_dtypes(include='number').columns
colunas_numericas = colunas_numericas.drop(['ID_Participante', 'Carteira_Classificação_encoded', 'Forma_Condominio'])

# Aplicação da normalização Min Max às colunas numéricas
dados_v5[colunas_numericas] = scaler.fit_transform(dados_v5[colunas_numericas])


## Outliers

**Justificativa para Manter Outliers no Projeto**

Certificando-se de adotar uma abordagem abrangente e fundamentada em dados, foi decidido que os *outliers* seriam mantidos no conjunto de dados dos informes mensais. Esta decisão foi tomada com base em diversas considerações cruciais:

1. **Relevância para o Problema:** Dada a natureza crítica dos problemas de provisionamento insuficiente em FIDCs, a manutenção dos *outliers* é essencial. Isso se deve ao fato de que esses pontos podem representar casos reais de provisionamento insuficiente que demandam identificação e tratamento.

2. **Informação Valiosa:** Outliers, por sua própria definição, são pontos que se destacam substancialmente da maioria dos outros dados no conjunto. Eles podem indicar situações excepcionais ou incomuns que merecem uma investigação aprofundada. A equipe optou por explorar esses casos para compreender as razões por trás de suas anomalias e se há fatores subjacentes que as explicam.

3. **Identificação de Riscos Potenciais:** Os *outliers* podem servir como indicadores valiosos de riscos potenciais que não seriam evidentes caso fossem removidos. A identificação desses riscos é essencial para a supervisão adequada dos FIDCs, pois auxilia na prevenção de perdas financeiras e na proteção dos investidores.

4. **Contextualização dos Outliers:** A análise aprofundada dos *outliers* possibilita a obtenção de *insights* valiosos sobre os eventos ou condições que levaram a essas observações excepcionais. Isso permite que a equipe contextualize esses pontos e compreenda melhor as circunstâncias subjacentes ao problema de provisionamento insuficiente.

5. **Sensibilidade do Modelo:** Se modelos de detecção de anomalias forem utilizados, a remoção automática de outliers poderá afetar negativamente a capacidade desses modelos de identificar anomalias legítimas. *Outliers* podem ser indicativos de casos reais de provisionamento insuficiente, e é fundamental que o modelo leve esses pontos em consideração durante o treinamento e a detecção.

6. **Tomada de Decisão Informada:** A análise dos *outliers* possibilita a tomada de decisões informadas sobre como lidar com esses casos. A equipe pode optar por tratá-los de maneira especial, monitorar as carteiras de perto ou implementar ações corretivas, em vez de excluí-los sem uma consideração adequada.

Portanto, a decisão de manter os *outliers* reflete uma abordagem prudente e essencial para o projeto em questão. Isso permitirá que a equipe identifique, compreenda e lide adequadamente com os problemas de provisionamento. Dessa forma, o treinamento do modelo de aprendizado de máquina será mais eficaz, pois o conjunto de dados conterá informações mais completas e representativas dos casos que procura-se prever: inadimplência dos fundos.

### Salvamento dos Dados Tratados em um Arquivo CSV

Salvando os dados do DataFrame `dados_v5` em um arquivo CSV após o tratamento realizado.




In [None]:
dados_v5.to_csv(path_or_buf='../../../data/tratado/dados_cvm_tratados.csv', index=False) 