# Análise do vínculo societário 

In [1]:
import pandas as pd

Para essa visualização utilizaremos os dados gerados a partir da listagem de CNPJs vinculados e das licitações onde esse vínculo é observado entre os competidores.

In [2]:
df = pd.read_csv('../data/output/csv/relacao_licitacao', names=["cnpj_1", "cnpj_2", "licitacao"])
df.head(3)

FileNotFoundError: [Errno 2] No such file or directory: '../data/output/csv/relacao_licitacao'

Precisamos contar o número de licitações em que um mesmo par aparece.
Usamos um dicionário.

In [None]:
d: dict = {}
    
for row in df.values:
    cnpj1 = row[0]
    cnpj2 = row[1]
    d[(cnpj1, cnpj2)] = 0
    
for row in df.values:
    cnpj1 = row[0]
    cnpj2 = row[1]
    d[(cnpj1, cnpj2)] += 1

Transformamos esse dicionário em um DataFrame para a geração de visualizações.

In [None]:
df_a = pd.DataFrame.from_dict(d, orient='index', columns=["ocorrencias"])
df_a.head(5)

Agora podemos visualizar a distribuição de ocorrências.

In [None]:
import plotly.express as px
fig = px.histogram(df_a, x='ocorrencias', log_y=True,
                   title="Número de pares de CNPJs por número de participações em licitações",
                   labels={
                   'ocorrencias' : "número de participações do par em licitações"
                   }
                  )
fig.update_xaxes(visible=True, showticklabels=True)
fig.update_yaxes(title='número de pares de cnpj')
fig.show()

Agora faremos a visualização de vínculos por CNPJ e estudaremos a distribuição desses valores.

In [None]:
d: dict = {}
    
for row in df.values:
    cnpj1 = row[0]
    cnpj2 = row[1]
    d[cnpj1] = 0
    d[cnpj2] = 0
    
for row in df.values:
    cnpj1 = row[0]
    cnpj2 = row[1]
    d[cnpj1] += 1
    d[cnpj2] += 1

Transformamos esse dicionário em um DataFrame para a geração de visualizações.

In [None]:
df_b = pd.DataFrame.from_dict(d, orient='index', columns=["vinculos"])
df_b.head(5)

In [None]:
import plotly.express as px
fig = px.histogram(df_b, x='vinculos', log_y=True,
                   title="Número de CNPJs por quantidade de vínculos",
                   labels={
                   'vinculos' : "número de vínculos que um cnpj possui"
                   }
                  )
fig.update_xaxes(visible=True, showticklabels=True)
fig.update_yaxes(title='número de cnpjs')
fig.show()