# Análise de empresas para parceria 


A Pag Solar está criando um novo produto de financiamento de crédito para instalação de kits de energia solar e para isso precisa selecionar empresas parceiras para captação de pessoas interessadas na substituição de sistemas de energia elétrica para solar. As empresas parceiras são responsáveis pela instalação das placas solares. Entretanto, devido ao mercado prematuro, há um certo nível de desconfiança das instituições financeiras sobre o processo de instalação e homologação adequada dos painéis solares. 

**Problema de Negócio:**

Muitas empresas se cadastraram através do site da Pag Solar e precisamos analisar as melhores opções de parceria e responder as seguintes perguntas: 

1. Quais variáveis seriam relevantes para determinar os parceiros ideais?
2. Quais regras você estabeleceria para entrada e recusa de parceiros em nossa plataforma?



# Importação dos dados:

In [1]:
# Importando as bibiotecas iniciais e a base de dados
import pandas as pd
import numpy as np
dados = pd.read_csv("/content/drive/MyDrive/empresas.csv",sep=";",encoding="utf-8")

Sobre o arquivo empresas.csv:

O arquivo disponibilizado possui os seguintes atributos:
* Id - Código identificador dos parceiros.
* Estado_Empresa - O estado onde a empresa reside. 
* Cnae_empresa - A Classificação Nacional de Atividades Econômicas é utilizada para determinar quais atividades são exercidas por uma empresa.
* Capital_Empresa - O capital da empresa define seu tamanho institucional
* Processos_Jurídicos - Quantidade de ações movidas contra a empresa. 
* Idade_Empresa - Quantos anos a empresa atua no mercado. 
* Socios_Empresa - Define a quantidade de sócios.
* Fornecedor_Empresa - Nome do fornecedor.

# Primeiras observações:

In [2]:
# Visualizando as 5 primeiras linhas
dados.head()

Unnamed: 0,id,estado_empresa,cnae_empresa,capital_empresa,processos_judiciais_empresa,idade_empresa,socios_empresa,fornecedor_empresa
0,0,SP,3313901.0,472052,2,16,4,CABL951
1,1,AM,4221902.0,605359,3,7,3,CABL951
2,2,DF,3321000.0,711994,0,13,2,MEL789
3,3,AC,4221903.0,25330,0,5,1,FOO456
4,4,GO,3321000.0,271513,0,3,2,MEL789


In [3]:
# Identifcando os tipos de dados
dados.dtypes

id                               int64
estado_empresa                  object
cnae_empresa                   float64
capital_empresa                  int64
processos_judiciais_empresa      int64
idade_empresa                    int64
socios_empresa                   int64
fornecedor_empresa              object
dtype: object

In [4]:
# Visualizando a quantidade de registros ( linhas ) e atributos ( colunas )
dados.shape

(11331, 8)

# Fazendo as primeiras correções:

In [5]:
# Verificando dados nulos
dados.isnull().sum()

id                             0
estado_empresa                 0
cnae_empresa                   2
capital_empresa                0
processos_judiciais_empresa    0
idade_empresa                  0
socios_empresa                 0
fornecedor_empresa             0
dtype: int64

In [6]:
# O dataframe possui 2 dados nulos que precisam ser excluídos. Será criado um novo dataframe para manter a integridade do dataset original
dados2 = dados.dropna()
dados2.isnull().sum()

id                             0
estado_empresa                 0
cnae_empresa                   0
capital_empresa                0
processos_judiciais_empresa    0
idade_empresa                  0
socios_empresa                 0
fornecedor_empresa             0
dtype: int64

In [7]:
# Identificando dados zerados na coluna 'estado_empresa'
dados2['estado_empresa'].value_counts()

SP    454
PA    442
MG    439
AL    438
SE    438
GO    435
MT    425
PE    423
SC    418
AC    417
RO    414
AM    414
PB    413
RN    412
BA    411
MA    411
AP    410
PR    407
PI    405
TO    399
CE    397
MS    397
RS    396
RR    390
DF    390
ES    389
RJ    376
mg     57
sp     23
ms      9
go      7
pr      7
pe      6
rs      6
ce      5
es      5
rj      5
ba      5
mt      4
pa      3
rn      3
al      3
pi      3
ro      2
sc      2
ma      2
pb      2
df      2
am      2
ap      2
to      2
ac      1
se      1
Name: estado_empresa, dtype: int64

In [8]:
# Identificando dados zerados na coluna 'cnae_empresa'
dados2['cnae_empresa'].value_counts()

4321500.0    1010
3511501.0     946
2821602.0     531
4669999.0     516
3511500.0     514
4754703.0     513
7112000.0     508
2731700.0     506
2821601.0     502
4221903.0     501
4322303.0     500
4673700.0     498
4221902.0     489
3329599.0     482
4322301.0     481
3321000.0     480
3511502.0     469
4669901.0     466
4742300.0     466
3313901.0     453
4322302.0     449
2710401.0      10
4789099.0       4
7739099.0       3
6462000.0       3
3513100.0       2
8219999.0       2
7020400.0       2
4757100.0       2
0.0             2
8211300.0       1
8599699.0       1
2539001.0       1
2651500.0       1
4120400.0       1
3032600.0       1
6622300.0       1
4759899.0       1
3313999.0       1
2790299.0       1
4763605.0       1
9411100.0       1
2829199.0       1
6810201.0       1
2599399.0       1
6911701.0       1
4751201.0       1
2610800.0       1
4752100.0       1
Name: cnae_empresa, dtype: int64

In [9]:
# Identificando dados zerados na coluna 'capital_empresa'
dados2['capital_empresa'].value_counts()

272965    3
199475    2
253729    2
906862    2
93447     2
         ..
640666    1
706183    1
194676    1
535626    1
368599    1
Name: capital_empresa, Length: 11263, dtype: int64

In [10]:
# Identificando dados zerados na coluna 'idade_empresa'
dados2['idade_empresa'].value_counts()

20    577
19    567
4     564
5     561
2     557
21    555
3     554
1     551
9     544
7     537
18    536
10    531
14    529
17    529
11    529
13    527
8     527
16    520
6     519
15    515
12    500
Name: idade_empresa, dtype: int64

In [11]:
# Identificando dados zerados na coluna 'socios_empresa'
dados2['socios_empresa'].value_counts()

1    2855
3    2849
2    2813
4    2812
Name: socios_empresa, dtype: int64

Após análise foi identificado valores zerados apenas no atributo cnae_empresa. Como não existe um número de registro igual a zero será necessário excluir os 2 elementos encontrados.

In [12]:
# Retirando registros com Cnae zerado através de filtro. Será criado novo dataframe para manter a integridade do dataframe antigo
dados3 = dados2[dados2.cnae_empresa!=0]
dados3

Unnamed: 0,id,estado_empresa,cnae_empresa,capital_empresa,processos_judiciais_empresa,idade_empresa,socios_empresa,fornecedor_empresa
0,0,SP,3313901.0,472052,2,16,4,CABL951
1,1,AM,4221902.0,605359,3,7,3,CABL951
2,2,DF,3321000.0,711994,0,13,2,MEL789
3,3,AC,4221903.0,25330,0,5,1,FOO456
4,4,GO,3321000.0,271513,0,3,2,MEL789
...,...,...,...,...,...,...,...,...
11326,11326,GO,4754703.0,626844,0,13,3,FOO456
11327,11327,CE,4754703.0,840835,0,2,2,JJF753
11328,11328,CE,4669901.0,944517,3,17,4,XPTO123
11329,11329,AC,4322303.0,899621,2,20,4,CABL951


In [13]:
# Transformando coluna cnae_empresa de float para int
dados3["cnae_empresa"] = dados3["cnae_empresa"].apply(np.int64)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dados3["cnae_empresa"] = dados3["cnae_empresa"].apply(np.int64)


In [14]:
dados3.dtypes

id                              int64
estado_empresa                 object
cnae_empresa                    int64
capital_empresa                 int64
processos_judiciais_empresa     int64
idade_empresa                   int64
socios_empresa                  int64
fornecedor_empresa             object
dtype: object

Após um primeiro tratamento nos dados podemos perceber que o campo Cnae possui uma variedade de registros de funções diferentes, mas não existe qualquer legenda que facilite a identificação dessas funções. Deste modo, será necessário obter uma listagem com todos os os registros de Cnae e suas respectivas funções. 

Existem alguns meios de conseguir essa informação. Neste projeto buscarei os dados necessários através de processo de web scraping utilizando o API do site do IBGE.

## Acessando os dados do API do IBGE sobre CNAE

Um fator importante para identificar se uma empresa parceira está apta para prestar os serviços relacionados a instalação e homologação de painéis solares é através do seu cadastro de CNAE, que define quais funções a empresa está autorizada a realizar. 

Usaremos um API disponibilizado pelo IBGE para buscar a relação de CNAE. 

In [15]:
# Importando as bibliotecas para utilizar a API 
import requests
import json

In [16]:
# Fazendo a requisição ao API e retornando os dados na variável cnae.
cnae = requests.get("https://servicodados.ibge.gov.br/api/v2/cnae/subclasses")
cnae = cnae.json()
cnae

[{'id': '4929902',
  'descricao': 'TRANSPORTE RODOVIÁRIO COLETIVO DE PASSAGEIROS, SOB REGIME DE FRETAMENTO, INTERMUNICIPAL, INTERESTADUAL E INTERNACIONAL',
  'classe': {'id': '49299',
   'descricao': 'TRANSPORTE RODOVIÁRIO COLETIVO DE PASSAGEIROS, SOB REGIME DE FRETAMENTO, E OUTROS TRANSPORTES RODOVIÁRIOS NÃO ESPECIFICADOS ANTERIORMENTE',
   'grupo': {'id': '492',
    'descricao': 'TRANSPORTE RODOVIÁRIO DE PASSAGEIROS',
    'divisao': {'id': '49',
     'descricao': 'TRANSPORTE TERRESTRE',
     'secao': {'id': 'H', 'descricao': 'TRANSPORTE, ARMAZENAGEM E CORREIO'}}},
   'observacoes': ['Esta classe compreende - o transporte rodoviário coletivo de passageiros, sob o regime de fretamento\r\n- a organização de excursões em veículos rodoviários próprios\r\n- o transporte de empregados para terceiros\r\n- outros transportes rodoviários de passageiros, sem itinerário fixo, não especificados anteriormente',
    'Esta classe NÃO compreende - os serviços de ambulâncias (86.22-4)\r\n- o transport

In [17]:
# Criando um dataframe com os dados recebidos 
df = pd.DataFrame(cnae)

In [18]:
# Visualizando os dados recebidos no dataframe DF
df

Unnamed: 0,id,descricao,classe,atividades,observacoes
0,4929902,"TRANSPORTE RODOVIÁRIO COLETIVO DE PASSAGEIROS,...","{'id': '49299', 'descricao': 'TRANSPORTE RODOV...",[AUTOMÓVEIS COLETIVOS COM MOTORISTA (CONDUTOR)...,[Esta subclasse compreende - o transporte rodo...
1,4929902,"TRANSPORTE RODOVIÁRIO COLETIVO DE PASSAGEIROS,...","{'id': '49299', 'descricao': 'TRANSPORTE RODOV...",[TRANSPORTE RODOVIÁRIO COLETIVO DE PASSAGEIROS...,[Esta subclasse compreende - o transporte rodo...
2,4929902,"TRANSPORTE RODOVIÁRIO COLETIVO DE PASSAGEIROS,...","{'id': '49299', 'descricao': 'TRANSPORTE RODOV...",[VEÍCULOS RODOVIÁRIOS COLETIVOS COM MOTORISTA ...,[Esta subclasse compreende - o transporte rodo...
3,4929902,"TRANSPORTE RODOVIÁRIO COLETIVO DE PASSAGEIROS,...","{'id': '49299', 'descricao': 'TRANSPORTE RODOV...","[ÔNIBUS COM MOTORISTA (CONDUTOR), INTERMUNICIP...",[Esta subclasse compreende - o transporte rodo...
4,1610204,SERRARIAS SEM DESDOBRAMENTO DE MADEIRA EM BRUT...,"{'id': '16102', 'descricao': 'DESDOBRAMENTO DE...",[ASSOALHOS DE MADEIRA; PRODUÇÃO DE],[Esta subclasse compreende - a produção de mad...
...,...,...,...,...,...
16835,8800600,SERVIÇOS DE ASSISTÊNCIA SOCIAL SEM ALOJAMENTO,"{'id': '88006', 'descricao': 'SERVIÇOS DE ASSI...",[ORIENTAÇÃO SOCIAL; SERVIÇOS DE],[Esta subclasse compreende - as atividades de ...
16836,8800600,SERVIÇOS DE ASSISTÊNCIA SOCIAL SEM ALOJAMENTO,"{'id': '88006', 'descricao': 'SERVIÇOS DE ASSI...",[PRESTAÇÃO DE SERVIÇOS SOCIAIS A TERCEIRA IDADE],[Esta subclasse compreende - as atividades de ...
16837,8800600,SERVIÇOS DE ASSISTÊNCIA SOCIAL SEM ALOJAMENTO,"{'id': '88006', 'descricao': 'SERVIÇOS DE ASSI...",[REABILITAÇÃO PROFISSIONAL PARA DESEMPREGADOS;...,[Esta subclasse compreende - as atividades de ...
16838,4713004,"LOJAS DE DEPARTAMENTOS OU MAGAZINES, EXCETO LO...","{'id': '47130', 'descricao': 'COMÉRCIO VAREJIS...",[LOJA DE DEPARTAMENTOS; COMÉRCIO VAREJISTA],[Esta subclasse compreende - o comércio vareji...


De todos os dados recebidos, apenas 2 atributos serão importantes para análise:
* id - que identifica o número do cnae
* descricao - que define o tipo de cnae


Deste modo será necessário criar um dataframe somente com esses atributos

In [19]:
# Criando dataframe com os atributos importantes
df_cnae = df.iloc[:,[0,1]]

In [20]:
# O dataframe possui dados duplicados que precisam ser retirados.
cnae = df_cnae.drop_duplicates(subset = "id")
cnae

Unnamed: 0,id,descricao
0,4929902,"TRANSPORTE RODOVIÁRIO COLETIVO DE PASSAGEIROS,..."
4,1610204,SERRARIAS SEM DESDOBRAMENTO DE MADEIRA EM BRUT...
23,1610203,SERRARIAS COM DESDOBRAMENTO DE MADEIRA EM BRUTO
26,4623105,COMÉRCIO ATACADISTA DE CACAU
28,3314705,MANUTENÇÃO E REPARAÇÃO DE EQUIPAMENTOS DE TRAN...
...,...,...
16797,4541207,COMÉRCIO A VAREJO DE PEÇAS E ACESSÓRIOS USADOS...
16799,6911702,ATIVIDADES AUXILIARES DA JUSTIÇA
16807,6920602,ATIVIDADES DE CONSULTORIA E AUDITORIA CONTÁBIL...
16818,8800600,SERVIÇOS DE ASSISTÊNCIA SOCIAL SEM ALOJAMENTO


In [21]:
# Agora preciso alterar o nome da coluna 'id' para 'cnae_empresa'. Essa alteração será necessária para o próximo passo
cnae.rename(columns={"id":"cnae_empresa"},inplace=True)
# Aproveito para alterar o tipo de dado da coluna para int
cnae["cnae_empresa"] = cnae["cnae_empresa"].apply(np.int64)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().rename(
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cnae["cnae_empresa"] = cnae["cnae_empresa"].apply(np.int64)


In [22]:
cnae

Unnamed: 0,cnae_empresa,descricao
0,4929902,"TRANSPORTE RODOVIÁRIO COLETIVO DE PASSAGEIROS,..."
4,1610204,SERRARIAS SEM DESDOBRAMENTO DE MADEIRA EM BRUT...
23,1610203,SERRARIAS COM DESDOBRAMENTO DE MADEIRA EM BRUTO
26,4623105,COMÉRCIO ATACADISTA DE CACAU
28,3314705,MANUTENÇÃO E REPARAÇÃO DE EQUIPAMENTOS DE TRAN...
...,...,...
16797,4541207,COMÉRCIO A VAREJO DE PEÇAS E ACESSÓRIOS USADOS...
16799,6911702,ATIVIDADES AUXILIARES DA JUSTIÇA
16807,6920602,ATIVIDADES DE CONSULTORIA E AUDITORIA CONTÁBIL...
16818,8800600,SERVIÇOS DE ASSISTÊNCIA SOCIAL SEM ALOJAMENTO


De 16840 linhas duplicadas reduzimos para 1332 linhas únicas.

## Unindo os dados tratados do arquivo empresas.csv e as informações do cnae disponibilizado pelo API do IBGE

Agora com os dados  tratados e os registros inconsistentes retirados, finalmente será possível unir os dados do dataframe 'cnae' com o dataframe 'dados3' através de um procedimento similar ao PROCV do excel.

In [23]:
dados_empresas = pd.merge(dados3,cnae[["cnae_empresa","descricao"]],on=["cnae_empresa"],how="left")

## Agora é possível saber exatamente o que cada empresa parceira cadastrada pode fazer de acordo com seu cnae

In [24]:
dados_empresas

Unnamed: 0,id,estado_empresa,cnae_empresa,capital_empresa,processos_judiciais_empresa,idade_empresa,socios_empresa,fornecedor_empresa,descricao
0,0,SP,3313901,472052,2,16,4,CABL951,"MANUTENÇÃO E REPARAÇÃO DE GERADORES, TRANSFORM..."
1,1,AM,4221902,605359,3,7,3,CABL951,CONSTRUÇÃO DE ESTAÇÕES E REDES DE DISTRIBUIÇÃO...
2,2,DF,3321000,711994,0,13,2,MEL789,INSTALAÇÃO DE MÁQUINAS E EQUIPAMENTOS INDUSTRIAIS
3,3,AC,4221903,25330,0,5,1,FOO456,MANUTENÇÃO DE REDES DE DISTRIBUIÇÃO DE ENERGIA...
4,4,GO,3321000,271513,0,3,2,MEL789,INSTALAÇÃO DE MÁQUINAS E EQUIPAMENTOS INDUSTRIAIS
...,...,...,...,...,...,...,...,...,...
11322,11326,GO,4754703,626844,0,13,3,FOO456,COMÉRCIO VAREJISTA DE ARTIGOS DE ILUMINAÇÃO
11323,11327,CE,4754703,840835,0,2,2,JJF753,COMÉRCIO VAREJISTA DE ARTIGOS DE ILUMINAÇÃO
11324,11328,CE,4669901,944517,3,17,4,XPTO123,COMÉRCIO ATACADISTA DE BOMBAS E COMPRESSORES; ...
11325,11329,AC,4322303,899621,2,20,4,CABL951,INSTALAÇÕES DE SISTEMA DE PREVENÇÃO CONTRA INC...


## Salvando o dataframe tratado 

In [25]:
dados_empresas.to_csv("dados_empresas.csv",sep = ",", encoding = "utf-8",  index = False)

# Análise exploratória dos dados

In [26]:
dados_empresas.head()

Unnamed: 0,id,estado_empresa,cnae_empresa,capital_empresa,processos_judiciais_empresa,idade_empresa,socios_empresa,fornecedor_empresa,descricao
0,0,SP,3313901,472052,2,16,4,CABL951,"MANUTENÇÃO E REPARAÇÃO DE GERADORES, TRANSFORM..."
1,1,AM,4221902,605359,3,7,3,CABL951,CONSTRUÇÃO DE ESTAÇÕES E REDES DE DISTRIBUIÇÃO...
2,2,DF,3321000,711994,0,13,2,MEL789,INSTALAÇÃO DE MÁQUINAS E EQUIPAMENTOS INDUSTRIAIS
3,3,AC,4221903,25330,0,5,1,FOO456,MANUTENÇÃO DE REDES DE DISTRIBUIÇÃO DE ENERGIA...
4,4,GO,3321000,271513,0,3,2,MEL789,INSTALAÇÃO DE MÁQUINAS E EQUIPAMENTOS INDUSTRIAIS


In [27]:
print(dados_empresas.describe())

                 id  cnae_empresa  capital_empresa  \
count  11327.000000  1.132700e+04     11327.000000   
mean    5664.524322  4.052212e+06    508106.955593   
std     3271.601859  9.399569e+05    285412.665817   
min        0.000000  2.539001e+06     10064.000000   
25%     2831.500000  3.329599e+06    262499.500000   
50%     5663.000000  4.221903e+06    510354.000000   
75%     8498.500000  4.669901e+06    756063.000000   
max    11330.000000  9.411100e+06    999963.000000   

       processos_judiciais_empresa  idade_empresa  socios_empresa  
count                 11327.000000   11327.000000    11327.000000  
mean                      0.982608      10.981902        2.495895  
std                       1.416072       6.124808        1.118352  
min                       0.000000       1.000000        1.000000  
25%                       0.000000       6.000000        1.000000  
50%                       0.000000      11.000000        2.000000  
75%                       2.000000   

# Verificando o Cnae das empresas parceiras

In [28]:
# Verificando cnae das empresas parceiras
np.unique(dados_empresas["cnae_empresa"],return_counts=True)

(array([2539001, 2599399, 2610800, 2651500, 2710401, 2731700, 2790299,
        2821601, 2821602, 2829199, 3032600, 3313901, 3313999, 3321000,
        3329599, 3511500, 3511501, 3511502, 3513100, 4120400, 4221902,
        4221903, 4321500, 4322301, 4322302, 4322303, 4669901, 4669999,
        4673700, 4742300, 4751201, 4752100, 4754703, 4757100, 4759899,
        4763605, 4789099, 6462000, 6622300, 6810201, 6911701, 7020400,
        7112000, 7739099, 8211300, 8219999, 8599699, 9411100]),
 array([   1,    1,    1,    1,   10,  506,    1,  502,  531,    1,    1,
         453,    1,  480,  482,  514,  946,  469,    2,    1,  489,  501,
        1010,  481,  449,  500,  466,  516,  498,  466,    1,    1,  513,
           2,    1,    1,    4,    3,    1,    1,    1,    2,  508,    3,
           1,    2,    1,    1]))

In [30]:
import plotly.express as px
grafico = px.histogram(dados_empresas["descricao"])
grafico.show()

## Insight: 
* Analisando o cnae das empresas cadastradas é possível facilmente identificar que a grande maioria não está apta a exercer o trabalho de instalação de painéis solares.

* O cnae 4321500 - INSTALAÇÃO E MANUTENÇÃO ELÉTRICA é o único cnae compatível, logo, todos os os outros devem ser descartados. 

In [31]:
# Extraindo as empresas compativeis de acordo com cnae
dados_empresas = dados_empresas[dados_empresas.cnae_empresa==4321500]
dados_empresas

Unnamed: 0,id,estado_empresa,cnae_empresa,capital_empresa,processos_judiciais_empresa,idade_empresa,socios_empresa,fornecedor_empresa,descricao
13,13,PI,4321500,813432,0,2,4,CABL951,INSTALAÇÃO E MANUTENÇÃO ELÉTRICA
22,22,SC,4321500,316057,1,1,1,JJF753,INSTALAÇÃO E MANUTENÇÃO ELÉTRICA
31,31,MT,4321500,916294,3,9,1,FOO456,INSTALAÇÃO E MANUTENÇÃO ELÉTRICA
35,35,MS,4321500,241638,0,3,4,MEL789,INSTALAÇÃO E MANUTENÇÃO ELÉTRICA
58,58,RR,4321500,228880,0,1,1,FOO456,INSTALAÇÃO E MANUTENÇÃO ELÉTRICA
...,...,...,...,...,...,...,...,...,...
11266,11270,AC,4321500,748142,1,10,3,CABL951,INSTALAÇÃO E MANUTENÇÃO ELÉTRICA
11280,11284,AC,4321500,566183,0,19,4,XPTO123,INSTALAÇÃO E MANUTENÇÃO ELÉTRICA
11288,11292,MT,4321500,634242,0,8,1,JJF753,INSTALAÇÃO E MANUTENÇÃO ELÉTRICA
11318,11322,AC,4321500,257524,0,9,3,JJF753,INSTALAÇÃO E MANUTENÇÃO ELÉTRICA


Agora vamos análisar as empresas compatíveis e identificar as melhores opções baseado nos demais atributos

In [32]:
# Distribuição por estado
dados_empresas["estado_empresa"].value_counts()

SP    50
RO    47
AP    45
PB    42
DF    40
MG    40
MS    40
SE    39
PA    39
MA    39
AM    39
PR    39
GO    36
CE    35
SC    35
RS    35
RR    35
BA    34
PI    34
PE    34
AC    33
AL    32
MT    32
TO    31
ES    29
RN    29
RJ    28
mg     8
sp     3
pe     1
rn     1
rj     1
es     1
pa     1
ms     1
ba     1
to     1
Name: estado_empresa, dtype: int64

In [33]:
# Algumas siglas de estado aparecem em letras minúsculas que atrapalham a análise. Corrigindo:
dados_empresas ["estado_empresa"].replace({
    "mg":"MG",
    "sp":"SP",
    "pe":"PE",
    "rn":"RN",
    "rj":"RJ",
    "es":"ES",
    "pa":"PA",
    "ms":"MS",
    "ba":"BA",
    "to":"TO"    
    },inplace=True)



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [45]:
# Distribuição das empresas entre os estados usando histograma
import plotly.express as px
hist1 = px.histogram(dados_empresas,x="estado_empresa",nbins=60)
hist1.update_layout(width=800,height=400,title_text="Total de Empresas Parceiras por Estado")
hist1.show()

In [46]:
# Distribuição detalhada das empresas entre os estados
import plotly.express as px
hist1 = px.histogram(dados_empresas,x="estado_empresa",color="fornecedor_empresa",nbins=60)
hist1.update_layout(width=800,height=400,title_text="Distribuição Detalhada por Estado")
hist1.show()

In [47]:
# Relação de quantidade de colaboradores por fornecedor
import plotly.express as px
hist1 = px.histogram(dados_empresas,x="fornecedor_empresa",nbins=60)
hist1.update_layout(width=800,height=400,title_text="Total de Colaboradores por Empresa Parceira")
hist1.show()

## Insights:

* A empresa JJF753 possui a maior quantidade de instaladores, totalizando 218.
* Já a empresa CABL951 possui o menor quadro operacional com 181 instaladores.
* São Paulo possui a maior quantidade total de instaladores, totalizando 53. O estado com menor quantidade é o Rio de Janeiro com 29.
 


In [35]:
# Análise estatística descritiva do atributo 'capital_empresas'
dados_empresas["capital_empresa"].describe()

count      1010.000000
mean     522208.033663
std      284469.631610
min       10829.000000
25%      295914.250000
50%      522333.000000
75%      758181.500000
max      998616.000000
Name: capital_empresa, dtype: float64

* Média do capital ( mean ) - 522208
* Desvio Padrão ( std ) - 284469
* Valor Mínimo ( min ) - 10829
* 1º quartil ( 25% ) - 295914
* Mediana ( 50% ) - 522333
* 3º quartil ( 75% ) - 758181
* Valor Máximo ( max ) - 998616

In [36]:
# Capital X Idade
cap_id = dados_empresas["capital_empresa"]/dados_empresas["idade_empresa"]
cap_id.mean()

92349.90714946011

## Analisando processos judiciais

Empresa com  processos judiciais tem baixa ou nenhuma credibilidade, principalmente se essa empresa prestar o serviço de instalação de um equipamento de alto valor agregado como uma placa solar. 

Alguns pontos devem ser verificados:
*  Quantificar as empresas baseado nos processos judiciais que possuem.
*  Relacionar a quantidade de processos com a idade da empresa. Empresas antigas e consolidadas com nenhum processo judicial possuem credibilidade garantida.

In [37]:
# Quantidade de empresas X Quantidade de processos Judiciais
dados_empresas["processos_judiciais_empresa"].value_counts()

0    608
1    110
3    107
4     93
2     92
Name: processos_judiciais_empresa, dtype: int64

In [38]:
# Visualizando a relação Qntd.Empresas X Qntd.Processos
import plotly.express as px
hist2 = px.histogram(dados_empresas,x="processos_judiciais_empresa", nbins=9,
                     labels={"count":"Qntd.Empresas","processos_judiciais_empresa":"Qntd.Processos"})
hist2.update_layout(width=800,height=400,title_text="Quantidade de empresas X Quantidade de processos Judiciais")
hist2.show()

In [39]:
# Histograma da distribuição : processo judicial X Estados
hist2 = px.histogram(dados_empresas,x="estado_empresa",color="processos_judiciais_empresa", nbins=60)
hist2.update_layout(width=800,height=400,title_text="Processos Judiciais por Estado")
hist2.show()

In [None]:
# Histograma da distribuição : processo judicial X idade da empresa
hist2 = px.histogram(dados_empresas,x="idade_empresa",color="processos_judiciais_empresa", nbins=60)
hist2.update_layout(width=800,height=400,title_text="Processos Judiciais X Idade da Empresa")
hist2.show()

## Analisando a idade das empresas

Outro fator importante é a quantidade de tempo que determinada empresa presta seus serviços. Isso determina sua experiência.

In [None]:
dados_empresas["idade_empresa"].describe()

count    1010.000000
mean       11.065347
std         6.136835
min         1.000000
25%         6.000000
50%        11.000000
75%        17.000000
max        21.000000
Name: idade_empresa, dtype: float64

* Média de idade - 11 anos
* Empresa mais jovem - 1 ano
* Empresa mais antiga - 21 anos

# Visualizando as informações através de um gráfico Treemap

Os treemaps exibem dados hierárquicos e estruturados em árvore como um conjunto de retângulos aninhados. Cada grupo recebe um retângulo, que é organizado lado a lado com pequenos retângulos que representam subgrupos. O tamanho e a cor são usados para mostrar dimensões numéricas separadas dos dados.

No primeiro gráfico as informações seguirão a seguinte hierarquia: 

1. Estado onde a empresa atua
2. Quantidade de processos judiciais que a empresa possui 
3. Quanto tempo a empresa exerce a função de instalação elétrica
4. Nome da empresa parceira.

In [None]:
grafico = px.treemap(dados_empresas, path=["estado_empresa","processos_judiciais_empresa","idade_empresa","fornecedor_empresa"])
grafico.show()

Como um teste farei uma alteração da hierarquia das informações para filtrar melhor os parâmetros relevantes na seguinte ordem:

1. Quantidade de processos judiciais que a empresa possui
2. Estado onde a empresa atua
3. Quanto tempo a empresa exerce a função de instalação elétrica
4. Nome da empresa parceira.

In [None]:
grafico = px.treemap(dados_empresas, path=["processos_judiciais_empresa","estado_empresa","idade_empresa","fornecedor_empresa"])
grafico.show()

# Insights:

1. As principais variáveis para determinar o risco do parceiro seriam:
* cnae_empresa - Extremamente importante para determinar se um parceiro pode exercer a função de instalação de painel solar.
* processos_judiciais_empresa - Empresas com altos índices de processos judiciais possuem baixa credibilidade, principalmente quando se trata de uma prestadora de serviços.

2. Regras para determinar os melhores parceiros por estado:
* Cnae 4321500 - compatível com a instalação de painel solar.
* menor índice de processos por estado
* Empresas com maior tempo de experiência em instalações elétricas.


