**Importar as bibliotecas do Python que serão utilizadas para resolver o problema**

In [2]:
import pandas as pd 


**Método para ler a tabela 'Dados' do arquixo xlsx que foi disponibilizado**

In [3]:
df = pd.read_excel('aevo_-_desafio_estágio_em_sales_ops.xlsx', sheet_name='Dados')
print(df)

    Nome da empresa Resultado da negociação  Valor do contrato (R$)  \
0         Empresa 1        Contrato perdido                 2000.00   
1         Empresa 2        Contrato perdido                 2000.00   
2         Empresa 3        Contrato fechado                10898.93   
3         Empresa 4        Contrato perdido                 2168.93   
4         Empresa 5        Contrato perdido                 3237.79   
..              ...                     ...                     ...   
995     Empresa 996        Contrato perdido                 4829.56   
996     Empresa 997        Contrato fechado                12468.05   
997     Empresa 998        Contrato perdido                 3627.21   
998     Empresa 999        Contrato perdido                 5800.80   
999    Empresa 1000        Contrato perdido                 4210.54   

     Tempo de negociação (dias)       Setor  \
0                            60    Serviços   
1                            73  Financeiro   
2     

In [4]:
print(df.columns)
print(df['Resultado da negociação'].unique())

Index(['Nome da empresa', 'Resultado da negociação', 'Valor do contrato (R$)',
       'Tempo de negociação (dias)', 'Setor',
       'Tamanho da empresa (colaboradores)', 'Localidade da sede'],
      dtype='object')
['Contrato perdido' 'Contrato fechado']


**Checagem de integridade do Dataset, ou seja, checar se, por exemplo, "há valores nulos" na base de dados disponibilizada**

In [5]:
if df.isnull().values.any():
    print("A base de dados contém valores nulos.")
else: 
    print("A base de dados não contém valores nulos.")

A base de dados não contém valores nulos.


**Adicionar uma feature de 'região' na base de dados, a fim de enriquecer nossa análise**

In [6]:
def definir_regiao(estado):
    regioes = {
        'nordeste': ['BA', 'PE', 'CE', 'MA', 'PI', 'RN', 'PB', 'SE', 'AL'],
        'centro-oeste': ['MT', 'MS', 'GO', 'DF'],
        'sul': ['RS', 'SC', 'PR'],
        'sudeste': ['SP', 'RJ', 'MG', 'ES'],
        'norte': ['AM', 'RR', 'AP', 'PA', 'RO', 'AC']
    }

    for regiao, estados in regioes.items():
        if estado in estados:
            return regiao
    return 'outra'

df['região'] = df['Localidade da sede'].apply(definir_regiao)

In [7]:
print(df['região'])

0      centro-oeste
1      centro-oeste
2             norte
3               sul
4      centro-oeste
           ...     
995    centro-oeste
996    centro-oeste
997         sudeste
998             sul
999         sudeste
Name: região, Length: 1000, dtype: object


**Mapeamento para cálculo de matriz de correlação**

In [8]:
mapeamento_contrato = {"Contrato perdido": 0, "Contrato fechado": 1}
mapeamento_setor = {'Serviços': 0, 'Financeiro': 1, 'Indústrias': 2, 'Saúde': 3, 'Tecnologia': 4, 'Logística': 5}
mapeamento_regiao = {'nordeste': 0, 'centro-oeste': 1, 'sul': 2, 'sudeste': 3, 'norte': 4}

df_correlacionado = df.copy()

df_correlacionado['Resultado da negociação'] = df_correlacionado['Resultado da negociação'].map(mapeamento_contrato)
df_correlacionado['Setor'] = df_correlacionado['Setor'].map(mapeamento_setor)
df_correlacionado['região'] = df_correlacionado['região'].map(mapeamento_regiao)

df_correlacionado = df_correlacionado.drop(columns=["Nome da empresa", "Localidade da sede"])
print(df_correlacionado)



     Resultado da negociação  Valor do contrato (R$)  \
0                          0                 2000.00   
1                          0                 2000.00   
2                          1                10898.93   
3                          0                 2168.93   
4                          0                 3237.79   
..                       ...                     ...   
995                        0                 4829.56   
996                        1                12468.05   
997                        0                 3627.21   
998                        0                 5800.80   
999                        0                 4210.54   

     Tempo de negociação (dias)  Setor  Tamanho da empresa (colaboradores)  \
0                            60      0                                8357   
1                            73      1                                1176   
2                            43      2                               40489   
3              

**Matriz de correlação das features do banco de dados**

In [10]:

df_correlacionado.corr()

Unnamed: 0,Resultado da negociação,Valor do contrato (R$),Tempo de negociação (dias),Setor,Tamanho da empresa (colaboradores),região
Resultado da negociação,1.0,0.869359,-0.714647,-0.10151,0.837956,0.025422
Valor do contrato (R$),0.869359,1.0,-0.615029,-0.094697,0.789101,0.005088
Tempo de negociação (dias),-0.714647,-0.615029,1.0,0.080427,-0.598491,-0.047777
Setor,-0.10151,-0.094697,0.080427,1.0,-0.070572,0.022454
Tamanho da empresa (colaboradores),0.837956,0.789101,-0.598491,-0.070572,1.0,0.014234
região,0.025422,0.005088,-0.047777,0.022454,0.014234,1.0
