In [4]:
import sweetviz as sv
import pandas as pd

# Tratamento dos Dados

In [5]:
# Carregamento do arquivo CSV para um DataFrame chamado df
df = pd.read_csv('/home/rodrigo/Documentos/GitHub/calculo_sinistralidade_telemecidina/sinistralidade_telemecidina.csv', dtype = {'Nome da Empresa': 'str', 'CONSULTAS': 'str', 
                                                                                               'VIDAS ATIVAS': 'str', 'SINISTRALIDADE': 'str', 'PERIODO': 'str', 
                                                                                               'MES': 'str', 'ANO': 'str', 'SETOR': 'str'})
# Renomeação da coluna 'Nome da Empresa' para 'EMPRESA'
df.rename(columns={'Nome da Empresa': 'EMPRESA'}, inplace=True)

# Exibição das primeiras linhas do DataFrame df
print("DataFrame original:")
print(df)

# Exibição os tipos de dados originais
print("\nTipos de dados originais:")
print(df.dtypes)

DataFrame original:
                         EMPRESA CONSULTAS VIDAS ATIVAS SINISTRALIDADE  \
0            Saúde Integral Ltda         2           15         13,33%   
1            Saúde Integral Ltda         5           28         17,86%   
2            Saúde Integral Ltda         7           26         26,92%   
3            Saúde Integral Ltda         5           22         22,73%   
4            Saúde Integral Ltda         6           19         31,58%   
..                           ...       ...          ...            ...   
135  AssistPlus Consultoria Ltda         0            6          0,00%   
136  AssistPlus Consultoria Ltda         0            6          0,00%   
137  AssistPlus Consultoria Ltda         0            6          0,00%   
138  AssistPlus Consultoria Ltda         0            6          0,00%   
139  AssistPlus Consultoria Ltda         2           13         15,38%   

      PERIODO        MES   ANO    SETOR  
0    01/05/24       MAIO  2024  PUBLICO  
1    01

In [6]:
# Remoção da coluna 'SINISTRALIDADE', 'MES' e 'ANO' do DataFrame original
colunas_drop = ['SINISTRALIDADE', 'MES', 'ANO']
colunas_drop = [col for col in colunas_drop if col in df.columns]
df.drop(columns=colunas_drop, inplace=True)

# Renomear as colunas conforme especificado
df.rename(columns={
    'EMPRESA': 'Empresa',
    'CONSULTAS': 'Consultas',
    'VIDAS ATIVAS': 'Vidas_Ativas',
    'PERIODO': 'Periodo',
    'SETOR': 'Setor',
}, inplace=True)

# Aplicar o método title() para a coluna 'Setor'
df['Setor'] = df['Setor'].str.title()

# Exibição das primeiras linhas do DataFrame para verificar a remoção da coluna
df

Unnamed: 0,Empresa,Consultas,Vidas_Ativas,Periodo,Setor
0,Saúde Integral Ltda,2,15,01/05/24,Publico
1,Saúde Integral Ltda,5,28,01/04/24,Publico
2,Saúde Integral Ltda,7,26,01/03/24,Publico
3,Saúde Integral Ltda,5,22,01/02/24,Publico
4,Saúde Integral Ltda,6,19,01/01/24,Publico
...,...,...,...,...,...
135,AssistPlus Consultoria Ltda,0,6,01/12/23,Privado
136,AssistPlus Consultoria Ltda,0,6,01/11/23,Privado
137,AssistPlus Consultoria Ltda,0,6,01/10/23,Privado
138,AssistPlus Consultoria Ltda,0,6,01/09/23,Privado


In [7]:
# Remoção dos pontos das strings
df['Consultas'] = df['Consultas'].astype(str).str.replace('.', '', regex=False)
df['Vidas_Ativas'] = df['Vidas_Ativas'].astype(str).str.replace('.', '', regex=False)

# Conversão de float para int
df['Consultas'] = df['Consultas'].astype(float).astype(int)
df['Vidas_Ativas'] = df['Vidas_Ativas'].astype(float).astype(int)

# Converter a coluna 'PERIODO' para datetime especificando o formato
df['Periodo'] = pd.to_datetime(df['Periodo'], format='%d/%m/%y')

In [8]:
# Verificação os tipos de dados das colunas 'CONSULTAS' e 'VIDAS ATIVAS' após converter os formatos
print(df.dtypes)

Empresa                 object
Consultas                int64
Vidas_Ativas             int64
Periodo         datetime64[ns]
Setor                   object
dtype: object


In [9]:
# Transformar as strings em colunas categóricas
colunas_categoricas_nao_ordenadas = [
    "Empresa",
    "Setor",
]

for coluna in colunas_categoricas_nao_ordenadas:
    df[coluna] = df[coluna].astype("category")

print(df.dtypes)

Empresa               category
Consultas                int64
Vidas_Ativas             int64
Periodo         datetime64[ns]
Setor                 category
dtype: object


In [10]:
# Exibição do DataFrame
df

Unnamed: 0,Empresa,Consultas,Vidas_Ativas,Periodo,Setor
0,Saúde Integral Ltda,2,15,2024-05-01,Publico
1,Saúde Integral Ltda,5,28,2024-04-01,Publico
2,Saúde Integral Ltda,7,26,2024-03-01,Publico
3,Saúde Integral Ltda,5,22,2024-02-01,Publico
4,Saúde Integral Ltda,6,19,2024-01-01,Publico
...,...,...,...,...,...
135,AssistPlus Consultoria Ltda,0,6,2023-12-01,Privado
136,AssistPlus Consultoria Ltda,0,6,2023-11-01,Privado
137,AssistPlus Consultoria Ltda,0,6,2023-10-01,Privado
138,AssistPlus Consultoria Ltda,0,6,2023-09-01,Privado


In [11]:
# Filtro dos dados para a empresa de índice 0
empresa_nome = df['Empresa'].iloc[0]
df_filtered = df[df['Empresa'] == empresa_nome]

# Encontrar o valor mínimo de "VIDAS ATIVAS" no filtro
vidas_ativas_min = df_filtered['Vidas_Ativas'].min()
print(f'O valor mínimo de vidas ativas em um mês para a empresa {empresa_nome} é de {vidas_ativas_min}')

# Filtro dos dados para "Saúde Integral Ltda"
df_filtered = df[df['Empresa'] == 'Saúde Integral Ltda']

# Encontrar o valor mínimo de "CONSULTAS" no filtro
consultas_min = df_filtered['Consultas'].min()
print(f'O valor mínimo de vidas ativas em um mês para a empresa {empresa_nome} é de {consultas_min}')

O valor mínimo de vidas ativas em um mês para a empresa Saúde Integral Ltda é de 14
O valor mínimo de vidas ativas em um mês para a empresa Saúde Integral Ltda é de 1


In [2]:
# Executar o Data Profiling
aed_sv = sv.analyze(df, 
                    target_feat='Vidas_Ativas')

# Salva o arquivo HTML final com o relatório
aed_sv.show_html('vidas_ativas.html')

NameError: name 'df' is not defined

In [3]:
# Executar o Data Profiling
aed_sv = sv.analyze(df, 
                    target_feat='Consultas')

# Salva o arquivo HTML final com o relatório
aed_sv.show_html('consultas.html')

NameError: name 'df' is not defined