In [1]:
import streamlit as st
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.express as px
import unicodedata
import re

In [65]:
def normalize_column(col_name):
    # Converter para minúsculas
    col_name = col_name.lower()
    
    # Remover acentos
    col_name = ''.join(
        c for c in unicodedata.normalize('NFD', col_name)
        if unicodedata.category(c) != 'Mn'
    )
    
    # Substituir espaços e caracteres especiais por underscores
    col_name = re.sub(r'\s+', '_', col_name)  # Espaços
    col_name = re.sub(r'[^\w_]', '', col_name)  # Remover caracteres não alfanuméricos
    
    return col_name

In [None]:
def get_csv(path):
    try:
        pd.read_excel(path, skip)

In [67]:
print(pmc_df.head())
print(pmc_df.info())

print(pmvg_df.head())
print(pmvg_df.info())

                               substancia                cnpj  \
0  21-ACETATO DE DEXAMETASONA;CLOTRIMAZOL  18.459.628/0001-15   
1                              ABATACEPTE  56.998.982/0001-07   
2                              ABATACEPTE  56.998.982/0001-07   
3                            ABEMACICLIBE  43.940.618/0001-44   
4                            ABEMACICLIBE  43.940.618/0001-44   

                              laboratorio     codigo_ggrem       registro  \
0                              BAYER S.A.  538912020009303  1705600230032   
1  BRISTOL-MYERS SQUIBB FARMACÊUTICA LTDA  505107701157215  1018003900019   
2  BRISTOL-MYERS SQUIBB FARMACÊUTICA LTDA  505113100020505  1018003900078   
3                ELI LILLY DO BRASIL LTDA  507619060021902  1126001990018   
4                ELI LILLY DO BRASIL LTDA  507619060022102  1126001990034   

           ean_1       ean_2       ean_3     produto  \
0  7891106000956      -           -       BAYCUTEN N   
1  7896016806469      -           

In [68]:
def format_data_types(df):
    # Colunas de identificação
    df['cnpj'] = df['cnpj'].astype(str)
    df['registro'] = df['registro'].astype(str)
    df['codigo_ggrem'] = df['codigo_ggrem'].astype(str)
    
    # Colunas EAN: Tratá-las como strings para preservar zeros à esquerda
    df['ean_1'] = df['ean_1'].astype(str)
    df['ean_2'] = df['ean_2'].astype(str)
    df['ean_3'] = df['ean_3'].astype(str)
    
    # Colunas numéricas: Remover vírgulas e converter para float
    numeric_columns = [col for col in df.columns if 'pmc' in col or 'pmvg' in col]
    for col in numeric_columns:
        df[col] = df[col].replace({'-': np.nan, ',': '.'}, regex=True)
        df[col] = pd.to_numeric(df[col], errors='coerce')
    
    # Colunas booleanas: Converter 'Sim'/'Não' para True/False
    bool_columns = [
        'restricao_hospitalar', 'cap', 'confaz_87', 
        'icms_0', 'analise_recurcial', 'comercializacao_2022'
    ]
    for col in bool_columns:
        if col in df.columns:
            df[col] = df[col].map({'Sim': True, 'Não': False})
    
    return df

# Aplicar a formatação nos DataFrames
pmc_df = format_data_types(pmc_df)
pmvg_df = format_data_types(pmvg_df)


In [69]:
pmvg_df = pmvg_df.iloc[1:]

In [70]:
print(pmc_df.head())
print(pmc_df.info())

print(pmvg_df.head())
print(pmvg_df.info())

                               substancia                cnpj  \
0  21-ACETATO DE DEXAMETASONA;CLOTRIMAZOL  18.459.628/0001-15   
1                              ABATACEPTE  56.998.982/0001-07   
2                              ABATACEPTE  56.998.982/0001-07   
3                            ABEMACICLIBE  43.940.618/0001-44   
4                            ABEMACICLIBE  43.940.618/0001-44   

                              laboratorio     codigo_ggrem       registro  \
0                              BAYER S.A.  538912020009303  1705600230032   
1  BRISTOL-MYERS SQUIBB FARMACÊUTICA LTDA  505107701157215  1018003900019   
2  BRISTOL-MYERS SQUIBB FARMACÊUTICA LTDA  505113100020505  1018003900078   
3                ELI LILLY DO BRASIL LTDA  507619060021902  1126001990018   
4                ELI LILLY DO BRASIL LTDA  507619060022102  1126001990034   

           ean_1       ean_2       ean_3     produto  \
0  7891106000956      -           -       BAYCUTEN N   
1  7896016806469      -           

In [71]:
pmc_df.to_csv('pmc.csv')
pmvg_df.to_csv('pmvg.csv')

In [55]:
# Carregar o arquivo CSV
unimed_df = pd.read_csv('unimed_raw.csv')  # Ajuste o separador se necessário

In [56]:
# Visualizar as primeiras linhas
print(unimed_df.head())

# Informações básicas do DataFrame
print(unimed_df.info())


           diario  ano_caderno  num_caderno       data_publicacao  \
0  20191029cC.txt         2019           40  2019-10-29T00:00:00Z   
1   20161130I.txt         2015           59  2016-11-30T00:00:00Z   
2  20181112cI.txt         2018           48  2018-11-12T00:00:00Z   
3   20150505C.txt         2012          156  2015-05-05T00:00:00Z   
4   20150812I.txt         2013          224  2015-08-12T00:00:00Z   

                                           vara_nome  \
0  *** capital conselho recursal dos jecs e jecri...   
1                                      2a vara civel   
2                                 1a vara de familia   
3                                     34a vara civel   
4                                      2a vara civel   

                    processo  \
0  0013960-09.2019.8.19.0210   
1  0022008-23.2015.8.19.0007   
2  0002071-08.2018.8.19.0044   
3  0272331-71.2012.8.19.0001   
4  0001099-27.2013.8.19.0072   

                                          ocorrencia  \

In [57]:
def normalize_column(col_name):
    # Converter para minúsculas
    col_name = col_name.lower()
    
    # Remover acentos
    col_name = ''.join(
        c for c in unicodedata.normalize('NFD', col_name)
        if unicodedata.category(c) != 'Mn'
    )
    
    # Substituir espaços e caracteres especiais por underscores
    col_name = re.sub(r'\s+', '_', col_name)  # Substituir espaços por '_'
    col_name = re.sub(r'[^\w_]', '', col_name)  # Remover caracteres não alfanuméricos
    
    return col_name

# Renomear as colunas
unimed_df.rename(columns=lambda x: normalize_column(x), inplace=True)

# Verificar as novas colunas
print(unimed_df.columns)

Index(['diario', 'ano_caderno', 'num_caderno', 'data_publicacao', 'vara_nome',
       'processo', 'ocorrencia', 'pa', 'pp', 'adv', 'tempo_processo_mes',
       'tempo_processo_ano', 'tipo', 'assunto_agravo', 'movimentacao', 'ano',
       'mes', 'tutela', 'tutela_acao', 'multa', 'valor', 'acao', 'flag',
       'descritor', 'ano_referencia'],
      dtype='object')


In [58]:
def clean_monetary_value(value):
    """
    Limpa e converte strings monetárias para float.
    Remove 'r$', pontos de milhares e substitui vírgula por ponto decimal.
    """
    if pd.isnull(value):
        return np.nan
    value = str(value)
    # Remover 'r$' e quaisquer espaços
    value = re.sub(r'r\$\s*', '', value, flags=re.IGNORECASE)
    
    # Identificar o último separador decimal (',' ou '.')
    match = re.search(r'([.,])(?=\d{2}$)', value)
    if match:
        # Substituir o separador decimal por '#'
        value = re.sub(r'([.,])(?=\d{2}$)', '#', value)
        # Remover todos os outros pontos e vírgulas
        value = re.sub(r'[.,]', '', value)
        # Substituir '#' por ponto decimal
        value = value.replace('#', '.')
    else:
        # Nenhum separador decimal identificado; remover todos os pontos e vírgulas
        value = value.replace('.', '').replace(',', '')
    
    try:
        return float(value)
    except ValueError:
        return np.nan  # Retorna NaN se não for possível converter

def clean_monetary_value_max(value):
    """
    Limpa e converte strings monetárias para float.
    Remove 'r$', pontos de milhares e substitui vírgula por ponto decimal.
    Em casos com múltiplos valores separados por '|', retorna o maior valor.
    """
    if pd.isnull(value):
        return np.nan
    value = str(value)
    # Dividir por '|'
    parts = [part.strip() for part in value.split('|')]
    cleaned_values = []
    for part in parts:
        float_val = clean_monetary_value(part)
        if not np.isnan(float_val):
            cleaned_values.append(float_val)
    if cleaned_values:
        return max(cleaned_values)
    else:
        return np.nan


def format_data_types(df):
    """
    Formata os tipos de dados das colunas do DataFrame.
    """
    # Converter colunas de data para datetime
    if 'data_publicacao' in df.columns:
        df['data_publicacao'] = pd.to_datetime(df['data_publicacao'], errors='coerce')
    
    # Converter colunas de ano para inteiro
    ano_cols = ['ano_caderno', 'ano']
    for col in ano_cols:
        if col in df.columns:
            df[col] = pd.to_numeric(df[col], errors='coerce').astype('Int64')
    
    # Converter colunas de número para inteiro
    num_cols = ['num_caderno', 'tempo_processo_mes', 'tempo_processo_ano']
    for col in num_cols:
        if col in df.columns:
            if col == 'tempo_processo_mes':
                # Substituir a string específica por 0
                df[col] = df[col].replace('processo com menos de 1 ano', 0)
                # Converter para numérico, forçando erros para NaN e preenchendo com 0
                df[col] = pd.to_numeric(df[col], errors='coerce').fillna(0).astype('Int64')
            else:
                df[col] = pd.to_numeric(df[col], errors='coerce').astype('Int64')
    
    # Converter colunas monetárias
    monetary_cols_max = ['valor']
    monetary_cols_single = ['multa']
    
    for col in monetary_cols_max:
        if col in df.columns:
            df[col] = df[col].apply(clean_monetary_value_max)
    
    for col in monetary_cols_single:
        if col in df.columns:
            df[col] = df[col].apply(clean_monetary_value)
    
    # Converter colunas booleanas
    bool_columns = ['tutela']
    for col in bool_columns:
        if col in df.columns:
            df[col] = df[col].map({'movimentação com tutela apreciada': True, 'movimentação sem tutela apreciada': False})
    
    # Converter colunas categóricas
    categorical_cols = ['tipo', 'assunto_agravo', 'movimentacao', 'mes', 'acao', 'tutela_acao']
    for col in categorical_cols:
        if col in df.columns:
            df[col] = df[col].astype('category')
    
    return df

# Aplicar a formatação no DataFrame
unimed_df = format_data_types(unimed_df)


In [59]:
# Visualizar as primeiras linhas
print(unimed_df.head())

# Informações básicas do DataFrame
print(unimed_df.info())

           diario  ano_caderno  num_caderno           data_publicacao  \
0  20191029cC.txt         2019           40 2019-10-29 00:00:00+00:00   
1   20161130I.txt         2015           59 2016-11-30 00:00:00+00:00   
2  20181112cI.txt         2018           48 2018-11-12 00:00:00+00:00   
3   20150505C.txt         2012          156 2015-05-05 00:00:00+00:00   
4   20150812I.txt         2013          224 2015-08-12 00:00:00+00:00   

                                           vara_nome  \
0  *** capital conselho recursal dos jecs e jecri...   
1                                      2a vara civel   
2                                 1a vara de familia   
3                                     34a vara civel   
4                                      2a vara civel   

                    processo  \
0  0013960-09.2019.8.19.0210   
1  0022008-23.2015.8.19.0007   
2  0002071-08.2018.8.19.0044   
3  0272331-71.2012.8.19.0001   
4  0001099-27.2013.8.19.0072   

                               

In [60]:
# Salvar o DataFrame tratado em um novo CSV
unimed_df.to_csv('unimed.csv', index=False)

In [61]:
unimed_df.describe()

Unnamed: 0,ano_caderno,num_caderno,tempo_processo_mes,tempo_processo_ano,ano,multa,valor,flag,ano_referencia
count,996.0,996.0,996.0,667.0,996.0,194.0,508.0,996.0,996.0
mean,2015.0251,118.941767,24.39759,36.431784,2015.0251,12288.344124,546512.7,2.561245,2017.475904
std,3.198676,69.172268,33.234277,34.800237,3.198676,51662.754138,11720630.0,10.33729,2.256965
min,1999.0,1.0,0.0,12.0,1999.0,17.98,29.9,1.0,2015.0
25%,2014.0,58.0,0.0,12.0,2014.0,500.0,1000.0,1.0,2015.0
50%,2015.0,121.0,12.0,24.0,2015.0,1000.0,4000.0,1.0,2017.0
75%,2016.0,177.0,36.0,48.0,2016.0,7000.0,10000.0,1.0,2019.0
max,2021.0,240.0,228.0,228.0,2021.0,500000.0,264171100.0,196.0,2021.0


In [78]:
unimed_df['descritor'].unique()

array(['plano de saude', '(art.?|artigo) 196', 'cancer', 'leito uti',
       'quimioterapia',
       'direito ao? (assistencia farmaceutica|assistencia medica|internacao|saude|vida|tratamento|medicamento)',
       'internacao hospitalar', 'Procarbazina', 'tratamento hormonal',
       'Crizotinibe', 'Rituximabe', 'radioterapia', 'BIÓPSIA',
       'Tocilizumabe', 'transplante de medula', 'cancer de mama',
       'leucemia', 'neoplasia maligna', 'negativa de tratamento',
       'ATENÇÃO À SAUDE', 'linfoma', 'Carboplatina',
       'custo do tratamento', 'adenocarcinoma', 'origem da molestia',
       'sistema unico de saude'], dtype=object)

In [85]:
ritu = unimed_df[unimed_df['descritor'] == 'Crizotinibe']
print(ritu.info())

<class 'pandas.core.frame.DataFrame'>
Index: 1 entries, 122 to 122
Data columns (total 25 columns):
 #   Column              Non-Null Count  Dtype              
---  ------              --------------  -----              
 0   diario              1 non-null      object             
 1   ano_caderno         1 non-null      Int64              
 2   num_caderno         1 non-null      Int64              
 3   data_publicacao     1 non-null      datetime64[ns, UTC]
 4   vara_nome           1 non-null      object             
 5   processo            1 non-null      object             
 6   ocorrencia          1 non-null      object             
 7   pa                  1 non-null      object             
 8   pp                  1 non-null      object             
 9   adv                 1 non-null      object             
 10  tempo_processo_mes  1 non-null      Int64              
 11  tempo_processo_ano  1 non-null      Int64              
 12  tipo                1 non-null      categ

In [91]:
import os
import re
import pandas as pd
import numpy as np
from typing import List
import unicodedata

def normalize_column(col_name: str) -> str:
    col_name = col_name.lower()
    col_name = ''.join(
        c for c in unicodedata.normalize('NFD', col_name)
        if unicodedata.category(c) != 'Mn'
    )
    col_name = re.sub(r'\s+', '_', col_name)
    col_name = re.sub(r'[^\w_]', '', col_name)
    return col_name

def format_data_types(df: pd.DataFrame) -> pd.DataFrame:
    identificacao_cols = ['cnpj', 'registro', 'codigo_ggrem']
    for col in identificacao_cols:
        if col in df.columns:
            df[col] = df[col].astype(str)
    ean_cols = ['ean_1', 'ean_2', 'ean_3']
    for col in ean_cols:
        if col in df.columns:
            df[col] = df[col].astype(str)
    numeric_columns = [col for col in df.columns if re.search(r'pmc|pmvg', col)]
    for col in numeric_columns:
        if col in df.columns:
            df[col] = df[col].replace({'-': np.nan, ',': '.'}, regex=True)
            df[col] = pd.to_numeric(df[col], errors='coerce')
    bool_columns = [
        'restricao_hospitalar', 'cap', 'confaz_87', 
        'icms_0', 'analise_recurcial', 'comercializacao_2022'
    ]
    for col in bool_columns:
        if col in df.columns:
            df[col] = df[col].map({'Sim': True, 'Não': False})
    return df

def find_header_row(df: pd.DataFrame, header_keywords: List[str]) -> int:
    header_keywords_upper = [keyword.upper() for keyword in header_keywords]
    for index, row in df.iterrows():
        row_values = row.astype(str).str.strip().str.upper()
        if any(cell in header_keywords_upper for cell in row_values):
            return index
    raise ValueError("Header row not found.")

def process_pmc_files(folder_path: str, medications: List[str]) -> pd.DataFrame:
    all_dfs = []
    header_keywords = ['SUBSTÂNCIA', 'PRINCÍPIO ATIVO']
    for filename in os.listdir(folder_path):
        if filename.lower().endswith('.xls') or filename.lower().endswith('.xlsx'):
            file_path = os.path.join(folder_path, filename)
            print(f"Processing file: {filename}")
            try:
                df_raw = pd.read_excel(file_path, header=None)
                print(f"Initial df shape: {df_raw.shape}")
                header_row = find_header_row(df_raw, header_keywords)
                print(f"Header row found at index: {header_row}")
                df = pd.read_excel(file_path, header=header_row)
                print(f"Data df shape after reading with header: {df.shape}")
                df.columns = [normalize_column(col) for col in df.columns]
                print(f"Columns after normalization: {df.columns.tolist()}")
                df = format_data_types(df)
                if 'substancia' in df.columns:
                    print(f"Unique 'substancia' values before filtering: {df['substancia'].unique()}")
                    df = df[df['substancia'].isin(medications)]
                    print(f"Data df shape after filtering: {df.shape}")
                else:
                    raise ValueError(f"'substancia' column not found in {filename}.")
                if df.empty:
                    print(f"No matching data found in {filename} after filtering.")
                    continue
                match = re.search(r'pmc_(jan|fev|mar|abr|mai|jun|jul|ago|set|out|nov|dez)_(\d{4})', filename.lower())
                if match:
                    month_str = match.group(1)
                    year = match.group(2)
                    month_map = {
                        'jan': '01', 'fev': '02', 'mar': '03', 'abr': '04',
                        'mai': '05', 'jun': '06', 'jul': '07', 'ago': '08',
                        'set': '09', 'out': '10', 'nov': '11', 'dez': '12'
                    }
                    mes = month_map.get(month_str, '01')
                else:
                    mes = 'Unknown'
                    year = 'Unknown'
                print(f"Extracted month: {mes}, year: {year}")
                df['mes'] = mes
                df['ano'] = year
                all_dfs.append(df)
                print(f"Added data from {filename} to the list.")
            except Exception as e:
                print(f"Erro ao processar o arquivo {filename}: {e}")
    if all_dfs:
        df_merged = pd.concat(all_dfs, ignore_index=True)
        print(f"Merged DataFrame shape: {df_merged.shape}")
        return df_merged
    else:
        print("Nenhum DataFrame foi criado. Verifique os arquivos e os filtros aplicados.")
        return pd.DataFrame()

In [92]:
# Example usage:
folder_path = 'pmcs'
medications = ['PROCARBAZINA', 'CRIZOTINIBE', 'RITUXIMABE', 'TOCILIZUMABE', 'CARBOPLATINA']
df_merged = process_pmc_files(folder_path, medications=medications)
print(df_merged.head())

Processing file: pmc_jul_2022.xls
Initial df shape: (27190, 40)
Header row found at index: 47
Data df shape after reading with header: (27142, 40)
Columns after normalization: ['substancia', 'cnpj', 'laboratorio', 'codigo_ggrem', 'registro', 'ean_1', 'ean_2', 'ean_3', 'produto', 'apresentacao', 'classe_terapeutica', 'tipo_de_produto_status_do_produto', 'regime_de_preco', 'pf_sem_impostos', 'pf_0', 'pf_12', 'pf_17', 'pf_17_alc', 'pf_175', 'pf_175_alc', 'pf_18', 'pf_18_alc', 'pf_20', 'pmc_0', 'pmc_12', 'pmc_17', 'pmc_17_alc', 'pmc_175', 'pmc_175_alc', 'pmc_18', 'pmc_18_alc', 'pmc_20', 'restricao_hospitalar', 'cap', 'confaz_87', 'icms_0', 'analise_recursal', 'lista_de_concessao_de_credito_tributario_piscofins', 'comercializacao_2020', 'tarja']
Unique 'substancia' values before filtering: ['21-ACETATO DE DEXAMETASONA;CLOTRIMAZOL' 'ABATACEPTE' 'ABCIXIMABE' ...
 'ZOLMITRIPTANA' 'ZOPICLONA' 'ZUCLOPENTIXOL']
Data df shape after filtering: (47, 40)
Extracted month: 07, year: 2022
Added data fro

In [93]:
df_merged.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 494 entries, 0 to 493
Data columns (total 70 columns):
 #   Column                                              Non-Null Count  Dtype  
---  ------                                              --------------  -----  
 0   substancia                                          494 non-null    object 
 1   cnpj                                                494 non-null    object 
 2   laboratorio                                         494 non-null    object 
 3   codigo_ggrem                                        494 non-null    object 
 4   registro                                            494 non-null    object 
 5   ean_1                                               494 non-null    object 
 6   ean_2                                               494 non-null    object 
 7   ean_3                                               494 non-null    object 
 8   produto                                             494 non-null    object 
 9  

In [94]:
df_merged.describe()

Unnamed: 0,pmc_0,pmc_12,pmc_17,pmc_17_alc,pmc_175,pmc_175_alc,pmc_18,pmc_18_alc,pmc_20,pmc_19,...,unnamed_4,pmc_sem_imposto,pmc_12_alc,pmc_19_alc,pmc_195,pmc_195_alc,pmc_20_alc,pmc_205,pmc_21_alc,pmc_22_alc
count,57.0,53.0,53.0,53.0,53.0,53.0,53.0,53.0,53.0,20.0,...,43.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0
mean,29338.973158,35723.668302,38113.854717,34494.217925,38370.675094,34703.287925,38630.944528,34914.890189,39708.790566,40637.331,...,0.0,30494.86,34653.247,37647.96,41923.14,37226.962,38118.568,42511.107,38601.1,39095.962
std,11728.011491,11804.063394,12609.174198,11180.770194,12695.787963,11248.535997,12783.585952,11317.125202,13147.417466,17487.838995,...,0.0,13125.51473,14915.354192,16204.325156,18493.526785,16016.148499,16406.888512,18758.985934,16614.575537,16827.576628
min,3783.26,6268.11,6645.71,6645.71,6685.98,6685.98,6726.75,6726.75,6894.93,7551.39,...,0.0,6459.15,7339.95,7974.27,8023.79,8023.79,8073.94,8124.72,8176.15,8280.96
25%,27726.34,31904.55,34044.09,30737.16,34274.03,30923.46,34507.04,31112.01,35472.1,41426.53,...,0.0,31902.8,36253.18,39386.15,44050.15,38166.37,39878.5,44670.54,40383.31,40901.02
50%,33193.54,38195.62,40757.06,36798.03,41032.29,37021.07,41311.28,37246.8,42466.64,44730.705,...,0.0,33338.43,37884.57,41158.54,46032.41,41414.2,41673.03,46680.72,42200.56,42741.56
75%,36232.28,42106.6,44930.3,40565.92,45233.75,40811.78,45541.28,41060.64,46814.94,54064.15,...,0.0,39427.18,44803.61,48675.51,54439.52,47168.04,49283.96,55206.23,49907.83,50547.65
max,44777.79,51525.56,54980.91,49640.23,55352.24,49941.11,55728.55,50245.62,57287.13,56497.03,...,0.0,41201.41,46819.78,50865.91,56889.3,51181.88,51501.75,57690.52,52153.69,52822.3


In [95]:
df_merged.to_csv('pmc_2015_2024.csv')

In [96]:
df_merged['ano'].unique()

array(['2022', '2023', '2021', '2020', '2024', '2019'], dtype=object)

In [97]:
df_merged['mes'].unique()

array(['07', '01'], dtype=object)

In [3]:
unimed = pd.read_csv('unimed.csv')
new_base = pd.read_csv('tjrj_20.csv')

print(unimed.head(5))

print(new_base.head(5))

           diario  ano_caderno  num_caderno            data_publicacao  \
0  20191029cC.txt         2019           40  2019-10-29 00:00:00+00:00   
1   20161130I.txt         2015           59  2016-11-30 00:00:00+00:00   
2  20181112cI.txt         2018           48  2018-11-12 00:00:00+00:00   
3   20150505C.txt         2012          156  2015-05-05 00:00:00+00:00   
4   20150812I.txt         2013          224  2015-08-12 00:00:00+00:00   

                                           vara_nome  \
0  *** capital conselho recursal dos jecs e jecri...   
1                                      2a vara civel   
2                                 1a vara de familia   
3                                     34a vara civel   
4                                      2a vara civel   

                    processo  \
0  0013960-09.2019.8.19.0210   
1  0022008-23.2015.8.19.0007   
2  0002071-08.2018.8.19.0044   
3  0272331-71.2012.8.19.0001   
4  0001099-27.2013.8.19.0072   

                         

In [6]:
import pandas as pd
import numpy as np
import re

# 1. Carregar os DataFrames
unimed = pd.read_csv('unimed.csv')
new_base = pd.read_csv('tjrj_20.csv')

print("DataFrame 'unimed':")
print(unimed.head())

print("\nDataFrame 'new_base':")
print(new_base.head())

# 2. Alinhar e Renomear as Colunas
print("\nColunas do DataFrame 'unimed':")
print(unimed.columns.tolist())

print("\nColunas do DataFrame 'new_base' antes de renomear:")
print(new_base.columns.tolist())

# Renomear colunas no new_base para corresponder ao unimed
new_base.rename(columns={
    'ano_processo': 'ano_referencia',
    'multas': 'multa',
    'assunto': 'assunto_agravo',
    'oab': 'adv'
    # Não renomear 'tempo_processo' para evitar duplicatas
}, inplace=True)

print("\nColunas do DataFrame 'new_base' após renomear:")
print(new_base.columns.tolist())

# 3. Limpeza e Transformação dos Dados

# Converter 'data_publicacao' para datetime
unimed['data_publicacao'] = pd.to_datetime(unimed['data_publicacao'], errors='coerce')
new_base['data_publicacao'] = pd.to_datetime(new_base['data_publicacao'], errors='coerce')

# Função para limpar colunas monetárias
def clean_monetary_column(column):
    def convert_value(val):
        if isinstance(val, str):
            # Remover tudo que não for número ou vírgula/ponto
            val = re.sub(r'[^\d,\.]', '', val)
            # Substituir vírgulas por pontos para converter para float
            val = val.replace(',', '.')
            try:
                return float(val)
            except:
                return np.nan
        elif isinstance(val, (int, float)):
            return float(val)
        else:
            return np.nan
    return column.apply(convert_value)

# Limpar 'valor' e 'multa' em ambos os DataFrames
unimed['valor'] = clean_monetary_column(unimed['valor'])
unimed['multa'] = clean_monetary_column(unimed['multa'])

new_base['valor'] = clean_monetary_column(new_base['valor'])
new_base['multa'] = clean_monetary_column(new_base['multa'])

# Tratar valores faltantes
unimed['multa'].fillna(0, inplace=True)
new_base['multa'].fillna(0, inplace=True)

unimed['valor'].fillna(0, inplace=True)
new_base['valor'].fillna(0, inplace=True)

# Remover linhas onde 'processo' está faltando
unimed.dropna(subset=['processo'], inplace=True)
new_base.dropna(subset=['processo'], inplace=True)

# 4. Adicionar Colunas Ausentes

# Identificar colunas exclusivas de cada DataFrame
unimed_unique = set(unimed.columns) - set(new_base.columns)
new_base_unique = set(new_base.columns) - set(unimed.columns)

# Adicionar colunas exclusivas do 'unimed' ao 'new_base' com valores NaN
for col in unimed_unique:
    new_base[col] = np.nan

# Adicionar colunas exclusivas do 'new_base' ao 'unimed' com valores NaN
for col in new_base_unique:
    unimed[col] = np.nan

# Verificar colunas duplicadas
print("\nVerificando colunas duplicadas em 'unimed':")
print(unimed.columns[unimed.columns.duplicated()].tolist())

print("\nVerificando colunas duplicadas em 'new_base':")
print(new_base.columns[new_base.columns.duplicated()].tolist())

# Remover colunas duplicadas (se houver)
unimed = unimed.loc[:, ~unimed.columns.duplicated()]
new_base = new_base.loc[:, ~new_base.columns.duplicated()]

# 5. Reorganizar as colunas

# Obter a lista de colunas únicas (sem duplicatas)
common_columns_order = unimed.columns.drop_duplicates().tolist()

# Reorganizar as colunas
unimed = unimed[common_columns_order]
new_base = new_base[common_columns_order]

# 6. Mesclar os DataFrames

# Concatenar os DataFrames
combined_df = pd.concat([unimed, new_base], ignore_index=True)

print("\nDataFrame combinado:")
print(combined_df.head())

# 7. Tratar Duplicatas

# Verificar duplicatas baseadas na coluna 'processo'
if 'processo' in combined_df.columns:
    duplicate_count = combined_df.duplicated(subset=['processo']).sum()
    print(f"\nNúmero de duplicatas encontradas com base na coluna 'processo': {duplicate_count}")

    # Remover duplicatas mantendo a primeira ocorrência
    combined_df.drop_duplicates(subset=['processo'], keep='first', inplace=True)
    print(f"Número de linhas após remover duplicatas: {combined_df.shape[0]}")
else:
    print("\nA coluna 'processo' não está presente no DataFrame combinado. Duplicatas não serão tratadas com base nesta coluna.")

# 8. Salvar o DataFrame Atualizado

combined_df.to_csv('unimed_atualizado.csv', index=False)

print("\nArquivo 'unimed_atualizado.csv' foi criado com sucesso.")


DataFrame 'unimed':
           diario  ano_caderno  num_caderno            data_publicacao  \
0  20191029cC.txt         2019           40  2019-10-29 00:00:00+00:00   
1   20161130I.txt         2015           59  2016-11-30 00:00:00+00:00   
2  20181112cI.txt         2018           48  2018-11-12 00:00:00+00:00   
3   20150505C.txt         2012          156  2015-05-05 00:00:00+00:00   
4   20150812I.txt         2013          224  2015-08-12 00:00:00+00:00   

                                           vara_nome  \
0  *** capital conselho recursal dos jecs e jecri...   
1                                      2a vara civel   
2                                 1a vara de familia   
3                                     34a vara civel   
4                                      2a vara civel   

                    processo  \
0  0013960-09.2019.8.19.0210   
1  0022008-23.2015.8.19.0007   
2  0002071-08.2018.8.19.0044   
3  0272331-71.2012.8.19.0001   
4  0001099-27.2013.8.19.0072   

     

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  unimed['multa'].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  new_base['multa'].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always beha


Verificando colunas duplicadas em 'unimed':
[]

Verificando colunas duplicadas em 'new_base':
['assunto_agravo']

DataFrame combinado:
           diario  ano_caderno  num_caderno            data_publicacao  \
0  20191029cC.txt         2019           40  2019-10-29 00:00:00+00:00   
1   20161130I.txt         2015           59  2016-11-30 00:00:00+00:00   
2  20181112cI.txt         2018           48  2018-11-12 00:00:00+00:00   
3   20150505C.txt         2012          156  2015-05-05 00:00:00+00:00   
4   20150812I.txt         2013          224  2015-08-12 00:00:00+00:00   

                                           vara_nome  \
0  *** capital conselho recursal dos jecs e jecri...   
1                                      2a vara civel   
2                                 1a vara de familia   
3                                     34a vara civel   
4                                      2a vara civel   

                    processo  \
0  0013960-09.2019.8.19.0210   
1  0022008-23.2015

In [7]:
combined_df['descritor'].unique()

array(['plano de saude', '(art.?|artigo) 196', 'cancer', 'leito uti',
       'quimioterapia',
       'direito ao? (assistencia farmaceutica|assistencia medica|internacao|saude|vida|tratamento|medicamento)',
       'internacao hospitalar', 'Procarbazina', 'tratamento hormonal',
       'Crizotinibe', 'Rituximabe', 'radioterapia', 'BIÓPSIA',
       'Tocilizumabe', 'transplante de medula', 'cancer de mama',
       'leucemia', 'neoplasia maligna', 'negativa de tratamento',
       'ATENÇÃO À SAUDE', 'linfoma', 'Carboplatina',
       'custo do tratamento', 'adenocarcinoma', 'origem da molestia',
       'sistema unico de saude', 'Azacitidina', 'Bevacizumabe',
       'Lenalidomida', 'Letrozol', 'Ciproterona', 'Ipilimumabe',
       'Dexametasona', 'Bendamustina', 'Brentuximabe Vedotina',
       'Pertuzumabe', 'Imatinibe', 'Mesna', 'Vemurafenibe', 'Docetaxel',
       'Capecitabina', 'Filgrastim', 'Etoposídeo', 'saude publica',
       '(art\\.?|artigo) 196', 'rede publica de saude',
       'custo 

In [4]:
import pandas as pd

# Carregar o CSV sem parsing de datas
unimed_df = pd.read_csv('unimed_atualizado.csv')

# Verificar os tipos de dados
print(unimed_df.dtypes)


diario                 object
ano_caderno             int64
num_caderno             int64
data_publicacao        object
vara_nome              object
processo               object
ocorrencia             object
pa                     object
pp                     object
adv                    object
tempo_processo_mes    float64
tempo_processo_ano    float64
tipo                   object
assunto_agravo         object
movimentacao           object
ano                   float64
mes                    object
tutela                 object
tutela_acao            object
multa                 float64
valor                 float64
acao                   object
flag                  float64
descritor              object
ano_referencia        float64
tempo_processo        float64
polos_geral            object
partes                 object
dtype: object


In [5]:
# Tentar converter 'data_publicacao' para datetime e identificar erros
unimed_df['data_publicacao_converted'] = pd.to_datetime(unimed_df['data_publicacao'], errors='coerce')

# Identificar linhas com valores NaT (Not a Time) após a conversão
invalid_dates = unimed_df[unimed_df['data_publicacao_converted'].isna()]
print("Linhas com datas inválidas:")
print(invalid_dates)


Linhas com datas inválidas:
              diario  ano_caderno  num_caderno      data_publicacao  \
762   20201228cC.txt         2020           77  2020-12-28 00:00:00   
763   20201228cC.txt         2020           77  2020-12-28 00:00:00   
764   20200724cC.txt         2020          212  2020-07-24 00:00:00   
765   20200311cC.txt         2020          123  2020-03-11 00:00:00   
766   20200313cC.txt         2020          125  2020-03-13 00:00:00   
...              ...          ...          ...                  ...   
3081  20201006cC.txt         2020           25  2020-10-06 00:00:00   
3082  20200807cC.txt         2020          222  2020-08-07 00:00:00   
3083  20201204cC.txt         2020           64  2020-12-04 00:00:00   
3084  20200921cC.txt         2020           14  2020-09-21 00:00:00   
3085  20200219cC.txt         2020          112  2020-02-19 00:00:00   

                                         vara_nome                   processo  \
762   capital conselho recursal dos je

In [6]:
# Função para tentar diferentes formatos de data
def parse_dates(date_str):
    for fmt in ('%Y-%m-%d %H:%M:%S%z', '%Y-%m-%d %H:%M:%S', '%Y%m%d'):
        try:
            return pd.to_datetime(date_str, format=fmt, utc=True)
        except (ValueError, TypeError):
            continue
    return pd.NaT  # Retorna NaT se nenhum formato corresponder

# Aplicar a função de parsing
unimed_df['data_publicacao_converted'] = unimed_df['data_publicacao'].apply(parse_dates)

# Remover linhas com datas ainda inválidas após tentativa de correção
unimed_df_cleaned = unimed_df.dropna(subset=['data_publicacao_converted']).copy()

# Substituir a coluna original pela coluna convertida
unimed_df_cleaned['data_publicacao'] = unimed_df_cleaned['data_publicacao_converted']

# Remover a coluna auxiliar
unimed_df_cleaned.drop(columns=['data_publicacao_converted'], inplace=True)


In [7]:
print(unimed_df_cleaned.dtypes)


diario                             object
ano_caderno                         int64
num_caderno                         int64
data_publicacao       datetime64[ns, UTC]
vara_nome                          object
processo                           object
ocorrencia                         object
pa                                 object
pp                                 object
adv                                object
tempo_processo_mes                float64
tempo_processo_ano                float64
tipo                               object
assunto_agravo                     object
movimentacao                       object
ano                               float64
mes                                object
tutela                             object
tutela_acao                        object
multa                             float64
valor                             float64
acao                               object
flag                              float64
descritor                         

In [8]:
# Exportar o DataFrame limpo para um novo CSV
unimed_df_cleaned.to_csv('unimed_atualizado_cleaned.csv', index=False)
