# Realiza a transformação do dataset
Extrai os seguintes dados 'data', 'relator', 'orgao', 'recorrente', 'dispositivo', 'qtd_recorrentes'

## Importação de bibliotecas básicas

In [104]:
import pandas as pd
import time

## Carregamento do dataset

In [105]:
pasta = "E:\\OneDrive\\Documentos\\pesquisa_codigos_2020\\pesquisa_jurimetria_polaridade_final\\2_Compreensao_dos_dados\\2_1_coleta_de_dados\\Datasets_coletados\\TRT4\\"
arquivo = "7_trt4_inteiro_teor_dezembro_janeiro_2019.csv"
df = pd.read_csv( pasta+arquivo, encoding='utf-8' )
print( df.info() )
df_tudo = df_tudo.append( df )

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6112 entries, 0 to 6111
Data columns (total 3 columns):
_type           6112 non-null object
link            6112 non-null object
inteiro_teor    6112 non-null object
dtypes: object(3)
memory usage: 143.4+ KB
None


In [106]:
df = df.drop( "_type", 1)
df.columns = [ "LINK", "INTEIRO_TEOR" ]
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6112 entries, 0 to 6111
Data columns (total 2 columns):
LINK            6112 non-null object
INTEIRO_TEOR    6112 non-null object
dtypes: object(2)
memory usage: 95.6+ KB


In [107]:
df.head()

Unnamed: 0,LINK,INTEIRO_TEOR
0,rest/cache/acordao/pje/ALbd-wyGBBNVYftUwvBwcw?,Acórdão: 0020781-46.2019.5.04.0000 ( MSCiv...
1,rest/cache/acordao/pje/32ebwBuzzVT5pMw2CYFR2g?,Acórdão: 0021517-51.2016.5.04.0006 ( ROT )...
2,rest/cache/acordao/pje/jnRhaaCC6xmdnEeeSYbHkQ?,Acórdão: 0020650-14.2019.5.04.0019 ( RORSu...
3,rest/cache/acordao/pje/-_WxaAoIejtTWn768FZ0PQ?,Acórdão: 0020973-49.2019.5.04.0203 ( ROT )...
4,rest/cache/acordao/pje/091xN4ufMUCFxzROUU2PNA?,Acórdão: 0021360-11.2017.5.04.0211 ( ROT )...


## Definição de funções para extrair os dados

In [108]:
import re

def extrai_data( texto ):
    try:
        result = re.search( r"(\d{1,2}\/\d{1,2}\/(\d{4}|\d{2}))", str( texto ) )
        return result[1]
    except:
        return pd.np.nan

def extrai_relator( texto ):
    try:
        regex1 = r"relator:|redator:"
        achou = re.search(regex1, texto.lower() )
        inicio = achou.end()

        regex2 = r"ementa|órgão|poder"
        achou = re.search(regex2, texto[inicio:].lower())
        fim = achou.start()
        return texto[inicio:inicio+fim].strip()
    except:
        return pd.np.nan

def extrai_orgao( texto ):
    try:
        regex1 = r"órgão julgador:|órgão julgador:"
        achou = re.search( regex1, texto.lower() )
        inicio = achou.end()

        regex2 = r"data:|relator|redator"
        achou = re.search( regex2, texto[inicio:].lower() )
        fim = achou.start()

        orgao = texto[inicio:inicio+fim].strip()
        return orgao
    except:
        return pd.np.nan
    
def extrai_recorrente(texto):
    try:
        regex1 = r"recorrentes:|recorrente:|agravante:|agravantes:|embargante:|embargantes:"
        achou = re.search( regex1, texto.lower() )
        inicio = achou.end()

        #regex2 = r"recorridos:|recorrido:|agravado:|agravados:|agravada:|agravadas:|recorridas:|recorrida:|representante:|terceiro interessado:|relator:|redator:"
        regex2 = r"recorridos|recorrido|agravado|agravados|agravada|agravadas|recorridas|recorrida|representante|terceiro interessado|relator|redator|embargado|embargados"
        achou = re.search( regex2, texto[inicio:].lower() )
        fim = achou.start()

        recorrente = texto[inicio:inicio+fim].strip()
        return recorrente
    except:
        return pd.np.nan

def extrai_dispositivo(texto):
    try:
        regex1 = r"ACORDAM|ACÓRDÃO|ACORDAO"
        achou = re.search( regex1, texto ) #Sem o .lower() pq ta sempre em maiúsculo
        
        if achou == None: #se nao achar, maiúsculo, tenta minúsculo
            regex1 = r"acordam|acórdão|acordao|fundamentos pelos quais"
            achou = re.search( regex1, texto.lower() )        
        
        inicio = achou.end()

        regex2 = r"fundamentos pelos quais"
        achou = re.search( regex2, texto[inicio:].lower() )
        if achou != None:  #se ja achou o inicio, e achou outra palavra fundamentos, vai ate o final
            return texto[inicio:].strip()
        
        regex2 = r"relatório|fundamentos"
        achou = re.search( regex2, texto[inicio:].lower() )
        if achou != None:
            fim = achou.start()
            return texto[inicio:inicio+fim].strip()
        else:
            return texto[inicio:].strip()
    except:
        return pd.np.nan
    
def quantidade_recorrentes( texto ):
    try:
        s = texto.split(",")
        if len( s ) == 1 and len( texto ) > 30: # tem nome q nao tem ",", daí se for maior q 30 considero q sao 2 nomes
            return 999
        else:
            return int( len( s ) )
    except:
        return pd.np.nan

## Extração das informações

In [109]:
%%time
df_tudo=df
#df_tudo.reset_index()
df_tudo["DATA"] = df_tudo["INTEIRO_TEOR"].map( extrai_data )
df_tudo["RELATOR"] = df_tudo["INTEIRO_TEOR"].map( extrai_relator )
df_tudo["ORGAO"] = df_tudo["INTEIRO_TEOR"].map( extrai_orgao )
df_tudo["RECORRENTE"] = df_tudo["INTEIRO_TEOR"].map( extrai_recorrente )
df_tudo["DISPOSITIVO"] = df_tudo["INTEIRO_TEOR"].map( extrai_dispositivo )
df_tudo["QTD_RECORRENTES"] = df_tudo["RECORRENTE"].map( quantidade_recorrentes )

Wall time: 5.46 s


In [110]:
df_tudo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6112 entries, 0 to 6111
Data columns (total 8 columns):
LINK               6112 non-null object
INTEIRO_TEOR       6112 non-null object
DATA               6112 non-null object
RELATOR            6112 non-null object
ORGAO              6112 non-null object
RECORRENTE         5925 non-null object
DISPOSITIVO        6112 non-null object
QTD_RECORRENTES    5925 non-null float64
dtypes: float64(1), object(7)
memory usage: 382.1+ KB


## Limpeza dos dados

In [111]:
#sem html e sem NAs
#apenas 1 recorrente
df_tudo = df_tudo.dropna()
df_tudo["QTD_RECORRENTES"].unique()

array([  2.,   1., 999.,  10.,   4.,   7.,   3.,   5.,   6.,  24.,   8.,
        11.,   9.])

In [112]:
df_tudo["QTD_RECORRENTES"].value_counts() 

1.0      2509
2.0      2098
999.0     954
3.0       228
4.0        85
5.0        26
6.0        15
7.0         3
11.0        2
8.0         2
9.0         1
24.0        1
10.0        1
Name: QTD_RECORRENTES, dtype: int64

In [113]:
df_tudo.loc[ df_tudo["QTD_RECORRENTES"] == 1, : ].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2509 entries, 3 to 6091
Data columns (total 8 columns):
LINK               2509 non-null object
INTEIRO_TEOR       2509 non-null object
DATA               2509 non-null object
RELATOR            2509 non-null object
ORGAO              2509 non-null object
RECORRENTE         2509 non-null object
DISPOSITIVO        2509 non-null object
QTD_RECORRENTES    2509 non-null float64
dtypes: float64(1), object(7)
memory usage: 176.4+ KB


In [114]:
df_filtrada = df_tudo.loc[ df_tudo["QTD_RECORRENTES"] == 1, : ]
df_filtrada.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2509 entries, 3 to 6091
Data columns (total 8 columns):
LINK               2509 non-null object
INTEIRO_TEOR       2509 non-null object
DATA               2509 non-null object
RELATOR            2509 non-null object
ORGAO              2509 non-null object
RECORRENTE         2509 non-null object
DISPOSITIVO        2509 non-null object
QTD_RECORRENTES    2509 non-null float64
dtypes: float64(1), object(7)
memory usage: 176.4+ KB


## Salvamento dos dados

In [115]:
pasta = ".\\Datasets_transformados\\"
arquivo = arquivo[:-4]+"_transf.csv"
df_filtrada.to_csv( pasta+arquivo, encoding='utf-8', index=False )