In [1]:
import pandas as pd

# Caminho do arquivo CSV
caminho_arquivo = '../data/js.csv'

# Lendo o arquivo CSV e armazenando os dados em um DataFrame
dataframe = pd.read_csv(caminho_arquivo)

# Imprimir o número de linhas e colunas
num_linhas, num_colunas = dataframe.shape
print("Número de linhas:", num_linhas)
print("Número de colunas:", num_colunas)

# Exibindo os primeiros registros do DataFrame
print(dataframe.head())

Número de linhas: 16045
Número de colunas: 11
      ID                                               TEXT  \
0  13568  É ilegal a contagem de tempo ficto de serviço ...   
1  11614  SÚMULA TCU 283: Para fim de habilitação, a Adm...   
2  21087  A contratação de serviços por preços superiore...   
3  35016  Não se aplica, excepcionalmente, multa aos ges...   
4  29370  Em contratatações de TI, não cabe aceitar prop...   

                                      REFERENCE_LIST PARADIGMATIC  \
0  Lei Complementar 51/1985 || Lei Ordinária 3313...          NaN   
1                                                NaN       SUMULA   
2                                                NaN          NaN   
3                                                NaN          NaN   
4                                                NaN          NaN   

          AREA_NAME  AREA_ID_DESCRIPTOR NORMATIVE_PROCESS_TYPE  \
0           Pessoal                1131          APOSENTADORIA   
1         Licitação         

In [2]:
# Convertendo a coluna de datas para o formato datetime
dataframe['NORMATIVE_DATE'] = pd.to_datetime(dataframe['NORMATIVE_DATE'])

# Encontrando o índice do registro com a data mais nova
indice_mais_novo = dataframe['NORMATIVE_DATE'].idxmax()

# Obtendo o registro com a data mais nova
registro_mais_novo = dataframe.loc[indice_mais_novo]

print("Registro com a data mais nova:")
print(registro_mais_novo)

Registro com a data mais nova:
ID                                                                     151592
TEXT                        É irregular, em licitações de obras e serviços...
REFERENCE_LIST              Decreto 7.983/2013, art. 3º || Decreto 7.983/2...
PARADIGMATIC                                                              NaN
AREA_NAME                                                           Licitação
AREA_ID_DESCRIPTOR                                                        932
NORMATIVE_PROCESS_TYPE                                 RELATÓRIO DE AUDITORIA
NORMATIVE_IDENTIFICATION                         Acórdão 1003/2023 - Plenário
NORMATIVE_DATE                                            2023-05-24 00:00:00
NORMATIVE_AUTHOR_TYPE                                                 RELATOR
NORMATIVE_AUTHOR_NAME                                       ANTONIO ANASTASIA
Name: 503, dtype: object


In [None]:
# A query do Solr deve ser: DATASESSAO:[* TO 20230524]
# Para exportar os dados com data de corte: http://inx-solr-1-vip/solr/jurisprudencia-selecionada/select?q=DATASESSAO:[*%20TO%2020230524]&sort=DATASESSAO%20desc&wt=csv&fl=*&rows=17000

In [3]:
# Caminho do arquivo CSV da sub-base
caminho_arquivo = '../data/js-subbase.csv'

# Lendo o arquivo CSV e armazenando os dados em um DataFrame
dataframe = pd.read_csv(caminho_arquivo)

# Imprimir o número de linhas e colunas
num_linhas, num_colunas = dataframe.shape
print("Número de linhas:", num_linhas)
print("Número de colunas:", num_colunas)

# Exibindo os primeiros registros do DataFrame
print(dataframe.head())

Número de linhas: 16045
Número de colunas: 59
                                            SUGESTAO DATASESSAOFORMATADA  \
0  É irregular\, em licitações de obras e serviço...          24/05/2023   
1  É irregular a contratação de serviços por post...          24/05/2023   
2  As parcelas complementares instituídas pelo ar...          23/05/2023   
3  A reforma de militar por incapacidade com prov...          23/05/2023   
4  É irregular a incidência dos reajustes autoriz...          23/05/2023   

                             INDEXADORESCONSOLIDADOS  ENUNCIADOSRELACIONADOS  \
0  AREA: Licitação ; TEMA: Obras e serviços de en...                     NaN   
1  AREA: Licitação ; TEMA: Terceirização ; SUBTEM...                     NaN   
2  AREA: Pessoal ; TEMA: Remuneração ; SUBTEMA: I...                     NaN   
3  AREA: Pessoal ; TEMA: Reforma (Pessoal) ; SUBT...                     NaN   
4  AREA: Pessoal ; TEMA: Quintos ; SUBTEMA: Requi...                     NaN   

             COP

In [10]:
import csv

# Caminho do arquivo CSV de entrada e saída
caminho_arquivo_csv_entrada = '../data/js-subbase.csv'
caminho_arquivo_csv_saida = '../data/js-subbase-sem-colunas.csv'

# Colunas a serem removidas
colunas_removidas = ['_version_', 'ENUNCIADOPQ', 'SUBTEMAPQ', 'TEMAPQ', 'AREAPQ', 'ASSUNTOPQ', 'INDEXACAOPQ', 
                     'REFERENCIALEGALPQ', 'DATASESSAOPQ', 'AUTORTESEPQ', 'COLEGIADOPQ', 'NUMACORDAOPQ', 
                     'ANOACORDAOPQ', 'NUMACORDAOFORMATADOPQ', 'NUMSUMULAPQ', 'PARADIGMATICOPQ', 'COPIAAUTORTESE', 
                     'QUALIDADEFUNDAMENTACAOPQ', 'INDEXADORESCONSOLIDADOSPQ', 'SPELL', 'SUGESTAO', 'id',
                     'SUGESTAOTITULO', 'TEXTO', 'COPIAASSUNTO', 'DTRELEVANCIA', 'COPIASUBTEMA', 'COPIATEMA', 'COPIAAREA']

# Abrir o arquivo CSV de entrada e criar um arquivo CSV de saída
with open(caminho_arquivo_csv_entrada, 'r', newline='', encoding='utf-8') as arquivo_entrada, \
        open(caminho_arquivo_csv_saida, 'w', newline='', encoding='utf-8') as arquivo_saida:
    leitor_csv = csv.DictReader(arquivo_entrada)
    
    # Obter os nomes das colunas do arquivo de entrada e remover as colunas especificadas
    nomes_colunas_saida = [campo for campo in leitor_csv.fieldnames if campo not in colunas_removidas]
    
    # Escrever os dados no arquivo CSV de saída
    escritor_csv = csv.DictWriter(arquivo_saida, fieldnames=nomes_colunas_saida)
    escritor_csv.writeheader()
    
    # Iterar sobre as linhas do arquivo CSV de entrada e escrever no arquivo CSV de saída
    for linha in leitor_csv:
        linha_sem_colunas = {campo: linha[campo] for campo in nomes_colunas_saida}
        escritor_csv.writerow(linha_sem_colunas)

print("Remoção de colunas concluída.")


Remoção de colunas concluída.


In [11]:
# Caminho do arquivo CSV da sub-base
caminho_arquivo = '../data/js-subbase-sem-colunas.csv'

# Lendo o arquivo CSV e armazenando os dados em um DataFrame
dataframe = pd.read_csv(caminho_arquivo)

# Imprimir o número de linhas e colunas
num_linhas, num_colunas = dataframe.shape
print("Número de linhas:", num_linhas)
print("Número de colunas:", num_colunas)

# Exibindo os primeiros registros do DataFrame
print(dataframe.head())

Número de linhas: 16045
Número de colunas: 33
  DATASESSAOFORMATADA                            INDEXADORESCONSOLIDADOS  \
0          24/05/2023  AREA: Licitação ; TEMA: Obras e serviços de en...   
1          24/05/2023  AREA: Licitação ; TEMA: Terceirização ; SUBTEM...   
2          23/05/2023  AREA: Pessoal ; TEMA: Remuneração ; SUBTEMA: I...   
3          23/05/2023  AREA: Pessoal ; TEMA: Reforma (Pessoal) ; SUBT...   
4          23/05/2023  AREA: Pessoal ; TEMA: Quintos ; SUBTEMA: Requi...   

   ENUNCIADOSRELACIONADOS  ANOACORDAO       AREA                        TIPO  \
0                     NaN      2023.0  Licitação  JURISPRUDENCIA-SELECIONADA   
1                     NaN      2023.0  Licitação  JURISPRUDENCIA-SELECIONADA   
2                     NaN      2023.0    Pessoal  JURISPRUDENCIA-SELECIONADA   
3                     NaN      2023.0    Pessoal  JURISPRUDENCIA-SELECIONADA   
4                     NaN      2023.0    Pessoal  JURISPRUDENCIA-SELECIONADA   

                

In [None]:
#Instalar o pysolr
!pip install pysolr

In [12]:
import pysolr
import csv

# Informações de autenticação
usuario = '{usuário}'
senha = '{senha}'

# Conectar ao servidor Solr
solr = pysolr.Solr('http://{0}:{1}@{host}/solr/js-subbase'.format(usuario, senha), always_commit=True)

# Caminho do arquivo CSV
caminho_arquivo_csv = '../data/js-subbase-sem-colunas.csv'

# Abrir o arquivo CSV
with open(caminho_arquivo_csv, 'r', newline='', encoding='utf-8') as arquivo_csv:
    
    # Iterar sobre as linhas do CSV e indexar no Solr
    for linha in csv.DictReader(arquivo_csv):
        # Adicionar o documento ao Solr
        solr.add([linha])

print("Indexação concluída.")

Indexação concluída.


In [None]:
print(linha)