Implementação prática do funcionamento com pandas da resolução e normalização da estruturas de tabela arbitrárias

In [1]:
import pandas as pd
import numpy as np
import re

In [2]:
import sys
sys.path.insert(0, '../scrapping')

from table_organizer import TableOrganizer 
to = TableOrganizer()

In [3]:
path_to_root = '..\\'

In [4]:
dir = path_to_root + 'scrapping\csv_teste\\'
path_file = {
    'path':[(dir+'0\\')],
    'file':[['0.csv', '1.csv']]
    }

In [5]:
# estruturando referencias de acesso ao contexto dos arquivos

# definindo contexto de referencia única (read_file): 
#   *arquivo 0 do diretório de arquivo, 0; para finalidade de testes).
index_dir = 0
index_file = 0

read_file = path_file['path'][index_dir] + path_file['file'][index_dir][index_file]
print(read_file)

..\scrapping\csv_teste\0\0.csv


In [6]:
table01 = pd.read_csv(read_file, index_col=0)
table01.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 8 entries, 0 to 7
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   FASES       2 non-null      object
 1   ATIVIDADES  6 non-null      object
 2   Data        4 non-null      object
dtypes: object(3)
memory usage: 256.0+ bytes


In [7]:
# estruturando referencias de acesso ao contexto dos arquivos

# definindo contexto de referencia única (read_file): 
#   *arquivo 0 do diretório de arquivo, 0; para finalidade de testes).
index_dir = 0
index_file = 1

read_file = path_file['path'][index_dir] + path_file['file'][index_dir][index_file]
print(read_file)

..\scrapping\csv_teste\0\1.csv


In [8]:
table02 = pd.read_csv(read_file, index_col=0)
table02.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 43 entries, 0 to 42
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   FASES       3 non-null      object
 1   ATIVIDADES  36 non-null     object
 2   Data        15 non-null     object
dtypes: object(3)
memory usage: 1.3+ KB


In [9]:
table01.head()

Unnamed: 0,FASES,ATIVIDADES,Data
0,Fase 1 - de Submissão da,Lançamento da Chamada na,
1,,,19/04/2022
2,Proposta,Página da FAPEG e da FGB,
3,,Prazo para impugnação da,
4,,,Até 29/04/2022


In [10]:
table01.head()

Unnamed: 0,FASES,ATIVIDADES,Data
0,Fase 1 - de Submissão da,Lançamento da Chamada na,
1,,,19/04/2022
2,Proposta,Página da FAPEG e da FGB,
3,,Prazo para impugnação da,
4,,,Até 29/04/2022


In [11]:
table02.head()

Unnamed: 0,FASES,ATIVIDADES,Data
0,,Avaliação de mérito para,
1,,Fase de Detalhamento e,Até 28/06/2022
2,,Mentoria,
3,,Divulgação do resultado,
4,,preliminar dos Selecionados,


## União entre duas tabelas do mesmo contexto
Requisito(s):
* cabeçalho das colunas normalizado;
* correspondencia entre os cabeçalhos das colunas - nas diferentes tabelas.

In [12]:
table = pd.DataFrame(np.concatenate((table01, table02), axis=0), columns=[table01.columns])

In [13]:
to.concatenate(table01=table01, table02=table02)

Unnamed: 0,FASES,ATIVIDADES,Data
0,Fase 1 - de Submissão da,Lançamento da Chamada na,
1,,,19/04/2022
2,Proposta,Página da FAPEG e da FGB,
3,,Prazo para impugnação da,
4,,,Até 29/04/2022
5,,Chamada,
6,,Submissão de Propostas e,"19/04/2022 até 02/06/2022,"
7,,envio de documentos,18h
8,,Avaliação de mérito para,
9,,Fase de Detalhamento e,Até 28/06/2022


In [14]:
print(f'{table01.index.size} + {table02.index.size} = {(table01.index.size+table02.index.size)}? ({table.index.size})')

8 + 43 = 51? (51)


In [15]:
table.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51 entries, 0 to 50
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   (FASES,)       5 non-null      object
 1   (ATIVIDADES,)  42 non-null     object
 2   (Data,)        19 non-null     object
dtypes: object(3)
memory usage: 1.3+ KB


In [16]:
table.head()

Unnamed: 0,FASES,ATIVIDADES,Data
0,Fase 1 - de Submissão da,Lançamento da Chamada na,
1,,,19/04/2022
2,Proposta,Página da FAPEG e da FGB,
3,,Prazo para impugnação da,
4,,,Até 29/04/2022


## Estruturar um modelo para a referencia da memoria de dados iterando recursivamente a tabela
> objetivo, definir o que é linha no formato arbitrário da tabela -> regularizar/normalizar a arbitrariedade

### caso(s) 5 e 4
linha - representação arbitrária em várias linhas - do tipo [['atividade'],['data']]:
[
    ...
    [[1],[0]],
    [[x],[1]],
    [[1],[0]],
    ...
], x = 1, 0

suponhamos um número "par" ou "impar" de partes de 'atividade' (n) e um número "impar" de partes de 'data', menor que n:

    ** se uma informação aparece nesse formato apos outra do mesmo formato, existe uma condição que distingue a representaçao original de uma linha entre partes de 'atividade' e partes de 'data': **
    ** as partes de 'data' sempre estarão centralizadas entre as partes de 'atividade'; **
    ** se n de 'atividade' for par, as partes de data correspondem a uma parte vazia das partes de 'atividade' (também centralizada ao contexto das partes). **



> caso experimental:
* Ignorar coluna de 'fase';
* Aplicar colunas de 'atividade' e 'data'.

In [17]:
def calc_ignition_iteraction(row: pd.Series) -> int:
    # calcular numero de iterações correspondentes da linha - referencia de iteração
    
    if row[1] is np.NAN:
        return 1
    else:
        return 0

In [18]:
def calc_ignition_forming_row(row: pd.Series) -> int:    
    return row[1] is np.NAN

In [19]:
def calc_ignition_func(row: pd.Series) -> str:
    if row[1] is np.NAN:
        return 'sum' 
    else:
        return  'sub'

In [20]:
def regex(pattern: str, entry: str) -> list():
    return re.findall(pattern, entry) 

In [21]:
# percorrer linhas - recursão sobre cada linha da tabela arbitrária
# normalizar contexto real das linhas
# table não pode ser um dataframe vazio
def normalize_table_rows(table : pd.DataFrame(), iteration: int) -> dict():
    # obtenção dos dados no contexto da iteração atual
    row = table.iloc[iteration]
    
    print(type(row))
    print(row)
    
    # quebra profundidade da recursão (último elemento de iteração)
    if iteration >= (table.index.size - 1): 
        # avaliar linha para calcular a iteração antecedente
        return {'ref_iteration': calc_ignition_iteraction(row),
                'forming_row': calc_ignition_forming_row(row),
                'func': calc_ignition_func(row),
                #'rows': [row]
                'form_row':[[iteration]]
                }
    
    # busca profunda
    #iteration += 1
    norm_row = normalize_table_rows(table, iteration+1)
    
    # ref_iteraction = norm_row['ref_iteraction']
    
    # normalização - contexto formador de linha
    if not norm_row['forming_row']:
        # before next, need to validade context to new row (func turn and ):
        if row[0] is np.NAN and row[1] is not np.NAN:
            norm_row['form_row'][-1].append(iteration)
            norm_row['forming_row'] = True
            norm_row['ref_iteration'] += 1
            norm_row['func'] = 'sub'
        else:
            norm_row['form_row'].append([iteration]) # bindin rows to a normal context row
            
            norm_row['ref_iteration'] = calc_ignition_iteraction(row)
            norm_row['func'] = calc_ignition_func(row)
            
            if norm_row['func'] == 'sum':
                norm_row['forming_row'] = True 
            else:
                match = regex(pattern='((0?[1-9]|[12][0-9]|3[01])\/(0?[1-9]|1[012])\/(\d{2}?\d{2}))', entry=row[-1])
                
                if len(match) <= 0:
                    # has no data? it's not a row, try merge other arbitrary row
                    norm_row['forming_row'] = True 
            # else : norm_row['forming_row'] = False 
        
        return norm_row;
    
    else: # norm_row['forming_row'] == True
        norm_row['form_row'][-1].append(iteration)
        
        # cria dependencia em referencia de iteração
        if row[1] is np.NAN:
            if norm_row['func'] == 'sum':
                norm_row['ref_iteration'] += 1
            else: # norm_row['func'] == 'sub'
                if norm_row['ref_iteration'] > 0:
                    norm_row['ref_iteration'] -= 1
                
                if norm_row['ref_iteration'] == 0:
                    norm_row['forming_row'] = False
        else:
            norm_row['func'] = 'sub'
            
            if norm_row['ref_iteration'] == 0:
                    norm_row['forming_row'] = False
            
        return norm_row

In [22]:
model_rows = normalize_table_rows(table.loc[:, table.columns[1:]], 0)

<class 'pandas.core.series.Series'>
ATIVIDADES    Lançamento da Chamada na
Data                               NaN
Name: 0, dtype: object
<class 'pandas.core.series.Series'>
ATIVIDADES           NaN
Data          19/04/2022
Name: 1, dtype: object
<class 'pandas.core.series.Series'>
ATIVIDADES    Página da FAPEG e da FGB
Data                               NaN
Name: 2, dtype: object
<class 'pandas.core.series.Series'>
ATIVIDADES    Prazo para impugnação da
Data                               NaN
Name: 3, dtype: object
<class 'pandas.core.series.Series'>
ATIVIDADES               NaN
Data          Até 29/04/2022
Name: 4, dtype: object
<class 'pandas.core.series.Series'>
ATIVIDADES    Chamada
Data              NaN
Name: 5, dtype: object
<class 'pandas.core.series.Series'>
ATIVIDADES      Submissão de Propostas e
Data          19/04/2022 até 02/06/2022,
Name: 6, dtype: object
<class 'pandas.core.series.Series'>
ATIVIDADES    envio de documentos
Data                          18h
Name: 7, dtype:

In [23]:
#to.

In [24]:
#table.columns[1:]

In [25]:
#table.loc[:, table.columns[1:]]

In [26]:
print(len(model_rows))
print(type(model_rows))

4
<class 'dict'>


In [27]:
#vtest = ['value', np.NAN]

#stest = pd.Series = [vtest[0], vtest[1]]

In [28]:
#calc_ignition_func(stest) == 'sub' 

In [29]:
model_rows['form_row']

[[50, 49, 48],
 [47, 46, 45],
 [44, 43, 42],
 [41, 40, 39],
 [38, 37, 36],
 [35, 34, 33],
 [32, 31, 30, 29, 28, 27, 26, 25, 24],
 [23, 22, 21],
 [20, 19, 18, 17, 16],
 [15, 14, 13, 12, 11],
 [10, 9, 8],
 [7, 6],
 [5, 4, 3],
 [2, 1, 0]]

## Regex Validation :  trying it...

In [30]:
entry = "12/12/2020"
pattern = '((0?[1-9]|[12][0-9]|3[01])\/(0?[1-9]|1[012])\/(\d{2}?\d{2}))' 
match = re.findall(pattern, entry)
print(match)

[('12/12/2020', '12', '12', '2020')]


In [31]:
if len(match):
    print(match[0][0])

12/12/2020


## Merge normal rows

In [32]:
columns = table.columns[1:]
rows = list()


size = len(model_rows['form_row'])
for i in model_rows['form_row'][::-1]:
    #normal_table.loc[i, columns] = model_rows['form_row']
    
    atividade = ''
    data = ''
    for e in i[::-1]:
        print(e)
        context = [table.loc[e, columns]]
        
        print(context)
        for t1, t2 in context:
            if t1 is not np.NAN:
                atividade += t1 + ' '
            if t2 is not np.NAN:
                data += t2 + ' '
        
    print(atividade)
    print(data)
    rows.append([atividade, data])
    
print(rows)    
normal_table = pd.DataFrame(data=rows ,columns=['atividade', 'data']) 

0
[ATIVIDADES    Lançamento da Chamada na
Data                               NaN
Name: 0, dtype: object]
1
[ATIVIDADES           NaN
Data          19/04/2022
Name: 1, dtype: object]
2
[ATIVIDADES    Página da FAPEG e da FGB
Data                               NaN
Name: 2, dtype: object]
Lançamento da Chamada na Página da FAPEG e da FGB 
19/04/2022 
3
[ATIVIDADES    Prazo para impugnação da
Data                               NaN
Name: 3, dtype: object]
4
[ATIVIDADES               NaN
Data          Até 29/04/2022
Name: 4, dtype: object]
5
[ATIVIDADES    Chamada
Data              NaN
Name: 5, dtype: object]
Prazo para impugnação da Chamada 
Até 29/04/2022 
6
[ATIVIDADES      Submissão de Propostas e
Data          19/04/2022 até 02/06/2022,
Name: 6, dtype: object]
7
[ATIVIDADES    envio de documentos
Data                          18h
Name: 7, dtype: object]
Submissão de Propostas e envio de documentos 
19/04/2022 até 02/06/2022, 18h 
8
[ATIVIDADES    Avaliação de mérito para
Data           

In [33]:
normal_table.head()

Unnamed: 0,atividade,data
0,Lançamento da Chamada na Página da FAPEG e da ...,19/04/2022
1,Prazo para impugnação da Chamada,Até 29/04/2022
2,Submissão de Propostas e envio de documentos,"19/04/2022 até 02/06/2022, 18h"
3,Avaliação de mérito para Fase de Detalhamento ...,Até 28/06/2022
4,Divulgação do resultado preliminar dos Selecio...,30/06/2022


In [34]:
normal_table.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   atividade  14 non-null     object
 1   data       14 non-null     object
dtypes: object(2)
memory usage: 352.0+ bytes


In [35]:
#print(len(model_rows['form_row']))
#print(table.index.size)

In [36]:
normal_table.to_excel('0_normal.xlsx', index=0)

# Segunda forma de normalização
* linhas e colunas vazias devem ser eliminadas
*   colunas fora do escopo devem ser definidas 

In [37]:
table03 = pd.read_csv(path_to_root + 'scrapping\\csv_teste\\1\\1.csv', index_col=0)

table03.head()
    

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5
0,,ATIVIDADE,,,DATA,
1,,,,,,
2,,Lançamento do Edital,,,24/02/2022,
3,,,,,,
4,,Limite para impugnação do Edital,,,11/03/2022,


In [38]:
table03 = table03.dropna(axis='columns', how='all')
table03

Unnamed: 0,Unnamed: 1,Unnamed: 4
0,ATIVIDADE,DATA
1,,
2,Lançamento do Edital,24/02/2022
3,,
4,Limite para impugnação do Edital,11/03/2022
5,,
6,Limite para submissão da documentação pelas PR...,17/04/2022
7,,
8,Previsão para publicação do resultado preliminar,a partir de 25/04/2022
9,,


In [39]:
table03 = table03.dropna(axis='rows', how='all')
table03

Unnamed: 0,Unnamed: 1,Unnamed: 4
0,ATIVIDADE,DATA
2,Lançamento do Edital,24/02/2022
4,Limite para impugnação do Edital,11/03/2022
6,Limite para submissão da documentação pelas PR...,17/04/2022
8,Previsão para publicação do resultado preliminar,a partir de 25/04/2022
10,Limite para interposição de recursos em face a...,09/05/2022
12,Limite para inclusão das propostas selecionada...,09/05/2022
14,Limite para adequação das propostas na platafo...,22/05/2022
16,Limite para substituição de bolsistas,22/05/2022
18,Previsão para publicação do resultado final,a partir de 31/05/2022


In [40]:
#list(table03.loc[0])

In [41]:
table03.columns = table03.loc[0] 
print(list(table03.columns))

['ATIVIDADE', 'DATA']


In [42]:
table03 = table03.drop(index=0)

In [43]:
table03

Unnamed: 0,ATIVIDADE,DATA
2,Lançamento do Edital,24/02/2022
4,Limite para impugnação do Edital,11/03/2022
6,Limite para submissão da documentação pelas PR...,17/04/2022
8,Previsão para publicação do resultado preliminar,a partir de 25/04/2022
10,Limite para interposição de recursos em face a...,09/05/2022
12,Limite para inclusão das propostas selecionada...,09/05/2022
14,Limite para adequação das propostas na platafo...,22/05/2022
16,Limite para substituição de bolsistas,22/05/2022
18,Previsão para publicação do resultado final,a partir de 31/05/2022
20,Limite para inclusão da documentação constante...,22/06/2022


In [44]:
table03 = table03.reset_index(drop=True)
table03

Unnamed: 0,ATIVIDADE,DATA
0,Lançamento do Edital,24/02/2022
1,Limite para impugnação do Edital,11/03/2022
2,Limite para submissão da documentação pelas PR...,17/04/2022
3,Previsão para publicação do resultado preliminar,a partir de 25/04/2022
4,Limite para interposição de recursos em face a...,09/05/2022
5,Limite para inclusão das propostas selecionada...,09/05/2022
6,Limite para adequação das propostas na platafo...,22/05/2022
7,Limite para substituição de bolsistas,22/05/2022
8,Previsão para publicação do resultado final,a partir de 31/05/2022
9,Limite para inclusão da documentação constante...,22/06/2022


In [45]:
table03.head()

Unnamed: 0,ATIVIDADE,DATA
0,Lançamento do Edital,24/02/2022
1,Limite para impugnação do Edital,11/03/2022
2,Limite para submissão da documentação pelas PR...,17/04/2022
3,Previsão para publicação do resultado preliminar,a partir de 25/04/2022
4,Limite para interposição de recursos em face a...,09/05/2022


In [46]:
model_rows = normalize_table_rows(table03, 0)

<class 'pandas.core.series.Series'>
0
ATIVIDADE    Lançamento do Edital
DATA                   24/02/2022
Name: 0, dtype: object
<class 'pandas.core.series.Series'>
0
ATIVIDADE    Limite para impugnação do Edital
DATA                               11/03/2022
Name: 1, dtype: object
<class 'pandas.core.series.Series'>
0
ATIVIDADE    Limite para submissão da documentação pelas PR...
DATA                                                17/04/2022
Name: 2, dtype: object
<class 'pandas.core.series.Series'>
0
ATIVIDADE    Previsão para publicação do resultado preliminar
DATA                                   a partir de 25/04/2022
Name: 3, dtype: object
<class 'pandas.core.series.Series'>
0
ATIVIDADE    Limite para interposição de recursos em face a...
DATA                                                09/05/2022
Name: 4, dtype: object
<class 'pandas.core.series.Series'>
0
ATIVIDADE    Limite para inclusão das propostas selecionada...
DATA                                                09/05/

In [47]:
def model_rows_to_df(table, model_rows, columns):

    rows = list()
    for i in model_rows['form_row'][::-1]:
        #normal_table.loc[i, columns] = model_rows['form_row']
        
        atividade = ''
        data = ''
        for e in i[::-1]:
            print(e)
            context = [table.loc[e, columns]]
            
            print(context)
            for t1, t2 in context:
                if t1 is not np.NAN:
                    atividade += t1 + ' '
                if t2 is not np.NAN:
                    data += t2 + ' '
            
        print(atividade)
        print(data)
        rows.append([atividade, data])
        
    print(rows)    
    return pd.DataFrame(data=rows ,columns=['atividade', 'data']) 

In [55]:
normal_table = model_rows_to_df(table03, model_rows, list(table03.columns))

0
[0
ATIVIDADE    Lançamento do Edital
DATA                   24/02/2022
Name: 0, dtype: object]
Lançamento do Edital 
24/02/2022 
1
[0
ATIVIDADE    Limite para impugnação do Edital
DATA                               11/03/2022
Name: 1, dtype: object]
Limite para impugnação do Edital 
11/03/2022 
2
[0
ATIVIDADE    Limite para submissão da documentação pelas PR...
DATA                                                17/04/2022
Name: 2, dtype: object]
Limite para submissão da documentação pelas PRPGs (item 3.1) 
17/04/2022 
3
[0
ATIVIDADE    Previsão para publicação do resultado preliminar
DATA                                   a partir de 25/04/2022
Name: 3, dtype: object]
Previsão para publicação do resultado preliminar 
a partir de 25/04/2022 
4
[0
ATIVIDADE    Limite para interposição de recursos em face a...
DATA                                                09/05/2022
Name: 4, dtype: object]
Limite para interposição de recursos em face ao resultado preliminar 
09/05/2022 
5
[0
ATIV

In [49]:
normal_table.to_excel('1_normal.xlsx')

# Testar Programa


In [50]:
#ok

In [56]:
normal_table.columns = normal_table.loc[0]
normal_table.columns

Index(['Lançamento do Edital ', '24/02/2022 '], dtype='object', name=0)

# Managing presentation

In [89]:
filtered_data = pd.read_excel('../filtered_data.xlsx')

In [94]:
#msystem = MenuSystem()
mcontents = list()
for iteration in range(0, filtered_data.index.size):
    item = filtered_data.iloc[iteration]
    
    print(iteration)
    try:
        table = pd.read_csv(f'..\\scrapping\\csv_teste\\{iteration}\\normal_table.csv')
        print(table)
    except: pass
    
    

0
    Unnamed: 0                                          atividade  \
0            0  Lançamento da Chamada na Página da FAPEG e da ...   
1            1                  Prazo para impugnação da Chamada    
2            2      Submissão de Propostas e envio de documentos    
3            3  Avaliação de mérito para Fase de Detalhamento ...   
4            4  Divulgação do resultado preliminar dos Selecio...   
5            5  Prazo de interposição de recursos para soluçõe...   
6            6  Divulgação dos Selecionados para a Fase de Det...   
7            7  Mentoria e detalhamento, com submissão eletrôn...   
8            8  Avaliação de mérito – Propostas detalhadas (Co...   
9            9  Divulgação de avaliação de mérito preliminar d...   
10          10  Prazo de interposição de recursos das soluções...   
11          11  Divulgação dos selecionados para receber apoio...   
12          12  Envio de documentação para receber ao apoio fi...   
13          13  Celebração de Te

In [87]:
span = (1, 2)

In [88]:
text = 'angel'
text[span[1]:]

'gel'

In [None]:
for iteration in range(0, filtered_data.index.size):