In [1]:
import pandas as pd
import re
import clean_wpcontent as cwp

In [2]:
initial_wp_frame = pd.read_csv('webpage_content.csv')
initial_wp_frame

Unnamed: 0,id_result,period,test_type,details,link
0,0,ADMISIÓN 2019-I,CEPUNT,Resultados Cepunt Trujillo,http://admisionunt.info/docs/padrones/20191/20...
1,1,ADMISIÓN 2019-I,CEPUNT,Resultados Cepunt Valle Jequetepeque,http://admisionunt.info/docs/padrones/20191/20...
2,2,ADMISIÓN 2019-I,CEPUNT,Resultados Cepunt Huamachuco,http://admisionunt.info/docs/padrones/20191/20...
3,3,ADMISIÓN 2019-I,ORDINARIO,Resultados Ordinario Área A Trujillo,http://admisionunt.info/docs/padrones/20191/20...
4,4,ADMISIÓN 2019-I,ORDINARIO,Resultados Ordinario Área B Trujillo,http://admisionunt.info/docs/padrones/20191/20...
...,...,...,...,...,...
213,213,ADMISION 2025-I,CEPUNT,I Sumativo CEPUNT: Valle Jequetepeque,https://unitru.edu.pe/webfiles///Convocatoria/...
214,214,ADMISION 2025-I,CEPUNT,I Sumativo CEPUNT: Huamachuco,https://unitru.edu.pe/webfiles///Convocatoria/...
215,215,ADMISION 2025-I,CEPUNT,II Sumativo CEPUNT: Trujillo,https://unitru.edu.pe/webfiles///Convocatoria/...
216,216,ADMISION 2025-I,CEPUNT,II Sumativo CEPUNT: Valle Jequetepeque,https://unitru.edu.pe/webfiles///Convocatoria/...


# CLEAN PERIOD COLUMN

In [3]:
initial_wp_frame["period"].value_counts()

period
ADMISION 2022-II    25
ADMISION 2023-II    25
ADMISIÓN 2021-II    24
ADMISION 2024-II    20
ADMISIÓN 2021-I     18
ADMISIÓN 2019-II    17
ADMISIÓN 2020-II    17
ADMISION 2022-I     17
ADMISION 2023-I     17
ADMISION 2024-I     14
ADMISIÓN 2019-I      9
ADMISIÓN 2020-I      9
ADMISION 2025-I      6
Name: count, dtype: int64

In [4]:
periods = cwp.create_period_columns(initial_wp_frame['period'])
periods

Unnamed: 0,year_period,period
0,2019,i
1,2019,i
2,2019,i
3,2019,i
4,2019,i
...,...,...
213,2025,i
214,2025,i
215,2025,i
216,2025,i


# CLEAN TEST_NAME COLUMN

In [5]:
initial_wp_frame['test_type'].value_counts()

test_type
ORDINARIO         85
CEPUNT            84
EXTRAORDINARIO    49
Name: count, dtype: int64

In [6]:
test_type = cwp.create_test_column(initial_wp_frame['test_type'])

test_type

0         cepunt
1         cepunt
2         cepunt
3      ordinario
4      ordinario
         ...    
213       cepunt
214       cepunt
215       cepunt
216       cepunt
217       cepunt
Name: test_type, Length: 218, dtype: object

# CLEAN DETAILS COLUMN

In [7]:
initial_wp_frame['details'].value_counts()

details
Resultados Ordinario Área A Trujillo                   11
Resultados Ordinario Área B Trujillo                   10
Resultados Excelencia Trujillo                         10
Resultados Ordinario 5to Secundaria Área A Trujillo     6
Resultados Personas con Discapacidad Trujillo           6
                                                       ..
Resultados Ordinario Área C y D Valle Jequetepeque      1
Resultados Ordinario Área A Y D Huamachuco              1
Resultados I Sumativo CEPUNT: Trujillo                  1
Resultados II Sumativo CEPUNT: Trujillo                 1
Áreas B y C: Santiago de Chuco                          1
Name: count, Length: 84, dtype: int64

In [8]:
details = cwp.create_details_column(initial_wp_frame['details'])

details

0                 resultados cepunt trujillo
1       resultados cepunt valle jequetepeque
2               resultados cepunt huamachuco
3       resultados ordinario area a trujillo
4       resultados ordinario area b trujillo
                       ...                  
213     i sumativo cepunt valle jequetepeque
214             i sumativo cepunt huamachuco
215              ii sumativo cepunt trujillo
216    ii sumativo cepunt valle jequetepeque
217            ii sumativo cepunt huamachuco
Name: details, Length: 218, dtype: object

In [9]:
details = cwp.remove_i_sumativos(details)

details

0                 resultados cepunt trujillo
1       resultados cepunt valle jequetepeque
2               resultados cepunt huamachuco
3       resultados ordinario area a trujillo
4       resultados ordinario area b trujillo
                       ...                  
210           areas b y c valle jequetepeque
211            areas b y c santiago de chuco
215              ii sumativo cepunt trujillo
216    ii sumativo cepunt valle jequetepeque
217            ii sumativo cepunt huamachuco
Name: details, Length: 209, dtype: object

In [10]:
mod = cwp.create_mod_column(details.copy())

mod

0      NaN
1      NaN
2      NaN
3      NaN
4      NaN
      ... 
210    NaN
211    NaN
215    NaN
216    NaN
217    NaN
Name: mod, Length: 209, dtype: object

In [11]:
mod.value_counts()

mod
excelencia                             23
5to secundaria                         17
personas con discapacidad              11
victimas de la violencia                6
deportistas calificados                 4
victimas de la violencia excelencia     1
Name: count, dtype: int64

In [12]:
place = cwp.create_place_column(details.copy())

place

0                trujillo
1      valle jequetepeque
2              huamachuco
3                trujillo
4                trujillo
              ...        
210    valle jequetepeque
211     santiago de chuco
215              trujillo
216    valle jequetepeque
217            huamachuco
Name: place, Length: 209, dtype: object

In [13]:
t_wp_frame = cwp.join_columns(initial_wp_frame, periods, test_type, details, mod, place)

t_wp_frame

Unnamed: 0,test_type,year_period,period,mod,place,link
0,cepunt,2019,i,,trujillo,http://admisionunt.info/docs/padrones/20191/20...
1,cepunt,2019,i,,valle jequetepeque,http://admisionunt.info/docs/padrones/20191/20...
2,cepunt,2019,i,,huamachuco,http://admisionunt.info/docs/padrones/20191/20...
3,ordinario,2019,i,,trujillo,http://admisionunt.info/docs/padrones/20191/20...
4,ordinario,2019,i,,trujillo,http://admisionunt.info/docs/padrones/20191/20...
...,...,...,...,...,...,...
204,ordinario,2024,ii,,valle jequetepeque,https://unitru.edu.pe/webfiles///Convocatoria/...
205,ordinario,2024,ii,,santiago de chuco,https://unitru.edu.pe/webfiles///Convocatoria/...
206,cepunt,2025,i,,trujillo,https://unitru.edu.pe/webfiles///Convocatoria/...
207,cepunt,2025,i,,valle jequetepeque,https://unitru.edu.pe/webfiles///Convocatoria/...
