## DATA EXPLORATION AND TRANSFORMATION

In [3]:
import pandas as pd

# Read the consolidated file
file_path = 'lista_certificados/anion_data/consolidado.xlsx'
df = pd.read_excel(file_path)

# Display the first few rows
display(df.head())
print(f"Dimensions: {df.shape}")

Unnamed: 0,COORDINADORA,CURSO,NOTA,NOTA TXT,PERIODO,HORAS,CIUDAD
0,FELIX,DISEÑO DE PÁGINAS WEB - NIVEL BÁSICO,17.0,DIECISIETE,31 - mayo - 2022 al 11 - junio - 2022,120 horas,LIMA
1,ROSA,DISEÑO DIGITAL CON CANVA - NIVEL BÁSICO,19.0,DIECINUEVE,23 - mayo - 2022 al 03 - junio - 2022,120 horas,ICA
2,LUCIA,DISEÑO DIGITAL CON CANVA - NIVEL INTERMEDIO,15.0,QUINCE,07 - junio - 2022 al 18 - junio - 2022,120 horas,LIMA
3,LUCIA,DISEÑO DIGITAL CON CANVA - NIVEL INTERMEDIO,19.0,DIECINUEVE,07 - junio - 2022 al 18 - junio - 2022,120 horas,LIMA
4,LUCIA,DISEÑO DIGITAL CON CANVA - NIVEL INTERMEDIO,19.0,DIECINUEVE,07 - junio - 2022 al 18 - junio - 2022,120 horas,LIMA


Dimensions: (6896, 7)


### COLUMN COORDINADORA

In [4]:
# Analyze the 'COORDINADORA' column
print("--- Unique Values Analysis: COORDINADORA ---")

# Number of unique values
unique_count = df['COORDINADORA'].nunique()
print(f"Number of unique values: {unique_count}")

# List of unique values
print(f"\nUnique values found: {df['COORDINADORA'].unique()}")

# Frequency of each value (Value Counts)
print("\nFrequency of each coordinator:")
display(df['COORDINADORA'].value_counts())

--- Unique Values Analysis: COORDINADORA ---
Number of unique values: 49

Unique values found: ['FELIX' 'ROSA' 'LUCIA' 'ELIZABETH B' 'MIRIAN' 'ELIZABETH F' 'HENRY'
 'ALEXANDRA' 'LUIGUI' 'ELIZABETH' 'DROSA' 'BRILLIT' 'DELIZABETH'
 'MARGARITA' 'DHENRY' nan 'ANA SOFIA' 'REBECA' 'INGRID' 'ALEXA' 'LUGUI'
 'JOSE' 'Rosa' 'Felix' 'Elizabeth' 'Henry' 'Luigui' 'Alexandra' 'Brillit'
 'Lucia' 'Margarita' 'ING JOSE' 'RICHARD' 'BRILLIT D' 'LUIGUI D' 'PAMELA'
 'Naysha' 'DLUCIA' 'YULISA' 'KAROL' 'KATHERINE' 'ANA' 'NAYSHA' 'JUDITH'
 'ANNYE' 'GABRIELA' 'ELIZABET F' 'ROSA ' 'ELIZABETH ' 'ING. JOSE']

Frequency of each coordinator:


COORDINADORA
HENRY          943
BRILLIT        907
FELIX          850
ROSA           779
ELIZABETH      493
LUCIA          445
LUIGUI         439
ALEXANDRA      271
MARGARITA      260
ALEXA          146
INGRID          97
ANA SOFIA       95
ELIZABETH F     80
Margarita       58
ELIZABETH B     57
YULISA          56
MIRIAN          52
PAMELA          42
Rosa            42
Luigui          34
Elizabeth       28
Alexandra       24
RICHARD         21
Felix           20
Henry           19
Lucia           17
ELIZABET F      16
GABRIELA        13
KATHERINE       11
KAROL            7
ING JOSE         5
NAYSHA           5
REBECA           5
ANNYE            4
ING. JOSE        4
JUDITH           4
JOSE             3
LUGUI            3
ROSA             2
DHENRY           2
ELIZABETH        2
DROSA            1
DELIZABETH       1
BRILLIT D        1
Brillit          1
ANA              1
LUIGUI D         1
Naysha           1
DLUCIA           1
Name: count, dtype: int64

In [11]:
# Standardize the 'COORDINADORA' column

# 1. Convert to uppercase
df['COORDINADORA'] = df['COORDINADORA'].str.upper()

# 2. Strip leading/trailing whitespace
df['COORDINADORA'] = df['COORDINADORA'].str.strip()

# 3. Handle specific replacements (Manual Mapping based on your output)
replacements = {
    'ELIZABET F': 'ELIZABETH F',
    'ELIZABETH B': 'ELIZABETH',
    'DELIZABETH': 'ELIZABETH',
    'DHENRY': 'HENRY',
    'DROSA': 'ROSA',
    'DLUCIA': 'LUCIA',
    'LUGUI': 'LUIGUI',
    'LUIGUI D': 'LUIGUI',
    'BRILLIT D': 'BRILLIT',
    'ING JOSE': 'JOSE',
    'ING. JOSE': 'JOSE',
    'ANNYE': 'ANNY', # Guessing based on common names, or keep if Annye is valid
    # Add more as needed
}

df['COORDINADORA'] = df['COORDINADORA'].replace(replacements)

# Verify the changes
print("--- After Standardization: COORDINADORA ---")
print(f"New number of unique values: {df['COORDINADORA'].nunique()}")
print(f"Unique values: {df['COORDINADORA'].unique()}")
display(df['COORDINADORA'].value_counts())

--- After Standardization: COORDINADORA ---
New number of unique values: 26
Unique values: ['FELIX' 'ROSA' 'LUCIA' 'ELIZABETH' 'MIRIAN' 'ELIZABETH F' 'HENRY'
 'ALEXANDRA' 'LUIGUI' 'BRILLIT' 'MARGARITA' nan 'ANA SOFIA' 'REBECA'
 'INGRID' 'ALEXA' 'JOSE' 'RICHARD' 'PAMELA' 'NAYSHA' 'YULISA' 'KAROL'
 'KATHERINE' 'ANA' 'JUDITH' 'ANNY' 'GABRIELA']


COORDINADORA
HENRY          964
BRILLIT        909
FELIX          870
ROSA           824
ELIZABETH      581
LUIGUI         477
LUCIA          463
MARGARITA      318
ALEXANDRA      295
ALEXA          146
INGRID          97
ELIZABETH F     96
ANA SOFIA       95
YULISA          56
MIRIAN          52
PAMELA          42
RICHARD         21
GABRIELA        13
JOSE            12
KATHERINE       11
KAROL            7
NAYSHA           6
REBECA           5
JUDITH           4
ANNY             4
ANA              1
Name: count, dtype: int64

### COLUMN CURSO

In [14]:
# Analyze the 'CURSO' column
print("--- Unique Values Analysis: CURSO ---")

# Get unique values sorted
unique_courses = sorted(df['CURSO'].dropna().astype(str).unique())

# Print the full list as a Python array
print(unique_courses)

# Also print the count
print(f"\nTotal unique courses: {len(unique_courses)}")

--- Unique Values Analysis: CURSO ---
['ACTUALIZACIÓN DE HERRAMIENTAS TIC PARA EL APRENDIZAJE HÍBRIDO - NIVEL BÁSICO', 'ACTUALIZACIÓN EN HERRAMIENTAS TIC PARA EL APRENDIZAJE HÍBRIDO', 'ACTUALIZACIÓN EN HERRAMIENTAS TIC PARA EL APRENDIZAJE HÍBRIDO - NIVEL BÁSICO', 'ACTUALIZACIÓN EN HERRAMIENTAS TIC PARA EL APRENDIZAJE HÍBRIDO - NIVEL INTERMEDIO', 'APPS EDUCATIVOS PARA DISPOSITIVOS MÓVILES', 'ASISTENTE ADMINISTRATIVO', 'ASISTENTE ADMINISTRATIVO COMPUTARIZADO', 'ASISTENTE ADMINISTRATIVO EN LA GESTIÓN PÚBLICA', 'ASISTENTE CONTABLE - NIVEL BÁSICO', 'ASISTENTE CONTABLE - NIVEL INTERMEDIO', 'ASISTENTE DE PLANILLAS', 'ASISTENTE DE PLANILLAS                ', 'ASISTENTE DE RECURSOS HUMANOS', 'AULAS VIRTUALES CON MOODLE', 'BASE DE DATOS CON ACCESS', 'BASE DE DATOS CON MYSQL - NIVEL BÁSICO', 'BASE DE DATOS CON MySQL - NIVEL BÁSICO', 'BASE DE DATOS CON MySQL - NIVEL BÁSICO ', 'BASE DE DATOS CON SQL SERVER - NIVEL 1', 'BASE DE DATOS CON SQL SERVER - NIVEL BÁSICO', 'CANVA - NIVEL BÁSICO', 'COMPETENC

#### CREALE COLUMN AREA

In [15]:
# Function to classify courses into areas
def classify_course(course):
    course = str(course).upper().strip()
    
    # 1. IDIOMAS
    if any(keyword in course for keyword in ['INGLÉS', 'INGLES', 'QUECHUA', 'PORTUGUÉS', 'ITALIANO']):
        return 'IDIOMAS'
    
    # 2. PROGRAMACIÓN Y DESARROLLO
    # Includes Web Design (technical), Databases, Programming languages
    if any(keyword in course for keyword in ['PYTHON', 'JAVASCRIPT', 'PROGRAMACIÓN', 'SQL', 'MYSQL', 'ACCESS', 'BASE DE DATOS', 'SCRATCH', 'DISEÑO WEB', 'PÁGINAS WEB', 'FUNDAMENTOS DE PROGRAMACIÓN']):
        return 'PROGRAMACIÓN Y DESARROLLO'
    
    # 3. DISEÑO Y MULTIMEDIA
    # Includes Graphic Design, Video Editing, Interactive Content tools like Genially/Canva if explicitly Design
    if any(keyword in course for keyword in ['DISEÑO', 'CANVA', 'PHOTOSHOP', 'CORELDRAW', 'ILLUSTRATOR', 'INDESIGN', 'EDICIÓN', 'VIDEO', 'VÍDEO', 'FILMORA', 'CAMTASIA', 'OBS STUDIO', 'GENIALLY', 'HISTORIETAS', 'CUENTOS INTERACTIVOS']):
        return 'DISEÑO Y MULTIMEDIA'
    
    # 4. SOPORTE Y REDES
    if any(keyword in course for keyword in ['SOPORTE TÉCNICO', 'REDES Y CONECTIVIDAD']):
        return 'SOPORTE Y TI'
        
    # 5. GESTIÓN Y ADMINISTRACIÓN
    if any(keyword in course for keyword in ['ASISTENTE', 'SIAF', 'GESTIÓN', 'CONTABLE', 'PLANILLAS', 'RECURSOS HUMANOS', 'LIBROS ELECTRÓNICOS', 'FINANCIERO', 'ADMINISTRATIVO']):
        return 'GESTIÓN Y ADMINISTRACIÓN'
        
    # 6. EDUCACIÓN Y TIC
    # Pedagogical tools, educational software, Google for Education, etc.
    if any(keyword in course for keyword in ['TIC', 'EDUCACIÓN', 'EDUCATIVO', 'DOCENTES', 'AULAS', 'PEDAGÓGICA', 'GAMIFICACIÓN', 'GOOGLE', 'TEAMS', 'PIZARRAS', 'CLASE', 'COMPETENCIAS DIGITALES', 'FICHAS', 'RECURSOS', 'EVALUACIONES', 'MOODLE', 'APPS', 'MATEMÁTICA', 'APRENDIZAJE', 'ORGANIZADORES', 'HÍBRIDO']):
        return 'EDUCACIÓN Y PEDAGOGÍA'

    # 7. OFIMÁTICA Y PRODUCTIVIDAD
    # Office tools, Writing, Power BI
    if any(keyword in course for keyword in ['OFIMÁTICA', 'EXCEL', 'WORD', 'POWERPOINT', 'PROJECT', 'POWER BI', 'REDACCIÓN', 'ORTOGRAFÍA', 'DIGITACIÓN', 'MACROS']):
        return 'OFIMÁTICA Y PRODUCTIVIDAD'
        
    return 'OTROS'

# Apply the classification
df['AREA'] = df['CURSO'].apply(classify_course)

# Verify the new column
print("--- AREA Classification Results ---")
print(df['AREA'].value_counts())

# Show a sample of Course vs Area to check accuracy
print("\n--- Sample Verification ---")
display(df[['CURSO', 'AREA']].sample(10))

--- AREA Classification Results ---
AREA
EDUCACIÓN Y PEDAGOGÍA        2940
OFIMÁTICA Y PRODUCTIVIDAD    1373
IDIOMAS                      1055
GESTIÓN Y ADMINISTRACIÓN      582
DISEÑO Y MULTIMEDIA           575
PROGRAMACIÓN Y DESARROLLO     260
SOPORTE Y TI                   89
OTROS                          22
Name: count, dtype: int64

--- Sample Verification ---


Unnamed: 0,CURSO,AREA
524,"OFIMÁTICA PROFESIONAL (MICROSOFT WORD, EXCEL Y...",EDUCACIÓN Y PEDAGOGÍA
6172,MICROSOFT POWER BI - NIVEL BÁSICO,OFIMÁTICA Y PRODUCTIVIDAD
621,POWERPOINT - NIVEL INTERMEDIO,OFIMÁTICA Y PRODUCTIVIDAD
1081,INGLÉS - NIVEL INTERMEDIO B2,IDIOMAS
241,HERRAMIENTAS TIC PARA TRABAJOS COLABORATIVOS,EDUCACIÓN Y PEDAGOGÍA
6822,ITALIANO - NIVEL BÁSICO A1,IDIOMAS
6551,REDACCIÓN DE DOCUMENTOS ADMINISTRATIVOS,GESTIÓN Y ADMINISTRACIÓN
5804,"OFIMÁTICA PROFESIONAL (MICROSOFT WORD, EXCEL Y...",EDUCACIÓN Y PEDAGOGÍA
6761,ASISTENTE CONTABLE - NIVEL BÁSICO,GESTIÓN Y ADMINISTRACIÓN
6329,MICROSOFT EXCEL - NIVEL AVANZADO,OFIMÁTICA Y PRODUCTIVIDAD


In [16]:
# Verify if there are any null values in the 'AREA' column
print("--- Null Value Verification: AREA ---")

null_count = df['AREA'].isnull().sum()
print(f"Number of null values: {null_count}")

if null_count > 0:
    print("\nRows with null AREA:")
    display(df[df['AREA'].isnull()])
else:
    print("Success: No null values found in AREA column.")

--- Null Value Verification: AREA ---
Number of null values: 0
Success: No null values found in AREA column.


In [17]:
df.tail()

Unnamed: 0,COORDINADORA,CURSO,NOTA,NOTA TXT,PERIODO,HORAS,CIUDAD,AREA
6891,ELIZABETH,IMPLEMENTACIÓN Y ADMINISTRACIÓN DE AULAS DE IN...,19.0,DIECINUEVE,12 - julio - 2022 al 23 - julio - 2022,120 horas,LIMA,EDUCACIÓN Y PEDAGOGÍA
6892,ELIZABETH,INGLÉS - NIVEL BÁSICO A3,19.0,DIECINUEVE,04 - julio - 2022 al 15 - julio - 2022,120 horas,HUÁNUCO,IDIOMAS
6893,ELIZABETH,INGLÉS - NIVEL BÁSICO A3,19.0,DIECINUEVE,04 - julio - 2022 al 15 - julio - 2022,120 horas,HUÁNUCO,IDIOMAS
6894,FELIX,MICROSOFT WORD - NIVEL BÁSICO,17.0,DIECISIETE,12 - julio - 2022 al 23 - julio - 2022,120 horas,LIMA,OFIMÁTICA Y PRODUCTIVIDAD
6895,ELIZABETH,COMPETENCIAS DIGITALES PARA EL AULA,17.0,DIECISIETE,13 - junio - 2022 al 24 - junio - 2022,120 horas,LA LIBERTAD,EDUCACIÓN Y PEDAGOGÍA


### COLUMN NOTA

In [6]:
# Analyze the 'NOTA' column
print("--- Unique Values Analysis: NOTA ---")

# Number of unique values
unique_count = df['NOTA'].nunique()
print(f"Number of unique values: {unique_count}")

# List of unique values
print(f"\nUnique values found: {df['NOTA'].unique()}")

# Frequency of each value (Value Counts)
print("\nFrequency of each course:")
display(df['NOTA'].value_counts())

--- Unique Values Analysis: NOTA ---
Number of unique values: 60

Unique values found: [17.         19.         15.         18.         14.         16.
 18.5        18.75       17.5        16.5        18.25       19.25
 20.         17.25       16.93333333 17.75       14.5        19.33333333
 18.71428571 15.5        15.25       16.25       18.27037037         nan
 16.75       19.33333333 18.66666667 18.33333333 17.66666667 18.66666667
 16.66666667 17.83333333 16.83333333 15.33333333 16.66666667 18.16666667
 18.33333333 17.66666667 18.83333333 14.66666667 19.5        13.66666667
 19.16666667 14.33333333 17.16666667 17.16666667 13.5        14.83333333
 20.25       14.75       19.3325     13.89       15.6675     14.25
 19.1047619  18.8631746  15.75       17.66666667 17.9        17.89285714
 17.71428571]

Frequency of each course:


NOTA
19.000000    3691
18.000000    1506
17.000000     683
16.000000     246
15.000000     196
18.500000     114
20.000000      94
14.000000      59
17.500000      51
18.333333      27
18.750000      26
16.500000      21
19.333333      16
17.250000      12
17.666667      11
18.250000      10
17.750000       9
16.250000       9
18.666667       9
19.250000       8
14.500000       8
15.500000       7
19.333333       5
16.750000       4
17.833333       4
15.250000       3
16.666667       3
15.333333       3
14.666667       3
17.666667       3
18.166667       2
19.500000       2
19.166667       2
18.833333       2
18.666667       2
16.933333       1
18.270370       1
18.714286       1
16.833333       1
16.666667       1
18.333333       1
13.666667       1
14.333333       1
17.166667       1
17.166667       1
13.500000       1
14.833333       1
20.250000       1
14.750000       1
19.332500       1
13.890000       1
15.667500       1
14.250000       1
19.104762       1
18.863175       1
15.75

In [18]:
# Transform the 'NOTA' column
print("--- Transforming NOTA to Integer with Rounding ---")

# 1. Round the values to the nearest integer
df['NOTA'] = df['NOTA'].round()

# 2. Fill NaN values with 0 (or another placeholder) to allow integer conversion
# Since 'int' type doesn't support NaN, we must handle them.
# Assuming missing grade = 0 for this cleaning step.
df['NOTA'] = df['NOTA'].fillna(0)

# 3. Convert to integer
df['NOTA'] = df['NOTA'].astype(int)

# Verify the changes
print(f"New unique values: {df['NOTA'].unique()}")
print("\nFrequency of each grade:")
display(df['NOTA'].value_counts())

--- Transforming NOTA to Integer with Rounding ---
New unique values: [17 19 15 18 14 16 20  0]

Frequency of each grade:


NOTA
19    3765
18    1743
17     707
16     285
15     207
20      97
14      72
0       20
Name: count, dtype: int64

### COLUMN NOTA TXT

In [7]:
# Analyze the 'NOTA TXT' column
print("--- Unique Values Analysis: NOTA TXT ---")

# Number of unique values
unique_count = df['NOTA TXT'].nunique()
print(f"Number of unique values: {unique_count}")

# List of unique values
print(f"\nUnique values found: {df['NOTA TXT'].unique()}")

# Frequency of each value (Value Counts)
print("\nFrequency of each course:")
display(df['NOTA TXT'].value_counts())

--- Unique Values Analysis: NOTA TXT ---
Number of unique values: 10

Unique values found: ['DIECISIETE' 'DIECINUEVE' 'QUINCE' 'DIECIOCHO' 'CATORCE' 'DIECISÉIS'
 'VEINTE' nan 'DIECISEIS' 'QUINCE ' ' DIECISIETE']

Frequency of each course:


NOTA TXT
DIECINUEVE     3584
DIECIOCHO      1504
DIECISIETE      675
DIECISÉIS       252
QUINCE          210
VEINTE           95
CATORCE          47
DIECISEIS         1
QUINCE            1
 DIECISIETE       1
Name: count, dtype: int64

In [19]:
# Standardize the 'NOTA TXT' column
print("--- Transforming NOTA TXT ---")

# 1. Convert to uppercase
df['NOTA TXT'] = df['NOTA TXT'].str.upper()

# 2. Strip leading/trailing whitespace
df['NOTA TXT'] = df['NOTA TXT'].str.strip()

# 3. Standardize spelling (Remove accents, fix typos)
replacements_nota = {
    'DIECISÉIS': 'DIECISEIS',
    'DIECISEIS': 'DIECISEIS', # Ensure uniformity
    # Add any other specific corrections if found later
}

df['NOTA TXT'] = df['NOTA TXT'].replace(replacements_nota)

# Verify the changes
print(f"New number of unique values: {df['NOTA TXT'].nunique()}")
print(f"Unique values: {df['NOTA TXT'].unique()}")
display(df['NOTA TXT'].value_counts())

--- Transforming NOTA TXT ---
New number of unique values: 7
Unique values: ['DIECISIETE' 'DIECINUEVE' 'QUINCE' 'DIECIOCHO' 'CATORCE' 'DIECISEIS'
 'VEINTE' nan]


NOTA TXT
DIECINUEVE    3584
DIECIOCHO     1504
DIECISIETE     676
DIECISEIS      253
QUINCE         211
VEINTE          95
CATORCE         47
Name: count, dtype: int64

### COLUMN PERIODO

In [8]:
# Analyze the 'PERIODO' column
print("--- Unique Values Analysis: PERIODO---")

# Number of unique values
unique_count = df['PERIODO'].nunique()
print(f"Number of unique values: {unique_count}")

# List of unique values
print(f"\nUnique values found: {df['PERIODO'].unique()}")

# Frequency of each value (Value Counts)
print("\nFrequency of each course:")
display(df['PERIODO'].value_counts())

--- Unique Values Analysis: PERIODO---
Number of unique values: 171

Unique values found: ['31 - mayo - 2022 al 11 - junio - 2022'
 '23 - mayo - 2022 al 03 - junio - 2022'
 '07 - junio - 2022 al 18 - junio - 2022'
 '06 - junio - 2022 al 17 - junio - 2022'
 '30 - mayo - 2022 al 10 - junio - 2022'
 '24 - mayo - 2022 al 11 - junio - 2022'
 '23 - mayo - 2022 al 11 - junio - 2022'
 '16 - mayo - 2022 al 27 - mayo - 2022'
 '21 - febrero - 2022 al 04 - marzo - 2022'
 '18 - ENERO - 2022 AL 29 - ENERO - 2022'
 '04 - ENERO - 2022 AL 15 - ENERO - 2022'
 '17 - ENERO - 2022 AL 28 - ENERO - 2022'
 '01 - FEBRERO - 2022 AL 12 - FEBRERO - 2022'
 '31 - ENERO - 2022 AL 11 - FEBRERO - 2022'
 '17 - ENERO - 2022 AL 04 - FEBRERO - 2022'
 '03 - ENERO - 2022 AL 14 - ENERO - 2022'
 '24 - ENERO - 2022 AL 11 - FEBRERO - 2022'
 '25 - ENERO - 2022 AL 12 - FEBRERO - 2022'
 '03 - ENERO - 2022 AL 21 - ENERO - 2022'
 '24 - ENERO - 2022 AL 1 1- FEBRERO - 2022'
 '23 - NOVIEMBRE - 2021 AL 04 - DICIEMBRE - 2021 '
 '10 - ENE

PERIODO
01 - FEBRERO - 2022 AL 12 - FEBRERO - 2022      268
17 - ENERO - 2022 AL 04 - FEBRERO - 2022        212
31 - ENERO - 2022 AL 11 - FEBRERO - 2022        202
18 - ENERO - 2022 AL 29 - ENERO - 2022          185
08 - FEBRERO - 2022 AL 19 - FEBRERO - 2022      184
                                               ... 
11 - enero - 2022 al 29 - enero - 2022            1
26 - octubre - 2021 al 06 - noviembre - 2021      1
10 - enero - 2022 al 28 - junio - 2022            1
08 - febrero - 2022 al 19 - febrero - 2022        1
15 - febrero - 2022 al 26 - febrero - 2022        1
Name: count, Length: 171, dtype: int64

In [20]:
# Analyze the 'PERIODO' column
print("--- Unique Values Analysis: PERIODO ---")

# Get unique values sorted
unique_courses = sorted(df['PERIODO'].dropna().astype(str).unique())

# Print the full list as a Python array
print(unique_courses)

# Also print the count
print(f"\nTotal unique courses: {len(unique_courses)}")

--- Unique Values Analysis: PERIODO ---
['01 - FEBRERO - 2022 AL 12 - FEBRERO - 2022', '01 - MARZO - 2022 AL 12 - MARZO - 2022', '01 - MARZO - 2022 AL 19 - MARZO - 2022', '01 - MARZO - 2022 AL 24 - MARZO - 2022', '01 - agosto - 2022 al 06 - agosto - 2022', '01 - agosto - 2022 al 12 - agosto - 2022', '01 - febrero - 2022 al 12 - febrero - 2022', '02 - AGOSTO - 2021 AL 13 - AGOSTO - 2021', '02 - agosto - 2022 al 13 - agosto - 2022', '02 - mayo - 2022 al 13 - mayo - 2022', '02 - mayo - 2022 al 20 - mayo - 2022', '03 - ENERO - 2022 AL 14 - ENERO - 2022', '03 - ENERO - 2022 AL 16 - ENERO - 2022', '03 - ENERO - 2022 AL 21 - ENERO - 2022', '03 - ENERO - 2022 AL 21 - ENERO - 2022\n', '03 - enero - 2022 al 21 - enero - 2022', '03 - mayo - 2022 al 14 - mayo - 2022', '03 - mayo - 2022 al 21 - mayo - 2022', '03 ENERO - 2022 AL 14 - ENERO - 2022', '04 - ABRIL - 2022 AL 15 - ABRIL - 2022', '04 - ABRIL - 2022 AL 22 - ABRIL - 2022', '04 - ENERO - 2022 AL 15 - ENERO - 2022', '04 - ENERO - 2022 AL 22 - 

#### CREATE NEW COLUMN FECHA_INICIO, FECHA_FIN Y AÑO

In [21]:
import re

# Month mapping (Spanish to Integer)
meses_map = {
    'ENERO': 1, 'FEBRERO': 2, 'MARZO': 3, 'ABRIL': 4, 'MAYO': 5, 'JUNIO': 6,
    'JULIO': 7, 'AGOSTO': 8, 'SETIEMBRE': 9, 'SEPTIEMBRE': 9, 'OCTUBRE': 10, 'NOVIEMBRE': 11, 'DICIEMBRE': 12
}

def extract_dates(periodo):
    if pd.isna(periodo):
        return pd.Series([None, None, None])
    
    # Normalize string: uppercase and strip
    s = str(periodo).upper().strip()
    
    # Regex pattern to capture: Day1, Month1, Year1, Day2, Month2, Year2
    # Flexible logic for separators (hyphen or space)
    # Structure: DD (- or space) MONTH (- or space) YYYY ... AL ... DD (- or space) MONTH (- or space) YYYY
    pattern = r'(\d{1,2})\s*[- ]\s*([A-ZÁÉÍÓÚÑ]+)\s*[- ]\s*(\d{4})\s*AL\s*(\d{1,2})\s*[- ]\s*([A-ZÁÉÍÓÚÑ]+)\s*[- ]\s*(\d{4})'
    
    match = re.search(pattern, s)
    if match:
        d1, m1_str, y1, d2, m2_str, y2 = match.groups()
        
        # Convert month names to numbers
        m1 = meses_map.get(m1_str)
        m2 = meses_map.get(m2_str)
        
        if m1 and m2:
            try:
                # Create strings in ISO format YYYY-MM-DD
                fecha_inicio = f"{y1}-{m1:02d}-{int(d1):02d}"
                fecha_fin = f"{y2}-{m2:02d}-{int(d2):02d}"
                anio = int(y1)
                return pd.Series([fecha_inicio, fecha_fin, anio])
            except ValueError:
                # Handle invalid dates (e.g. Feb 30)
                return pd.Series([None, None, None])
            
    return pd.Series([None, None, None])

print("--- Extracting Dates from PERIODO ---")
# Apply the function to create 3 new columns
df[['FECHA_INICIO', 'FECHA_FIN', 'AÑO']] = df['PERIODO'].apply(extract_dates)

# Convert strings to datetime objects for proper format
df['FECHA_INICIO'] = pd.to_datetime(df['FECHA_INICIO'], errors='coerce')
df['FECHA_FIN'] = pd.to_datetime(df['FECHA_FIN'], errors='coerce')

# Fill NaN in AÑO with 0 or handle appropriately (optional, here ensuring int type if possible)
# df['AÑO'] = df['AÑO'].fillna(0).astype(int)

# Verify results
print("Columns created: FECHA_INICIO, FECHA_FIN, AÑO")
print("\n--- Sample of Extraction Results ---")
display(df[['PERIODO', 'FECHA_INICIO', 'FECHA_FIN', 'AÑO']].sample(10))

# Check for any failures (Nulls in new columns where PERIODO was not null)
failed_extraction = df[df['PERIODO'].notnull() & df['FECHA_INICIO'].isnull()]
if not failed_extraction.empty:
    print(f"\nWarning: Could not parse {len(failed_extraction)} rows. Sample:")
    display(failed_extraction['PERIODO'].unique())
else:
    print("\nSuccess: All periods parsed correctly.")

--- Extracting Dates from PERIODO ---
Columns created: FECHA_INICIO, FECHA_FIN, AÑO

--- Sample of Extraction Results ---


Unnamed: 0,PERIODO,FECHA_INICIO,FECHA_FIN,AÑO
1742,01 - agosto - 2022 al 06 - agosto - 2022,2022-08-01,2022-08-06,2022.0
6429,04 - ABRIL - 2022 AL 22 - ABRIL - 2022,2022-04-04,2022-04-22,2022.0
3169,03 - ENERO - 2022 AL 14 - ENERO - 2022,2022-01-03,2022-01-14,2022.0
3015,01 - MARZO - 2022 AL 24 - MARZO - 2022,2022-03-01,2022-03-24,2022.0
4258,17 - mayo - 2022 al 28 - mayo - 2022,2022-05-17,2022-05-28,2022.0
3265,03 - ENERO - 2022 AL 14 - ENERO - 2022,2022-01-03,2022-01-14,2022.0
1482,07 - FEBRERO - 2022 AL 18 - FEBRERO - 2022,2022-02-07,2022-02-18,2022.0
1274,08 - FEBRERO - 2022 AL 19 - FEBRERO - 2022,2022-02-08,2022-02-19,2022.0
4362,02 - mayo - 2022 al 20 - mayo - 2022,2022-05-02,2022-05-20,2022.0
2549,17 - ENERO - 2022 AL 04 - FEBRERO - 2022,2022-01-17,2022-02-04,2022.0





array(['24 - ENERO - 2022 AL 1 1- FEBRERO - 2022'], dtype=object)

In [22]:
# Convert 'AÑO' to integer format (handling NaNs if any)
# We fill NaNs with 0 temporarily to cast to int, or use Int64 (nullable int)

# Option 1: Using Int64 which supports missing values (best practice)
df['AÑO'] = df['AÑO'].astype('Int64')

# Option 2: Fill with 0 and convert to standard int (if you prefer 0 over <NA>)
# df['AÑO'] = df['AÑO'].fillna(0).astype(int)

print("--- AÑO column format updated ---")
display(df[['PERIODO', 'AÑO']].sample(5))
print(f"Unique Years: {df['AÑO'].unique()}")

--- AÑO column format updated ---


Unnamed: 0,PERIODO,AÑO
5309,05 - ABRIL - 2022 AL 16 - ABRIL - 2022,2022
3917,26 - setiembre - 2022 al 07 - octubre - 2022,2022
3815,12 - setiembre - 2022 al 30 - setiembre - 2022,2022
3060,04 - ENERO - 2022 AL 15 - ENERO - 2022,2022
4583,17 - ENERO - 2022 AL 28 - ENERO - 2022,2022


Unique Years: <IntegerArray>
[2022, <NA>, 2021, 2020]
Length: 4, dtype: Int64


In [23]:
# Check for null values in the newly created columns
cols_to_check = ['FECHA_INICIO', 'FECHA_FIN', 'AÑO']

print("--- Null Value Verification for Date Columns ---")
null_counts = df[cols_to_check].isnull().sum()
print(null_counts)

# Display rows with any nulls in these columns (if any)
rows_with_nulls = df[df[cols_to_check].isnull().any(axis=1)]

if not rows_with_nulls.empty:
    print(f"\nFound {len(rows_with_nulls)} rows with null values in date columns:")
    display(rows_with_nulls[['PERIODO'] + cols_to_check].head())
else:
    print("\nSuccess: No null values found in FECHA_INICIO, FECHA_FIN, or AÑO.")

--- Null Value Verification for Date Columns ---
FECHA_INICIO    1
FECHA_FIN       1
AÑO             1
dtype: int64

Found 1 rows with null values in date columns:


Unnamed: 0,PERIODO,FECHA_INICIO,FECHA_FIN,AÑO
603,24 - ENERO - 2022 AL 1 1- FEBRERO - 2022,NaT,NaT,


In [24]:
# Remove rows with null values in date columns
initial_count = len(df)
df = df.dropna(subset=['FECHA_INICIO', 'FECHA_FIN', 'AÑO'])
final_count = len(df)

print(f"Rows removed: {initial_count - final_count}")
print(f"Remaining rows: {final_count}")

# Verify again
print("\n--- Re-verification ---")
print(df[['FECHA_INICIO', 'FECHA_FIN', 'AÑO']].isnull().sum())

Rows removed: 1
Remaining rows: 6895

--- Re-verification ---
FECHA_INICIO    0
FECHA_FIN       0
AÑO             0
dtype: int64


In [None]:
# Standardize the 'HORAS' column
print("--- Transforming HORAS ---")

# 1. Convert to uppercase
df['HORAS'] = df['HORAS'].str.upper()

# 2. Strip whitespace
df['HORAS'] = df['HORAS'].str.strip()

# Verify the changes
print(f"New unique values: {df['HORAS'].nunique()}")
print(f"Unique values: {df['HORAS'].unique()}")
display(df['HORAS'].value_counts())

In [25]:
df.head()

Unnamed: 0,COORDINADORA,CURSO,NOTA,NOTA TXT,PERIODO,HORAS,CIUDAD,AREA,FECHA_INICIO,FECHA_FIN,AÑO
0,FELIX,DISEÑO DE PÁGINAS WEB - NIVEL BÁSICO,17,DIECISIETE,31 - mayo - 2022 al 11 - junio - 2022,120 horas,LIMA,PROGRAMACIÓN Y DESARROLLO,2022-05-31,2022-06-11,2022
1,ROSA,DISEÑO DIGITAL CON CANVA - NIVEL BÁSICO,19,DIECINUEVE,23 - mayo - 2022 al 03 - junio - 2022,120 horas,ICA,DISEÑO Y MULTIMEDIA,2022-05-23,2022-06-03,2022
2,LUCIA,DISEÑO DIGITAL CON CANVA - NIVEL INTERMEDIO,15,QUINCE,07 - junio - 2022 al 18 - junio - 2022,120 horas,LIMA,DISEÑO Y MULTIMEDIA,2022-06-07,2022-06-18,2022
3,LUCIA,DISEÑO DIGITAL CON CANVA - NIVEL INTERMEDIO,19,DIECINUEVE,07 - junio - 2022 al 18 - junio - 2022,120 horas,LIMA,DISEÑO Y MULTIMEDIA,2022-06-07,2022-06-18,2022
4,LUCIA,DISEÑO DIGITAL CON CANVA - NIVEL INTERMEDIO,19,DIECINUEVE,07 - junio - 2022 al 18 - junio - 2022,120 horas,LIMA,DISEÑO Y MULTIMEDIA,2022-06-07,2022-06-18,2022


### HORAS	

In [26]:
# Analyze the 'HORAS' column
print("--- Unique Values Analysis: HORAS---")

# Number of unique values
unique_count = df['HORAS'].nunique()
print(f"Number of unique values: {unique_count}")

# List of unique values
print(f"\nUnique values found: {df['HORAS'].unique()}")

# Frequency of each value (Value Counts)
print("\nFrequency of each course:")
display(df['HORAS'].value_counts())

--- Unique Values Analysis: HORAS---
Number of unique values: 8

Unique values found: ['120 horas' '160 horas' '120 HORAS' '160 HORAS' '60 horas' '126 HORAS'
 '92 HORAS' '120 horas ']

Frequency of each course:


HORAS
120 HORAS     3207
120 horas     1823
160 HORAS     1075
160 horas      400
126 HORAS      357
60 horas        21
120 horas       10
92 HORAS         2
Name: count, dtype: int64

In [27]:
# Standardize the 'HORAS' column
print("--- Transforming HORAS ---")

# 1. Convert to uppercase
df['HORAS'] = df['HORAS'].str.upper()

# 2. Strip whitespace
df['HORAS'] = df['HORAS'].str.strip()

# Verify the changes
print(f"New unique values: {df['HORAS'].nunique()}")
print(f"Unique values: {df['HORAS'].unique()}")
display(df['HORAS'].value_counts())

--- Transforming HORAS ---
New unique values: 5
Unique values: ['120 HORAS' '160 HORAS' '60 HORAS' '126 HORAS' '92 HORAS']


HORAS
120 HORAS    5040
160 HORAS    1475
126 HORAS     357
60 HORAS       21
92 HORAS        2
Name: count, dtype: int64

### CIUDAD

In [28]:
# Analyze the 'CIUDAD' column
print("--- Unique Values Analysis: CIUDAD---")

# Number of unique values
unique_count = df['CIUDAD'].nunique()
print(f"Number of unique values: {unique_count}")

# List of unique values
print(f"\nUnique values found: {df['CIUDAD'].unique()}")

# Frequency of each value (Value Counts)
print("\nFrequency of each course:")
display(df['CIUDAD'].value_counts())

--- Unique Values Analysis: CIUDAD---
Number of unique values: 122

Unique values found: ['LIMA' 'ICA' 'TUMBES' 'LAMBAYEQUE' 'APURIMAC' 'AREQUIPA' 'PIURA'
 'UCAYALY' 'ANCASH' 'JUNIN' 'AYACUCHO' 'MOQUEGUA' 'LORETO' 'JUNÍN'
 'APURÍMAC' 'CUSCO' 'LA LIBERTAD' 'UCAYALI' 'PUNO' 'HUÁNUCO' 'TACNA'
 'OTRO PAÍS' 'CAJAMARCA' 'ÁNCASH' 'HUANUCO' 'SAN MARTÍN' 'Lima'
 'La Libertad' 'Lambayeque' 'Junín' 'MADRE DE DIOS' 'AMAZONAS' 'PASCO'
 'CAÑETE' 'ABANCAY' 'PUERTO MALDONADO' 'CAJABAMBA' 'CHICLAYO' 'APURÌMAC'
 'LAMBAYEQUE ' 'HUANCAVELICA' 'CALLAO' 'SAN MARTIN' nan 'APURÍMAC '
 'NUEVO CHIMBOTE' 'Cusco' 'Piura' 'Cajamarca' 'Ayacucho' 'Apurímac'
 'Huánuco' 'Amazonas' 'Junín ' 'Arequipa' 'Tumbes' 'Áncash' 'San Martín'
 'Pasco' 'LIMA ' 'APURIMAC ' 'Puno' 'Ica' 'HUANCANÉ' 'CHINCHEROS' 'HUACHO'
 'TARAPOTO' 'CHIMBOTE' 'TRUJILLO' 'SATIPO' 'CHEPEN' 'HUANCAYO' 'Loreto'
 'ANCASH ' 'HUARAL' 'CHINCHA ALTA' 'JULIACA' 'CANCHIS' 'HONDURAS'
 'Huancavelica' 'Moquegua' 'HUANCARAMA' 'Challhuahuacho' 'Haquira'
 'Abancay' '

CIUDAD
LIMA                   2453
Lima                    288
AREQUIPA                273
APURIMAC                256
APURÍMAC                253
                       ... 
LA LIBERTAD               1
LIMA                      1
ancash                    1
apurimac                  1
OTRO PAÍS (ECUADOR)       1
Name: count, Length: 122, dtype: int64

In [29]:
# Standardize the 'CIUDAD' column
print("--- Transforming CIUDAD ---")

# 1. Convert to uppercase
df['CIUDAD'] = df['CIUDAD'].str.upper()

# 2. Strip whitespace
df['CIUDAD'] = df['CIUDAD'].str.strip()

# 3. Handle accents, typos, and specific replacements (City -> Region/Country standardization)
replacements_ciudad = {
    # Typos and Accents
    'JUNIN': 'JUNÍN',
    'APURIMAC': 'APURÍMAC',
    'APURÌMAC': 'APURÍMAC',
    'HUANUCO': 'HUÁNUCO',
    'ANCASH': 'ÁNCASH',
    'ÁNCAHS': 'ÁNCASH',
    'SAN MARTIN': 'SAN MARTÍN',
    'UCAYALY': 'UCAYALI',
    
    # Combined/Clean up
    'LIMA - CALLAO': 'LIMA',
    # 'CALLAO': 'LIMA', # Optional: Callao is technically a constitutional province, distinct from Lima dept.
    
    # Foreign Countries
    'OTRO PAIS': 'OTRO PAÍS',
    'OTRO PAÍS (ECUADOR)': 'OTRO PAÍS',
    'OTRO PAÍS (HONDURAS)': 'OTRO PAÍS',
    'OTRO PAÍS (HONDURAS)': 'OTRO PAÍS', # Duplicate key in source list handling
    'HONDURAS': 'OTRO PAÍS',
    'ECUADOR': 'OTRO PAÍS',
    'BOLIVIA': 'OTRO PAÍS',
    'MEXICO': 'OTRO PAÍS',
    'COLOMBIA': 'OTRO PAÍS',
    'NICARAGUA': 'OTRO PAÍS',
    
    # Mapping Cities/Provinces to Departments (Regions)
    'ABANCAY': 'APURÍMAC',
    'ANDAHUAYLAS': 'APURÍMAC',
    'CHINCHEROS': 'APURÍMAC',
    'HUANCARAMA': 'APURÍMAC',
    'CHALLHUAHUACHO': 'APURÍMAC',
    'HAQUIRA': 'APURÍMAC',
    'CHALHUANCA': 'APURÍMAC',
    'COYLLURQUI': 'APURÍMAC',
    'COTABAMBAS': 'APURÍMAC',
    'ANTABAMBA': 'APURÍMAC',
    'AYMARAES': 'APURÍMAC',
    'TAMBOBAMBA': 'APURÍMAC',
    'GRAU': 'APURÍMAC',
    
    'CHIMBOTE': 'ÁNCASH',
    'NUEVO CHIMBOTE': 'ÁNCASH',
    
    'HUACHO': 'LIMA',
    'CAÑETE': 'LIMA',
    'HUARAL': 'LIMA',
    'BARRANCA': 'LIMA',
    
    'CHICLAYO': 'LAMBAYEQUE',
    
    'PUERTO MALDONADO': 'MADRE DE DIOS',
    
    'JULIACA': 'PUNO',
    'HUANCANÉ': 'PUNO',
    
    'TARAPOTO': 'SAN MARTÍN',
    'TOCACHE': 'SAN MARTÍN',
    'MOYOBAMBA': 'SAN MARTÍN',
    
    'TRUJILLO': 'LA LIBERTAD',
    'CHEPEN': 'LA LIBERTAD',
    
    'HUANCAYO': 'JUNÍN',
    'SATIPO': 'JUNÍN',
    
    'CHINCHA': 'ICA',
    'CHINCHA ALTA': 'ICA',
    
    'IQUITOS': 'LORETO',
    
    'HUAMANGA': 'AYACUCHO',
    
    'ILO': 'MOQUEGUA',
    
    'CANCHIS': 'CUSCO',
    
    'CAJABAMBA': 'CAJAMARCA',
    'SAN IGNACIO': 'CAJAMARCA'
}

df['CIUDAD'] = df['CIUDAD'].replace(replacements_ciudad)

# Verify the changes
print(f"New number of unique values: {df['CIUDAD'].nunique()}")
print(f"Unique values: {df['CIUDAD'].unique()}")
display(df['CIUDAD'].value_counts())

--- Transforming CIUDAD ---
New number of unique values: 26
Unique values: ['LIMA' 'ICA' 'TUMBES' 'LAMBAYEQUE' 'APURÍMAC' 'AREQUIPA' 'PIURA'
 'UCAYALI' 'ÁNCASH' 'JUNÍN' 'AYACUCHO' 'MOQUEGUA' 'LORETO' 'CUSCO'
 'LA LIBERTAD' 'PUNO' 'HUÁNUCO' 'TACNA' 'OTRO PAÍS' 'CAJAMARCA'
 'SAN MARTÍN' 'MADRE DE DIOS' 'AMAZONAS' 'PASCO' 'HUANCAVELICA' 'CALLAO'
 nan]


CIUDAD
LIMA             2758
APURÍMAC          820
AREQUIPA          300
LA LIBERTAD       270
CUSCO             234
LAMBAYEQUE        234
ICA               190
JUNÍN             178
ÁNCASH            178
PIURA             166
CAJAMARCA         156
HUÁNUCO           143
PUNO              127
AYACUCHO          112
TACNA              73
SAN MARTÍN         57
PASCO              52
LORETO             47
MOQUEGUA           44
TUMBES             34
AMAZONAS           29
HUANCAVELICA       25
OTRO PAÍS          25
UCAYALI            19
CALLAO             15
MADRE DE DIOS      13
Name: count, dtype: int64

### VERIFICATION FINALLY

In [30]:
# Final Verification of Null Values
print("--- Final Null Value Check ---")

null_counts = df.isnull().sum()
print(null_counts)

total_nulls = null_counts.sum()
if total_nulls == 0:
    print("\nSUCCESS: The dataset has no null values.")
else:
    print(f"\nWARNING: Found {total_nulls} null values remaining.")
    display(df[df.isnull().any(axis=1)])

# Display final dataframe info
print("\n--- Final Dataset Info ---")
df.info()

--- Final Null Value Check ---
COORDINADORA    527
CURSO             0
NOTA              0
NOTA TXT        526
PERIODO           0
HORAS             0
CIUDAD          596
AREA              0
FECHA_INICIO      0
FECHA_FIN         0
AÑO               0
dtype: int64



Unnamed: 0,COORDINADORA,CURSO,NOTA,NOTA TXT,PERIODO,HORAS,CIUDAD,AREA,FECHA_INICIO,FECHA_FIN,AÑO
779,,ASISTENTE ADMINISTRATIVO,17,DIECISIETE,15 - agosto - 2022 al 26 - agosto - 2022,120 HORAS,,GESTIÓN Y ADMINISTRACIÓN,2022-08-15,2022-08-26,2022
780,,ASISTENTE ADMINISTRATIVO,18,DIECIOCHO,15 - agosto - 2022 al 26 - agosto - 2022,120 HORAS,,GESTIÓN Y ADMINISTRACIÓN,2022-08-15,2022-08-26,2022
781,,ASISTENTE ADMINISTRATIVO,19,DIECINUEVE,15 - agosto - 2022 al 26 - agosto - 2022,120 HORAS,,GESTIÓN Y ADMINISTRACIÓN,2022-08-15,2022-08-26,2022
782,,ASISTENTE ADMINISTRATIVO,18,DIECIOCHO,15 - agosto - 2022 al 26 - agosto - 2022,120 HORAS,,GESTIÓN Y ADMINISTRACIÓN,2022-08-15,2022-08-26,2022
783,,ASISTENTE ADMINISTRATIVO,19,DIECINUEVE,15 - agosto - 2022 al 26 - agosto - 2022,120 HORAS,,GESTIÓN Y ADMINISTRACIÓN,2022-08-15,2022-08-26,2022
...,...,...,...,...,...,...,...,...,...,...,...
6824,,MICROSOFT EXCEL - NIVEL BÁSICO,18,DIECIOCHO,22 - agosto - 2022 al 02 - setiembre - 2022,120 HORAS,,OFIMÁTICA Y PRODUCTIVIDAD,2022-08-22,2022-09-02,2022
6825,,MICROSOFT EXCEL - NIVEL BÁSICO,17,DIECISIETE,22 - agosto - 2022 al 02 - setiembre - 2022,120 HORAS,,OFIMÁTICA Y PRODUCTIVIDAD,2022-08-22,2022-09-02,2022
6826,,HERRAMIENTAS TIC PARA TRABAJOS COLABORATIVOS,19,DIECINUEVE,26 - abril - 2022 al 07 - mayo - 2022,120 HORAS,,EDUCACIÓN Y PEDAGOGÍA,2022-04-26,2022-05-07,2022
6827,,EDICIÓN DE VÍDEOS PARA DOCENTES,19,DIECINUEVE,11 - abril - 2022 al 22 - abril - 2022,120 HORAS,,DISEÑO Y MULTIMEDIA,2022-04-11,2022-04-22,2022



--- Final Dataset Info ---
<class 'pandas.core.frame.DataFrame'>
Index: 6895 entries, 0 to 6895
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   COORDINADORA  6368 non-null   object        
 1   CURSO         6895 non-null   object        
 2   NOTA          6895 non-null   int64         
 3   NOTA TXT      6369 non-null   object        
 4   PERIODO       6895 non-null   object        
 5   HORAS         6895 non-null   object        
 6   CIUDAD        6299 non-null   object        
 7   AREA          6895 non-null   object        
 8   FECHA_INICIO  6895 non-null   datetime64[ns]
 9   FECHA_FIN     6895 non-null   datetime64[ns]
 10  AÑO           6895 non-null   Int64         
dtypes: Int64(1), datetime64[ns](2), int64(1), object(7)
memory usage: 653.1+ KB


In [31]:
# Remove all rows containing any null values
initial_rows = len(df)
df = df.dropna()
final_rows = len(df)

print(f"--- Rows Removed: {initial_rows - final_rows} ---")
print(f"Remaining Rows: {final_rows}")

# Final re-check
print("\n--- Re-verification after cleanup ---")
print(df.isnull().sum())

--- Rows Removed: 1121 ---
Remaining Rows: 5774

--- Re-verification after cleanup ---
COORDINADORA    0
CURSO           0
NOTA            0
NOTA TXT        0
PERIODO         0
HORAS           0
CIUDAD          0
AREA            0
FECHA_INICIO    0
FECHA_FIN       0
AÑO             0
dtype: int64


In [32]:
# Final Verification of Null Values
print("--- Final Null Value Check ---")

null_counts = df.isnull().sum()
print(null_counts)

total_nulls = null_counts.sum()
if total_nulls == 0:
    print("\nSUCCESS: The dataset has no null values.")
else:
    print(f"\nWARNING: Found {total_nulls} null values remaining.")
    display(df[df.isnull().any(axis=1)])

# Display final dataframe info
print("\n--- Final Dataset Info ---")
df.info()

--- Final Null Value Check ---
COORDINADORA    0
CURSO           0
NOTA            0
NOTA TXT        0
PERIODO         0
HORAS           0
CIUDAD          0
AREA            0
FECHA_INICIO    0
FECHA_FIN       0
AÑO             0
dtype: int64

SUCCESS: The dataset has no null values.

--- Final Dataset Info ---
<class 'pandas.core.frame.DataFrame'>
Index: 5774 entries, 0 to 6895
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   COORDINADORA  5774 non-null   object        
 1   CURSO         5774 non-null   object        
 2   NOTA          5774 non-null   int64         
 3   NOTA TXT      5774 non-null   object        
 4   PERIODO       5774 non-null   object        
 5   HORAS         5774 non-null   object        
 6   CIUDAD        5774 non-null   object        
 7   AREA          5774 non-null   object        
 8   FECHA_INICIO  5774 non-null   datetime64[ns]
 9   FECHA_FIN     5774 non-null   d

In [33]:
df.head()

Unnamed: 0,COORDINADORA,CURSO,NOTA,NOTA TXT,PERIODO,HORAS,CIUDAD,AREA,FECHA_INICIO,FECHA_FIN,AÑO
0,FELIX,DISEÑO DE PÁGINAS WEB - NIVEL BÁSICO,17,DIECISIETE,31 - mayo - 2022 al 11 - junio - 2022,120 HORAS,LIMA,PROGRAMACIÓN Y DESARROLLO,2022-05-31,2022-06-11,2022
1,ROSA,DISEÑO DIGITAL CON CANVA - NIVEL BÁSICO,19,DIECINUEVE,23 - mayo - 2022 al 03 - junio - 2022,120 HORAS,ICA,DISEÑO Y MULTIMEDIA,2022-05-23,2022-06-03,2022
2,LUCIA,DISEÑO DIGITAL CON CANVA - NIVEL INTERMEDIO,15,QUINCE,07 - junio - 2022 al 18 - junio - 2022,120 HORAS,LIMA,DISEÑO Y MULTIMEDIA,2022-06-07,2022-06-18,2022
3,LUCIA,DISEÑO DIGITAL CON CANVA - NIVEL INTERMEDIO,19,DIECINUEVE,07 - junio - 2022 al 18 - junio - 2022,120 HORAS,LIMA,DISEÑO Y MULTIMEDIA,2022-06-07,2022-06-18,2022
4,LUCIA,DISEÑO DIGITAL CON CANVA - NIVEL INTERMEDIO,19,DIECINUEVE,07 - junio - 2022 al 18 - junio - 2022,120 HORAS,LIMA,DISEÑO Y MULTIMEDIA,2022-06-07,2022-06-18,2022


In [35]:
# Reset the index to make it sequential again
print("--- Resetting Index ---")
df = df.reset_index(drop=True)

print("Index reset completed.")
print(f"New shape: {df.shape}")
print("\n--- New Tail (Last rows) ---")
display(df.tail())

--- Resetting Index ---
Index reset completed.
New shape: (5774, 11)

--- New Tail (Last rows) ---


Unnamed: 0,COORDINADORA,CURSO,NOTA,NOTA TXT,PERIODO,HORAS,CIUDAD,AREA,FECHA_INICIO,FECHA_FIN,AÑO
5769,ELIZABETH,IMPLEMENTACIÓN Y ADMINISTRACIÓN DE AULAS DE IN...,19,DIECINUEVE,12 - julio - 2022 al 23 - julio - 2022,120 HORAS,LIMA,EDUCACIÓN Y PEDAGOGÍA,2022-07-12,2022-07-23,2022
5770,ELIZABETH,INGLÉS - NIVEL BÁSICO A3,19,DIECINUEVE,04 - julio - 2022 al 15 - julio - 2022,120 HORAS,HUÁNUCO,IDIOMAS,2022-07-04,2022-07-15,2022
5771,ELIZABETH,INGLÉS - NIVEL BÁSICO A3,19,DIECINUEVE,04 - julio - 2022 al 15 - julio - 2022,120 HORAS,HUÁNUCO,IDIOMAS,2022-07-04,2022-07-15,2022
5772,FELIX,MICROSOFT WORD - NIVEL BÁSICO,17,DIECISIETE,12 - julio - 2022 al 23 - julio - 2022,120 HORAS,LIMA,OFIMÁTICA Y PRODUCTIVIDAD,2022-07-12,2022-07-23,2022
5773,ELIZABETH,COMPETENCIAS DIGITALES PARA EL AULA,17,DIECISIETE,13 - junio - 2022 al 24 - junio - 2022,120 HORAS,LA LIBERTAD,EDUCACIÓN Y PEDAGOGÍA,2022-06-13,2022-06-24,2022


In [36]:
import os

# Define output path
output_dir = 'lista_certificados/data_transformation'
output_filename = 'consolidado_clean.xlsx'
output_path = os.path.join(output_dir, output_filename)

# Create directory if it doesn't exist
os.makedirs(output_dir, exist_ok=True)

print(f"--- Saving Clean Data ---")
print(f"Target path: {output_path}")

# Save to Excel
try:
    df.to_excel(output_path, index=False)
    print("SUCCESS: File saved successfully.")
except Exception as e:
    print(f"ERROR: Could not save file. Reason: {e}")

# Verify file existence
if os.path.exists(output_path):
    print(f"Verification: File exists. Size: {os.path.getsize(output_path) / 1024:.2f} KB")
else:
    print("Verification: File NOT found.")

--- Saving Clean Data ---
Target path: lista_certificados/data_transformation/consolidado_clean.xlsx
SUCCESS: File saved successfully.
Verification: File exists. Size: 271.79 KB
