## DATA EXPLORATION AND TRANSFORMATION

In [3]:
import pandas as pd

# Read the consolidated file
file_path = 'lista_certificados/anion_data/consolidado.xlsx'
df = pd.read_excel(file_path)

# Display the first few rows
display(df.head())
print(f"Dimensions: {df.shape}")

Unnamed: 0,COORDINADORA,CURSO,NOTA,NOTA TXT,PERIODO,HORAS,CIUDAD
0,FELIX,DISEÑO DE PÁGINAS WEB - NIVEL BÁSICO,17.0,DIECISIETE,31 - mayo - 2022 al 11 - junio - 2022,120 horas,LIMA
1,ROSA,DISEÑO DIGITAL CON CANVA - NIVEL BÁSICO,19.0,DIECINUEVE,23 - mayo - 2022 al 03 - junio - 2022,120 horas,ICA
2,LUCIA,DISEÑO DIGITAL CON CANVA - NIVEL INTERMEDIO,15.0,QUINCE,07 - junio - 2022 al 18 - junio - 2022,120 horas,LIMA
3,LUCIA,DISEÑO DIGITAL CON CANVA - NIVEL INTERMEDIO,19.0,DIECINUEVE,07 - junio - 2022 al 18 - junio - 2022,120 horas,LIMA
4,LUCIA,DISEÑO DIGITAL CON CANVA - NIVEL INTERMEDIO,19.0,DIECINUEVE,07 - junio - 2022 al 18 - junio - 2022,120 horas,LIMA


Dimensions: (6896, 7)


### COLUMN COORDINADORA

In [4]:
# Analyze the 'COORDINADORA' column
print("--- Unique Values Analysis: COORDINADORA ---")

# Number of unique values
unique_count = df['COORDINADORA'].nunique()
print(f"Number of unique values: {unique_count}")

# List of unique values
print(f"\nUnique values found: {df['COORDINADORA'].unique()}")

# Frequency of each value (Value Counts)
print("\nFrequency of each coordinator:")
display(df['COORDINADORA'].value_counts())

--- Unique Values Analysis: COORDINADORA ---
Number of unique values: 49

Unique values found: ['FELIX' 'ROSA' 'LUCIA' 'ELIZABETH B' 'MIRIAN' 'ELIZABETH F' 'HENRY'
 'ALEXANDRA' 'LUIGUI' 'ELIZABETH' 'DROSA' 'BRILLIT' 'DELIZABETH'
 'MARGARITA' 'DHENRY' nan 'ANA SOFIA' 'REBECA' 'INGRID' 'ALEXA' 'LUGUI'
 'JOSE' 'Rosa' 'Felix' 'Elizabeth' 'Henry' 'Luigui' 'Alexandra' 'Brillit'
 'Lucia' 'Margarita' 'ING JOSE' 'RICHARD' 'BRILLIT D' 'LUIGUI D' 'PAMELA'
 'Naysha' 'DLUCIA' 'YULISA' 'KAROL' 'KATHERINE' 'ANA' 'NAYSHA' 'JUDITH'
 'ANNYE' 'GABRIELA' 'ELIZABET F' 'ROSA ' 'ELIZABETH ' 'ING. JOSE']

Frequency of each coordinator:


COORDINADORA
HENRY          943
BRILLIT        907
FELIX          850
ROSA           779
ELIZABETH      493
LUCIA          445
LUIGUI         439
ALEXANDRA      271
MARGARITA      260
ALEXA          146
INGRID          97
ANA SOFIA       95
ELIZABETH F     80
Margarita       58
ELIZABETH B     57
YULISA          56
MIRIAN          52
PAMELA          42
Rosa            42
Luigui          34
Elizabeth       28
Alexandra       24
RICHARD         21
Felix           20
Henry           19
Lucia           17
ELIZABET F      16
GABRIELA        13
KATHERINE       11
KAROL            7
ING JOSE         5
NAYSHA           5
REBECA           5
ANNYE            4
ING. JOSE        4
JUDITH           4
JOSE             3
LUGUI            3
ROSA             2
DHENRY           2
ELIZABETH        2
DROSA            1
DELIZABETH       1
BRILLIT D        1
Brillit          1
ANA              1
LUIGUI D         1
Naysha           1
DLUCIA           1
Name: count, dtype: int64

In [11]:
# Standardize the 'COORDINADORA' column

# 1. Convert to uppercase
df['COORDINADORA'] = df['COORDINADORA'].str.upper()

# 2. Strip leading/trailing whitespace
df['COORDINADORA'] = df['COORDINADORA'].str.strip()

# 3. Handle specific replacements (Manual Mapping based on your output)
replacements = {
    'ELIZABET F': 'ELIZABETH F',
    'ELIZABETH B': 'ELIZABETH',
    'DELIZABETH': 'ELIZABETH',
    'DHENRY': 'HENRY',
    'DROSA': 'ROSA',
    'DLUCIA': 'LUCIA',
    'LUGUI': 'LUIGUI',
    'LUIGUI D': 'LUIGUI',
    'BRILLIT D': 'BRILLIT',
    'ING JOSE': 'JOSE',
    'ING. JOSE': 'JOSE',
    'ANNYE': 'ANNY', # Guessing based on common names, or keep if Annye is valid
    # Add more as needed
}

df['COORDINADORA'] = df['COORDINADORA'].replace(replacements)

# Verify the changes
print("--- After Standardization: COORDINADORA ---")
print(f"New number of unique values: {df['COORDINADORA'].nunique()}")
print(f"Unique values: {df['COORDINADORA'].unique()}")
display(df['COORDINADORA'].value_counts())

--- After Standardization: COORDINADORA ---
New number of unique values: 26
Unique values: ['FELIX' 'ROSA' 'LUCIA' 'ELIZABETH' 'MIRIAN' 'ELIZABETH F' 'HENRY'
 'ALEXANDRA' 'LUIGUI' 'BRILLIT' 'MARGARITA' nan 'ANA SOFIA' 'REBECA'
 'INGRID' 'ALEXA' 'JOSE' 'RICHARD' 'PAMELA' 'NAYSHA' 'YULISA' 'KAROL'
 'KATHERINE' 'ANA' 'JUDITH' 'ANNY' 'GABRIELA']


COORDINADORA
HENRY          964
BRILLIT        909
FELIX          870
ROSA           824
ELIZABETH      581
LUIGUI         477
LUCIA          463
MARGARITA      318
ALEXANDRA      295
ALEXA          146
INGRID          97
ELIZABETH F     96
ANA SOFIA       95
YULISA          56
MIRIAN          52
PAMELA          42
RICHARD         21
GABRIELA        13
JOSE            12
KATHERINE       11
KAROL            7
NAYSHA           6
REBECA           5
JUDITH           4
ANNY             4
ANA              1
Name: count, dtype: int64

### COLUMN CURSO

In [14]:
# Analyze the 'CURSO' column
print("--- Unique Values Analysis: CURSO ---")

# Get unique values sorted
unique_courses = sorted(df['CURSO'].dropna().astype(str).unique())

# Print the full list as a Python array
print(unique_courses)

# Also print the count
print(f"\nTotal unique courses: {len(unique_courses)}")

--- Unique Values Analysis: CURSO ---
['ACTUALIZACIÓN DE HERRAMIENTAS TIC PARA EL APRENDIZAJE HÍBRIDO - NIVEL BÁSICO', 'ACTUALIZACIÓN EN HERRAMIENTAS TIC PARA EL APRENDIZAJE HÍBRIDO', 'ACTUALIZACIÓN EN HERRAMIENTAS TIC PARA EL APRENDIZAJE HÍBRIDO - NIVEL BÁSICO', 'ACTUALIZACIÓN EN HERRAMIENTAS TIC PARA EL APRENDIZAJE HÍBRIDO - NIVEL INTERMEDIO', 'APPS EDUCATIVOS PARA DISPOSITIVOS MÓVILES', 'ASISTENTE ADMINISTRATIVO', 'ASISTENTE ADMINISTRATIVO COMPUTARIZADO', 'ASISTENTE ADMINISTRATIVO EN LA GESTIÓN PÚBLICA', 'ASISTENTE CONTABLE - NIVEL BÁSICO', 'ASISTENTE CONTABLE - NIVEL INTERMEDIO', 'ASISTENTE DE PLANILLAS', 'ASISTENTE DE PLANILLAS                ', 'ASISTENTE DE RECURSOS HUMANOS', 'AULAS VIRTUALES CON MOODLE', 'BASE DE DATOS CON ACCESS', 'BASE DE DATOS CON MYSQL - NIVEL BÁSICO', 'BASE DE DATOS CON MySQL - NIVEL BÁSICO', 'BASE DE DATOS CON MySQL - NIVEL BÁSICO ', 'BASE DE DATOS CON SQL SERVER - NIVEL 1', 'BASE DE DATOS CON SQL SERVER - NIVEL BÁSICO', 'CANVA - NIVEL BÁSICO', 'COMPETENC

#### CREALE COLUMN AREA

In [15]:
# Function to classify courses into areas
def classify_course(course):
    course = str(course).upper().strip()
    
    # 1. IDIOMAS
    if any(keyword in course for keyword in ['INGLÉS', 'INGLES', 'QUECHUA', 'PORTUGUÉS', 'ITALIANO']):
        return 'IDIOMAS'
    
    # 2. PROGRAMACIÓN Y DESARROLLO
    # Includes Web Design (technical), Databases, Programming languages
    if any(keyword in course for keyword in ['PYTHON', 'JAVASCRIPT', 'PROGRAMACIÓN', 'SQL', 'MYSQL', 'ACCESS', 'BASE DE DATOS', 'SCRATCH', 'DISEÑO WEB', 'PÁGINAS WEB', 'FUNDAMENTOS DE PROGRAMACIÓN']):
        return 'PROGRAMACIÓN Y DESARROLLO'
    
    # 3. DISEÑO Y MULTIMEDIA
    # Includes Graphic Design, Video Editing, Interactive Content tools like Genially/Canva if explicitly Design
    if any(keyword in course for keyword in ['DISEÑO', 'CANVA', 'PHOTOSHOP', 'CORELDRAW', 'ILLUSTRATOR', 'INDESIGN', 'EDICIÓN', 'VIDEO', 'VÍDEO', 'FILMORA', 'CAMTASIA', 'OBS STUDIO', 'GENIALLY', 'HISTORIETAS', 'CUENTOS INTERACTIVOS']):
        return 'DISEÑO Y MULTIMEDIA'
    
    # 4. SOPORTE Y REDES
    if any(keyword in course for keyword in ['SOPORTE TÉCNICO', 'REDES Y CONECTIVIDAD']):
        return 'SOPORTE Y TI'
        
    # 5. GESTIÓN Y ADMINISTRACIÓN
    if any(keyword in course for keyword in ['ASISTENTE', 'SIAF', 'GESTIÓN', 'CONTABLE', 'PLANILLAS', 'RECURSOS HUMANOS', 'LIBROS ELECTRÓNICOS', 'FINANCIERO', 'ADMINISTRATIVO']):
        return 'GESTIÓN Y ADMINISTRACIÓN'
        
    # 6. EDUCACIÓN Y TIC
    # Pedagogical tools, educational software, Google for Education, etc.
    if any(keyword in course for keyword in ['TIC', 'EDUCACIÓN', 'EDUCATIVO', 'DOCENTES', 'AULAS', 'PEDAGÓGICA', 'GAMIFICACIÓN', 'GOOGLE', 'TEAMS', 'PIZARRAS', 'CLASE', 'COMPETENCIAS DIGITALES', 'FICHAS', 'RECURSOS', 'EVALUACIONES', 'MOODLE', 'APPS', 'MATEMÁTICA', 'APRENDIZAJE', 'ORGANIZADORES', 'HÍBRIDO']):
        return 'EDUCACIÓN Y PEDAGOGÍA'

    # 7. OFIMÁTICA Y PRODUCTIVIDAD
    # Office tools, Writing, Power BI
    if any(keyword in course for keyword in ['OFIMÁTICA', 'EXCEL', 'WORD', 'POWERPOINT', 'PROJECT', 'POWER BI', 'REDACCIÓN', 'ORTOGRAFÍA', 'DIGITACIÓN', 'MACROS']):
        return 'OFIMÁTICA Y PRODUCTIVIDAD'
        
    return 'OTROS'

# Apply the classification
df['AREA'] = df['CURSO'].apply(classify_course)

# Verify the new column
print("--- AREA Classification Results ---")
print(df['AREA'].value_counts())

# Show a sample of Course vs Area to check accuracy
print("\n--- Sample Verification ---")
display(df[['CURSO', 'AREA']].sample(10))

--- AREA Classification Results ---
AREA
EDUCACIÓN Y PEDAGOGÍA        2940
OFIMÁTICA Y PRODUCTIVIDAD    1373
IDIOMAS                      1055
GESTIÓN Y ADMINISTRACIÓN      582
DISEÑO Y MULTIMEDIA           575
PROGRAMACIÓN Y DESARROLLO     260
SOPORTE Y TI                   89
OTROS                          22
Name: count, dtype: int64

--- Sample Verification ---


Unnamed: 0,CURSO,AREA
524,"OFIMÁTICA PROFESIONAL (MICROSOFT WORD, EXCEL Y...",EDUCACIÓN Y PEDAGOGÍA
6172,MICROSOFT POWER BI - NIVEL BÁSICO,OFIMÁTICA Y PRODUCTIVIDAD
621,POWERPOINT - NIVEL INTERMEDIO,OFIMÁTICA Y PRODUCTIVIDAD
1081,INGLÉS - NIVEL INTERMEDIO B2,IDIOMAS
241,HERRAMIENTAS TIC PARA TRABAJOS COLABORATIVOS,EDUCACIÓN Y PEDAGOGÍA
6822,ITALIANO - NIVEL BÁSICO A1,IDIOMAS
6551,REDACCIÓN DE DOCUMENTOS ADMINISTRATIVOS,GESTIÓN Y ADMINISTRACIÓN
5804,"OFIMÁTICA PROFESIONAL (MICROSOFT WORD, EXCEL Y...",EDUCACIÓN Y PEDAGOGÍA
6761,ASISTENTE CONTABLE - NIVEL BÁSICO,GESTIÓN Y ADMINISTRACIÓN
6329,MICROSOFT EXCEL - NIVEL AVANZADO,OFIMÁTICA Y PRODUCTIVIDAD


In [16]:
# Verify if there are any null values in the 'AREA' column
print("--- Null Value Verification: AREA ---")

null_count = df['AREA'].isnull().sum()
print(f"Number of null values: {null_count}")

if null_count > 0:
    print("\nRows with null AREA:")
    display(df[df['AREA'].isnull()])
else:
    print("Success: No null values found in AREA column.")

--- Null Value Verification: AREA ---
Number of null values: 0
Success: No null values found in AREA column.


In [17]:
df.tail()

Unnamed: 0,COORDINADORA,CURSO,NOTA,NOTA TXT,PERIODO,HORAS,CIUDAD,AREA
6891,ELIZABETH,IMPLEMENTACIÓN Y ADMINISTRACIÓN DE AULAS DE IN...,19.0,DIECINUEVE,12 - julio - 2022 al 23 - julio - 2022,120 horas,LIMA,EDUCACIÓN Y PEDAGOGÍA
6892,ELIZABETH,INGLÉS - NIVEL BÁSICO A3,19.0,DIECINUEVE,04 - julio - 2022 al 15 - julio - 2022,120 horas,HUÁNUCO,IDIOMAS
6893,ELIZABETH,INGLÉS - NIVEL BÁSICO A3,19.0,DIECINUEVE,04 - julio - 2022 al 15 - julio - 2022,120 horas,HUÁNUCO,IDIOMAS
6894,FELIX,MICROSOFT WORD - NIVEL BÁSICO,17.0,DIECISIETE,12 - julio - 2022 al 23 - julio - 2022,120 horas,LIMA,OFIMÁTICA Y PRODUCTIVIDAD
6895,ELIZABETH,COMPETENCIAS DIGITALES PARA EL AULA,17.0,DIECISIETE,13 - junio - 2022 al 24 - junio - 2022,120 horas,LA LIBERTAD,EDUCACIÓN Y PEDAGOGÍA


### COLUMN NOTA

In [6]:
# Analyze the 'NOTA' column
print("--- Unique Values Analysis: NOTA ---")

# Number of unique values
unique_count = df['NOTA'].nunique()
print(f"Number of unique values: {unique_count}")

# List of unique values
print(f"\nUnique values found: {df['NOTA'].unique()}")

# Frequency of each value (Value Counts)
print("\nFrequency of each course:")
display(df['NOTA'].value_counts())

--- Unique Values Analysis: NOTA ---
Number of unique values: 60

Unique values found: [17.         19.         15.         18.         14.         16.
 18.5        18.75       17.5        16.5        18.25       19.25
 20.         17.25       16.93333333 17.75       14.5        19.33333333
 18.71428571 15.5        15.25       16.25       18.27037037         nan
 16.75       19.33333333 18.66666667 18.33333333 17.66666667 18.66666667
 16.66666667 17.83333333 16.83333333 15.33333333 16.66666667 18.16666667
 18.33333333 17.66666667 18.83333333 14.66666667 19.5        13.66666667
 19.16666667 14.33333333 17.16666667 17.16666667 13.5        14.83333333
 20.25       14.75       19.3325     13.89       15.6675     14.25
 19.1047619  18.8631746  15.75       17.66666667 17.9        17.89285714
 17.71428571]

Frequency of each course:


NOTA
19.000000    3691
18.000000    1506
17.000000     683
16.000000     246
15.000000     196
18.500000     114
20.000000      94
14.000000      59
17.500000      51
18.333333      27
18.750000      26
16.500000      21
19.333333      16
17.250000      12
17.666667      11
18.250000      10
17.750000       9
16.250000       9
18.666667       9
19.250000       8
14.500000       8
15.500000       7
19.333333       5
16.750000       4
17.833333       4
15.250000       3
16.666667       3
15.333333       3
14.666667       3
17.666667       3
18.166667       2
19.500000       2
19.166667       2
18.833333       2
18.666667       2
16.933333       1
18.270370       1
18.714286       1
16.833333       1
16.666667       1
18.333333       1
13.666667       1
14.333333       1
17.166667       1
17.166667       1
13.500000       1
14.833333       1
20.250000       1
14.750000       1
19.332500       1
13.890000       1
15.667500       1
14.250000       1
19.104762       1
18.863175       1
15.75

In [None]:
# Transform the 'NOTA' column
print("--- Transforming NOTA to Integer with Rounding ---")

# 1. Round the values to the nearest integer
df['NOTA'] = df['NOTA'].round()

# 2. Fill NaN values with 0 (or another placeholder) to allow integer conversion
# Since 'int' type doesn't support NaN, we must handle them.
# Assuming missing grade = 0 for this cleaning step.
df['NOTA'] = df['NOTA'].fillna(0)

# 3. Convert to integer
df['NOTA'] = df['NOTA'].astype(int)

# Verify the changes
print(f"New unique values: {df['NOTA'].unique()}")
print("\nFrequency of each grade:")
display(df['NOTA'].value_counts())

### COLUMN NOTA TXT

In [7]:
# Analyze the 'NOTA TXT' column
print("--- Unique Values Analysis: NOTA TXT ---")

# Number of unique values
unique_count = df['NOTA TXT'].nunique()
print(f"Number of unique values: {unique_count}")

# List of unique values
print(f"\nUnique values found: {df['NOTA TXT'].unique()}")

# Frequency of each value (Value Counts)
print("\nFrequency of each course:")
display(df['NOTA TXT'].value_counts())

--- Unique Values Analysis: NOTA TXT ---
Number of unique values: 10

Unique values found: ['DIECISIETE' 'DIECINUEVE' 'QUINCE' 'DIECIOCHO' 'CATORCE' 'DIECISÉIS'
 'VEINTE' nan 'DIECISEIS' 'QUINCE ' ' DIECISIETE']

Frequency of each course:


NOTA TXT
DIECINUEVE     3584
DIECIOCHO      1504
DIECISIETE      675
DIECISÉIS       252
QUINCE          210
VEINTE           95
CATORCE          47
DIECISEIS         1
QUINCE            1
 DIECISIETE       1
Name: count, dtype: int64

In [8]:
# Analyze the 'PERIODO' column
print("--- Unique Values Analysis: PERIODO---")

# Number of unique values
unique_count = df['PERIODO'].nunique()
print(f"Number of unique values: {unique_count}")

# List of unique values
print(f"\nUnique values found: {df['PERIODO'].unique()}")

# Frequency of each value (Value Counts)
print("\nFrequency of each course:")
display(df['PERIODO'].value_counts())

--- Unique Values Analysis: PERIODO---
Number of unique values: 171

Unique values found: ['31 - mayo - 2022 al 11 - junio - 2022'
 '23 - mayo - 2022 al 03 - junio - 2022'
 '07 - junio - 2022 al 18 - junio - 2022'
 '06 - junio - 2022 al 17 - junio - 2022'
 '30 - mayo - 2022 al 10 - junio - 2022'
 '24 - mayo - 2022 al 11 - junio - 2022'
 '23 - mayo - 2022 al 11 - junio - 2022'
 '16 - mayo - 2022 al 27 - mayo - 2022'
 '21 - febrero - 2022 al 04 - marzo - 2022'
 '18 - ENERO - 2022 AL 29 - ENERO - 2022'
 '04 - ENERO - 2022 AL 15 - ENERO - 2022'
 '17 - ENERO - 2022 AL 28 - ENERO - 2022'
 '01 - FEBRERO - 2022 AL 12 - FEBRERO - 2022'
 '31 - ENERO - 2022 AL 11 - FEBRERO - 2022'
 '17 - ENERO - 2022 AL 04 - FEBRERO - 2022'
 '03 - ENERO - 2022 AL 14 - ENERO - 2022'
 '24 - ENERO - 2022 AL 11 - FEBRERO - 2022'
 '25 - ENERO - 2022 AL 12 - FEBRERO - 2022'
 '03 - ENERO - 2022 AL 21 - ENERO - 2022'
 '24 - ENERO - 2022 AL 1 1- FEBRERO - 2022'
 '23 - NOVIEMBRE - 2021 AL 04 - DICIEMBRE - 2021 '
 '10 - ENE

PERIODO
01 - FEBRERO - 2022 AL 12 - FEBRERO - 2022      268
17 - ENERO - 2022 AL 04 - FEBRERO - 2022        212
31 - ENERO - 2022 AL 11 - FEBRERO - 2022        202
18 - ENERO - 2022 AL 29 - ENERO - 2022          185
08 - FEBRERO - 2022 AL 19 - FEBRERO - 2022      184
                                               ... 
11 - enero - 2022 al 29 - enero - 2022            1
26 - octubre - 2021 al 06 - noviembre - 2021      1
10 - enero - 2022 al 28 - junio - 2022            1
08 - febrero - 2022 al 19 - febrero - 2022        1
15 - febrero - 2022 al 26 - febrero - 2022        1
Name: count, Length: 171, dtype: int64

### HORAS	

In [9]:
# Analyze the 'HORAS' column
print("--- Unique Values Analysis: HORAS---")

# Number of unique values
unique_count = df['HORAS'].nunique()
print(f"Number of unique values: {unique_count}")

# List of unique values
print(f"\nUnique values found: {df['HORAS'].unique()}")

# Frequency of each value (Value Counts)
print("\nFrequency of each course:")
display(df['HORAS'].value_counts())

--- Unique Values Analysis: HORAS---
Number of unique values: 8

Unique values found: ['120 horas' '160 horas' '120 HORAS' '160 HORAS' '60 horas' '126 HORAS'
 '92 HORAS' '120 horas ']

Frequency of each course:


HORAS
120 HORAS     3207
120 horas     1823
160 HORAS     1076
160 horas      400
126 HORAS      357
60 horas        21
120 horas       10
92 HORAS         2
Name: count, dtype: int64

### CIUDAD

In [10]:
# Analyze the 'CIUDAD' column
print("--- Unique Values Analysis: CIUDAD---")

# Number of unique values
unique_count = df['CIUDAD'].nunique()
print(f"Number of unique values: {unique_count}")

# List of unique values
print(f"\nUnique values found: {df['CIUDAD'].unique()}")

# Frequency of each value (Value Counts)
print("\nFrequency of each course:")
display(df['CIUDAD'].value_counts())

--- Unique Values Analysis: CIUDAD---
Number of unique values: 122

Unique values found: ['LIMA' 'ICA' 'TUMBES' 'LAMBAYEQUE' 'APURIMAC' 'AREQUIPA' 'PIURA'
 'UCAYALY' 'ANCASH' 'JUNIN' 'AYACUCHO' 'MOQUEGUA' 'LORETO' 'JUNÍN'
 'APURÍMAC' 'CUSCO' 'LA LIBERTAD' 'UCAYALI' 'PUNO' 'HUÁNUCO' 'TACNA'
 'OTRO PAÍS' 'CAJAMARCA' 'ÁNCASH' 'HUANUCO' 'SAN MARTÍN' 'Lima'
 'La Libertad' 'Lambayeque' 'Junín' 'MADRE DE DIOS' 'AMAZONAS' 'PASCO'
 'CAÑETE' 'ABANCAY' 'PUERTO MALDONADO' 'CAJABAMBA' 'CHICLAYO' 'APURÌMAC'
 'LAMBAYEQUE ' 'HUANCAVELICA' 'CALLAO' 'SAN MARTIN' nan 'APURÍMAC '
 'NUEVO CHIMBOTE' 'Cusco' 'Piura' 'Cajamarca' 'Ayacucho' 'Apurímac'
 'Huánuco' 'Amazonas' 'Junín ' 'Arequipa' 'Tumbes' 'Áncash' 'San Martín'
 'Pasco' 'LIMA ' 'APURIMAC ' 'Puno' 'Ica' 'HUANCANÉ' 'CHINCHEROS' 'HUACHO'
 'TARAPOTO' 'CHIMBOTE' 'TRUJILLO' 'SATIPO' 'CHEPEN' 'HUANCAYO' 'Loreto'
 'ANCASH ' 'HUARAL' 'CHINCHA ALTA' 'JULIACA' 'CANCHIS' 'HONDURAS'
 'Huancavelica' 'Moquegua' 'HUANCARAMA' 'Challhuahuacho' 'Haquira'
 'Abancay' '

CIUDAD
LIMA                   2453
Lima                    288
AREQUIPA                273
APURIMAC                256
APURÍMAC                253
                       ... 
LA LIBERTAD               1
LIMA                      1
ancash                    1
apurimac                  1
OTRO PAÍS (ECUADOR)       1
Name: count, Length: 122, dtype: int64