In [1]:
import numpy as np
import pandas as pd
from unidecode import unidecode

In [2]:
'''La intención de este jupyter notebook es consolidar los conocimientos y habilidades practicas 
en el uso de operaciones vectoriales en texto o string, estas operaciones se aplicaran en columnas
de un data frame, es decir en Series. Utilizare una data de una prueba técnica que no pude limpiar'''

'La intención de este jupyter notebook es consolidar los conocimientos y habilidades practicas \nen el uso de operaciones vectoriales en texto o string, estas operaciones se aplicaran en columnas\nde un data frame, es decir en Series. Utilizare una data de una prueba técnica que no pude limpiar'

In [3]:
# Inicialmente voy a cargar el dataset, este se encuentra en formato excel
# Por esta razón utilizaré el comando pd.read_excel()
# y especificare algunos parametros para el cargue adecuado de la data
# sheet_name= "base" --> con este parametro especifico la hoja o hojas del archivo de Excel que se desea leer.
# header=0 --> Indica la fila que se utilizará como encabezado de las columnas.
# usecols= "A:AM" --> Permite seleccionar las columnas que se desean leer.
# na_filter= False --> e utiliza para especificar si se deben detectar y reemplazar los valores de celdas vacías o no válidas (como "NaN" o "NA") durante la lectura de un archivo Excel.

In [4]:
educacion=pd.read_excel("C:/Users/Andres/Downloads/Inscritos-2015-2021.xlsx",sheet_name="base", header=0, usecols="A:AM", na_filter=False)

In [5]:
# Verificamos que el dataframe se haya cargado de forma correcta con el .head()
educacion.head()

Unnamed: 0,CÓDIGO DE LA INSTITUCIÓN,IES_PADRE,INSTITUCIÓN DE EDUCACIÓN SUPERIOR (IES),PRINCIPAL O SECCIONAL,ID SECTOR,IES\tSECTOR IES,ID CARACTER,CARACTER IES,CÓDIGO DEL DEPARTAMENTO (IES),DEPARTAMENTO DE DOMICILIO DE LA IES,...,DESC CINE CODIGO DETALLADO,CÓDIGO DEL DEPARTAMENTO (PROGRAMA),DEPARTAMENTO DE OFERTA DEL PROGRAMA,CÓDIGO DEL MUNICIPIO (PROGRAMA),MUNICIPIO DE OFERTA DEL PROGRAMA,ID SEXO,SEXO,AÑO,SEMESTRE,INSCRITOS
0,1101,1101,UNIVERSIDAD NACIONAL DE COLOMBIA,PRINCIPAL,1,OFICIAL,4,UNIVERSIDAD,11,BOGOTA D.C.,...,,11,BOGOTA D.C.,11001,BOGOTA D.C.,2,FEMENINO,2015,1,44
1,1101,1101,UNIVERSIDAD NACIONAL DE COLOMBIA,PRINCIPAL,1,OFICIAL,4,UNIVERSIDAD,11,BOGOTA D.C.,...,,11,BOGOTA D.C.,11001,BOGOTA D.C.,1,MASCULINO,2015,1,88
2,1101,1101,UNIVERSIDAD NACIONAL DE COLOMBIA,PRINCIPAL,1,OFICIAL,4,UNIVERSIDAD,11,BOGOTA D.C.,...,,11,BOGOTA D.C.,11001,BOGOTA D.C.,2,FEMENINO,2015,1,50
3,1101,1101,UNIVERSIDAD NACIONAL DE COLOMBIA,PRINCIPAL,1,OFICIAL,4,UNIVERSIDAD,11,BOGOTA D.C.,...,,11,BOGOTA D.C.,11001,BOGOTA D.C.,1,MASCULINO,2015,1,17
4,1101,1101,UNIVERSIDAD NACIONAL DE COLOMBIA,PRINCIPAL,1,OFICIAL,4,UNIVERSIDAD,11,BOGOTA D.C.,...,,11,BOGOTA D.C.,11001,BOGOTA D.C.,2,FEMENINO,2015,1,64


In [6]:
# Ahora creamos una copia del dataframe, para manipular la copia.
inscritos= educacion.copy()

In [7]:
# Comenzamos con el analisis exploratorio de los datos, primero observaremos la estructura y tipo de datos.
inscritos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 330133 entries, 0 to 330132
Data columns (total 39 columns):
 #   Column                                   Non-Null Count   Dtype 
---  ------                                   --------------   ----- 
 0   CÓDIGO DE LA INSTITUCIÓN                 330133 non-null  int64 
 1   IES_PADRE                                330133 non-null  int64 
 2   INSTITUCIÓN DE EDUCACIÓN SUPERIOR (IES)  330133 non-null  object
 3   PRINCIPAL O SECCIONAL                    330133 non-null  object
 4   ID SECTOR                                330133 non-null  int64 
 5   IES	SECTOR IES                           330133 non-null  object
 6   ID CARACTER                              330133 non-null  int64 
 7   CARACTER IES                             330133 non-null  object
 8   CÓDIGO DEL DEPARTAMENTO (IES)            330133 non-null  int64 
 9   DEPARTAMENTO DE DOMICILIO DE LA IES      330133 non-null  object
 10  CÓDIGO DEL MUNICIPIO (IES)               330

In [8]:
# ahora verificaremos el nombre de las columnas del dataframe
inscritos.columns

Index(['CÓDIGO DE LA INSTITUCIÓN', 'IES_PADRE',
       'INSTITUCIÓN DE EDUCACIÓN SUPERIOR (IES)', 'PRINCIPAL O SECCIONAL',
       'ID SECTOR', 'IES\tSECTOR IES', 'ID CARACTER', 'CARACTER IES',
       'CÓDIGO DEL DEPARTAMENTO (IES)', 'DEPARTAMENTO DE DOMICILIO DE LA IES',
       'CÓDIGO DEL MUNICIPIO (IES)', 'MUNICIPIO DE DOMICILIO DE LA IES',
       'CÓDIGO SNIES DEL PROGRAMA', 'PROGRAMA ACADÉMICO', 'ID NIVEL ACADÉMICO',
       'NIVEL ACADÉMICO', 'ID NIVEL DE FORMACIÓN', 'NIVEL DE FORMACIÓN',
       'ID METODOLOGÍA', 'METODOLOGÍA', 'ID ÁREA', 'ÁREA DE CONOCIMIENTO',
       'ID NÚCLEO', 'NÚCLEO BÁSICO DEL CONOCIMIENTO (NBC)',
       'ID CINE CAMPO AMPLIO', 'DESC CINE CAMPO AMPLIO',
       'ID CINE CAMPO ESPECIFICO', 'DESC CINE CAMPO ESPECIFICO',
       'ID CINE CODIGO DETALLADO', 'DESC CINE CODIGO DETALLADO',
       'CÓDIGO DEL DEPARTAMENTO (PROGRAMA)',
       'DEPARTAMENTO DE OFERTA DEL PROGRAMA',
       'CÓDIGO DEL MUNICIPIO (PROGRAMA)', 'MUNICIPIO DE OFERTA DEL PROGRAMA',
       'ID 

In [9]:
# convertimos el nombre de las columnas para poder manipularlas mas facilmente
# Se eliminan los espacios en blanco con str.strip()
# Luego se reemplazan los espacios en blanco " ", con _ a través de la funcion replace

inscritos.columns = inscritos.columns.str.strip().str.replace(" ", "_")

In [10]:
inscritos.columns

Index(['CÓDIGO_DE_LA_INSTITUCIÓN', 'IES_PADRE',
       'INSTITUCIÓN_DE_EDUCACIÓN_SUPERIOR_(IES)', 'PRINCIPAL_O_SECCIONAL',
       'ID_SECTOR', 'IES\tSECTOR_IES', 'ID_CARACTER', 'CARACTER_IES',
       'CÓDIGO_DEL_DEPARTAMENTO_(IES)', 'DEPARTAMENTO_DE_DOMICILIO_DE_LA_IES',
       'CÓDIGO_DEL_MUNICIPIO_(IES)', 'MUNICIPIO_DE_DOMICILIO_DE_LA_IES',
       'CÓDIGO_SNIES_DEL_PROGRAMA', 'PROGRAMA_ACADÉMICO', 'ID_NIVEL_ACADÉMICO',
       'NIVEL_ACADÉMICO', 'ID_NIVEL_DE_FORMACIÓN', 'NIVEL_DE_FORMACIÓN',
       'ID_METODOLOGÍA', 'METODOLOGÍA', 'ID_ÁREA', 'ÁREA_DE_CONOCIMIENTO',
       'ID_NÚCLEO', 'NÚCLEO_BÁSICO_DEL_CONOCIMIENTO_(NBC)',
       'ID_CINE_CAMPO_AMPLIO', 'DESC_CINE_CAMPO_AMPLIO',
       'ID_CINE_CAMPO_ESPECIFICO', 'DESC_CINE_CAMPO_ESPECIFICO',
       'ID_CINE_CODIGO_DETALLADO', 'DESC_CINE_CODIGO_DETALLADO',
       'CÓDIGO_DEL_DEPARTAMENTO_(PROGRAMA)',
       'DEPARTAMENTO_DE_OFERTA_DEL_PROGRAMA',
       'CÓDIGO_DEL_MUNICIPIO_(PROGRAMA)', 'MUNICIPIO_DE_OFERTA_DEL_PROGRAMA',
       'ID_

In [11]:
# Ahora vamos a explorar la columna municipio_de_domicilio_de_la_ies
# Identificamos los valores unicos de esta columna
# Esta columna es de tipo dtype=object

inscritos['DEPARTAMENTO_DE_DOMICILIO_DE_LA_IES'].unique()

array(['BOGOTA D.C.', 'ANTIOQUIA', 'CALDAS', 'VALLE DEL CAUCA', 'BOYACA',
       'CAUCA', 'RISARALDA', 'CORDOBA', 'HUILA', 'CAQUETA', 'CHOCO',
       'META', 'CESAR', 'AMAZONAS', 'SAN ANDRES Y PROVIDENCIA',
       'ATLANTICO', 'SANTANDER', 'BOLIVAR', 'NARINO', 'TOLIMA', 'QUINDIO',
       'NORTE DE SANTANDER', 'MAGDALENA', 'CUNDINAMARCA', 'SUCRE',
       'LA GUAJIRA', 'CASANARE', 'PUTUMAYO', 'Bogotá D.C', 'Antioquia',
       'Caldas', 'Valle del Cauca', 'Boyacá', 'Magdalena', 'Cauca',
       'Risaralda', 'Córdoba', 'Bolivar', 'Huila', 'Caquetá', 'Chocó',
       'Meta', 'Cesar', 'Amazonas', 'San Andrés y Providencia',
       'Atlántico', 'Santander', 'Nariño', 'Tolima', 'Quindío',
       'Norte de Santander', 'Cundinamarca', 'Sucre', 'Guajira',
       'Casanare', 'Putumayo', 'Arauca', 'BOGOTA D.C', 'NARIÑO',
       'GUAJIRA', 'Bogotá D.C.', 'Valle del C', 'Archipiélag', 'Bolívar',
       'Norte de Sa', 'Cundinamarc', 'La Guajira',
       'Archipiélago de San Andrés, Providencia y Santa C

In [12]:
# Con este analisis exploratorio de la columna o Serie DEPARTAMENTO_DE_DOMICILIO_DE_LA_IES podemos concluir lo siguiente:
# 1. Hay registros en mayuscula y registros en minuscula
# 2. Hay registros con caracteres especiales, especificamente tilde (´)
# 3. Hay registros como bogota, san andres, guajira, nariño, etc. Que estan escritos de distintas maneras
# 4. Los datos de la Serie son de tipo Object



In [13]:
# Vamos a comenzar convirtiendo la columna de dtype=object a dtype=string
inscritos['DEPARTAMENTO_DE_DOMICILIO_DE_LA_IES']=inscritos['DEPARTAMENTO_DE_DOMICILIO_DE_LA_IES'].astype('string')
inscritos.DEPARTAMENTO_DE_DOMICILIO_DE_LA_IES

0                BOGOTA D.C.
1                BOGOTA D.C.
2                BOGOTA D.C.
3                BOGOTA D.C.
4                BOGOTA D.C.
                 ...        
330128    Norte De Santander
330129    Norte De Santander
330130    Norte De Santander
330131    Norte De Santander
330132    Norte De Santander
Name: DEPARTAMENTO_DE_DOMICILIO_DE_LA_IES, Length: 330133, dtype: string

In [14]:
# Vamos a explorar el conteo de valores de la serie
inscritos['DEPARTAMENTO_DE_DOMICILIO_DE_LA_IES'].value_counts()

Bogotá D.C.                 56342
BOGOTA D.C                  46840
Bogotá, D.C.                29417
Antioquia                   25295
Bogotá D.C                  21710
                            ...  
Amazonas                       26
Archipiélag                    18
AMAZONAS                       18
San Andrés y Providencia       13
Arauca                          1
Name: DEPARTAMENTO_DE_DOMICILIO_DE_LA_IES, Length: 72, dtype: Int64

In [15]:
# El siguiente paso es la limpieza de los datos:
# - strip() para eliminar los espacios innecesarios antes y después del texto.
# - unidecode para uniformizar los caracteres.
# - upper() para colocar en mayúsculas.
# - replace() para eliminar caracteres innecesarios, especificamente los puntos y comas

inscritos['DEPARTAMENTO_DE_DOMICILIO_DE_LA_IES'] = (
    inscritos['DEPARTAMENTO_DE_DOMICILIO_DE_LA_IES']
    .apply(lambda x:x.strip())
    .apply(unidecode)
    .str.upper()
    .str.replace('[.,]', '', regex=True)
)

In [17]:
# Ahora vamos a definir el diccionario para reemplazar las variables que sean erróneas.
# Como se trata de una variable geográfica con casos limitados, bastará con explorar los datos únicos y crear el diccionario de reemplazos

inscritos['DEPARTAMENTO_DE_DOMICILIO_DE_LA_IES'].unique()

In [18]:
# De la revisión anterior, se define el diccionario_reemplazos y se realizan los cambios

diccionario_reemplazos = {
    'SAN ANDRES Y PROVIDENCIA':'SAN ANDRES_PROVIDENCIA',
    'ARCHIPIELAGO DE SAN ANDRES PROVIDENCIA Y SANTA CATALINA': 'SAN ANDRES_PROVIDENCIA',
    'ARCHIPIELAG': 'SAN ANDRES_PROVIDENCIA',
    'CUNDINAMARC': 'CUNDINAMARCA',
    'VALLE DEL C': 'VALLE DEL CAUCA',
    'LA GUAJIRA': 'GUAJIRA',
    'NORTE DE SA': 'NORTE DE SANTANDER',
}

inscritos['DEPARTAMENTO_DE_DOMICILIO_DE_LA_IES'] = inscritos['DEPARTAMENTO_DE_DOMICILIO_DE_LA_IES'].replace(diccionario_reemplazos)

In [None]:
# Se verifica la cantidad de datos únicos finales.

print("Dato geográfico único")
print(inscritos.DEPARTAMENTO_DE_DOMICILIO_DE_LA_IES.unique())

print("="*50)
print("Cuenta de dato geográfico único")
print(inscritos.DEPARTAMENTO_DE_DOMICILIO_DE_LA_IES.nunique())