In [53]:
# Importar las librerías para trabajar la limpieza de datos
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [54]:
# Importar el dataset (csv)
df = pd.read_csv('Padron_docentes.csv', sep=';', encoding='UTF-8', low_memory=False)

In [27]:
# Visualizar las 5 primeras filas del dataset como un dataset
df.head()

In [28]:
# Contabilizar el número de filas y columnas del dataset
print(f"El dataset tiene {df.shape[0]} filas y {df.shape[1]} columnas.")

In [29]:
# Contabilizar el número de registros duplicados
print(f"El dataset tiene {df.duplicated().sum()} registros duplicados.")

In [30]:
# Contabilizar los campos vacíos dentro de cada columna del dataset
print(f"El dataset tiene {df.isnull().sum().sum()} campos vacíos.")

In [31]:
# Mostrar cada registro que tiene campos vacíos
df[df.isnull().any(axis=1)]

In [32]:
# Cambiar el valor de la columna "apellido paterno" y "apellido materno" en la fila con número de item 659
df.loc[658, 'APELLIDO PATERNO'] = 'FERNANDEZ'
df.loc[658, 'APELLIDO MATERNO'] = ''

In [33]:
# Repetir el valor de la columna "apellido paterno" en la columna "apellido materno" en la fila con número de items
# 659, 171, 773, 997, 1337, 1768 y 1942
df.loc[658, 'APELLIDO MATERNO'] = df.loc[658, 'APELLIDO PATERNO']
df.loc[170, 'APELLIDO MATERNO'] = df.loc[170, 'APELLIDO PATERNO']
df.loc[772, 'APELLIDO MATERNO'] = df.loc[772, 'APELLIDO PATERNO']
df.loc[996, 'APELLIDO MATERNO'] = df.loc[996, 'APELLIDO PATERNO']
df.loc[1336, 'APELLIDO MATERNO'] = df.loc[1336, 'APELLIDO PATERNO']
df.loc[1767, 'APELLIDO MATERNO'] = df.loc[1767, 'APELLIDO PATERNO']
df.loc[1941, 'APELLIDO MATERNO'] = df.loc[1941, 'APELLIDO PATERNO']

In [34]:
# Mostrar los registros con número de item 659, 171, 773, 997, 1337, 1768 y 1942
df.loc[[658, 170, 772, 996, 1336, 1767, 1941]]

In [35]:
# Convertir a formato capitalizable los valores de las columnas "APELLIDO PATERNO", "APELLIDO MATERNO", "NOMBRES"
df['APELLIDO PATERNO'] = df['APELLIDO PATERNO'].str.title()
df['APELLIDO MATERNO'] = df['APELLIDO MATERNO'].str.title()
df['NOMBRES'] = df['NOMBRES'].str.title()

In [36]:
# Mostrar los 5 primeros registros del dataset
df.head()

In [37]:
# Convertir datos a tipos adecuados
df['ITEM'] = df['ITEM'].astype(int)
df['CODIGO DOCENTE'] = df['CODIGO DOCENTE'].astype(str)
df['APELLIDO PATERNO'] = df['APELLIDO PATERNO'].astype(str)
df['APELLIDO MATERNO'] = df['APELLIDO MATERNO'].astype(str)
df['NOMBRES'] = df['NOMBRES'].astype(str)
df['CATEGORIA'] = df['CATEGORIA'].astype(str)
df['TIPO DOC IDENTIDAD'] = df['TIPO DOC IDENTIDAD'].astype(str)
df['N DOC IDENTIDAD'] = df['N DOC IDENTIDAD'].astype(str)
df['CORREO INSTITUCIONAL'] = df['CORREO INSTITUCIONAL'].astype(str)
df['FACULTAD'] = df['FACULTAD'].astype(str)

In [43]:
# Separar la columna "CATEGORIA" en dos columnas: "TIPO TRABAJADOR", "MODALIDAD" en base al primer espacio
df[['TIPO_TRABAJADOR', 'MODALIDAD']] = df['CATEGORIA'].str.split(' ', n=1, expand=True)

In [44]:
# Mostrar los 5 primeros registros del dataset
df.head()

In [45]:
# Mostrar los valores únicos de la columna "MODALIDAD"
df['MODALIDAD'].unique()

In [46]:
# Mostrar las filas con unos de estos valores en la columna "MODALIDAD": "Asociado T. Completo", "Principal T. Completo",
# "Asociado D . E xclusiva. ", "Asociado TP. 20hrs. ", "Principal TP. 20hrs. ", "Asociado TP. 10hrs. ", "Auxiliar TP. 10hrs. ",
# "Auxiliar D. Exclusiva ", "Principal D . E xclusiva", "Auxiliar TP. 04hrs. "

df[df['MODALIDAD'].isin(['Asociado T. Completo', 'Principal T. Completo', 'Asociado D . E xclusiva.',
                        'Asociado TP. 20hrs. ', 'Principal TP. 20hrs. ', 'Asociado TP. 10hrs. ', 'Auxiliar TP. 10hrs. ', 
                        'Auxiliar D. Exclusiva ', 'Principal D . E xclusiva', 'Auxiliar TP. 04hrs. '])]

In [47]:
# Reemplazar los valores de la columna "TIPO TRABAJADOR" por la primera palabra del valor de la columna "MODALIDAD"
df['TIPO_TRABAJADOR'] = df['MODALIDAD'].str.split(' ').str[0]

In [49]:
# Borrar la primera palabra del valor de la columna "MODALIDAD"
df['MODALIDAD'] = df['MODALIDAD'].str.split(' ').str[1:]

In [51]:
# Mostrar los valores únicos de la columna "MODALIDAD"
df['MODALIDAD'] = df['MODALIDAD'].apply(lambda x: ' '.join(x) if isinstance(x, list) else x)
df['MODALIDAD'].unique()

In [None]:
# Mostrar el registro con valor 
df.all()

In [None]:
#Identificar las filas donde TIPO DOC IDENTIDAD = DNI y N DOC IDENTIDAD < 8
df[df['TIPO DOC IDENTIDAD'] == 'DNI'].loc[df['N DOC IDENTIDAD'].str.len() < 8]
#Eliminar las filas donde TIPO DOC IDENTIDAD = DNI y N DOC IDENTIDAD < 8
df = df[~((df['TIPO DOC IDENTIDAD'] == 'DNI') & (df['N DOC IDENTIDAD'].str.len() < 8))]
df
