# Rutina de limpieza de datos
## Entrega de programas de enfermeria

Detalle de requerimiento: 

•	Especialidad en Administración de los Servicios de Enfermería.

•	Especialidad en Enfermería Psiquiátrica y Salud Mental.

•	Especialidad en Enfermería Geriátrica.



## Carga de datos 

In [1]:
import pandas as pd
# Se carga el conjunto de datos integrado en Power BI
df = pd.read_excel(r"C:\Users\luise\OneDrive\Documentos\Consultoria\ANUIES\Entregas\Yucatan_03_09_2024\Data.xlsx")

## Filtrar datos

### 1. Filtrar nivel de estudios 
El requerimiento pide especialidad, por lo cual, el conjunto de datos será el resultado de filtrar el campo de nivel de estudios por todo aquello relacionado a especialidad. 

1. Ver los valores unicos del campo nivel de estudios 
2. Filtrar por lo que sea similar o igual a especialidad 

In [78]:
# 1. Valores unicos 
print("Valores unicos de nivel de estudios: ")
print("")
print(df["NIVEL DE ESTUDIOS"].unique())
df_filter = df[df["NIVEL DE ESTUDIOS"] == "ESPECIALIDAD"]

print("")
print("Resultado del filtrar los datos: ")
print("")
print(f"El conjunto de datos tiene {df_filter.shape[0]} filas y {df_filter.shape[1]} columnas")

Valores unicos de nivel de estudios: 

['ESPECIALIDAD' 'MAESTRIA' 'LICENCIATURA UNIVERSITARIA Y TECNOLOGICA'
 'DOCTORADO' 'LICENCIATURA EN EDUCACION NORMAL' 'TECNICO SUPERIOR' nan]

Resultado del filtrar los datos: 

El conjunto de datos tiene 17802 filas y 47 columnas


### 2. Filtrar Modalidad de Estudios
Se busca filtrar por la modalidad de estudios escolarizada 

1. Buscar valores unicos de modalidad de estudios 
2. Filtrar campo por valores similares a escolarizado

In [79]:
# 1. Valores unicos
print("Valores unicos de modalidad de estudios: ")
print("")
print(df_filter["MODALIDAD DE ESTUDIOS"].unique())
# 2. Filtrar valores
df_filter_escolar = df_filter[
    (df_filter["MODALIDAD DE ESTUDIOS"] == "ESCOLARIZADA" ) |  
    ( df_filter["MODALIDAD DE ESTUDIOS"]  == "ESCOLAR")]


print("")
print("Resultado del filtrar los datos: ")
print("")
print(f"El conjunto de datos tiene {df_filter_escolar.shape[0]} filas y {df_filter_escolar.shape[1]} columnas")

Valores unicos de modalidad de estudios: 

['ESCOLARIZADA' 'NO ESCOLAR' 'ESCOLAR' 'NO ESCOLARIZADA' 'MIXTA']

Resultado del filtrar los datos: 

El conjunto de datos tiene 14867 filas y 47 columnas


### 3. Filtrar Campo Amplio de Formación 
Se busca filtrar por un campo amplio que se relacione al area de la salud. 

1. Buscar valores unicos similares al area de la salud
2. Filtrar el conjunto de datos por los valores similares al area de la salud

In [80]:
# 1. Valores unicos 
print("Valores unicos campo amplio de formación : ")
print("")
df_filter_escolar["CAMPO AMPLIO DE FORMACIÓN"].unique() 

df_filter_escolar_salud = df_filter_escolar[
    (df_filter_escolar["CAMPO AMPLIO DE FORMACIÓN"] == "CIENCIAS DE LA SALUD") | 
    (df_filter_escolar["CAMPO AMPLIO DE FORMACIÓN"] == "SALUD")
    ]

print("")
print("Resultado del filtrar los datos: ")
print("")
print(f"El conjunto de datos tiene {df_filter_escolar_salud.shape[0]} filas y {df_filter_escolar_salud.shape[1]} columnas")

Valores unicos campo amplio de formación : 


Resultado del filtrar los datos: 

El conjunto de datos tiene 7715 filas y 47 columnas


### 4. Filtrar Campo Espeficio de Formación 
Se busca filtrar por un campo especifico que sea similar al area de salud / Enfermeria

1. Buscar valores unicos similares al area de enfermeria
2. Filtrar el conjunto de datos por los valores similares al area de enfermeria

In [81]:
# 1. Valores unicos 
print("Valores unicos campo especifico de formación : ")
print("")
df_filter_escolar_salud["CAMPO ESPECÍFICO DE FORMACIÓN"].unique()
df_filter_escolar_salud_especifico = df_filter_escolar_salud[
    df_filter_escolar_salud["CAMPO ESPECÍFICO DE FORMACIÓN"] != "CIENCIAS ODONTOLOGICAS"]

print("")
print("Resultado del filtrar los datos: ")
print("")
print(f"El conjunto de datos tiene {df_filter_escolar_salud_especifico.shape[0]} filas y {df_filter_escolar_salud_especifico.shape[1]} columnas")

Valores unicos campo especifico de formación : 


Resultado del filtrar los datos: 

El conjunto de datos tiene 6307 filas y 47 columnas


### 5. Filtrar por Campo Detallado de Formación 
Se busca filtrar por campos similares al area de enfermeria. En este caso, se hace una lista de los valores que no se requieren y se filtra por todo aquello que no es similar a esta lista. 

1. Buscar valores unicos 
2. Crear lista de campos que no similares
3. Filtrar por todo lo que no sea igual a la lista de campos 



In [82]:
# 1. Valores unicos 
print("Valores unicos campo detallado de formación : ")
print("")
print(df_filter_escolar_salud_especifico["CAMPO DETALLADO DE FORMACIÓN"].unique())

# 2. Crear lista
campos_no_similares = ['NUTRICION', 'ESTOMATOLOGIA Y ODONTOLOGIA','MEDICINA HOMEOPATICA','AUDIOMETRIA Y OPTOMETRIA', 'TERAPIA Y REHABILITACION',
                       'FARMACIA','TRATAMIENTOS ALTERNATIVOS Y ACUPUNTURA']

# 3. Filtrar datos
df_filter_escolar_salud_especifico_formacion = df_filter_escolar_salud_especifico[
    ~df_filter_escolar_salud_especifico["CAMPO DETALLADO DE FORMACIÓN"].isin(campos_no_similares)
]

print("")
print("Resultado del filtrar los datos: ")
print("")
print(f"El conjunto de datos tiene {df_filter_escolar_salud_especifico_formacion.shape[0]} filas y {df_filter_escolar_salud_especifico_formacion.shape[1]} columnas")

Valores unicos campo detallado de formación : 

['NUTRICION' 'SALUD, PROGRAMAS MULTIDISCIPLINARIOS O GENERALES'
 'PLANES MULTIDISCIPLINARIOS O GENERALES DEL CAMPO DE DISCIPLINAS AUXILIARES PARA LA SALUD'
 'MEDICINA GENERAL' 'ESTOMATOLOGIA Y ODONTOLOGIA'
 'DIAGNOSTICO MEDICO Y TECNOLOGIA DEL TRATAMIENTO' 'MEDICINA HOMEOPATICA'
 'SALUD PUBLICA' 'AUDIOMETRIA Y OPTOMETRIA' 'TERAPIA Y REHABILITACION'
 'ENFERMERIA Y CUIDADOS' 'FARMACIA'
 'TRATAMIENTOS ALTERNATIVOS Y ACUPUNTURA'
 'ENFERMERIA GENERAL Y OBSTETRICIA'
 'PLANES MULTIDISCIPLINARIOS O GENERALES DEL CAMPO DE TERAPIA, REHABILITACION Y TRATAMIENTOS ALTERNATIVOS'
 'MEDICINA DE ESPECIALIDAD' 'ENFERMERIA DE ESPECIALIDAD' 'MEDICINA']

Resultado del filtrar los datos: 

El conjunto de datos tiene 5956 filas y 47 columnas


### 6. Filtrar por campo unitario de formación 

Se busca filtrar por un campo

In [83]:
# 1. Valores unicos 
print("Valores unicos campo unitario de formación : ")
print("")
lista = df_filter_escolar_salud_especifico_formacion["CAMPO UNITARIO DE FORMACIÓN"].unique()
n = 1
for i in lista:
    print(f"Nombre del campo: {i} número {n}")
    n += 1
    
# 2. Lista de campos no similares   
campos_no_similares = [
    "NO APLICA CAMPO UNITARIO","ANGIOLOGIA Y CIRUGIA VASCULAR","CARDIOLOGIA","CIRUGIA CARDIOTORACICA","CIRUGIA NEUROLOGICA",
    "CIRUGIA PLASTICA ESTETICA Y RECONSTRUCTIVA","ENDOCRINOLOGIA","GASTROENTEROLOGIA","HEMATOLOGIA","INMUNOLOGIA CLINICA Y ALERGOLOGIA",
    "OTORRINOLARINGOLOGIA Y CIRUGIA DE CABEZA Y CUELLO","RADIOLOGIA E IMAGEN","REUMATOLOGIA","ORTOPEDIA Y TRAUMATOLOGIA",
    "ANESTESIOLOGIA","MEDICINA AEROESPACIAL","OFTALMOLOGIA","MEDICINA NUCLEAR","CIRUGIA PEDIATRICA",
    "HOMEOPATIA Y MEDICINA DE TERAPIA COMPLEMENTARIA","NEONATOLOGIA Y PEDIATRIA","ALERGOLOGIA E INMUNOLOGIA",
    "ANGIOLOGIA","DERMATOLOGIA","MEDICINA DEL DEPORTE","MEDICINA FORENSE","OTORRINOLARINGOLOGIA","MEDICINA LEGAL Y FORENSE",
    "NEUMOLOGIA","ENFERMEDADES DEL COLON Y RECTO","GENETICA MEDICA","AUDIOLOGIA","RADIOLOGIA","AUDIOLOGIA Y FONIATRIA",
    "NEUROFISIOLOGIA CLINICA"]


df_filter_escolar_salud_especifico_formacion_unitario = df_filter_escolar_salud_especifico_formacion[
    ~df_filter_escolar_salud_especifico_formacion["CAMPO UNITARIO DE FORMACIÓN"].isin(campos_no_similares)]

print("")
print("Resultado del filtrar los datos: ")
print("")
print(f"El conjunto de datos tiene {df_filter_escolar_salud_especifico_formacion_unitario.shape[0]} filas y {df_filter_escolar_salud_especifico_formacion_unitario.shape[1]} columnas")

Valores unicos campo unitario de formación : 

Nombre del campo: NO APLICA CAMPO UNITARIO número 1
Nombre del campo: ANGIOLOGIA Y CIRUGIA VASCULAR número 2
Nombre del campo: CARDIOLOGIA número 3
Nombre del campo: CIRUGIA CARDIOTORACICA número 4
Nombre del campo: CIRUGIA NEUROLOGICA número 5
Nombre del campo: CIRUGIA PLASTICA ESTETICA Y RECONSTRUCTIVA número 6
Nombre del campo: ENDOCRINOLOGIA número 7
Nombre del campo: GASTROENTEROLOGIA número 8
Nombre del campo: HEMATOLOGIA número 9
Nombre del campo: INMUNOLOGIA CLINICA Y ALERGOLOGIA número 10
Nombre del campo: MEDICINA CRITICA número 11
Nombre del campo: NEUROLOGIA número 12
Nombre del campo: ONCOLOGIA Y RADIOTERAPIA número 13
Nombre del campo: OTORRINOLARINGOLOGIA Y CIRUGIA DE CABEZA Y CUELLO número 14
Nombre del campo: RADIOLOGIA E IMAGEN número 15
Nombre del campo: REUMATOLOGIA número 16
Nombre del campo: MEDICINA DEL TRABAJO número 17
Nombre del campo: ORTOPEDIA Y TRAUMATOLOGIA número 18
Nombre del campo: ANESTESIOLOGIA número 19


### 7. Filtrar los datos por nombre de programa educativo

En este caso, se van a cambiar los pasos anteriores.

1. Se exporta el resultado a un csv
2. Se trabaja en excel y luego se cargan los datos, creando una nueva columna con 4 categorias
   1. La primer categoria es **NS** (No similar) es un campo de formación no similar a lo que buscamos
   2. La segunda categoria es **ADM** para campos similares a Especialidad en Administración de los Servicios de Enfermería
   3. La tercer categoria es **PSI** para campos similares a Especialidad en Enfermería Psiquiátrica y Salud Mental
   4. La tercer categoria es **GER** para campos simialres a Especialidad en Enfermería Geriátrica.

3. Unir los datos de campos clasificados con el conjunto de datos. Filtrar los datos quitando NS 
4. Exportar los datos para graficar en R


In [110]:
# 1. Exportar el csv
df_filter_escolar_salud_especifico_formacion_unitario_export = df_filter_escolar_salud_especifico_formacion_unitario["NOMBRE PROGRAMA EDUCATIVO"]
df_filter_escolar_salud_especifico_formacion_unitario_export.to_csv("C:/users/luise/Downloads/campos.csv",  encoding='utf-8-sig')


# 2. Cargar los datos de excel
campos_clasificados = pd.read_excel(r"C:\Users\luise\OneDrive\Documentos\Consultoria\ANUIES\Entregas\Yucatan_03_09_2024\campos_clasificados.xlsx", 
                                   sheet_name= "Limpieza")


# 3. Unir los datos y filtrar 
df_merge = df_filter_escolar_salud_especifico_formacion_unitario.merge(campos_clasificados, on = "NOMBRE PROGRAMA EDUCATIVO", how='left')
df_final = df_merge[df_merge["Clasificacion_req"] != "NS"]
print("El resultado de filtrar los datos es: ")
print("")
print(f"El conjunto de datos tiene {df_final.shape[0]} filas y {df_final.shape[1]} columnas")

# 4. Exportar los datos 
print("")
df_final.to_csv(r"C:\Users\luise\OneDrive\Documentos\Consultoria\ANUIES\Entregas\Yucatan_03_09_2024\df_final.csv")
print("Datos exportados")


El resultado de filtrar los datos es: 

El conjunto de datos tiene 542 filas y 48 columnas

Datos exportados
