# La Importancia de la Limpieza, Normalización y Estandarización en la Ciencia de Datos: Un Análisis Detallado

En el ámbito de la ciencia de datos, las técnicas de limpieza, normalización y estandarización no solo representan pasos esenciales en el preprocesamiento de datos, sino que también constituyen pilares fundamentales para la obtención de resultados precisos y confiables. Estas técnicas, a menudo subestimadas, son cruciales para garantizar la calidad e integridad de los datos, elementos que determinan en gran medida el éxito de cualquier análisis o modelo de aprendizaje automático.

![image.png](attachment:image.png)

1. Mejora de la Calidad de los Datos:
    - Limpieza de Datos: Eliminar valores faltantes, duplicados o anómalos mejora la calidad y fiabilidad de los datos, lo que reduce el riesgo de obtener resultados sesgados o incorrectos.
    - Normalización y Estandarización: Al escalar o transformar las características, facilitamos la interpretación de los datos y mejoramos la convergencia de los algoritmos, lo que resulta en modelos más precisos y robustos.

2. Facilita el Análisis Exploratorio:
    - Al limpiar y preparar adecuadamente los datos, es más fácil realizar un análisis exploratorio que proporcione insights y entendimiento sobre los patrones, tendencias y relaciones en los datos.

3. Preparación para Modelos de Aprendizaje Automático:
    - Normalización y Estandarización: Los algoritmos de aprendizaje automático, como la regresión logística o las máquinas de soporte vectorial, pueden ser sensibles a la escala de las características. Normalizar o estandarizar los datos ayuda a estos modelos a converger más rápido y a tener un mejor rendimiento.

    - Limpieza de Datos: Los modelos de aprendizaje automático pueden ser afectados negativamente por datos faltantes o anómalos. Por lo tanto, es crucial tratar estos problemas antes de entrenar un modelo.

4. Aumento de la Reproducibilidad y Fiabilidad:
    - Al aplicar técnicas sistemáticas de limpieza y transformación, se aumenta la reproducibilidad de los análisis y se obtienen resultados más confiables y consistentes.

5. Reducción del Tiempo y Costo de Análisis:
    - La limpieza y preparación adecuada de los datos reducen la necesidad de correcciones posteriores y ajustes en los modelos, lo que ahorra tiempo y recursos en el proceso de análisis de datos.

6. Mejora la Visualización y Comunicación de Resultados:
    - Con datos limpios y bien preparados, las visualizaciones resultantes son más claras e interpretables, facilitando la comunicación de los resultados a stakeholders o audiencias no técnicas.

En resumen, las técnicas de limpieza, normalización y estandarización son esenciales en la ciencia de datos porque aseguran la calidad, fiabilidad y interpretabilidad de los datos, preparándolos para análisis avanzados y modelos de aprendizaje automático. Al aplicar estas técnicas de manera adecuada, podemos obtener insights más precisos, modelos más robustos y resultados más confiables, impulsando así la toma de decisiones basada en datos en diversos campos y aplicaciones.

Recomendaciones y consejos para llevar a cabo una buena limpieza, estandarización y normalización de datos:

1. Entender el Contexto y los Datos: Antes de comenzar, es crucial comprender el contexto y la naturaleza de los datos. Conocer el dominio del problema y las características de los datos te ayudará a tomar decisiones más informadas durante el proceso de limpieza y transformación.

2. Identificar y Tratar Datos Faltantes: Detecta y decide cómo tratar los valores faltantes (eliminarlos, imputarlos, etc.) según el tipo de datos y el impacto en el análisis posterior.

3. Manejar Datos Anómalos o Erróneos: Identifica y corrige los datos anómalos o erróneos que puedan afectar la calidad de los análisis. Utiliza técnicas como el filtrado estadístico o la corrección basada en reglas.

4. Estandarizar y Normalizar Características: Aplica técnicas de estandarización y normalización para escalar las características y asegurar que todas tengan un rango similar, facilitando así la convergencia de los modelos y la interpretación de los datos.

5. Verificar la Distribución de Datos: Realiza visualizaciones y estadísticas descriptivas para verificar la distribución de los datos antes y después de la limpieza y transformación. Esto te ayudará a asegurar que los datos se han procesado adecuadamente.

6. Utilizar Herramientas y Librerías Apropiadas: Familiarízate con herramientas y librerías de Python como pandas, scikit-learn o NumPy que ofrecen funciones y métodos específicos para limpieza, estandarización y normalización de datos.

7. Documentar el Proceso de Limpieza y Transformación: Documenta cada paso del proceso de limpieza y transformación, incluyendo decisiones tomadas, métodos aplicados y cambios realizados. Esto facilitará la reproducibilidad y comprensión del análisis.

8. Validar los Resultados con Métricas y Visualizaciones: Utiliza métricas estadísticas y visualizaciones para validar los resultados obtenidos después de la limpieza y transformación. Compara las distribuciones, varianzas y otras características relevantes antes y después del procesamiento.

9. Considerar el Impacto en el Análisis Posterior: Piensa en cómo las decisiones de limpieza, estandarización y normalización afectarán el análisis y los modelos posteriores. Asegúrate de que las transformaciones sean adecuadas para los algoritmos y técnicas de análisis que planeas utilizar.

10. Revisar y Actualizar Regularmente: La limpieza y transformación de datos no es un proceso único. Revisa y actualiza regularmente los datos, especialmente si provienen de fuentes en constante cambio, para mantener su calidad y relevancia a lo largo del tiempo.

# Preparación y configuración del entorno de trabajo

## Conexión y consulta a la fuente de datos

In [1]:
# Importar librerias

import os
import altair as alt
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import pyodbc
import warnings
import sqlite3

In [2]:
try:
    # Leer el archivo CSV ubicado en la ruta especificada y asigna los datos a la variable df_resultados
    df_acumulado_saber_11 = pd.read_csv('C:/Users/espit/OneDrive/Documentos/Cymetria Bootcamps/AVDV3-219/Modulo_1-Tecnicas_Avanzadas_de_Analisis_de_Datos/acumulado_saber_11.csv')

    # Si la lectura del archivo es exitosa, imprime un mensaje indicando que el dataset se cargó correctamente
    print("El dataset se cargó exitosa")

# Si se produce un error específico de "FileNotFoundError" (archivo no encontrado), ejecuta este bloque de código
except FileExistsError as e:
    
    # Imprime un mensaje de error personalizado indicando que el archivo no se pudo encontrar, junto con los detalles específicos del error
    print(f"Error: El archivo no se puede encontrar. Detalles: {e}")

# Si se produce cualquier otro tipo de error, ejecuta este bloque de código
except Exception as e:
    
    # Imprime un mensaje de error genérico indicando que ocurrió un error inesperado, junto con los detalles específicos del error
    print(f"Error inesperado: {e}")

El dataset se cargó exitosa


In [5]:
# Se crea un DataFrame nuevo, utilizando los datos existentes del dataset
df_acumulado_saber_11 = pd.DataFrame(df_acumulado_saber_11)

# Consulta y validación de la cantidad de filas y columnas del dataframe
num_rows, num_cols = df_acumulado_saber_11.shape

# Imprimir mensaje y valores de salidas del dataframe
print(f'El Dataframe, tiene {num_rows} filas {num_cols} columnas.')

El Dataframe, tiene 1086317 filas 40 columnas.


In [7]:
# La función sample, devuelve la cantidad aleatorias de filas/registros solicitada del dataframe
df_acumulado_saber_11.sample(10)

Unnamed: 0,ESTU_TIPODOCUMENTO,ESTU_NACIONALIDAD,ESTU_GENERO,ESTU_FECHANACIMIENTO,PERIODO,ESTU_CONSECUTIVO,ESTU_PAIS_RESIDE,ESTU_TIENEETNIA,ESTU_DEPTO_RESIDE,ESTU_MCPIO_RESIDE,...,COLE_CARACTER,COLE_AREA_UBICACION,COLE_JORNADA,ESTU_PRIVADO_LIBERTAD,PUNT_LECTURA_CRITICA,PUNT_MATEMATICAS,PUNT_C_NATURALES,PUNT_SOCIALES_CIUDADANAS,PUNT_INGLES,PUNT_GLOBAL
229832,TI,COLOMBIA,M,09/11/1999 12:00:00 AM,20194,SB11201940081354,COLOMBIA,No,BOGOTÁ,BOGOTÁ D.C.,...,ACADÉMICO,URBANO,TARDE,N,64,50,40,52,43.0,254
77486,TI,COLOMBIA,M,06/29/2001 12:00:00 AM,20194,SB11201940446307,COLOMBIA,No,SANTANDER,BUCARAMANGA,...,TÉCNICO/ACADÉMICO,URBANO,MAÑANA,N,62,66,62,63,68.0,318
1055324,TI,COLOMBIA,F,03/29/2004 12:00:00 AM,20204,SB11202040231260,COLOMBIA,No,BOGOTÁ,BOGOTÁ D.C.,...,ACADÉMICO,URBANO,MAÑANA,N,63,49,57,58,58.0,284
312454,TI,COLOMBIA,F,09/20/2002 12:00:00 AM,20194,SB11201940266632,COLOMBIA,No,ANTIOQUIA,SANTA FÉ DE ANTIOQUIA,...,ACADÉMICO,URBANO,MAÑANA,N,54,56,53,45,50.0,259
1069894,TI,COLOMBIA,F,10/18/2003 12:00:00 AM,20204,SB11202040302351,COLOMBIA,No,BOGOTÁ,BOGOTÁ D.C.,...,ACADÉMICO,URBANO,UNICA,N,56,65,55,59,49.0,290
129841,TI,COLOMBIA,F,05/05/2002 12:00:00 AM,20194,SB11201940349550,COLOMBIA,No,NORTE SANTANDER,CÚCUTA,...,TÉCNICO/ACADÉMICO,URBANO,MAÑANA,N,40,42,47,29,42.0,198
207778,TI,COLOMBIA,F,12/18/2002 12:00:00 AM,20194,SB11201940125755,COLOMBIA,No,BOLIVAR,CARTAGENA DE INDIAS,...,ACADÉMICO,URBANO,MAÑANA,N,58,59,52,40,62.0,265
695573,CC,COLOMBIA,M,12/06/2001 12:00:00 AM,20204,SB11202040485730,COLOMBIA,Si,CAUCA,POPAYÁN,...,ACADÉMICO,URBANO,NOCHE,N,42,42,36,34,37.0,192
397353,TI,COLOMBIA,F,11/12/2002 12:00:00 AM,20194,SB11201940266656,COLOMBIA,No,ANTIOQUIA,ENVIGADO,...,TÉCNICO/ACADÉMICO,URBANO,UNICA,N,61,64,61,58,68.0,308
466473,CC,COLOMBIA,M,01/04/2001 12:00:00 AM,20194,SB11201940030403,COLOMBIA,No,MAGDALENA,FUNDACIÓN,...,TÉCNICO/ACADÉMICO,URBANO,TARDE,N,46,53,48,44,43.0,237


In [9]:
df_acumulado_saber_11['ESTU_DEPTO_RESIDE'].value_counts()

ESTU_DEPTO_RESIDE
BOGOTÁ             164459
ANTIOQUIA          146584
VALLE               88016
CUNDINAMARCA        71566
ATLANTICO           62113
BOLIVAR             49838
SANTANDER           49742
CORDOBA             39570
NARIÑO              33438
TOLIMA              32349
BOYACA              32197
MAGDALENA           32086
NORTE SANTANDER     30653
CAUCA               28088
HUILA               26409
CESAR               26087
META                24381
SUCRE               21152
CALDAS              20881
RISARALDA           20395
LA GUAJIRA          16891
QUINDIO             12342
CASANARE            11564
CHOCO                9215
CAQUETA              8561
PUTUMAYO             7785
ARAUCA               6460
BOGOTA               5403
GUAVIARE             1834
AMAZONAS             1463
SAN ANDRES           1222
VICHADA              1015
VAUPES                675
GUAINIA               570
EXTRANJERO            154
-                      16
Name: count, dtype: int64

In [11]:
# La función columns, devuelve el nombre de las columnas del dataframe
df_acumulado_saber_11.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1086317 entries, 0 to 1086316
Data columns (total 40 columns):
 #   Column                        Non-Null Count    Dtype  
---  ------                        --------------    -----  
 0   ESTU_TIPODOCUMENTO            1086317 non-null  object 
 1   ESTU_NACIONALIDAD             1086317 non-null  object 
 2   ESTU_GENERO                   1086308 non-null  object 
 3   ESTU_FECHANACIMIENTO          1086315 non-null  object 
 4   PERIODO                       1086317 non-null  int64  
 5   ESTU_CONSECUTIVO              1086317 non-null  object 
 6   ESTU_PAIS_RESIDE              1086317 non-null  object 
 7   ESTU_TIENEETNIA               1082560 non-null  object 
 8   ESTU_DEPTO_RESIDE             1085174 non-null  object 
 9   ESTU_MCPIO_RESIDE             1085174 non-null  object 
 10  FAMI_ESTRATOVIVIENDA          1067781 non-null  object 
 11  FAMI_PERSONASHOGAR            1061274 non-null  object 
 12  FAMI_CUARTOSHOGAR           

## Análisis básico inicial del conjunto de datos

- Revisar la estructura del conjunto de datos para identificar columnas, tipos de datos y posibles problemas.
- Identificar valores faltantes, valores atípicos y posibles inconsistencias en los datos.

In [12]:
# Obtener información general del conjunto de datos

df_acumulado_saber_11.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1086317 entries, 0 to 1086316
Data columns (total 40 columns):
 #   Column                        Non-Null Count    Dtype  
---  ------                        --------------    -----  
 0   ESTU_TIPODOCUMENTO            1086317 non-null  object 
 1   ESTU_NACIONALIDAD             1086317 non-null  object 
 2   ESTU_GENERO                   1086308 non-null  object 
 3   ESTU_FECHANACIMIENTO          1086315 non-null  object 
 4   PERIODO                       1086317 non-null  int64  
 5   ESTU_CONSECUTIVO              1086317 non-null  object 
 6   ESTU_PAIS_RESIDE              1086317 non-null  object 
 7   ESTU_TIENEETNIA               1082560 non-null  object 
 8   ESTU_DEPTO_RESIDE             1085174 non-null  object 
 9   ESTU_MCPIO_RESIDE             1085174 non-null  object 
 10  FAMI_ESTRATOVIVIENDA          1067781 non-null  object 
 11  FAMI_PERSONASHOGAR            1061274 non-null  object 
 12  FAMI_CUARTOSHOGAR           

In [13]:
# Descripción estadística de las variables numéricas
df_acumulado_saber_11.describe()

Unnamed: 0,PERIODO,PUNT_LECTURA_CRITICA,PUNT_MATEMATICAS,PUNT_C_NATURALES,PUNT_SOCIALES_CIUDADANAS,PUNT_INGLES,PUNT_GLOBAL
count,1086317.0,1086317.0,1086317.0,1086317.0,1086317.0,1085928.0,1086317.0
mean,20198.51,52.38752,51.02646,48.48017,47.46889,48.17472,248.5626
std,5.469084,10.47043,11.98036,10.81123,12.24824,12.54123,51.07014
min,20181.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,20194.0,45.0,42.0,40.0,38.0,39.0,210.0
50%,20194.0,53.0,51.0,48.0,47.0,46.0,245.0
75%,20204.0,60.0,59.0,56.0,56.0,55.0,284.0
max,20204.0,100.0,100.0,100.0,100.0,100.0,500.0


In [14]:
# Descripción estadística de las variables numéricas sin notación científica

# Se configura la forma en que los números flotantes se muestran al imprimir un DataFrame en pandas.
    # Se define función lambda que toma un número x y devuelve ese número formateado con 1 decimal.
pd.set_option('display.float_format', lambda x: '%.1f' % x)

df_acumulado_saber_11.describe()

Unnamed: 0,PERIODO,PUNT_LECTURA_CRITICA,PUNT_MATEMATICAS,PUNT_C_NATURALES,PUNT_SOCIALES_CIUDADANAS,PUNT_INGLES,PUNT_GLOBAL
count,1086317.0,1086317.0,1086317.0,1086317.0,1086317.0,1085928.0,1086317.0
mean,20198.5,52.4,51.0,48.5,47.5,48.2,248.6
std,5.5,10.5,12.0,10.8,12.2,12.5,51.1
min,20181.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,20194.0,45.0,42.0,40.0,38.0,39.0,210.0
50%,20194.0,53.0,51.0,48.0,47.0,46.0,245.0
75%,20204.0,60.0,59.0,56.0,56.0,55.0,284.0
max,20204.0,100.0,100.0,100.0,100.0,100.0,500.0


- Periodo:
    - La mayoría de los datos parecen concentrarse en el año 2019 y 2020, ya que los cuartiles y la media están más cerca de estos años.

- Puntuaciones:
    - Las puntuaciones mínimas para todas las asignaturas son 0, lo que indica que hay estudiantes que obtuvieron la puntuación más baja posible en estas materias.

    - Las medias para todas las puntuaciones de las asignaturas están en un rango similar, alrededor de 45-52, lo que sugiere que los estudiantes, en promedio, tienen un rendimiento medio en estas asignaturas.

    - Las desviaciones estándar son relativamente altas para todas las puntuaciones, lo que indica que hay una variabilidad significativa en las puntuaciones de los estudiantes.

    - Las puntuaciones máximas para todas las materias son 100, lo que sugiere que hay estudiantes que obtuvieron la puntuación máxima posible.

    - Las puntuaciones se encuentran en un rango de 0 a 500 para PUNT_GLOBAL, lo cual es un rango más amplio en comparación con las puntuaciones individuales de las asignaturas. Esto podría indicar que PUNT_GLOBAL es una combinación ponderada de las puntuaciones individuales o posiblemente incluye otros componentes no especificados en el conjunto de datos.

    - Existen variabilidades significativas en las puntuaciones de los estudiantes, con algunos obteniendo puntuaciones muy bajas y otros muy altas. Esto podría indicar diferencias en la preparación, el esfuerzo o la capacidad de los estudiantes.

    - Sería importante investigar más sobre la columna PUNT_GLOBAL para entender cómo se calcula y qué componentes incluye, ya que tiene un rango más amplio que las puntuaciones individuales de las materias.

In [15]:
# Descripción de las variables categóricas

df_acumulado_saber_11.describe(include=['object'])

Unnamed: 0,ESTU_TIPODOCUMENTO,ESTU_NACIONALIDAD,ESTU_GENERO,ESTU_FECHANACIMIENTO,ESTU_CONSECUTIVO,ESTU_PAIS_RESIDE,ESTU_TIENEETNIA,ESTU_DEPTO_RESIDE,ESTU_MCPIO_RESIDE,FAMI_ESTRATOVIVIENDA,...,ESTU_HORASSEMANATRABAJA,ESTU_TIPOREMUNERACION,COLE_NOMBRE_ESTABLECIMIENTO,COLE_GENERO,COLE_NATURALEZA,COLE_BILINGUE,COLE_CARACTER,COLE_AREA_UBICACION,COLE_JORNADA,ESTU_PRIVADO_LIBERTAD
count,1086317,1086317,1086308,1086315,1086317,1086317,1082560,1085174,1085174,1067781,...,1067532,1051705,1086317,1086317,1086317,1000695,1057464,1086317,1086317,1086317
unique,13,57,3,20993,1086317,57,3,36,1034,8,...,6,5,10313,3,2,3,5,2,6,2
top,TI,COLOMBIA,F,01/01/1900 12:00:00 AM,SB11201810007354,COLOMBIA,No,BOGOTÁ,BOGOTÁ D.C.,Estrato 2,...,0,No,INSTITUCION EDUCATIVA FRANCISCO JOSE DE CALDAS,MIXTO,OFICIAL,N,ACADÉMICO,URBANO,MAÑANA,N
freq,886061,1081623,589970,1839,1,1081623,1010036,164459,169862,376285,...,672318,726749,2057,1049017,808491,892455,570630,913555,468577,1086029


In [None]:
# Identificar valores únicos por columna


In [None]:
# Análisis de valores faltantes por columna


## Limpieza de datos

Identificar columnas con valores faltantes y decidir cómo manejarlos (eliminar, imputar, etc.).

### Columna ESTU_TIPODOCUMENTO

In [None]:
# Obtener valores únicos y su frecuencia en la columna 'ESTU_TIPODOCUMENTO'


In [None]:
# Obtener valores únicos y su frecuencia en la columna 'ESTU_TIPODOCUMENTO'

# Crear la gráfica de barras


# Añadir la cantidad en cada barra


# Títulos y etiquetas


# Mostrar la gráfica


### Columna ESTU_NACIONALIDAD

In [None]:
# Obtener valores únicos y su frecuencia en la columna 'ESTU_NACIONALIDAD'


Se puede observar que hay registros con caracteres especiales (tildes) en el nombre. Reto a realizar:
- Elimina (unicamente) las tiles de los registros

### Columna ESTU_GENERO

In [None]:
# Obtener valores únicos y su frecuencia en la columna 'ESTU_NACIONALIDAD'


- Los valores etiquetamos como "-", representan un 0.001% del total de registros, estos están representados con el caracter "-".

- Se procederá a reemplazar en el DataFrame original ese caracter con la etiqueta de "No registrado".

In [None]:
# reemplazar valores "-"

# contar registros de la columna 'ESTU_GENERO'


In [None]:
# Cantidad de registros por el tipo de genero

# generar conteo de registros por valor único en la columna ESTU_GENERO


# establecer etiquetas y colores


# crear gráfico de torta

# agregar leyenda


# mostrar gráfico


### Columna ESTU_FECHANACIMIENTO

In [None]:
# contar registros de la columna 'ESTU_GENERO'


En la columna 'ESTU_FECHANACIMIENTO' es evidente notar que hay un detalle muy especifico de la fecha de nacimiento de los estudiantes. Se puede ver que los valores están en formato de fecha y hora, para esta columna inicialmente transformaremos a tipo DATE ya que solo capturaremos el año de nacimiento.

Anexo a eso, es evidente también la deformación en fechas de nacimiento, ejemplo:

- 0002-04-20T00:00:00.000
- 0004-05-20T00:00:00.000
- 0002-06-20T00:00:00.000

Reto: ¿Qué opciones/acciones propones para dichas fechas?

In [None]:
# Es posible que lleguemos a evidenciar un error "OutOfBoundsDatetime: Out of bounds nanosecond timestamp" cuano ejecutemos el cambio de tipo de dato, indica que en la columna
# de fechas se encuentran valores que no se pueden representar correctamente como objetos de fecha y hora de pandas.

# Para solucionar ese error, debemos identificar los valores problemáticos y limpiarlos antes de convertir la columna al formato de fecha y hora de pandas.
# Una forma de hacerlo es mediante la función "to_datetime()" de pandas, pasando el argumento "errors='coerce'". De esta forma, cualquier valor que no pueda convertirse
# correctamente será reemplazado por "NaT" (valores faltantes en pandas).

# limpiar valores problemáticos
#df_acumulado_saber_11['ESTU_FECHANACIMIENTO'] = df_acumulado_saber_11['ESTU_FECHANACIMIENTO'].str.replace('\r', '')
#df_acumulado_saber_11['ESTU_FECHANACIMIENTO'] = df_acumulado_saber_11['ESTU_FECHANACIMIENTO'].str.replace('\n', '')

# convertir columna 'ESTU_FECHANACIMIENTO' al formato de fecha y hora de pandas

# obtener solo el año de nacimiento

# Si deseamos, tenemos la opción de eliminar o no columnas innecesarias, en este caso la columna 'ESTU_FECHANACIMIENTO' será reemplazada por 'ANIO_NACIMIENTO'

# mostrar resultados


Podemos observar algunos registros que son Outliers (valores atipicos):

La edad promedio de presentación del examen ICFES es entre los 14 y 20 años, por ende los nacidos entre los años 2009 y 2020, o son datos erroneos o mal diligenciados.

Sin embargo, hay una excepción, ocurrio en el año 2012. Uno de los registros de estudiantes con menor edad en presentar el examen ICFES pertenece a [Juan Sebastián Andrés Pérez Riaño](https://www.elcolombiano.com/colombia/nino-de-doce-anos-presento-el-icfes-y-se-va-a-graduar-GE18585650), un niño de 12 años que estudio en Yopal, Casanare. Esto fue en 2022, con base a este, y generando una hipótesis (que luego deberá ser validada o descartada), se limpiaran datos de los nacidos de 2008 hacía adelante, es decir, los nacidos entre 2009 y 2020, serán registros a eliminar.

In [None]:
# contar registros de la columna 'ANIO_NACIMIENTO'


In [None]:
# contar registros por año de nacimiento

# filtrar años de interés, iniciaremos por los nacidos entre 1999 y 2019


# mostrar resultados




In [None]:
# Identificar los índices de los registros a eliminar

# Eliminar los registros



In [None]:
# Conteo de registros con NaN, null o vacíos en la columna 'ANIO_NACIMIENTO'


In [None]:
# Calcular el número de registros con valores vacíos en ANIO_NACIMIENTO por grupo

# Ordenar de mayor a menor

# Imprimir cantidad de valores vacíos ordenados de mayor a menor


In [None]:
# Calcular el número total de valores no nulos en ANIO_NACIMIENTO

# Calcular el número de registros con valores no nulos en ANIO_NACIMIENTO por grupo

# Calcular el porcentaje de cada grupo respecto al total de valores no nulos


# Ordenar de mayor a menor

# Imprimir porcentaje de valores no nulos y cantidad por grupo


Es fundamental distribuir adecuadamente los valores nulos o vacíos en la columna 'ANIO_NACIMIENTO' según el tipo de documento 'ESTU_TIPODOCUMENTO'. Podemos basarnos en la distribución de porcentajes de los valores no nulos como muestra. Por ejemplo, el tipo de documento 'TI' representa el 72.03% de los registros no nulos, mientras que 'CC' representa el 25.32%.

Esto implica que de los 871,802 registros con tipo de documento 'TI', deberíamos asignarlos en los años 2003, 2004, 2005, 2006, 2007 y 2008. La asignación debería distribuirse de la siguiente manera:

El 50% de los registros se asignarán a los años 2003 y 2004.
El 30% de los registros se asignarán al año 2005.
El 20% restante se distribuirá entre los años 2006, 2007 y 2008. Esta distribución proporciona una manera equitativa y representativa de llenar los valores nulos basándose en la proporción de los registros no nulos para cada tipo de documento.

In [None]:
# Filtro para registros donde ESTU_TIPODOCUMENTO es igual a 'TI' y ANIO_NACIMIENTO es NaN

# Número de registros a asignar

# Distribución de asignación ajustada


# Ajustar las probabilidades para que sumen 1


# Generar una lista de años basada en la distribución ajustada


# Asignar los años a los registros filtrados


# Verificar los cambios


In [None]:
# Filtro para registros donde ESTU_TIPODOCUMENTO es igual a 'CC' y ANIO_NACIMIENTO es NaN

# Número de registros a asignar

# Distribución de asignación ajustada

# Ajustar las probabilidades para que sumen 1


# Generar una lista de años basada en la distribución ajustada


# Asignar los años a los registros filtrados


# Verificar los cambios


In [None]:
# Conteo de registros con NaN, null o vacíos en la columna 'ANIO_NACIMIENTO'


In [None]:
# Calcular el número total de valores no nulos en ANIO_NACIMIENTO


# Calcular el número de registros con valores no nulos en ANIO_NACIMIENTO por grupo


# Calcular el porcentaje de cada grupo respecto al total de valores no nulos


# Ordenar de mayor a menor


# Imprimir porcentaje de valores no nulos y cantidad por grupo


Considerando que existen 16,697 registros sin una asignación de 'ANIO_NACIMIENTO' y teniendo en cuenta el comportamiento de los grupos por año:

1. Grupo TI:
    - Cantidad: 886,061
    - Porcentaje: 82.84%

2. Grupo CC:
    - Cantidad: 183,034
    - Porcentaje: 17.11%

Se procede a asignar de manera aleatoria el 82.84% de los registros hacia las edades de menores de edad, distribuidas de la siguiente manera:

Años y porcentajes para menores de edad:

- 2003: 0.5
- 2004: 0.5
- 2005: 0.3
- 2006: 0.2

Para los mayores de edad, se asignará de manera aleatoria el 17.11% de los registros, distribuidos así: Años y porcentajes para mayores de edad:

- 2002: 0.5
- 2001: 0.5
- 2000: 0.3
- 1999: 0.1
- 1998: 0.1
- 1997: 0.1
- 1996: 0.1

In [None]:
# Filtro para registros donde ESTU_TIPODOCUMENTO es igual a 'CC' y ANIO_NACIMIENTO es NaN

# Número de registros a asignar


# Distribución de asignación ajustada


# Ajustar las probabilidades para que sumen 1

# Generar una lista de años basada en la distribución ajustada

# Asignar los años a los registros filtrados

# Verificar los cambios


In [None]:
# Conteo de registros con NaN, null o vacíos en la columna 'ANIO_NACIMIENTO'


Podemos ver que no hay valores en cero en la columna 'ANIO_NACIMIENTO' con respecto a los valores NaN presentes.

### Columna ESTU_TIENEETNIA

In [None]:
# generar conteo de registros por valor único en la columna ESTU_TIENEETNIA que hace referencia si pertenece o no a un tipo de etnia.



In [None]:
# generar conteo de registros por valor único en la columna ESTU_TIENEETNIA que hace referencia si pertenece o no a un tipo de etnia.


# configurar etiquetas

 # separar una porción del gráfico

# configurar la figura y el eje


# crear gráfico de dona


# agregar etiqueta central


# mostrar resultados


In [None]:
# Los valores que estan etiquetados como "el signo menos", representan un 0.06% del total de registros, estos estan representados con el caracter "-".
# Se procederá a reemplazar en el DataFrame original ese caracter con la etiqueta de "Desconocido".

# reemplazar valores "-"

# contar registros de la columna 'ESTU_GENERO'


### Columna ESTU_DEPTO_RESIDE

In [None]:
# generar conteo de registros por valor único en la columna ESTU_DEPTO_RESIDE que hace referencia al departamento de residencia



### Columna ESTU_MCPIO_RESIDE

In [None]:
# Generar conteo de registros por valor único en la columna ESTU_MCPIO_RESIDE que hace referencia al municipio de residencia



### Columna FAMI_ESTRATOVIVIENDA

In [None]:
# generar conteo de registros por valor único en la columna FAMI_ESTRATOVIVIENDAA que hace referencia al estrato de la vivienda de los estudiantes.



In [None]:
# Reemplazar valores de registros para el ahorro de recurso compuracional

# Crear un diccionario


# Implementar la función .replace


### FAMI_PERSONASHOGAR

Reto: ¿Qué opciones/acciones propones para los fami_personashogar?

### FAMI_CUARTOSHOGAR

In [50]:
# Reemplazar valores de registros para el ahorro de recurso compuracional

# Crear un diccionario


# Implementar la función .replace


### FAMI_NUMLIBROS

In [52]:
# Reemplazar valores de registros para el ahorro de recurso compuracional

# Crear un diccionario


# Implementar la función .replace


### ESTU_DEDICACIONLECTURADIARIA

In [54]:
# Reemplazar valores de registros para el ahorro de recurso compuracional

# Crear un diccionario


# Implementar la función .replace


### ESTU_DEDICACIONINTERNET

In [56]:
# Reemplazar valores de registros para el ahorro de recurso compuracional

# Crear un diccionario


# Implementar la función .replace


### 