In [162]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [163]:
df = pd.read_csv('osb_sisveso.csv',sep=';', encoding='utf-8')
df.head()

Unnamed: 0,ANIO,CURSO_VIDA,SEXO,GRUPO_DE_EDAD,LOCALIDAD,ESTRATO,ASEGURAMIENTO,FRECUENCIA_USO_SEDA,FRECUENCIA_USO_CEPILLO,FRECUENCIA_USO_CREMA,FRECUENCIA_USO_ENJUAGUE,ESTADO_HIGIENE,GINGIVITIS,PERIODONTITIS,CARIESCAVITACIONAL,LESION_MANCHA_BLANCA,LESION_MANCHA_CAFE
0,2015,ADOLESCENCIA,Mujer,10-14,07 - Bosa,2.0,SUBSIDIADO,NO,2 VECES,2 VECES,NO,H.O.DEFICIENTE: 31-100%,1,0,0,0,0
1,2015,ADOLESCENCIA,Mujer,15-19,07 - Bosa,2.0,SUBSIDIADO,NO,2 VECES,2 VECES,NO,H.O.DEFICIENTE: 31-100%,1,0,0,0,0
2,2015,ADOLESCENCIA,Mujer,15-19,07 - Bosa,2.0,SUBSIDIADO,NO,2 VECES,2 VECES,NO,H.O.DEFICIENTE: 31-100%,1,0,0,0,0
3,2016,ADOLESCENCIA,Mujer,15-19,07 - Bosa,2.0,SUBSIDIADO,NO,2 VECES,2 VECES,NO,H.O.DEFICIENTE: 31-100%,1,0,0,0,0
4,2017,ADOLESCENCIA,Mujer,15-19,07 - Bosa,2.0,SUBSIDIADO,NO,2 VECES,2 VECES,NO,H.O.DEFICIENTE: 31-100%,1,0,0,0,0


## Calidad de Datos
Vamos a empezar revisando consistencia, validez, unicidad e integridad.

In [164]:
num_cols = df.select_dtypes(include=np.number).columns.tolist()
cat_cols = df.select_dtypes(include='object').columns.tolist()

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 342845 entries, 0 to 342844
Data columns (total 17 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   ANIO                     342845 non-null  int64  
 1   CURSO_VIDA               342837 non-null  object 
 2   SEXO                     342845 non-null  object 
 3   GRUPO_DE_EDAD            342845 non-null  object 
 4   LOCALIDAD                342845 non-null  object 
 5   ESTRATO                  341648 non-null  float64
 6   ASEGURAMIENTO            342845 non-null  object 
 7   FRECUENCIA_USO_SEDA      342081 non-null  object 
 8   FRECUENCIA_USO_CEPILLO   342307 non-null  object 
 9   FRECUENCIA_USO_CREMA     342193 non-null  object 
 10  FRECUENCIA_USO_ENJUAGUE  341956 non-null  object 
 11  ESTADO_HIGIENE           327387 non-null  object 
 12  GINGIVITIS               342845 non-null  int64  
 13  PERIODONTITIS            342845 non-null  int64  
 14  CARI

In [165]:
## Calidad de Datos - Numericos

for col in num_cols:
    print(f"Columna: {col}")
    print(df[col].describe())
    print(f"Valores unicos: {df[col].nunique()}")
    print(f"Valores nulos: {df[col].isnull().sum()}")
    print("\n")

Columna: ANIO
count    342845.000000
mean       2015.791480
std           3.887197
min        2010.000000
25%        2012.000000
50%        2015.000000
75%        2019.000000
max        2023.000000
Name: ANIO, dtype: float64
Valores unicos: 14
Valores nulos: 0


Columna: ESTRATO
count    341648.000000
mean          2.185431
std           0.813415
min           0.000000
25%           2.000000
50%           2.000000
75%           3.000000
max           6.000000
Name: ESTRATO, dtype: float64
Valores unicos: 7
Valores nulos: 1197


Columna: GINGIVITIS
count    342845.000000
mean          0.712039
std           0.452814
min           0.000000
25%           0.000000
50%           1.000000
75%           1.000000
max           1.000000
Name: GINGIVITIS, dtype: float64
Valores unicos: 2
Valores nulos: 0


Columna: PERIODONTITIS
count    342845.000000
mean          0.026239
std           0.159846
min           0.000000
25%           0.000000
50%           0.000000
75%           0.000000
max     

Podemos ver que para el estrato tenemos 1197 valores nulos, los vamos a imputar por la moda. 

In [166]:
df["ESTRATO"].fillna(df["ESTRATO"].mode()[0], inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["ESTRATO"].fillna(df["ESTRATO"].mode()[0], inplace=True)


In [167]:
## Calidad de Datos - Categoricos

for col in cat_cols:
    print(f"Columna: {col}")
    print(df[col].value_counts())
    print(f"Valores unicos: {df[col].nunique()}")
    print(f"Valores nulos: {df[col].isnull().sum()}")
    print("\n")

Columna: CURSO_VIDA
CURSO_VIDA
JUVENTUD            76511
ADULTEZ             71465
PRIMERA INFANCIA    63375
ADOLESCENCIA        58511
INFANCIA            57151
VEJEZ               15824
Name: count, dtype: int64
Valores unicos: 6
Valores nulos: 8


Columna: SEXO
SEXO
Mujer          202391
Hombre         140447
Intersexual         7
Name: count, dtype: int64
Valores unicos: 3
Valores nulos: 0


Columna: GRUPO_DE_EDAD
GRUPO_DE_EDAD
5-9         52984
0-4         50451
15-19       49157
10-14       45318
20-24       37175
25-29       25290
30-34       18361
35-39       13492
40-44       10920
45-49        9709
50-54        7999
55-59        6157
60-64        6012
65-69        4251
70-74        2815
75-79        1615
80 y m s     1131
otro            8
Name: count, dtype: int64
Valores unicos: 18
Valores nulos: 0


Columna: LOCALIDAD
LOCALIDAD
07 - Bosa                     34797
08 - Kennedy                  34024
19 - Ciudad Bol var           32275
10 - Engativ                  32205
11 -

Las desiciones que se van a tomar son las siguientes:
- Para curso de vida y los nulos al ser 8 vamos a imputar la moda
- Para grupo de edad hay que ajustar el nombre del valor de "80 y m s" a "80 y mas"
- Para la localidad, hay que arreglar los nombres, hay muchos nombres que llevan tilde y en el archivo sus nombres estan cortados, es un proceso manual, cambiar de Cuidad Bol var a Cuidad Bolivar, Engativ a Engativa, Fontib n a Fontibon, San Crist bal a San Cristobal, Usaqu n a Usaquen, Los M rtires a Los Martires, Antonio Nari o a Antonio Narinio. Ademas, vamos a separarlo, tomaremos la parte antes del "-" y lo usaremos con ID_LOCALIDAD y la otra parte como el nombre LOCALIDAD.
- En aseguramiento cambiar los valores de EXCEPCI N  a EXCEPCION 
- Eliminar las columnas de Frecuencia de uso
- Para la columna de estado de higiene, dejar unicamente la palabra, por ejemplo: H.O.DEFICIENTE: 31-100% -> DEFICIENTE , Si pone sin dato imputar con la moda y si pone AT se pone ATIPICO.

In [168]:
# Correciones "CURSO DE VIDA"
df["CURSO_VIDA"].fillna(df["CURSO_VIDA"].mode()[0], inplace=True)

# Correcion "GRUPO DE EDAD"
df["GRUPO_DE_EDAD"] = df["GRUPO_DE_EDAD"].replace("80 y m s", "80 y mas")

# Eliminar columnas de FRECUENCIA DE USO
df = df.drop(columns=["FRECUENCIA_USO_SEDA", "FRECUENCIA_USO_CEPILLO", "FRECUENCIA_USO_CREMA","FRECUENCIA_USO_ENJUAGUE"])

# Correcion "ASEGURAMIENTO"
df["ASEGURAMIENTO"] = df["ASEGURAMIENTO"].replace("EXCEPCI N", "EXCEPCION")


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["CURSO_VIDA"].fillna(df["CURSO_VIDA"].mode()[0], inplace=True)


In [169]:
# Correcion "LOCALIDAD"
locality_corrections = { "19 - Ciudad Bol var": "19 - Cuidad Bolivar",
                        "10 - Engativ ": "10 - Engativa",
                        "01 - Usaqu n": "01 - Usaquen",
                        "09 - Fontib n": "09 - Fontibon",
                        "04 - San Crist bal": "04 - San Cristobal",
                        "14 - Los M rtires": "14 - Los Martires",
                        "15 - Antonio Nari o": "15 - Antonio Narinio"}
df["LOCALIDAD"] = df["LOCALIDAD"].replace(locality_corrections)

# Separar ID_LOCALIDAD y LOCALIDAD
df[["ID_LOCALIDAD", "LOCALIDAD"]] = df["LOCALIDAD"].str.split(" - ", expand=True)
# Pasar el ID a int 
df["ID_LOCALIDAD"] = df["ID_LOCALIDAD"].astype(int)
# Asignar ID -1 a Localidad Desconocida
df.loc[df["LOCALIDAD"]=="Localidad Desconocida", "ID_LOCALIDAD"] = -1
df.head()

Unnamed: 0,ANIO,CURSO_VIDA,SEXO,GRUPO_DE_EDAD,LOCALIDAD,ESTRATO,ASEGURAMIENTO,ESTADO_HIGIENE,GINGIVITIS,PERIODONTITIS,CARIESCAVITACIONAL,LESION_MANCHA_BLANCA,LESION_MANCHA_CAFE,ID_LOCALIDAD
0,2015,ADOLESCENCIA,Mujer,10-14,Bosa,2.0,SUBSIDIADO,H.O.DEFICIENTE: 31-100%,1,0,0,0,0,7
1,2015,ADOLESCENCIA,Mujer,15-19,Bosa,2.0,SUBSIDIADO,H.O.DEFICIENTE: 31-100%,1,0,0,0,0,7
2,2015,ADOLESCENCIA,Mujer,15-19,Bosa,2.0,SUBSIDIADO,H.O.DEFICIENTE: 31-100%,1,0,0,0,0,7
3,2016,ADOLESCENCIA,Mujer,15-19,Bosa,2.0,SUBSIDIADO,H.O.DEFICIENTE: 31-100%,1,0,0,0,0,7
4,2017,ADOLESCENCIA,Mujer,15-19,Bosa,2.0,SUBSIDIADO,H.O.DEFICIENTE: 31-100%,1,0,0,0,0,7


In [170]:
df["ESTADO_HIGIENE"].value_counts()

ESTADO_HIGIENE
H.O.DEFICIENTE: 31-100%    216847
H.O. REGULAR: 16-30%        66398
H.O. BUENA: 0-15 %          41642
AT                           2493
Sin dato                        7
Name: count, dtype: int64

In [171]:
import numpy as np
import pandas as pd
from pandas.api.types import CategoricalDtype

col = "ESTADO_HIGIENE"

# 1) Normalizar texto: quitar espacios raros, tildes, poner mayÃºsculas
s = (df[col]
      .astype(str)
      .str.replace("\u00A0", " ", regex=False)   # NBSP -> espacio normal
      .str.normalize("NFKD").str.encode("ascii","ignore").str.decode("ascii")  # quita tildes
      .str.upper().str.strip())

# 2) Reemplazos robustos con regex (toleran puntos/espacios/guiones)
df[col] = s.replace({
    r'^\s*AT\s*$'                                        : 'ATIPICO',
    r'^H\.?\s*O\.?\s*DEFICIENTE.*$'                      : 'DEFICIENTE',
    r'^H\.?\s*O\.?\s*REGULAR.*$'                         : 'REGULAR',
    r'^H\.?\s*O\.?\s*BUENA.*$'                           : 'BUENA',
    r'^\s*SIN\s+DATO\s*$'                                : np.nan,   # mejor NaN que imputar a la moda
}, regex=True)

orden = CategoricalDtype(categories=['DEFICIENTE','REGULAR','BUENA','ATIPICO'], ordered=True)
df[col] = df[col].astype(orden)

#pasar a string 
df[col] = df[col].astype(str)

print(df[col].value_counts(dropna=False))


ESTADO_HIGIENE
DEFICIENTE    216847
REGULAR        66398
BUENA          41642
nan            15465
ATIPICO         2493
Name: count, dtype: int64


In [172]:
## Despues de las correcciones, revisamos nuevamente los datos categoricos
cat_cols = df.select_dtypes(include='object').columns.tolist()
for col in cat_cols:
    print(f"Columna: {col}")
    print(df[col].value_counts())
    print(f"Valores unicos: {df[col].nunique()}")
    print(f"Valores nulos: {df[col].isnull().sum()}")
    print("\n")

Columna: CURSO_VIDA
CURSO_VIDA
JUVENTUD            76519
ADULTEZ             71465
PRIMERA INFANCIA    63375
ADOLESCENCIA        58511
INFANCIA            57151
VEJEZ               15824
Name: count, dtype: int64
Valores unicos: 6
Valores nulos: 0


Columna: SEXO
SEXO
Mujer          202391
Hombre         140447
Intersexual         7
Name: count, dtype: int64
Valores unicos: 3
Valores nulos: 0


Columna: GRUPO_DE_EDAD
GRUPO_DE_EDAD
5-9         52984
0-4         50451
15-19       49157
10-14       45318
20-24       37175
25-29       25290
30-34       18361
35-39       13492
40-44       10920
45-49        9709
50-54        7999
55-59        6157
60-64        6012
65-69        4251
70-74        2815
75-79        1615
80 y mas     1131
otro            8
Name: count, dtype: int64
Valores unicos: 18
Valores nulos: 0


Columna: LOCALIDAD
LOCALIDAD
Bosa                     34797
Kennedy                  34024
Cuidad Bolivar           32275
Engativa                 32205
Suba                    

In [173]:
#Exportar el DataFrame limpio a un nuevo archivo CSV
df.to_csv('osb_sisveso_consolidado.csv', index=False, encoding='utf-8')