# Análisis de calidad de datos Año 2021

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

df = pd.read_csv("nac2021.csv", encoding ="ISO-8859-1")

In [6]:
df.shape

(616914, 39)

## Muestra de los datos

In [7]:
print(df.sample(5))
print("Total de registros: ", df.shape[0])

        COD_DPTO  COD_MUNIC  AREANAC  SIT_PARTO OTRO_SIT  SEXO  PESO_NAC  \
433892        76          1        1          1      NaN     1         7   
247963        11          1        1          1      NaN     2         6   
591221         5          1        1          1      NaN     1         4   
86261         13        468        1          1      NaN     1         6   
146308        47        555        1          1      NaN     1         6   

        TALLA_NAC   ANO  MES  ...  N_HIJOSV  FECHA_NACM  N_EMB  SEG_SOCIAL  \
433892          5  2021    7  ...         1         NaN      1           2   
247963          5  2021    4  ...         3  30/09/2001      3           1   
591221          4  2021   11  ...         1         NaN      1           2   
86261           5  2021    7  ...         1         NaN      1           2   
146308          4  2021   12  ...         1         NaN      1           2   

        IDCLASADMI  EDAD_PADRE  NIV_EDUP  ULTCURPAD  PROFESION  TIPOFORMUL

# Unicidad

In [8]:
print("Duplicados: ", df.duplicated().sum())

Duplicados:  698


# Completitud

In [9]:
print(df.isnull().sum())

COD_DPTO               0
COD_MUNIC              0
AREANAC                0
SIT_PARTO              0
OTRO_SIT          615470
SEXO                   0
PESO_NAC               0
TALLA_NAC              0
ANO                    0
MES                    0
ATEN_PAR               0
T_GES                  0
T_GES_AGRU_CIE         0
NUMCONSUL              0
TIPO_PARTO             0
MUL_PARTO              0
APGAR1                 0
APGAR2                 0
IDHEMOCLAS             0
IDFACTORRH             0
IDPERTET               0
EDAD_MADRE             0
EST_CIVM               0
NIV_EDUM               0
ULTCURMAD              0
CODPRES                0
CODPTORE            8831
CODMUNRE            8831
AREA_RES            8828
N_HIJOSV               0
FECHA_NACM        272245
N_EMB                  0
SEG_SOCIAL             0
IDCLASADMI         65693
EDAD_PADRE             0
NIV_EDUP               0
ULTCURPAD              0
PROFESION             67
TIPOFORMULARIO         0
dtype: int64


Podemos notar como gran parte de los registros de la variable "OTRO_SIT" poseen registros nulos, por lo que tomamos la decisión de elimiar esta columna.

# Validez

In [10]:
df.describe()

Unnamed: 0,COD_DPTO,COD_MUNIC,AREANAC,SIT_PARTO,SEXO,PESO_NAC,TALLA_NAC,ANO,MES,ATEN_PAR,...,AREA_RES,N_HIJOSV,N_EMB,SEG_SOCIAL,IDCLASADMI,EDAD_PADRE,NIV_EDUP,ULTCURPAD,PROFESION,TIPOFORMULARIO
count,616914.0,616914.0,616914.0,616914.0,616914.0,616914.0,616914.0,616914.0,616914.0,616914.0,...,608086.0,616914.0,616914.0,616914.0,551221.0,616914.0,616914.0,616914.0,616847.0,616914.0
mean,34.704174,172.189263,1.047105,1.029485,1.487908,5.736197,4.611957,2021.0,6.640434,1.108868,...,1.427025,1.974295,2.151569,1.999157,1.677425,37.66287,13.799131,16.591985,1.054184,1.000109
std,26.577299,266.100926,0.290024,0.182467,0.500026,1.115809,0.72072,0.0,3.413818,0.666225,...,0.772575,1.578043,1.700261,1.147784,0.662156,86.917286,28.100663,27.273895,0.438998,0.010421
min,5.0,1.0,1.0,1.0,1.0,1.0,1.0,2021.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,13.0,1.0,0.0,1.0,1.0
25%,11.0,1.0,1.0,1.0,1.0,5.0,4.0,2021.0,4.0,1.0,...,1.0,1.0,1.0,1.0,1.0,24.0,3.0,5.0,1.0,1.0
50%,23.0,1.0,1.0,1.0,1.0,6.0,5.0,2021.0,7.0,1.0,...,1.0,2.0,2.0,2.0,2.0,29.0,4.0,9.0,1.0,1.0
75%,54.0,290.0,1.0,1.0,2.0,6.0,5.0,2021.0,10.0,1.0,...,2.0,2.0,3.0,2.0,2.0,35.0,8.0,11.0,1.0,1.0
max,99.0,980.0,3.0,3.0,3.0,9.0,9.0,2021.0,12.0,6.0,...,9.0,99.0,99.0,9.0,5.0,999.0,99.0,99.0,5.0,2.0


# Datatypes

In [12]:
df.dtypes

COD_DPTO            int64
COD_MUNIC           int64
AREANAC             int64
SIT_PARTO           int64
OTRO_SIT           object
SEXO                int64
PESO_NAC            int64
TALLA_NAC           int64
ANO                 int64
MES                 int64
ATEN_PAR            int64
T_GES               int64
T_GES_AGRU_CIE      int64
NUMCONSUL           int64
TIPO_PARTO          int64
MUL_PARTO           int64
APGAR1              int64
APGAR2              int64
IDHEMOCLAS          int64
IDFACTORRH          int64
IDPERTET            int64
EDAD_MADRE          int64
EST_CIVM            int64
NIV_EDUM            int64
ULTCURMAD           int64
CODPRES             int64
CODPTORE          float64
CODMUNRE          float64
AREA_RES          float64
N_HIJOSV            int64
FECHA_NACM         object
N_EMB               int64
SEG_SOCIAL          int64
IDCLASADMI        float64
EDAD_PADRE          int64
NIV_EDUP            int64
ULTCURPAD           int64
PROFESION         float64
TIPOFORMULAR

# Segundo análisis de nulidad

In [15]:
datacopy = df.copy()

Eliminar columna llena de nulos

In [17]:
datacopy = datacopy.drop(columns = ["OTRO_SIT"])

Segundo análisis de nulidad

In [18]:
pd.set_option('display.max_rows', 40)

print(datacopy.isnull().sum())

COD_DPTO               0
COD_MUNIC              0
AREANAC                0
SIT_PARTO              0
SEXO                   0
PESO_NAC               0
TALLA_NAC              0
ANO                    0
MES                    0
ATEN_PAR               0
T_GES                  0
T_GES_AGRU_CIE         0
NUMCONSUL              0
TIPO_PARTO             0
MUL_PARTO              0
APGAR1                 0
APGAR2                 0
IDHEMOCLAS             0
IDFACTORRH             0
IDPERTET               0
EDAD_MADRE             0
EST_CIVM               0
NIV_EDUM               0
ULTCURMAD              0
CODPRES                0
CODPTORE            8831
CODMUNRE            8831
AREA_RES            8828
N_HIJOSV               0
FECHA_NACM        272245
N_EMB                  0
SEG_SOCIAL             0
IDCLASADMI         65693
EDAD_PADRE             0
NIV_EDUP               0
ULTCURPAD              0
PROFESION             67
TIPOFORMULARIO         0
dtype: int64


In [19]:
pd.reset_option('display.max_rows')

In [20]:
datacopy.sample(5)

Unnamed: 0,COD_DPTO,COD_MUNIC,AREANAC,SIT_PARTO,SEXO,PESO_NAC,TALLA_NAC,ANO,MES,ATEN_PAR,...,N_HIJOSV,FECHA_NACM,N_EMB,SEG_SOCIAL,IDCLASADMI,EDAD_PADRE,NIV_EDUP,ULTCURPAD,PROFESION,TIPOFORMULARIO
16709,70,1,1,1,2,5,4,2021,2,1,...,2,29/01/2019,3,2,2.0,22,2,5,1.0,1
38774,44,430,1,1,2,6,5,2021,3,1,...,5,22/05/2015,5,2,2.0,36,99,99,1.0,1
119911,47,58,1,1,1,6,5,2021,10,1,...,2,16/08/2010,2,2,2.0,34,4,11,1.0,1
518630,5,664,1,1,2,5,4,2021,4,1,...,2,09/08/2019,2,1,1.0,22,4,11,1.0,1
32479,20,250,2,1,2,5,5,2021,2,1,...,2,30/06/2018,2,2,2.0,27,2,5,1.0,1


In [21]:
null_count = datacopy['FECHA_NACM'].isnull().sum()
print(null_count)

272245


In [22]:
datacopy = datacopy.drop(columns = ["FECHA_NACM"])

In [23]:
datacopy.sample(5)

Unnamed: 0,COD_DPTO,COD_MUNIC,AREANAC,SIT_PARTO,SEXO,PESO_NAC,TALLA_NAC,ANO,MES,ATEN_PAR,...,AREA_RES,N_HIJOSV,N_EMB,SEG_SOCIAL,IDCLASADMI,EDAD_PADRE,NIV_EDUP,ULTCURPAD,PROFESION,TIPOFORMULARIO
355691,81,736,1,1,2,6,5,2021,11,1,...,3.0,2,3,2,2.0,38,2,5,1.0,1
134756,47,245,1,1,2,6,5,2021,10,1,...,3.0,1,1,2,2.0,28,4,11,1.0,1
45706,8,1,1,1,2,5,5,2021,10,1,...,1.0,2,2,2,2.0,27,99,99,1.0,1
337967,11,1,1,1,1,5,5,2021,12,1,...,1.0,1,1,2,2.0,19,4,11,1.0,1
411693,19,130,3,2,2,6,5,2021,4,5,...,3.0,1,1,2,2.0,28,2,5,1.0,1


In [24]:
# Get the number of columns in the DataFrame
columns = datacopy.shape[1]

# Split the DataFrame into two by columns
data_part1 = datacopy.iloc[:, :columns // 2]  # First half of columns
data_part2 = datacopy.iloc[:, columns // 2:]  # Second half of columns

In [25]:
data_part1.head()

Unnamed: 0,COD_DPTO,COD_MUNIC,AREANAC,SIT_PARTO,SEXO,PESO_NAC,TALLA_NAC,ANO,MES,ATEN_PAR,T_GES,T_GES_AGRU_CIE,NUMCONSUL,TIPO_PARTO,MUL_PARTO,APGAR1,APGAR2,IDHEMOCLAS
0,47,245,1,1,2,6,5,2021,1,1,4,4,7,1,1,8,10,3
1,47,245,1,1,1,5,4,2021,1,1,3,3,10,2,1,8,9,3
2,47,245,1,1,1,6,5,2021,2,1,4,4,4,2,1,9,10,3
3,47,245,1,1,2,6,4,2021,1,1,4,4,6,2,1,8,9,3
4,13,1,1,1,2,6,5,2021,2,1,4,4,10,2,1,8,9,3


In [26]:
print(data_part1.isnull().sum())

COD_DPTO          0
COD_MUNIC         0
AREANAC           0
SIT_PARTO         0
SEXO              0
PESO_NAC          0
TALLA_NAC         0
ANO               0
MES               0
ATEN_PAR          0
T_GES             0
T_GES_AGRU_CIE    0
NUMCONSUL         0
TIPO_PARTO        0
MUL_PARTO         0
APGAR1            0
APGAR2            0
IDHEMOCLAS        0
dtype: int64


In [27]:
print(data_part2.isnull().sum())

IDFACTORRH            0
IDPERTET              0
EDAD_MADRE            0
EST_CIVM              0
NIV_EDUM              0
ULTCURMAD             0
CODPRES               0
CODPTORE           8831
CODMUNRE           8831
AREA_RES           8828
N_HIJOSV              0
N_EMB                 0
SEG_SOCIAL            0
IDCLASADMI        65693
EDAD_PADRE            0
NIV_EDUP              0
ULTCURPAD             0
PROFESION            67
TIPOFORMULARIO        0
dtype: int64
