## *01. Validación de los datos*

* La validación de datos es el proceso de verificar si los datos recopilados o generados son precisos, completos y confiables. La validación de datos es esencial para garantizar que los datos utilizados para la toma de decisiones sean precisos y confiables.

* La validación de datos se lleva a cabo mediante la verificación de los datos en términos de su precisión, integridad y consistencia. Esto implica la revisión de los datos para detectar cualquier error o discrepancia que pueda afectar la calidad de los datos. La validación de datos también puede implicar la comparación de los datos con otras fuentes de datos para asegurarse de que sean consistentes y precisos.

* La validación de datos se utiliza comúnmente en la ciencia de datos y el aprendizaje automático para evaluar la calidad de los datos y determinar si son adecuados para su uso en modelos y análisis. También se utiliza en aplicaciones empresariales para garantizar la precisión de los datos utilizados en informes financieros y otros análisis empresariales.

In [1]:
import sys
sys.path.append('../src/utils')

# Librerías
import pandas as pd
pd.set_option('display.max_columns', None)
%load_ext autoreload
%autoreload 2

In [2]:
# Lectura de los datos
data = pd.read_csv('../data/raw/adult.data', header=None)
names = pd.read_csv('../data/raw/col_names.txt').T.iloc[0].tolist()
data.columns = names

#### *Visualización de los datos*

In [3]:
# Visualización de las primeras 5 filas del dataset
data.sample(5, random_state=777)

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,income
29305,32,Private,130040,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
4110,25,Private,186294,HS-grad,9,Never-married,Adm-clerical,Not-in-family,White,Female,0,0,50,United-States,<=50K
12044,39,Private,237943,Bachelors,13,Married-civ-spouse,Sales,Husband,White,Male,0,0,30,United-States,>50K
17027,78,Self-emp-inc,237294,HS-grad,9,Widowed,Sales,Not-in-family,White,Male,0,0,45,United-States,>50K
5821,53,Private,157069,Assoc-acdm,12,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K


In [4]:
# Dimensiones
print(f'Número de muestras: {data.shape[0]}')
print(f'Predictores: {data.shape[1]}')

Número de muestras: 32561
Predictores: 15


In [5]:
# Información de los predictores
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             32561 non-null  int64 
 1   workclass       32561 non-null  object
 2   fnlwgt          32561 non-null  int64 
 3   education       32561 non-null  object
 4   education-num   32561 non-null  int64 
 5   marital-status  32561 non-null  object
 6   occupation      32561 non-null  object
 7   relationship    32561 non-null  object
 8   race            32561 non-null  object
 9   sex             32561 non-null  object
 10  capital-gain    32561 non-null  int64 
 11  capital-loss    32561 non-null  int64 
 12  hours-per-week  32561 non-null  int64 
 13  native-country  32561 non-null  object
 14  income          32561 non-null  object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


#### *Valores únicos*
Los valores únicos, también conocidos como valores distintos, son valores en un conjunto de datos que aparecen solo una vez. En otras palabras, los valores únicos son aquellos que no se repiten en un conjunto de datos.

In [6]:
# Valores únicos
data.nunique(axis=0, dropna=True)

age                  73
workclass             9
fnlwgt            21648
education            16
education-num        16
marital-status        7
occupation           15
relationship          6
race                  5
sex                   2
capital-gain        119
capital-loss         92
hours-per-week       94
native-country       42
income                2
dtype: int64

In [7]:
# Valores categóricos únicos
categoricals = list(data.select_dtypes(include=['object', 'bool']).columns)

for col in data[categoricals]:
    value_counts = data[col].value_counts()
    print(f'Cantidades de etiquetas para la variable «{col}»:')
    print(value_counts)
    print()

Cantidades de etiquetas para la variable «workclass»:
workclass
 Private             22696
 Self-emp-not-inc     2541
 Local-gov            2093
 ?                    1836
 State-gov            1298
 Self-emp-inc         1116
 Federal-gov           960
 Without-pay            14
 Never-worked            7
Name: count, dtype: int64

Cantidades de etiquetas para la variable «education»:
education
 HS-grad         10501
 Some-college     7291
 Bachelors        5355
 Masters          1723
 Assoc-voc        1382
 11th             1175
 Assoc-acdm       1067
 10th              933
 7th-8th           646
 Prof-school       576
 9th               514
 12th              433
 Doctorate         413
 5th-6th           333
 1st-4th           168
 Preschool          51
Name: count, dtype: int64

Cantidades de etiquetas para la variable «marital-status»:
marital-status
 Married-civ-spouse       14976
 Never-married            10683
 Divorced                  4443
 Separated                 1025
 Wido

#### *Valores duplicados*
La presencia de valores duplicados puede ser un problema en muchas aplicaciones de análisis de datos, ya que puede sesgar los resultados y hacer que los análisis sean menos precisos. Por lo tanto, es común buscar y eliminar valores duplicados en los conjuntos de datos antes de realizar cualquier análisis.

In [8]:
# Registros duplicados
data[data.duplicated()]

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,income
4881,25,Private,308144,Bachelors,13,Never-married,Craft-repair,Not-in-family,White,Male,0,0,40,Mexico,<=50K
5104,90,Private,52386,Some-college,10,Never-married,Other-service,Not-in-family,Asian-Pac-Islander,Male,0,0,35,United-States,<=50K
9171,21,Private,250051,Some-college,10,Never-married,Prof-specialty,Own-child,White,Female,0,0,10,United-States,<=50K
11631,20,Private,107658,Some-college,10,Never-married,Tech-support,Not-in-family,White,Female,0,0,10,United-States,<=50K
13084,25,Private,195994,1st-4th,2,Never-married,Priv-house-serv,Not-in-family,White,Female,0,0,40,Guatemala,<=50K
15059,21,Private,243368,Preschool,1,Never-married,Farming-fishing,Not-in-family,White,Male,0,0,50,Mexico,<=50K
17040,46,Private,173243,HS-grad,9,Married-civ-spouse,Craft-repair,Husband,White,Male,0,0,40,United-States,<=50K
18555,30,Private,144593,HS-grad,9,Never-married,Other-service,Not-in-family,Black,Male,0,0,40,?,<=50K
18698,19,Private,97261,HS-grad,9,Never-married,Farming-fishing,Not-in-family,White,Male,0,0,40,United-States,<=50K
21318,19,Private,138153,Some-college,10,Never-married,Adm-clerical,Own-child,White,Female,0,0,10,United-States,<=50K


---
---