## Descargar el conjunto de datos

Trabajarás con el [Conjunto de Datos de Ingresos del Censo](http://archive.ics.uci.edu/ml/datasets/Census+Income), un conjunto de datos que se puede utilizar para predecir si una persona gana más o menos de 50k dólares estadounidenses anualmente. A continuación, se muestra un resumen de los nombres de los atributos con descripciones/valores esperados, y puedes leer más sobre ellos [en este archivo de descripción de datos.](https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.names)

* **age (edad)**: continuo.
* **workclass (clase de trabajo)**: Privado, Autónomo-no-incorporado, Autónomo-incorporado, Gobierno-federal, Gobierno-local, Gobierno-estatal, Sin-pago, Nunca-trabajado.
* **fnlwgt**: continuo.
* **education (educación)**: Licenciatura, Algo-de-universidad, 11° grado, Graduado-de-secundaria, Escuela-profesional, Asoc-académico, Asoc-vocacional, 9° grado, 7°-8° grado, 12° grado, Maestría, 1°-4° grado, 10° grado, Doctorado, 5°-6° grado, Preescolar.
* **education-num (número de educación)**: continuo.
* **marital-status (estado civil)**: Casado-con-cónyuge-civil, Divorciado, Nunca-casado, Separado, Viudo, Casado-cónyuge-ausente, Casado-cónyuge-AF.
* **occupation (ocupación)**: Soporte-técnico, Reparación-artesanal, Otros-servicios, Ventas, Ejecutivo-gerencial, Profesional-especializado, Manipuladores-limpiadores, Inspección-operación-maquinaria, Administrativo-clerical, Agricultura-pesca, Transporte-mudanzas, Servicio-doméstico, Servicio-protección, Fuerzas-armadas.
* **relationship (relación)**: Esposa, Hijo-propio, Esposo, No-en-familia, Otro-pariente, Soltero.
* **race (raza)**: Blanco, Asiático-Isleño-del-Pacífico, Indio-Americano-Eskimal, Otro, Negro.
* **sex (sexo)**: Femenino, Masculino.
* **capital-gain (ganancia de capital)**: continuo.
* **capital-loss (pérdida de capital)**: continuo.
* **hours-per-week (horas por semana)**: continuo.
* **native-country (país de origen)**: Estados Unidos, Camboya, Inglaterra, Puerto Rico, Canadá, Alemania, Territorios-Exteriores-EEUU(Guam-Islas-Vírgenes-EEUU-etc), India, Japón, Grecia, Sur, China, Cuba, Irán, Honduras, Filipinas, Italia, Polonia, Jamaica, Vietnam, México, Portugal, Irlanda, Francia, República Dominicana, Laos, Ecuador, Taiwán, Haití, Colombia, Hungría, Guatemala, Nicaragua, Escocia, Tailandia, Yugoslavia, El Salvador, Trinidad y Tobago, Perú, Hong Kong, Holanda-Países Bajos.

In [1]:
# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import requests
import os

In [2]:
# URL del archivo de datos
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data"

# Nombre del archivo donde se guardará el dataset
filename = "census_income_data.csv"

# Descargar el archivo
response = requests.get(url)
response.raise_for_status()  # Esto arrojará un error si la descarga falla

# Guardar el archivo como CSV
with open(filename, 'wb') as file:
    file.write(response.content)

# Cargar el dataset en un DataFrame de pandas
column_names = ["age", "workclass", "fnlwgt", "education", "education-num", "marital-status", 
                "occupation", "relationship", "race", "sex", "capital-gain", "capital-loss", 
                "hours-per-week", "country", "income"]

df = pd.read_csv(filename, header=None, names=column_names)

# Mostrar las primeras filas del DataFrame
df.tail()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,country,income
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K
32560,52,Self-emp-inc,287927,HS-grad,9,Married-civ-spouse,Exec-managerial,Wife,White,Female,15024,0,40,United-States,>50K


In [3]:
for f in df["education"].unique():
    print(f'{f.upper()} = "{f}"')

 BACHELORS = " Bachelors"
 HS-GRAD = " HS-grad"
 11TH = " 11th"
 MASTERS = " Masters"
 9TH = " 9th"
 SOME-COLLEGE = " Some-college"
 ASSOC-ACDM = " Assoc-acdm"
 ASSOC-VOC = " Assoc-voc"
 7TH-8TH = " 7th-8th"
 DOCTORATE = " Doctorate"
 PROF-SCHOOL = " Prof-school"
 5TH-6TH = " 5th-6th"
 10TH = " 10th"
 1ST-4TH = " 1st-4th"
 PRESCHOOL = " Preschool"
 12TH = " 12th"


In [4]:
df.tail(100).to_csv("test_data.csv")

¡NO HAY TRUE MODEL!

### Preprocess

In [5]:
salary_map={' <=50K':1,' >50K':0}
df['income']=df['income'].map(salary_map).astype(int)

In [6]:
df['sex'] = df['sex'].map({' Male': 1,' Female': 0}).astype(int)
df['country'] = df['country'].replace(' ?', np.nan)
df['workclass'] = df['workclass'].replace(' ?', np.nan)
df['occupation'] = df['occupation'].replace(' ?', np.nan)

df.dropna(how='any',inplace=True)

In [7]:
df.loc[df['country'] != ' United-States', 'country'] = 'Non-US'
df.loc[df['country'] == ' United-States', 'country'] = 'US'

df['country'] = df['country'].map({'US':1,'Non-US':0}).astype(int)

In [8]:
df['marital-status'] = df['marital-status'].replace([' Divorced',' Married-spouse-absent',' Never-married',' Separated',' Widowed'],'Single')
df['marital-status'] = df['marital-status'].replace([' Married-AF-spouse',' Married-civ-spouse'],'Couple')
df['marital-status'] = df['marital-status'].map({'Couple':0,'Single':1})

In [9]:
rel_map = {' Unmarried':0,' Wife':1,' Husband':2,' Not-in-family':3,' Own-child':4,' Other-relative':5}

df['relationship'] = df['relationship'].map(rel_map)

In [10]:
race_map={' White':0,' Amer-Indian-Eskimo':1,' Asian-Pac-Islander':2,' Black':3,' Other':4}

df['race']= df['race'].map(race_map)

In [11]:
def f(x):
    if x['workclass'] == ' Federal-gov' or x['workclass']== ' Local-gov' or x['workclass']==' State-gov': return 'govt'
    elif x['workclass'] == ' Private':return 'private'
    elif x['workclass'] == ' Self-emp-inc' or x['workclass'] == ' Self-emp-not-inc': return 'self_employed'
    else: return 'without_pay'
    
df['employment_type']=df.apply(f, axis=1)

In [12]:
employment_map = {'govt':0,'private':1,'self_employed':2,'without_pay':3}

df['employment_type'] = df['employment_type'].map(employment_map)

In [13]:
df.drop(labels=['workclass','education','occupation'], axis=1, inplace=True)

In [14]:
df.loc[(df['capital-gain'] > 0),'capital-gain'] = 1
df.loc[(df['capital-gain'] == 0 ,'capital-gain')]= 0

In [15]:
df.loc[(df['capital-loss'] > 0),'capital-loss'] = 1
df.loc[(df['capital-loss'] == 0 ,'capital-loss')]= 0

In [16]:
df.head()

Unnamed: 0,age,fnlwgt,education-num,marital-status,relationship,race,sex,capital-gain,capital-loss,hours-per-week,country,income,employment_type
0,39,77516,13,1,3,0,1,1,0,40,1,1,0
1,50,83311,13,0,2,0,1,0,0,13,1,1,2
2,38,215646,9,1,3,0,1,0,0,40,1,1,1
3,53,234721,7,0,2,3,1,0,0,40,1,1,1
4,28,338409,13,0,1,3,0,0,0,40,0,1,1


In [17]:
from sklearn.model_selection import train_test_split

In [18]:
X = df.drop(['income'],axis=1)
y = df['income']

split_size=0.3

#Creation of Train and Test dataset
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=split_size,random_state=22)

#Creation of Train and validation dataset
X_train, X_val, y_train, y_val = train_test_split(X_train,y_train,test_size=0.2,random_state=5)

#### Model

In [19]:
import pickle

In [20]:
with open("model.pkl", "rb") as file:
    model = pickle.load(file)

#### Detectaremos el Drift de la data procesada

In [21]:
import pandas as pd
import json

In [22]:
df = pd.read_csv("logs.csv")
df.head(2)

Unnamed: 0,@timestamp,@version,_id,_index,_score,context,data_stream.dataset,data_stream.namespace,data_stream.type,event.original,...,latency,level,logger_name,message,method,path,request,response,tag,type
0,"Aug 20, 2024 @ 13:18:01.450",1,e8I5cZEBwq1OWMEtiGy3,.ds-logs-generic-default-2024.08.20-000001,-,,generic,default,logs,"{""@timestamp"": ""2024-08-20T19:18:01.450Z"", ""@v...",...,0.001,INFO,python-logstash-logger,Log Data,POST,/home/bubu/CF-classes/CodigoFacilito-Drift-Det...,"{""age"": 52, ""workclass"": ""Self-emp-inc"", ""fnlw...","{""message"":""Prediction successful"",""input_data...",unknown,logstash
1,"Aug 20, 2024 @ 13:18:01.446",1,csI5cZEBwq1OWMEtiGyx,.ds-logs-generic-default-2024.08.20-000001,-,,generic,default,logs,"{""@timestamp"": ""2024-08-20T19:18:01.446Z"", ""@v...",...,0.001,INFO,python-logstash-logger,Log Data,POST,/home/bubu/CF-classes/CodigoFacilito-Drift-Det...,"{""age"": 22, ""workclass"": ""Private"", ""fnlwgt"": ...","{""message"":""Prediction successful"",""input_data...",unknown,logstash


In [23]:
# Check if the Accuracy is okay
response = df["response"]
response_dicts = response.apply(json.loads)
response_list = response_dicts.tolist()
input_data_list = list(filter(lambda x: (x["tag"] == "test_no_drift") if "tag" in x else True, map(lambda x: x["input_data"], response_list)))
y_pred_no_drift = list(filter(lambda x: (x["tag"] == "test_no_drift") if "tag" in x else True, map(lambda x: x["prediction"], response_list)))
y_pred_no_drift[0]

'Income > 50K'

In [24]:
X_no_drift = pd.DataFrame(input_data_list)
X_no_drift["income"] = X_no_drift["income"].apply(lambda x: "Income > 50K" if x > 50000 else "Income <= 50K")
y_real_no_drift = X_no_drift["income"].to_numpy()
X_no_drift = X_no_drift.drop("income", axis=1)

In [25]:
X_no_drift.head()

Unnamed: 0,age,workclass,fnlwgt,education,education_num,marital_status,occupation,relationship,race,sex,capital_gain,capital_loss,hours_per_week,native_country
0,52,Self-emp-inc,287927,HS-grad,9,Married-civ-spouse,Exec-managerial,Wife,White,Female,15024,0,40,United-States
1,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States
2,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States
3,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States
4,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States


In [26]:
y_real_no_drift[:5]

array(['Income > 50K', 'Income <= 50K', 'Income <= 50K', 'Income > 50K',
       'Income <= 50K'], dtype=object)

In [27]:
from sklearn.metrics import accuracy_score

In [28]:
# Calculate accuracy
accuracy = accuracy_score(y_real_no_drift, y_pred_no_drift)

# Print the accuracy
print(f"Accuracy: {accuracy:.2f}") # Yey!

Accuracy: 0.84


#### Drift Detection
Imaginen que por alguna razón en nuestros logs existen los siguientes registros:

In [36]:
X_drift = pd.DataFrame(
    [
        {
            "age": 46,
            "fnlwgt": 257473,
            "education": "Bachelors",
            "education_num": 8,
            "marital_status": "Married-civ-spouse",
            "occupation": "Plumber",
            "relationship": "Husband",
            "race": "Other",
            "sex": "Male",
            "capital_gain": 1000,
            "capital_loss": 0,
            "hours_per_week": 41,
            "native_country": "Australia",
            "income": ">50K",
        },
        {
            "age": 0,
            "workclass": "Private",
            "fnlwgt": 257473,
            "education": "Masters",
            "education_num": 8,
            "marital_status": "Married-civ-spouse",
            "occupation": "Adm-clerical",
            "relationship": "Wife",
            "race": "Asian",
            "sex": "Female",
            "capital_gain": 0,
            "capital_loss": 0,
            "hours_per_week": 40,
            "native_country": "Pakistan",
            "income": ">50K",
        },
        {
            "age": 1000,
            "workclass": "Private",
            "fnlwgt": 257473,
            "education": "Masters",
            "education_num": 8,
            "marital_status": "Married-civ-spouse",
            "occupation": "Prof-specialty",
            "relationship": "Husband",
            "race": "Black",
            "sex": "Male",
            "capital_gain": 0,
            "capital_loss": 0,
            "hours_per_week": 20,
            "native_country": "Cameroon",
            "income": "<=50K",
        },
        {
            "age": 25,
            "workclass": "?",
            "fnlwgt": 257473,
            "education": "Masters",
            "education_num": 8,
            "marital_status": "Married-civ-spouse",
            "occupation": "gamer",
            "relationship": "Husband",
            "race": "Asian",
            "sex": "Female",
            "capital_gain": 0,
            "capital_loss": 0,
            "hours_per_week": 50,
            "native_country": "Mongolia",
            "income": "<=50K",
        },
    ]
)

In [37]:
X_drift["income"] = X_drift["income"].apply(lambda x: "Income " + x)
y_real_drift = X_drift["income"].to_numpy()
X_drift = X_drift.drop("income", axis=1)

### Detectemos Drift con visualizaciones en TFDV

In [38]:
import tensorflow as tf
import tensorflow_data_validation as tfdv
import pandas as pd

from sklearn.model_selection import train_test_split

from tensorflow_metadata.proto.v0 import schema_pb2

print('TFDV Version: {}'.format(tfdv.__version__))
print('Tensorflow Version: {}'.format(tf.__version__))

TFDV Version: 1.15.0
Tensorflow Version: 2.17.0


In [40]:
df = pd.concat([X_no_drift, X_drift], axis = 0, ignore_index = True)

In [41]:
# Vamos a dividirlo en dos
train_df, eval_df = train_test_split(df, test_size=0.2, shuffle=False)

## Generar y visualizar las estadísticas de los sets de datos

Ahora puedes calcular y visualizar las estadísticas de tu conjunto de datos de entrenamiento. TFDV acepta tres formatos de entrada: TFRecord de TensorFlow, DataFrame de Pandas y archivo CSV. En este ejercicio, utilizarás los DataFrames de Pandas que generaste a partir de la división de train-test.

Puedes calcular las estadísticas de tu conjunto de datos utilizando el método [`generate_statistics_from_dataframe()`](https://www.tensorflow.org/tfx/data_validation/api_docs/python/tfdv/generate_statistics_from_dataframe). Internamente, distribuye el análisis a través de [Apache Beam](https://beam.apache.org/), lo que le permite escalarse para grandes conjuntos de datos.

Los resultados devueltos por este paso para datos numéricos y categóricos se resumen en esta tabla:

| Datos Numéricos | Datos Categóricos |
|:-:|:-:|
|Conteo de registros de datos|Conteo de registros de datos|
|% de registros de datos faltantes|% de registros de datos faltantes|
|Media, desviación estándar, mínimo, máximo|Registros únicos|
|% de valores cero|Longitud promedio de cadena|

In [44]:
# Generate training dataset statistics
train_stats = tfdv.generate_statistics_from_dataframe(train_df)

In [45]:
# Visualize training dataset statistics
tfdv.visualize_statistics(train_stats)

## Inferir el esquema de los datos

El siguiente paso es crear un esquema de datos para describir tu conjunto de entrenamiento. En pocas palabras, un esquema describe las características estándar de tus datos, como los tipos de datos de las columnas y el rango esperado de valores. El esquema se crea en un conjunto de datos que consideras como referencia y se puede reutilizar para validar otros conjuntos de datos entrantes.

Con las estadísticas calculadas, TFDV te permite generar automáticamente una versión inicial del esquema utilizando el método [`infer_schema()`](https://www.tensorflow.org/tfx/data_validation/api_docs/python/tfdv/infer_schema). Esto devuelve un Schema [protocol buffer](https://developers.google.com/protocol-buffers) que contiene el resultado. Como se menciona en el [artículo de TFX](http://stevenwhang.com/tfx_paper.pdf) (Sección 3.3), los resultados de la inferencia del esquema se pueden resumir de la siguiente manera:

* El tipo esperado de cada característica.
* La presencia esperada de cada característica, en términos de un conteo mínimo y la fracción de ejemplos que deben contener la característica.
* La valencia esperada de la característica en cada ejemplo, es decir, el número mínimo y máximo de valores.
* El dominio esperado de una característica, es decir, el pequeño universo de valores para una característica de cadena, o el rango para una característica de tipo entero.

Ejecuta la celda a continuación para inferir el esquema del conjunto de datos de entrenamiento.

In [47]:
# Infer schema from the computed statistics.
schema = tfdv.infer_schema(statistics=train_stats)

# Display the inferred schema
tfdv.display_schema(schema)

Unnamed: 0_level_0,Type,Presence,Valency,Domain
Feature name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
'age',INT,required,,-
'workclass',STRING,required,,'workclass'
'fnlwgt',INT,required,,-
'education',STRING,required,,'education'
'education_num',INT,required,,-
'marital_status',STRING,required,,'marital_status'
'occupation',STRING,required,,'occupation'
'relationship',STRING,required,,'relationship'
'race',STRING,required,,'race'
'sex',STRING,required,,'sex'


Unnamed: 0_level_0,Values
Domain,Unnamed: 1_level_1
'workclass',"'?', 'Federal-gov', 'Local-gov', 'Private', 'Self-emp-inc', 'Self-emp-not-inc', 'State-gov'"
'education',"'10th', '11th', '12th', '7th-8th', '9th', 'Assoc-acdm', 'Assoc-voc', 'Bachelors', 'Doctorate', 'HS-grad', 'Masters', 'Prof-school', 'Some-college'"
'marital_status',"'Divorced', 'Married-civ-spouse', 'Never-married', 'Separated', 'Widowed'"
'occupation',"'?', 'Adm-clerical', 'Craft-repair', 'Exec-managerial', 'Handlers-cleaners', 'Machine-op-inspct', 'Other-service', 'Prof-specialty', 'Protective-serv', 'Sales', 'Tech-support', 'Transport-moving'"
'relationship',"'Husband', 'Not-in-family', 'Other-relative', 'Own-child', 'Unmarried', 'Wife'"
'race',"'Amer-Indian-Eskimo', 'Asian-Pac-Islander', 'Black', 'Other', 'White'"
'sex',"'Female', 'Male'"
'native_country',"'?', 'Dominican-Republic', 'Japan', 'Mexico', 'Taiwan', 'United-States'"


## Comparar estadísticas sobre los primeros y segundos datos

In [48]:
# Generate evaluation dataset statistics
eval_stats = tfdv.generate_statistics_from_dataframe(eval_df)

# Compare training with evaluation
tfdv.visualize_statistics(
    lhs_statistics=eval_stats, 
    rhs_statistics=train_stats, 
    lhs_name='EVAL_DATASET', 
    rhs_name='TRAIN_DATASET'
)

Te animamos a que observes los resultados generados y explores los menús para practicar la manipulación de la visualización (por ejemplo, ordenando por valores faltantes o ceros). Notarás que TFDV detecta las filas malformadas que introdujimos anteriormente. Primero, los valores `min` y `max` de la fila `age` muestran `0` y `1000`, respectivamente. Sabemos que esos valores no tienen sentido si estamos hablando de adultos que trabajan. En segundo lugar, la fila `workclass` en las Características Categóricas indica que el `0.02%` de los datos carece de ese atributo en particular. Vamos a eliminar estas filas para limpiar mejor los datos.

In [50]:
# filter the age range
eval_df = eval_df[eval_df['age'] > 16]
eval_df = eval_df[eval_df['age'] < 91]

# drop missing values
eval_df.dropna(inplace=True)

In [51]:
# Generate evaluation dataset statistics
eval_stats = tfdv.generate_statistics_from_dataframe(eval_df)

# Compare training with evaluation
tfdv.visualize_statistics(
    lhs_statistics=eval_stats, 
    rhs_statistics=train_stats, 
    lhs_name='EVAL_DATASET', 
    rhs_name='TRAIN_DATASET'
)

## Anomalías

Puedes utilizar tu esquema de referencia para verificar anomalías, como nuevos valores para una característica específica en los datos de evaluación. Las anomalías detectadas pueden considerarse un error real que necesita ser corregido, o dependiendo de tu conocimiento del dominio y del caso específico, pueden ser aceptadas.

Vamos a detectar y mostrar las anomalías en la evaluación y ver si hay algún problema que deba ser abordado.

In [52]:
# Check evaluation data for errors by validating the evaluation dataset statistics using the reference schema
anomalies =  tfdv.validate_statistics(statistics=eval_stats, schema=schema)

# Visualize anomalies
tfdv.display_anomalies(anomalies)

Unnamed: 0_level_0,Anomaly short description,Anomaly long description
Feature name,Unnamed: 1_level_1,Unnamed: 2_level_1
'native_country',Unexpected string values,Examples contain values missing from the schema: Mongolia (~5%).
'race',Unexpected string values,Examples contain values missing from the schema: Asian (~5%).
'occupation',Unexpected string values,Examples contain values missing from the schema: gamer (~5%).


## Revisar el Esquema

Como se muestra en los resultados anteriores, TFDV es capaz de detectar las irregularidades restantes que introdujimos antes. Las descripciones corta y larga nos indican lo que se detectó. Como era de esperar, hay valores de tipo cadena para `race`, `native-country` y `occupation` que no se encuentran en el dominio del esquema del conjunto de entrenamiento (podrías ver un resultado diferente si se aplicó la mezcla de los conjuntos de datos). Lo que decidas hacer con respecto a las anomalías depende de tu conocimiento del dominio de los datos. Si una anomalía indica un error en los datos, entonces los datos subyacentes deben corregirse. De lo contrario, puedes actualizar el esquema para incluir los valores en el conjunto de datos de evaluación.

TFDV proporciona un conjunto de métodos y parámetros de utilidad que puedes utilizar para revisar el esquema inferido. Esta [referencia](https://www.tensorflow.org/tfx/data_validation/anomalies) enumera los tipos de anomalías y los parámetros que puedes editar, pero nos centraremos solo en un par aquí.

- Puedes relajar la fracción mínima de valores que deben provenir del dominio de una característica particular (como se describe en `ENUM_TYPE_UNEXPECTED_STRING_VALUES` en la [referencia](https://www.tensorflow.org/tfx/data_validation/anomalies)):

```python
tfdv.get_feature(schema, 'feature_column_name').distribution_constraints.min_domain_mass = <float: 0.0 to 1.0>
```

- Puedes agregar un nuevo valor al dominio de una característica particular:

```python
tfdv.get_domain(schema, 'feature_column_name').value.append('string')
```

Vamos a utilizar estos en la siguiente sección.

## Corregir anomalías en el esquema

Supongamos que queremos aceptar las anomalías de cadena reportadas como válidas. Si deseas tolerar una fracción de valores faltantes en el conjunto de datos de evaluación, puedes hacerlo de la siguiente manera:

In [55]:
# Relax the minimum fraction of values that must come from the domain for the feature `native-country`
country_feature = tfdv.get_feature(schema, 'native_country')
country_feature.distribution_constraints.min_domain_mass = 0.9

# Relax the minimum fraction of values that must come from the domain for the feature `occupation`
occupation_feature = tfdv.get_feature(schema, 'occupation')
occupation_feature.distribution_constraints.min_domain_mass = 0.9

Además, también puedes restringir el rango de una característica numérica. Esto te permitirá identificar valores inválidos sin necesidad de inspeccionarlos visualmente (por ejemplo, los valores inválidos de age mencionados anteriormente).

In [56]:
# Restrict the range of the `age` feature
tfdv.set_domain(schema, 'age', schema_pb2.IntDomain(name='age', min=17, max=90))

# Display the modified schema. Notice the `Domain` column of `age`.
tfdv.display_schema(schema)

Unnamed: 0_level_0,Type,Presence,Valency,Domain
Feature name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
'age',INT,required,,min: 17; max: 90
'workclass',STRING,required,,'workclass'
'fnlwgt',INT,required,,-
'education',STRING,required,,'education'
'education_num',INT,required,,-
'marital_status',STRING,required,,'marital_status'
'occupation',STRING,required,,'occupation'
'relationship',STRING,required,,'relationship'
'race',STRING,required,,'race'
'sex',STRING,required,,'sex'


Unnamed: 0_level_0,Values
Domain,Unnamed: 1_level_1
'workclass',"'?', 'Federal-gov', 'Local-gov', 'Private', 'Self-emp-inc', 'Self-emp-not-inc', 'State-gov'"
'education',"'10th', '11th', '12th', '7th-8th', '9th', 'Assoc-acdm', 'Assoc-voc', 'Bachelors', 'Doctorate', 'HS-grad', 'Masters', 'Prof-school', 'Some-college'"
'marital_status',"'Divorced', 'Married-civ-spouse', 'Never-married', 'Separated', 'Widowed'"
'occupation',"'?', 'Adm-clerical', 'Craft-repair', 'Exec-managerial', 'Handlers-cleaners', 'Machine-op-inspct', 'Other-service', 'Prof-specialty', 'Protective-serv', 'Sales', 'Tech-support', 'Transport-moving'"
'relationship',"'Husband', 'Not-in-family', 'Other-relative', 'Own-child', 'Unmarried', 'Wife'"
'race',"'Amer-Indian-Eskimo', 'Asian-Pac-Islander', 'Black', 'Other', 'White'"
'sex',"'Female', 'Male'"
'native_country',"'?', 'Dominican-Republic', 'Japan', 'Mexico', 'Taiwan', 'United-States'"


In [57]:
# Validate eval stats after updating the schema 
updated_anomalies = tfdv.validate_statistics(eval_stats, schema)
tfdv.display_anomalies(updated_anomalies)

Unnamed: 0_level_0,Anomaly short description,Anomaly long description
Feature name,Unnamed: 1_level_1,Unnamed: 2_level_1
'race',Unexpected string values,Examples contain values missing from the schema: Asian (~5%).


## Resumen

Este ejercicio demostró cómo utilizar Tensorflow Data Validation en un proyecto de aprendizaje automático.

* Permite escalar el cálculo de estadísticas sobre conjuntos de datos.

* Puedes inferir el esquema de un conjunto de datos dado y revisarlo en función de tu conocimiento del dominio.

* Puedes inspeccionar discrepancias entre los conjuntos de datos de entrenamiento y evaluación visualizando las estadísticas y detectando anomalías.

* Puedes analizar segmentos específicos de tu conjunto de datos.

Puedes consultar este notebook en la tarea de programación de esta semana, así como en estos recursos adicionales:

* [Guía de TFDV](https://www.tensorflow.org/tfx/data_validation/get_started) 
* [Entrada de blog sobre TFDV](https://blog.tensorflow.org/2018/09/introducing-tensorflow-data-validation.html)
* [Tutorial oficial de Tensorflow](https://colab.research.google.com/github/tensorflow/tfx/blob/master/docs/tutorials/data_validation/tfdv_basic.ipynb#scrollTo=mPt5BHTwy_0F)
* [Documentación de la API](https://www.tensorflow.org/tfx/data_validation/api_docs/python/tfdv)