# *Modern Deep Learning for Tabular Data using "drinking_water_potability.csv"*, Chapter 2

**Classical Machine Learning Principles and Methods**

---------------

This notebook contains the complementary code discussed in Chapter 2 of *Modern Deep Learning for Tabular Data*.

External Kaggle links to datasets used in this notebook:
- [Drinking_water_potability Dataset](https://www.kaggle.com/washingtongold/amazon-us-software-reviews)

You can download these datasets from Kaggle, or import these notebooks into Kaggle and connect them internally.

--------------------

# **1. Environment configuration**
---------

In [3]:
# data management
import numpy as np                   # for linear algebra
import pandas as pd                  # for tabular data manipulation and processing
import category_encoders             # for categorical encoding
from skimage import io               # for input/output processing

# machine learning
import sklearn                       # for data prep and classical ML
import tensorflow as tf              # for deep learning
from tensorflow import keras         # for deep learning

# data visualization and graphics
import matplotlib.pyplot as plt      # for visualization fundamentals
import seaborn as sns                # for pretty visualizations
sns.set_palette("magma")
import cv2                           # for image manipulation

# misc
from tqdm.notebook import tqdm       # for progress bars
import math                          # for calculation
import sys                           # for system manipulation
import os                            # for file manipulation

In [5]:
pd.set_option('display.max_columns', None)
global df

# **2. Data processing**
----------

In [15]:
df = pd.read_csv("drinking_water_potability.csv")

## Data Storage and Manipulation
-----

### Data 
----

#### Discrete data
------

In [16]:
df.shape

(3276, 10)

In [19]:
df = df.dropna(axis=1, how='any')
df.shape

(3276, 10)

#### Label Encoding
---------

El código realiza codificación de etiquetas, una técnica para convertir variables categóricas en representaciones numéricas para modelos de aprendizaje automático.

In [20]:
# Función para codificar etiquetas utilizando el método de Label Encoding
def label_encoding(arr):
    # Encuentra los valores únicos en el arreglo
    unique = np.unique(arr)
    
    # Crea un mapeo de valores únicos a índices
    mapping = {elem: index for index, elem in enumerate(unique)}
    
    # Codifica el arreglo original utilizando el mapeo
    return np.array([mapping[elem] for elem in arr])


In [None]:
'''
    Ejemplo de uso con la columna 'LotShape' de un DataFrame ('df')
    
    lot_shape = np.array(df['LotShape'])
    encoded = label_encoding(lot_shape)
    
    print(f'Original Array: {lot_shape}')
    print(f'Encoded Array:  {encoded}')
'''

Este código utiliza la clase LabelEncoder de scikit-learn para realizar la codificación de etiquetas de manera más conveniente. 

In [None]:
'''
    # Importa la clase LabelEncoder de scikit-learn
    from sklearn.preprocessing import LabelEncoder

    # Crea una instancia de LabelEncoder
    encoder = LabelEncoder()

    # Aplica la codificación a la columna 'LotShape' de un DataFrame ('df')
    encoded = encoder.fit_transform(df['LotShape'])

    # Imprime los resultados
    print(f'Original Array: {lot_shape}')
    print(f'Encoded Array:  {encoded}')
'''

#### One-Hot Encoding
-----------

In [None]:
'''
# Función para realizar one-hot encoding basado en una función de label encoding
def one_hot_encoding(arr):
    # Realiza label encoding para obtener valores numéricos únicos
    labels = label_encoding(arr)
    
    # Inicializa una matriz de ceros con el tamaño necesario
    encoded = np.zeros((len(arr), len(np.unique(arr))))
    
    # Asigna 1 a las posiciones correspondientes en la matriz
    for i in range(len(arr)):
        encoded[i][labels[i]] = 1
    
    return encoded

# Ejemplo de uso con la columna 'LotShape' de un DataFrame ('df')
lot_shape = np.array(df['LotShape'])
encoded = one_hot_encoding(lot_shape)

# Imprime los resultados
print(f'Original Array: {lot_shape}')
print(f'Encoded Array: \n{encoded}')
'''

### TensorFlow Datasets