# Clonamos el repositorio para obtener los dataSet

In [None]:
!git clone https://github.com/joanby/machinelearning-az.git

# Damos acceso a nuestro Drive

In [None]:
from google.colab import drive
drive.mount('/content/drive')

# Test it

In [None]:
!ls '/content/drive/My Drive' 

# Google colab tools

In [None]:
from google.colab import files # Para manejar los archivos y, por ejemplo, exportar a su navegador
import glob # Para manejar los archivos y, por ejemplo, exportar a su navegador
from google.colab import drive # Montar tu Google drive

# Plantilla de Pre Procesado - Datos Categóricos


# Cómo importar las librerías


In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [3]:
np.__version__

'1.24.1'

In [8]:
__import__("matplotlib").__version__

'3.7.0'

In [9]:
pd.__version__

'1.5.2'

# Importar el data set


In [32]:
dataset = pd.read_csv('Data.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 3].values


In [33]:
X

array([['France', 44.0, 72000.0],
       ['Spain', 27.0, 48000.0],
       ['Germany', 30.0, 54000.0],
       ['Spain', 38.0, 61000.0],
       ['Germany', 40.0, nan],
       ['France', 35.0, 58000.0],
       ['Spain', nan, 52000.0],
       ['France', 48.0, 79000.0],
       ['Germany', 50.0, 83000.0],
       ['France', 37.0, 67000.0]], dtype=object)

In [34]:
y

array(['No', 'Yes', 'No', 'No', 'Yes', 'Yes', 'No', 'Yes', 'No', 'Yes'],
      dtype=object)

# Codificar datos categóricos

In [14]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer

In [35]:
labelencoder_X = LabelEncoder()
X[:, 0] = labelencoder_X.fit_transform(X[:, 0])

In [36]:
X

array([[0, 44.0, 72000.0],
       [2, 27.0, 48000.0],
       [1, 30.0, 54000.0],
       [2, 38.0, 61000.0],
       [1, 40.0, nan],
       [0, 35.0, 58000.0],
       [2, nan, 52000.0],
       [0, 48.0, 79000.0],
       [1, 50.0, 83000.0],
       [0, 37.0, 67000.0]], dtype=object)

`ColumnTransformer` es una clase de la biblioteca de `sklearn` (scikit-learn) que se utiliza para aplicar transformaciones específicas a columnas particulares de un conjunto de datos. Permite aplicar diferentes transformaciones a diferentes columnas de manera simultánea, lo que facilita la manipulación de características heterogéneas en un pipeline de aprendizaje automático. Esto es especialmente útil cuando se trabaja con conjuntos de datos que contienen diferentes tipos de características, como variables numéricas, categóricas o textuales. ColumnTransformer se encarga de aplicar las transformaciones adecuadas a cada columna y luego combinar los resultados en un único conjunto de datos transformado.

Los parámetros principales de la clase ColumnTransformer de sklearn son:

-  `transformers` : Un listado de tuplas que especifican las transformaciones a aplicar a las columnas. Cada tupla contiene el nombre de la transformación, el estimador/transformador y las columnas a las que se debe aplicar.

    -Las transformaciones comunes que se pueden utilizar con la clase ColumnTransformer de sklearn:

        1.  `StandardScaler` : Esta transformación estandariza las características numéricas al escalarlas a una media de cero y una desviación estándar de uno.

        2.  `MinMaxScaler` : Esta transformación escala las características numéricas al rango especificado, generalmente entre 0 y 1.

        3.  `OneHotEncoder` : Esta transformación se utiliza para codificar características categóricas en un formato numérico binario, creando columnas binarias para cada categoría.

        4.  `OrdinalEncoder` : Esta transformación codifica características categóricas en un formato numérico ordinal, asignando un número entero a cada categoría.

        5.  `CountVectorizer` : Esta transformación se utiliza para convertir texto en una representación numérica contando la frecuencia de las palabras en un documento.

        6.  `TfidfVectorizer` : Esta transformación se utiliza para convertir texto en una representación numérica utilizando el esquema TF-IDF (frecuencia de término - frecuencia inversa de documento).

        Estas son solo algunas de las transformaciones disponibles en sklearn. Puedes explorar la documentación de sklearn para obtener una lista completa de transformaciones y sus opciones de configuración.

-  `remainder` : Especifica qué hacer con las columnas que no se seleccionaron para ninguna transformación. Puede ser "passthrough" para mantenerlas sin cambios, o un estimador/transformador para aplicar una transformación adicional.

-  `sparse_threshold` : Especifica un umbral para determinar si la matriz dispersa debe ser utilizada o no.

-  `n_jobs` : Número de trabajos en paralelo para ejecutar las transformaciones.

Algunas opciones de uso de ColumnTransformer pueden ser:

1. Aplicar diferentes transformaciones a diferentes columnas de un conjunto de datos antes de ajustar un modelo de aprendizaje automático.

2. Realizar preprocesamiento específico en ciertas características, como escalar características numéricas y codificar características categóricas, antes de entrenar un modelo.

3. Utilizar transformaciones diferentes según el tipo de columna, por ejemplo, aplicar una transformación de escala a las características numéricas y una codificación one-hot a las características categóricas.

4. Controlar el manejo de las columnas que no se seleccionan para ninguna transformación, ya sea manteniéndolas sin cambios o aplicando una transformación adicional.

Estas son solo algunas de las muchas opciones de uso que se pueden lograr con ColumnTransformer de sklearn. La flexibilidad de esta clase permite adaptarse a diferentes necesidades de preprocesamiento de datos en el aprendizaje automático.

In [37]:
ct = ColumnTransformer([
    # Los números de columna a transformar (aquí es [0] pero puede ser [0, 1, 3])
    ('one_hot_encoder', OneHotEncoder( categories = 'auto' ), [0])],   
    # Dejar el resto de las columnas sin modificar.
    remainder = 'passthrough'
)

In [None]:
# result = pd.DataFrame({
#     'Column1'  : X[:, 0], 
#     'Column2'  : X[:, 1],
#     'Column3'  : X[:, 2], 
#     'Age'      : X[:, 3],
#     'Salary'   : X[:, 4],
#     'Purchased': y[:]})
# display(result)

result = pd.DataFrame({
    'Francia' : X[:, 0], 
    'España'  : X[:, 1],
    'Alemania': X[:, 2], 
    'Edad'    : X[:, 3],
    'Salario' : X[:, 4],
    'Compradp': y[:]})
display(result)

Unnamed: 0,Francia,España,Alemania,Edad,Salario,Compradp
0,0.0,1.0,0.0,0.0,44.0,0
1,1.0,0.0,0.0,1.0,27.0,1
2,1.0,0.0,1.0,0.0,30.0,0
3,1.0,0.0,0.0,1.0,38.0,0
4,1.0,0.0,1.0,0.0,40.0,1
5,0.0,1.0,0.0,0.0,35.0,1
6,1.0,0.0,0.0,1.0,,0
7,0.0,1.0,0.0,0.0,48.0,1
8,1.0,0.0,1.0,0.0,50.0,0
9,0.0,1.0,0.0,0.0,37.0,1


In [18]:
ct

#onehotencoder = OneHotEncoder(categorical_features=[0])
#X = onehotencoder.fit_transform(X).toarray()

In [40]:
X = np.array(ct.fit_transform(X), dtype=np.float32)
labelencoder_y = LabelEncoder()
y = labelencoder_y.fit_transform(y)

In [41]:
print(X.shape)

(10, 6)


In [42]:
print(y)

[0 1 0 0 1 1 0 1 0 1]


In [44]:
# result = pd.DataFrame({
#     'Column1'  : X[:, 0], 
#     'Column2'  : X[:, 1],
#     'Column3'  : X[:, 2], 
#     'Age'      : X[:, 3],
#     'Salary'   : X[:, 4],
#     'Purchased': y[:]})
# display(result)

result = pd.DataFrame({
    'Francia' : X[:, 0], 
    'España'  : X[:, 1],
    'Alemania': X[:, 2], 
    'Edad'    : X[:, 3],
    'Salario' : X[:, 4],
    'Compradp': y[:]})
display(result)

Unnamed: 0,Francia,España,Alemania,Edad,Salario,Compradp
0,0.0,1.0,0.0,0.0,44.0,0
1,1.0,0.0,0.0,1.0,27.0,1
2,1.0,0.0,1.0,0.0,30.0,0
3,1.0,0.0,0.0,1.0,38.0,0
4,1.0,0.0,1.0,0.0,40.0,1
5,0.0,1.0,0.0,0.0,35.0,1
6,1.0,0.0,0.0,1.0,,0
7,0.0,1.0,0.0,0.0,48.0,1
8,1.0,0.0,1.0,0.0,50.0,0
9,0.0,1.0,0.0,0.0,37.0,1
