<a href="https://colab.research.google.com/github/ffelfis/OrgaDatosTPs/blob/main/TP2/resources/OneHot_Ecoding.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lectura de datos de Google Drive

In [1]:
# Lectura de Dataset desde Google Drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# Carga de librerías y directorios

In [2]:
import pandas as pd
import numpy as np

# Encoder
from sklearn.preprocessing import OneHotEncoder
# Para armar el Dataframe con las columnas codificadas
from sklearn.compose import make_column_transformer

# Rutas de los archivos a usar

In [3]:
# Ruta train_values.csv
dir_values = '/content/drive/My Drive/75.06 - Organización de Datos/TP1/Data/train_values.csv'
# Ruta test_values.csv
dir_test = '/content/drive/My Drive/75.06 - Organización de Datos/TP1/Data/test_values.csv'

# Carga de datos

In [4]:
# Columnas categóricas
columnas = ['land_surface_condition', 'foundation_type', 'roof_type', 
            'ground_floor_type', 'other_floor_type', 
            'position', 'plan_configuration', 'legal_ownership_status']

# Carga de train_values.csv
train = pd.read_csv(dir_values, usecols=columnas, dtype='category')
# Carga de test_values.csv
test = pd.read_csv(dir_test, usecols=columnas, dtype='category')

### Valores de categorías

In [5]:
train.dtypes.values

array([CategoricalDtype(categories=['n', 'o', 't'], ordered=False),
       CategoricalDtype(categories=['h', 'i', 'r', 'u', 'w'], ordered=False),
       CategoricalDtype(categories=['n', 'q', 'x'], ordered=False),
       CategoricalDtype(categories=['f', 'm', 'v', 'x', 'z'], ordered=False),
       CategoricalDtype(categories=['j', 'q', 's', 'x'], ordered=False),
       CategoricalDtype(categories=['j', 'o', 's', 't'], ordered=False),
       CategoricalDtype(categories=['a', 'c', 'd', 'f', 'm', 'n', 'o', 'q', 's', 'u'], ordered=False),
       CategoricalDtype(categories=['a', 'r', 'v', 'w'], ordered=False)],
      dtype=object)

# Train

### Codificación de columnas categóricas

```
column_transformer = make_column_transformer((OneHotEncoder(sparse=False), train.columns), remainder='passthrough')
```
Se pasa (Codificador, columnas a codificar), `remainder` establece qué hacer con el resto de las columnas.

Si no hubiera más columnas para modificar, con `'passtrough'` se omiten.



In [6]:
# Transformador de columnas.
column_transformer = make_column_transformer((OneHotEncoder(sparse=False), train.columns), remainder='passthrough')

### Prefijos para columnas generadas por One Hot Encoding
```
'S_' : 'land_surface_condition'
'F_' : 'foundation_type'
'R_' : 'roof_type'
'G_' : 'ground_floor_type'
'O_' : 'other_floor_type'
'P_' : 'position'
'C_' : 'plan_configuration'
'L_' : 'legal_ownership_status'
```

In [7]:
# Nombres (índice) para columnas codificadas
categories = ['S_n', 'S_o', 'S_t',
              'F_h', 'F_i', 'F_r', 'F_u', 'F_w',
              'R_n', 'R_q', 'R_x',
              'G_f', 'G_m', 'G_v', 'G_x', 'G_z',
              'O_j', 'O_q', 'O_s', 'O_x',
              'P_j', 'P_o', 'P_s', 'P_t',
              'C_a', 'C_c', 'C_d', 'C_f', 'C_m', 'C_n', 'C_o', 'C_q', 'C_s', 'C_u',
              'L_a', 'L_r', 'L_v', 'L_w']

In [8]:
df_ohe = pd.DataFrame(columns=categories, data=column_transformer.fit_transform(train), dtype='uint8')

In [9]:
df_ohe.to_csv('OHE_train.csv', index=False)

# Test

Todas las categorías se usan al menos una vez, por lo que se puede usar el mismo encoder de antes.

In [10]:
df_ohe = pd.DataFrame(columns=categories, data=column_transformer.fit_transform(test), dtype='uint8')

In [11]:
df_ohe.to_csv('OHE_test.csv', index=False)