### Pair Programming Encoding

En el pair programming de hoy usaremos el set de datos que guardastéis en el pair programming de normalización y estandarización.

Vuestro set de datos debería tener al menos una variable categórica, el objetivo del pair programming de hoy:


- ### Haced una códificación de la/las variables categóricas que tengáis en vuestro set de datos.  Recordad que lo primero que deberéis hacer es decidir su vuestras variables tienen o no orden, para que en función de esto uséis una aproximación u otra.

In [71]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd

# Para la codificación de las variables numéricas
# -----------------------------------------------------------------------
from sklearn.preprocessing import LabelEncoder # para realizar el Label Encoding 
from sklearn.preprocessing import OneHotEncoder  # para realizar el One-Hot Encoding

# Para evitar que salgan los warnings en jupyter
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings('ignore')

In [72]:
df=pd.read_csv('datos/diamonds_est.csv',index_col=0)
df.head(3)

Unnamed: 0,carat,cut,color,clarity,depth,table,price,lenght_mm,width_mm,depth_mm,est_carat,est_depth,est_table,est_price,est_lenght_mm,est_width_mm,est_depth_mm
1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43,-1.26816,-1.597233,1.661056,-0.986397,-1.646799,-1.705394,-1.780396
2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31,-1.224362,0.042616,3.519383,-0.986075,-1.503737,-1.498268,-1.780396
3,0.23,Good,E,VS1,61.8,65.0,327,4.05,4.07,2.31,-1.092965,0.534571,0.26731,-0.98382,-1.369617,-1.35418,-1.316852


In [73]:
#exploramos la tasa de nulos:
df.isnull().sum()

carat              0
cut                0
color              0
clarity            0
depth              0
table              0
price              0
lenght_mm          0
width_mm           0
depth_mm           0
est_carat        147
est_depth        147
est_table        147
est_price        147
est_lenght_mm    147
est_width_mm     147
est_depth_mm     147
dtype: int64

In [74]:
#extraemos las variables categóricas del df:
categoricas =df.select_dtypes(include='object')
categoricas

Unnamed: 0,cut,color,clarity
1,Ideal,E,SI2
2,Premium,E,SI1
3,Good,E,VS1
4,Premium,I,VS2
5,Good,J,SI2
...,...,...,...
53936,Ideal,D,SI1
53937,Good,D,SI1
53938,Very Good,D,SI1
53939,Premium,H,SI2


In [75]:
#extraemos los valores únicos de las columnas y comprobamos su orden (más información, RL-EDA-1):
for col in categoricas:
    print(f'Para la columna {col.upper()}, los valores únicos son:')
    print(df[col].unique())
    print('----------------')

Para la columna CUT, los valores únicos son:
['Ideal' 'Premium' 'Good' 'Very Good' 'Fair']
----------------
Para la columna COLOR, los valores únicos son:
['E' 'I' 'J' 'H' 'F' 'G' 'D']
----------------
Para la columna CLARITY, los valores únicos son:
['SI2' 'SI1' 'VS1' 'VS2' 'VVS2' 'VVS1' 'I1' 'IF']
----------------


Los valores de las columnas categoricas tienen el siguiente orden:

- **cut** quality of the cut (Fair, Good, Very Good, Premium, Ideal).

- **color** diamond colour, from J (worst) to D (best).

- **clarity** a measurement of how clear the diamond is (I1 (worst), SI2, SI1, VS2, VS1, VVS2, VVS1, IF (best)).

#### Recodificación de las variables:

In [76]:
#Realizamos una funcion para automatizar.

def cat_columns(df,col,orden_values): 
  dict_orden={} #Creamos un diccionario para mapear. 
  for k, v in enumerate(orden_values): #Iteramos por las posiciones de la lista y sus valores.
  #Asignamos como keys los valores de la lista y como values las posiciones de las categorias en la lista.
    dict_orden[v]=k+1 
    #dict_orden[v]=k 
    new_col=col+'_map'
    
  df[new_col]=df[col].map(dict_orden)
  return df


In [77]:
#generamos unas listas con el orden:
lista_cut= ["Fair", "Good", "Very Good", "Premium", "Ideal"]
lista_color = ["D", "E", "F", "G", "H", "I", "J"]
lista_clarity= ["I1", "SI2", "SI1", "VS2", "VS1", "VVS2", "IF"]

In [78]:
#aplicamos la función:

cat_columns(df, 'color', lista_color)
cat_columns(df, 'clarity', lista_clarity)
cat_columns(df, 'cut', lista_cut)

Unnamed: 0,carat,cut,color,clarity,depth,table,price,lenght_mm,width_mm,depth_mm,est_carat,est_depth,est_table,est_price,est_lenght_mm,est_width_mm,est_depth_mm,color_map,clarity_map,cut_map
1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43,-1.268160,-1.597233,1.661056,-0.986397,-1.646799,-1.705394,-1.780396,2,2.0,5
2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31,-1.224362,0.042616,3.519383,-0.986075,-1.503737,-1.498268,-1.780396,2,3.0,4
3,0.23,Good,E,VS1,61.8,65.0,327,4.05,4.07,2.31,-1.092965,0.534571,0.267310,-0.983820,-1.369617,-1.354180,-1.316852,2,5.0,2
4,0.29,Premium,I,VS2,62.4,58.0,334,4.20,4.23,2.63,-1.049167,1.272504,0.267310,-0.983498,-1.244438,-1.246114,-1.143024,6,4.0,4
5,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75,-1.202462,0.862541,-0.197272,-0.983175,-1.602092,-1.597328,-1.534138,7,2.0,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
53936,0.72,Ideal,D,SI1,60.8,57.0,2757,5.75,5.76,3.50,,,,,,,,1,3.0,5
53937,0.72,Good,D,SI1,63.1,55.0,2757,5.69,5.75,3.61,,,,,,,,1,3.0,2
53938,0.70,Very Good,D,SI1,62.8,60.0,2757,5.66,5.68,3.56,,,,,,,,1,3.0,3
53939,0.86,Premium,H,SI2,61.0,58.0,2757,6.15,6.12,3.74,,,,,,,,5,2.0,4


In [79]:
df.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,price,lenght_mm,width_mm,depth_mm,est_carat,est_depth,est_table,est_price,est_lenght_mm,est_width_mm,est_depth_mm,color_map,clarity_map,cut_map
1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43,-1.26816,-1.597233,1.661056,-0.986397,-1.646799,-1.705394,-1.780396,2,2.0,5
2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31,-1.224362,0.042616,3.519383,-0.986075,-1.503737,-1.498268,-1.780396,2,3.0,4
3,0.23,Good,E,VS1,61.8,65.0,327,4.05,4.07,2.31,-1.092965,0.534571,0.26731,-0.98382,-1.369617,-1.35418,-1.316852,2,5.0,2
4,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63,-1.049167,1.272504,0.26731,-0.983498,-1.244438,-1.246114,-1.143024,6,4.0,4
5,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75,-1.202462,0.862541,-0.197272,-0.983175,-1.602092,-1.597328,-1.534138,7,2.0,2


#### Almacenamos los cambios en un csv:

In [None]:
df.to_csv('datos/diamonds_est_cod.csv')