## Variables categóricas

En muchas actividades prácticas de Data Science, el conjunto de datos contendrá variables categóricas. Estas variables generalmente se almacenan como valores de texto que representan varios rasgos. Algunos ejemplos incluyen color ("Rojo", "Amarillo", "Azul"), tamaño ("Pequeño", "Medio", "Grande") o designaciones geográficas (Estado o País). Independientemente de para qué se use el valor, el desafío es determinar cómo usar estos datos en el análisis. Muchos algoritmos de aprendizaje automático pueden admitir valores categóricos sin mayor manipulación, pero hay muchos más algoritmos que no lo hacen. Por lo tanto, el analista se enfrenta al desafío de descubrir cómo convertir estos atributos de texto en valores numéricos para su posterior procesamiento.

vamos a ver Dummy de Pandas
y encoder de SKLEARN

In [1]:
import pandas as pd

In [2]:
train = pd.read_csv(r'https://raw.githubusercontent.com/Lawlesscodelen/thebridge_ds/master/data/titanic.csv')
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [6]:
# La posibilidad más rápida 
#hasta ahora hemos pasado series a pd.getdummies pero ahora vamos a pasar un dataframe sin utilizar iloc y concat
pd.get_dummies(train, columns=["Sex","Embarked"], drop_first=True) #sex_male no tiene sex_female
#Ponemos que queremos pasar a dummies sex y embarked

Unnamed: 0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,Sex_male,Embarked_Q,Embarked_S
0,1,0,3,"Braund, Mr. Owen Harris",22.0,1,0,A/5 21171,7.2500,,1,0,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1,0,PC 17599,71.2833,C85,0,0,0
2,3,1,3,"Heikkinen, Miss. Laina",26.0,0,0,STON/O2. 3101282,7.9250,,0,0,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1,0,113803,53.1000,C123,0,0,1
4,5,0,3,"Allen, Mr. William Henry",35.0,0,0,373450,8.0500,,1,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",27.0,0,0,211536,13.0000,,1,0,1
887,888,1,1,"Graham, Miss. Margaret Edith",19.0,0,0,112053,30.0000,B42,0,0,1
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",,1,2,W./C. 6607,23.4500,,0,0,1
889,890,1,1,"Behr, Mr. Karl Howell",26.0,0,0,111369,30.0000,C148,1,0,0


In [3]:
pd.get_dummies(train.Sex) 
#Crea una columna por cada valor posible y te va diciendo por 0 o 1 si corresponde a female or male. Tenemos dos posibles valores para sexo
#por eso utilizamos un dummy para representarlo

Unnamed: 0,female,male
0,0,1
1,1,0
2,1,0
3,1,0
4,0,1
...,...,...
886,0,1
887,1,0
888,1,0
889,0,1


In [16]:
pd.get_dummies(train.Sex, prefix='Sex').loc[:, 'Sex_male':]  #no coge sex female, coge sex male hasta el final 
#Quitamos una de las columnas, la primera
#Cuando las variables estan muy relacionadas, la correlación es muy alta puede dar problemas de multicolinealidad.
#Por ello, se intenta eliminar las variables redundantes. Para algoritmos de machine learning 

Unnamed: 0,Sex_male
0,1
1,0
2,0
3,0
4,1
...,...
886,1
887,0
888,0
889,1


In [4]:
train.Embarked.value_counts()
#Vemos que en embarked hay tres posibilidades 

S    644
C    168
Q     77
Name: Embarked, dtype: int64

In [5]:
pd.get_dummies(train.Embarked, prefix='Embarked')
#Nos devuelve tres columnas por las tres posibilidades 
#Sabemos que la primera fila es una S, la segunda una C la tercera una S...
#¿Dudas? Se puede mirar el dataframe 

Unnamed: 0,Embarked_C,Embarked_Q,Embarked_S
0,0,0,1
1,1,0,0
2,0,0,1
3,0,0,1
4,0,0,1
...,...,...,...
886,0,0,1
887,0,0,1
888,0,0,1
889,1,0,0


In [19]:
pd.get_dummies(train.Embarked, prefix='Embarked').iloc[:, 1:]
#Quitamos la columna C. Fijaos:
# Primera fila: 0 en Q, 1 en S: Sabemos que es embarked_s
#Si cogemos la segunda fila: es un 0,0, entonces sabemos que el uno es la columna quitada C

Unnamed: 0,Embarked_Q,Embarked_S
0,0,1
1,0,0
2,0,1
3,0,1
4,0,1
...,...,...
886,0,1
887,0,1
888,0,1
889,0,0
