In [None]:
# MIT License

# Copyright (c) 2021 GDSC UNI

# Permission is hereby granted, free of charge, to any person obtaining a copy
# of this software and associated documentation files (the "Software"), to deal
# in the Software without restriction, including without limitation the rights
# to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
# copies of the Software, and to permit persons to whom the Software is
# furnished to do so, subject to the following conditions:

# The above copyright notice and this permission notice shall be included in all
# copies or substantial portions of the Software.

# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
# AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
# OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
# SOFTWARE.

<table align="center">
  <td align="center"><a target="_blank" href="https://gdsc.community.dev/universidad-nacional-de-ingenieria/">
        <img src="https://i.ibb.co/pX2w52P/GDSC.png" style="padding-bottom:5px;" />
      View GDSC UNI</a></td>

  <td align="center"><a target="_blank" href="https://colab.research.google.com/drive/1Ir8lEbP30tfNx47qR__IJw-rsuCx5Hpw?usp=sharing">
        <img src="https://i.ibb.co/Bf0HK0q/Colaboratory.png"  style="padding-bottom:5px;" />Run in Google Colab </a></td>


  <td align="center"><a target="_blank" href="https://github.com/GDSC-UNI/Pandas-For-Data-Science/blob/main/PFDS3_Varriables_Categoricas.ipynb">
        <img src="https://i.ibb.co/VHHdRx2/Github.png"  height="110px" style="padding-bottom:5px;"/>View source on GitHub</a></td>
</table>


<p></p>

<h1 style="font-size:42px; text-align:center; margin-bottom:30px;"><span style="color:#000080">PFDS3:</span> Variable Categóricas</h1>
<hr>

Las variables de tipo categóricas son muy frecuentes en Data Science y Machine learning. Como vimos en el notebook anterior, estas pueden ser features como el sexo, si una persona sobrevive o no, en donde se embarcó y la clase a la que pertenecía su boleto.
 
Muchos algoritmos de aprendizaje automático no pueden operar directamente con datos categóricos, requieren que las variables de entrada y de salida sean numéricas. Es por ello por lo que los datos categóricos deben de convertirse a una forma numérica, más conocido como mapeo numérico. 
 
Existen dos tipos de codificaciones que nos permiten realizar este mapeo, Dummy y one-shot.
 
 




# Dummy
En la codificación Dummy o codificación de enteros, a cada variable categórica se le asigna un valor entero.
Por ejemplo, "male" es 0, "female" es 1.
 Las ventajas de esta codificación son que realizan una codificación compacta y es fácilmente reversible. Sin embargo, si queremos agregar un nuevo valor categórico a los datos, este no podría ser codificado, además de que algunos algoritmos de aprendizaje automático pueden entender que la representación numérica puede estar relacionada con una jerarquía.
 


# One-shot 
 
Al hacer one-shot encoder a las variables categóricas, a cada una se le asigna un valor binario, por ejemplo, en el caso del sexo de los pasajeros tenemos "male" y "female", al ser solo dos valores, se generan representaciones de 2 bits, 10 para "male" y 01 para "female". Esta forma de realizar la codificación permite asignar un código a una nueva variable en caso se incluya, lo cual no se podía con la codificación dummy.

# Codificación usando Pandas 

Pandas, dentro de sus métodos nos permite hacer estas codificaciones mediante el método get_dummies.

<code>pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None) </code>

In [None]:
import pandas as pd 

df_titanic = pd.read_csv('./Datasets/Titanic.csv')
df_titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [None]:
df_titanic[['Survived', 'Pclass', 'Sex', 'Embarked']] = df_titanic[['Survived', 'Pclass', 'Sex', 'Embarked']].astype('category')

In [None]:
pd.get_dummies(df_titanic['Embarked'])

Unnamed: 0,C,Q,S
0,0,0,1
1,1,0,0
2,0,0,1
3,0,0,1
4,0,0,1
...,...,...,...
886,0,0,1
887,0,0,1
888,0,0,1
889,1,0,0


Al usar dummies, estamos creando una codificación one shot, seguro la pregunta es ¿Por qué? El método usado es dummies pero internamente pandas realizan una codificación one-shot. En nuestro ejemplo, si el pasajero se embarca por S el código es 001, si se embarcó por Q es 010. 
 
Los datos obtenidos con get_dummies pueden ser agregados como features a nuestra tabla. Para el caso de Machine Learning, esta podría ser una muy buena forma de incrementar la dimensionalidad de nuestros datos y obtener mejor eficiencia.


In [None]:
df_titanic[['Embarked_C', 'Embarked_Q', 'Embarked_S']] = pd.get_dummies(df_titanic['Embarked'])
df_titanic.sample(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Embarked_C,Embarked_Q,Embarked_S
90,91,0,3,"Christmann, Mr. Emil",male,29.0,0,0,343276,8.05,,S,0,0,1
435,436,1,1,"Carter, Miss. Lucile Polk",female,14.0,1,2,113760,120.0,B96 B98,S,0,0,1
72,73,0,2,"Hood, Mr. Ambrose Jr",male,21.0,0,0,S.O.C. 14879,73.5,,S,0,0,1
104,105,0,3,"Gustafsson, Mr. Anders Vilhelm",male,37.0,2,0,3101276,7.925,,S,0,0,1
363,364,0,3,"Asim, Mr. Adola",male,35.0,0,0,SOTON/O.Q. 3101310,7.05,,S,0,0,1


# Notebook plus



## Rename
Como plus de este notebook, mostraremos un método de los DataFrames que nos permite renombrar nuestros datos.

<code>DataFrame.rename(mapper=None, index=None, columns=None, axis=None, copy=True, inplace=False, level=None, errors='ignore') </code>

In [None]:
df_titanic.rename(columns={'Embarked_C': 'C', 'Embarked_Q': 'Q', 'Embarked_S': 'S'}, inplace=True)
df_titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,C,Q,S
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,0,0,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1,0,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,0,0,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,0,0,1
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,0,0,1
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,0,0,1
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,0,0,1
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,1,0,0


In [None]:
list(df_titanic)

['PassengerId',
 'Survived',
 'Pclass',
 'Name',
 'Sex',
 'Age',
 'SibSp',
 'Parch',
 'Ticket',
 'Fare',
 'Cabin',
 'Embarked',
 'C',
 'Q',
 'S']

## Drop

No siempre trabajaremos con todas las columnas de nuestro dataset, siempre tendremos que eliminar las columnas que no son de mucha utilidad para el entrenamiento de nuestro modelo de Machine Learning, esto lo hacemos mediante el método:

<code>DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')</code>

In [None]:
df_titanic.drop(['PassengerId', 'Name', 'Ticket', 'Cabin', 'Embarked'], axis=1, inplace=True)

In [None]:
df_titanic.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,C,Q,S
0,0,3,male,22.0,1,0,7.25,0,0,1
1,1,1,female,38.0,1,0,71.2833,1,0,0
2,1,3,female,26.0,0,0,7.925,0,0,1
3,1,1,female,35.0,1,0,53.1,0,0,1
4,0,3,male,35.0,0,0,8.05,0,0,1


Además de las eliminaciones de columnas, también podemos hacer eliminaciones de filas de la siguiente manera.

In [None]:
df_titanic.drop([1,3,5]).head(6)

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,C,Q,S
0,0,3,male,22.0,1,0,7.25,0,0,1
2,1,3,female,26.0,0,0,7.925,0,0,1
4,0,3,male,35.0,0,0,8.05,0,0,1
6,0,1,male,54.0,0,0,51.8625,0,0,1
7,0,3,male,2.0,3,1,21.075,0,0,1
8,1,3,female,27.0,0,2,11.1333,0,0,1


inclusive combinaciones de filas con columnas!!

In [None]:
df_titanic.drop(columns=['Fare', 'SibSp'], index=[0,2,4,6])

Unnamed: 0,Survived,Pclass,Sex,Age,Parch,C,Q,S
1,1,1,female,38.0,0,1,0,0
3,1,1,female,35.0,0,0,0,1
5,0,3,male,,0,0,1,0
7,0,3,male,2.0,1,0,0,1
8,1,3,female,27.0,2,0,0,1
...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,0,1
887,1,1,female,19.0,0,0,0,1
888,0,3,female,,2,0,0,1
889,1,1,male,26.0,0,1,0,0


## Copy
Si queremos realizar una copia de nuestro DataFrame, si realizamos esta con una simple asignación como
 
<code>df = df_titanic</code>
 
Lo que se realizará es una copia de la dirección de memoria.


In [None]:
df = df_titanic
id(df) == id(df_titanic)

True

Esto significa que todas las modificaciones que se hagan en df se realizarán también en df_titanic, algo que no queremos. 

Para hacer una copia correcta, hacemos lo siguiente.

In [None]:
df_copy = df_titanic.copy(deep=True)
id(df_titanic) == id(df_copy)

False