# Variables Categóricas y Numéricas
 
Una vez que sabemos que los datos cumplen con las características de calidad y que no hay nulos, debemos revisar los tipos de datos y realizar modificaciones sobre las variables predictoras categóricas para convertirlas en numércias, es decir sobre las variables (columnas) que se utilizaran para predecir pero **NO sobre la variable que intentamos predecir**. Esto se debe a que si la variable que intentamos predecir es categórica, estemos realizando un modelo de aprendizaje automático supervisado del tipo **clasificación** y si la variable a predecir es una variable numérica, estamos realizando un modelo de aprendizaje automático supervisado del tipo **regresión**. En este caso la variable que intentamos predecir es *temperatura* que es un variable numérica, por lo tanto realizaremos un modelo de **regresión**.

La manera de convertir las variables predictoras en numéricas dependerá del tipo de variable.
- Cuando la variable categórica es de tipo **ordinal**, es decir, tiene un orden, podemos reemplazar sus valores con números consecutivos. Por ejemplo: Excelente: 5, Muy bueno: 4, Bueno: 3, Regular: 2 y Malo:1. Esto se debe a que el valor que toma el número tiene relación con los otros números. 
- Cuando la variable categórica es de tipo **nominal**, es decir, no tiene un orden debemos convertirlas en **variables dummies**

Una **variable dummy** es una variable que solo puede tomar como valor 0 o 1 y en un modelo de aprendizaje automático significará la presencia o ausencia de determinada característica. Hay distintos métodos para realizar esta transformación, a través de funciones creadas específicamente o utilizando el método *get_dummies* de la librería pandas. 

Revisaremos dos ejemplos con el dataset del Clima que venímos trabajando

In [None]:
#importamos las librerias que utilizaremos

import pandas as pd
import matplotlib.pyplot as plt  
import seaborn as sns

#### Desde el Drive


In [None]:
from google.colab import drive
drive.mount('/content/drive')


In [None]:
#Recordar utilizar dataset modificado de la clase pasada. 

data = pd.read_csv("/content/drive/MyDrive/Aprender Programando/2022/Guías y Recursos - Trayectos 2021/Recursos/Modulos 1 y 2. Presentación CABA/Ciencia de datos/2022/Módulo 2/Encuentro 3/data_clima")

#### Desde el archivo descargado en la computadora

In [None]:
#from google.colab import files
#import io

#filesUploaded = files.upload()   #Recordar utilizar el dataset de la clase pasada

In [None]:
data = pd.read_csv("data_clima.csv")

In [None]:
#vemos los primeros registros del dataset

data.head(3)

In [None]:
# Vemos el tamaño del dataset

data.shape

### Identificación de tipos de datos

Utilizaremos el método *dytpes* para observar los tipos de datos del Dataset.

Observamos que hay dos variables de tipo *object* es decir que son objetos, no numéricos. 

In [None]:
data.dtypes

#### Lluvia

Comenzaremos con la variable *lluvia* observando que valores toma y como está distribuido

In [None]:
data["lluvia"].unique()

In [None]:
data["lluvia"].value_counts()

Podemos observar que *lluvia* tiene dos posibles valores "si" y "no", es decir únicamente 2 opciones que pueden ser consideradas como la ausencia o presencia de lluvia. En este sentido podemos reemplazar el valor "si" por un 1 y el valor "no" por un 0.

Para realizar esta operación utilizaremos dos métodos de pandas: *apply* y *lambda*

- [apply](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.apply.html): puede realizarse sobre un DataFrame y opera sobre filas o columnas completas o sobre una Series (una sola columna) y opera sobre cada uno de los elementos.

- **funciones lambda** también se denominan funciones anónimas. Una función anónima es una función definida sin un nombre. Como sabemos, para definir una función normal en Python, usamos la palabra clave *def*, pero en el caso de funciones anónimas, usamos la palabra clave *lambda* para definirlas.

La sintaxis es 

    lambda argumento: expresión

Dentro de la expresión se realizará la función que se desea realizar.

En este caso definiremos la función lambda para realizar un condicional donde reemplace los valores "si" por un 1 y "no" por un 0.

In [None]:
# Se define una nueva columna "lluvia" con "apply" se corre la función "lambda" por cada uno de los valores de las celdas de nuestra Series
# x es el argumento que en este caso se refiere a cada valor de la columna

data["lluvia"] = data["lluvia"].apply(lambda x: 1 if x=="si" else 0)

La función lambda utilizada escrita como una función sería

    def(x):
        if x=="si":
            1
        else:
            0

In [None]:
# Revisamos si realizó correctamente la operación

print(data["lluvia"].unique())
data["lluvia"].value_counts()

#### Descripción

Ahora analizaremos la variable *descripcion* viendo los valores que toma y como es la distribución.

In [None]:
print(data["descripcion"].unique())
data["descripcion"].value_counts()

En este caso toma 3 valores "Normal", "Warm" y "Cold",en este caso la consideraremos una variable categórica nominal y por lo tanto debemos convertirla en una **variable dummy**.  Tal vez podríamos considerar que es una variable numérica ordinal ya que hay un orden y podríamos reemplazarla por 1, 2 y 3, en cuyo caso usaríamos el mismo procedimiento en el caso de *lluvia* (*apply* y *lambda*). 

Crearemos 3 columnas: "Normal", "Warm" y "Cold" de manera tal que tomará el valor 1 la columna correspondiente al valor que toma el registro en *descripción* y 0 en las otras dos columnas. Por ejemplo, en la fila donde la columna *descripcion* es "Normal", la columna "Normal" será 1 y las columnas "Warm" y "Cold" será 0.

Para realizar esto es posible crear una función propia o utilizar el método de pandas [get_dummies](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html?highlight=get_dummies#pandas.get_dummies). Más adelante veremos una función *one_hot_encoding* que también puede ser utilizada en el mismo sentido.

En el caso de *get_dummies* se generará un pequeño DataFrame con las 3 columnas. 

In [None]:
# Utilizamos get_dummies sobre la variable lluvia

pd.get_dummies(data["descripcion"])

In [None]:
# En dataset más grandes y con muchas variables categóricas es recomendable colocar un prefijo en los nombres de las columnas

pd.get_dummies(data["descripcion"], prefix= "descripcion_")

In [None]:
# Puede considerarse que hay una columna de más ya que su dato puede ser considerado en base a los otros dos (si las otras 2 columnas son 0)
# Para eso puede definirse quitar la primer columna lo que puede servir en términos de procesamiento y no hay pérdida de datos

dummies_descripcion = pd.get_dummies(data["descripcion"], prefix= "descripcion_", drop_first=True)
dummies_descripcion

Ahora que tenemos el DataFrame de variables dummies generado debemos unirlo a nuestro DataFrame original con el método [join](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html?highlight=join#pandas.DataFrame.join).

También podrían utilizarse lo métodos [merge](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html) o [concat](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html?highlight=concat#pandas.concat)

In [None]:
data=data.join(dummies_descripcion)

In [None]:
# Revisemos el resultado

data.sample(10)

In [None]:
# Eliminamos la columna "descripcion" ya que su información está en las nuevas columnas

data.drop(columns="descripcion", inplace=True)

In [None]:
data.head(3)

In [None]:
# Revisamos los tipos de datos nuevamente

data.dtypes

### Conclusión

El Dataset que tenemos como resultado es un Dataset cuyas columnas son condieradas necesarias y cuyos datos cumplen con los criterios de calidad, no tiene ningún dato nulo y todas sus variables son numéricas. Por lo tanto podemos considerar terminado el paso de Limpieza de datos y pasar al siguiente de división de datos entre entrenamiento y testeo que realizareron el encuentro que viene.

Dado que hemos realizado cambios en el Dataset y el encuentro que viene retomaremos este mismo, vamos a utilizar el método *to_csv* que es el opuesto a *read_csv* y sirve para exportar un CSV de una Notebook

In [None]:
# Guardar en drive

data.to_csv("/content/drive/MyDrive/Aprender Programando/2022/Guías y Recursos - Trayectos 2021/Recursos/Modulos 1 y 2. Presentación CABA/Ciencia de datos/2022/Módulo 2/Encuentro 5/data_clima", index=False)


In [None]:
# Descargar en computadora

from google.colab import files

data.to_csv("data_clima4.csv", index=False)
files.download("data_clima4.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>