# Variables Categóricas y Numéricas
 
Una vez que sabemos que los datos cumplen con las características de calidad y que no hay nulos, debemos revisar los tipos de datos y realizar modificaciones sobre las variables predictoras categóricas para convertirlas en numércias, es decir sobre las variables (columnas) que se utilizaran para predecir pero **NO sobre la variable que intentamos predecir**. Esto se debe a que si la variable que intentamos predecir es categórica, estemos realizando un modelo de aprendizaje automático supervisado del tipo **clasificación** y si la variable a predecir es una variable numérica, estamos realizando un modelo de aprendizaje automático supervisado del tipo **regresión**. En este caso la variable que intentamos predecir es *temperatura* que es un variable numérica, por lo tanto realizaremos un modelo de **regresión**.

La manera de convertir las variables predictoras en numéricas dependerá del tipo de variable.
- Cuando la variable categórica es de tipo **ordinal**, es decir, tiene un orden, podemos reemplazar sus valores con números consecutivos. Por ejemplo: Excelente: 5, Muy bueno: 4, Bueno: 3, Regular: 2 y Malo:1. Esto se debe a que el valor que toma el número tiene relación con los otros números. 
- Cuando la variable categórica es de tipo **nominal**, es decir, no tiene un orden debemos convertirlas en **variables dummies**

Una **variable dummy** es una variable que solo puede tomar como valor 0 o 1 y en un modelo de aprendizaje automático significará la presencia o ausencia de determinada característica. Hay distintos métodos para realizar esta transformación, a través de funciones creadas específicamente o utilizando el método *get_dummies* de la librería pandas. 

Revisaremos dos ejemplos con el dataset del Clima que venímos trabajando

In [2]:
#importamos las librerias que utilizaremos

import pandas as pd
import matplotlib.pyplot as plt  
import seaborn as sns

#### Desde el Drive


In [22]:
#Recordar utilizar dataset modificado de la clase pasada. 

data = pd.read_csv("data_clima3.csv")

#### Desde el archivo descargado en la computadora

In [5]:
#vemos los primeros registros del dataset

data.head(3)

Unnamed: 0,humedad,velocidad_viento_kmh,rumbo_viento_grados,visibilidad_km,presion_mbar,lluvia,descripcion,temperatura
0,0.92,11.27,130.0,8.05,1021.6,no,Cold,-0.56
1,0.73,20.93,330.0,16.1,1017.0,si,Warm,21.11
2,0.97,5.97,193.0,14.91,1013.99,si,Normal,16.6


In [6]:
# Vemos el tamaño del dataset

data.shape

(9995, 8)

### Identificación de tipos de datos

Utilizaremos el método *dytpes* para observar los tipos de datos del Dataset.

Observamos que hay dos variables de tipo *object* es decir que son objetos, no numéricos. 

In [7]:
data.dtypes

humedad                 float64
velocidad_viento_kmh    float64
rumbo_viento_grados     float64
visibilidad_km          float64
presion_mbar            float64
lluvia                   object
descripcion              object
temperatura             float64
dtype: object

#### Lluvia

Comenzaremos con la variable *lluvia* observando que valores toma y como está distribuido

In [23]:
data["lluvia"].unique()

array(['no', 'si'], dtype=object)

In [24]:
data["lluvia"].value_counts()

si    8907
no    1088
Name: lluvia, dtype: int64

In [25]:
def procesolluvia(x):
    if x=="si":
        return 1
    else:
        return 0

In [13]:
procesolluvia('si')

1

In [14]:
procesolluvia('no')

0

In [26]:
data["lluvia"]

0       no
1       si
2       si
3       si
4       si
        ..
9990    si
9991    si
9992    si
9993    si
9994    si
Name: lluvia, Length: 9995, dtype: object

In [27]:
data["lluvia"].values

array(['no', 'si', 'si', ..., 'si', 'si', 'si'], dtype=object)

In [30]:
nuevacolumna=[]
for x in data["lluvia"]:
    nuevovalor=procesolluvia(x)
    nuevacolumna.append(nuevovalor)

In [31]:
nuevacolumna

[0,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 0,
 1,
 1,
 1,
 1,
 0,
 1,
 1,
 1,
 0,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 0,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 0,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 0,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 0,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 0,
 0,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 0,
 1,
 1,
 1,
 0,
 1,
 0,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 0,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 0,
 1,
 0,
 0,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 0,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 0,
 1,
 0,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 0,
 0,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 0,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 0,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,


In [32]:
data["lluvia2"]=nuevacolumna

In [33]:
data

Unnamed: 0,humedad,velocidad_viento_kmh,rumbo_viento_grados,visibilidad_km,presion_mbar,lluvia,descripcion,temperatura,lluvia2
0,0.92,11.27,130.0,8.05,1021.60,no,Cold,-0.56,0
1,0.73,20.93,330.0,16.10,1017.00,si,Warm,21.11,1
2,0.97,5.97,193.0,14.91,1013.99,si,Normal,16.60,1
3,0.82,3.22,300.0,16.10,1031.59,si,Cold,1.60,1
4,0.60,10.88,116.0,9.98,1020.88,si,Cold,2.19,1
...,...,...,...,...,...,...,...,...,...
9990,0.95,10.24,20.0,4.01,1007.41,si,Normal,10.02,1
9991,0.64,11.04,80.0,9.98,1031.33,si,Normal,8.63,1
9992,0.93,11.04,269.0,14.91,1014.21,si,Normal,5.98,1
9993,0.78,8.18,231.0,7.82,1005.02,si,Normal,9.79,1


# Apply

Podemos observar que *lluvia* tiene dos posibles valores "si" y "no", es decir únicamente 2 opciones que pueden ser consideradas como la ausencia o presencia de lluvia. En este sentido podemos reemplazar el valor "si" por un 1 y el valor "no" por un 0.

Para realizar esta operación utilizaremos el método de pandas: *apply* 

- [apply](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.apply.html): puede realizarse sobre un DataFrame y opera sobre filas o columnas completas o sobre una Series (una sola columna) y opera sobre cada uno de los elementos.


```
def procesolluvia(x):
    if x=="si":
        return 1
    else:
        return 0
nuevacolumna=[]
for x in data["lluvia"]:
    nuevovalor=procesolluvia(x)
    nuevacolumna.append(nuevovalor)
```    

In [35]:
data.lluvia

0       no
1       si
2       si
3       si
4       si
        ..
9990    si
9991    si
9992    si
9993    si
9994    si
Name: lluvia, Length: 9995, dtype: object

In [34]:
data.lluvia.apply(procesolluvia)

0       0
1       1
2       1
3       1
4       1
       ..
9990    1
9991    1
9992    1
9993    1
9994    1
Name: lluvia, Length: 9995, dtype: int64

In [36]:
data.lluvia

0       no
1       si
2       si
3       si
4       si
        ..
9990    si
9991    si
9992    si
9993    si
9994    si
Name: lluvia, Length: 9995, dtype: object

In [37]:
data['lluvia']=data.lluvia.apply(procesolluvia)

In [38]:
data

Unnamed: 0,humedad,velocidad_viento_kmh,rumbo_viento_grados,visibilidad_km,presion_mbar,lluvia,descripcion,temperatura,lluvia2
0,0.92,11.27,130.0,8.05,1021.60,0,Cold,-0.56,0
1,0.73,20.93,330.0,16.10,1017.00,1,Warm,21.11,1
2,0.97,5.97,193.0,14.91,1013.99,1,Normal,16.60,1
3,0.82,3.22,300.0,16.10,1031.59,1,Cold,1.60,1
4,0.60,10.88,116.0,9.98,1020.88,1,Cold,2.19,1
...,...,...,...,...,...,...,...,...,...
9990,0.95,10.24,20.0,4.01,1007.41,1,Normal,10.02,1
9991,0.64,11.04,80.0,9.98,1031.33,1,Normal,8.63,1
9992,0.93,11.04,269.0,14.91,1014.21,1,Normal,5.98,1
9993,0.78,8.18,231.0,7.82,1005.02,1,Normal,9.79,1


- **funciones lambda** también se denominan funciones anónimas. Una función anónima es una función definida sin un nombre. Como sabemos, para definir una función normal en Python, usamos la palabra clave *def*, pero en el caso de funciones anónimas, usamos la palabra clave *lambda* para definirlas.

La sintaxis es 

    lambda argumento: expresión

Dentro de la expresión se realizará la función que se desea realizar.

En este caso definiremos la función lambda para realizar un condicional donde reemplace los valores "si" por un 1 y "no" por un 0.

In [44]:
def mifuncion(x):
     return(x**2)

In [45]:
mifuncion(3)

9

In [41]:
mifun=lambda x: x**2
mifun(3)

9

In [10]:
# Se define una nueva columna "lluvia" con "apply" se corre la función "lambda" por cada uno de los valores de las celdas de nuestra Series
# x es el argumento que en este caso se refiere a cada valor de la columna

data["lluvia"] = data["lluvia"].apply(lambda x: 1 if x=="si" else 0)

La función lambda utilizada escrita como una función sería

    def(x):
        if x=="si":
            1
        else:
            0

In [11]:
# Revisamos si realizó correctamente la operación

print(data["lluvia"].unique())
data["lluvia"].value_counts()

[0 1]


1    8907
0    1088
Name: lluvia, dtype: int64

#### Descripción

Ahora analizaremos la variable *descripcion* viendo los valores que toma y como es la distribución.

In [46]:
print(data["descripcion"].unique())
data["descripcion"].value_counts()

['Cold' 'Warm' 'Normal']


Normal    4990
Warm      2504
Cold      2501
Name: descripcion, dtype: int64

En este caso toma 3 valores "Normal", "Warm" y "Cold",en este caso la consideraremos una variable categórica nominal y por lo tanto debemos convertirla en una **variable dummy**.  Tal vez podríamos considerar que es una variable numérica ordinal ya que hay un orden y podríamos reemplazarla por 1, 2 y 3, en cuyo caso usaríamos el mismo procedimiento en el caso de *lluvia* (*apply* y *lambda*). 

Crearemos 3 columnas: "Normal", "Warm" y "Cold" de manera tal que tomará el valor 1 la columna correspondiente al valor que toma el registro en *descripción* y 0 en las otras dos columnas. Por ejemplo, en la fila donde la columna *descripcion* es "Normal", la columna "Normal" será 1 y las columnas "Warm" y "Cold" será 0.

Para realizar esto es posible crear una función propia o utilizar el método de pandas [get_dummies](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html?highlight=get_dummies#pandas.get_dummies). Más adelante veremos una función *one_hot_encoding* que también puede ser utilizada en el mismo sentido.

En el caso de *get_dummies* se generará un pequeño DataFrame con las 3 columnas. 

In [47]:
# Utilizamos get_dummies sobre la variable lluvia

pd.get_dummies(data["descripcion"])

Unnamed: 0,Cold,Normal,Warm
0,1,0,0
1,0,0,1
2,0,1,0
3,1,0,0
4,1,0,0
...,...,...,...
9990,0,1,0
9991,0,1,0
9992,0,1,0
9993,0,1,0


In [48]:
# En dataset más grandes y con muchas variables categóricas es recomendable colocar un prefijo en los nombres de las columnas

pd.get_dummies(data["descripcion"], prefix= "descripcion_")

Unnamed: 0,descripcion__Cold,descripcion__Normal,descripcion__Warm
0,1,0,0
1,0,0,1
2,0,1,0
3,1,0,0
4,1,0,0
...,...,...,...
9990,0,1,0
9991,0,1,0
9992,0,1,0
9993,0,1,0


In [49]:
# Puede considerarse que hay una columna de más ya que su dato puede ser considerado en base a los otros dos (si las otras 2 columnas son 0)
# Para eso puede definirse quitar la primer columna lo que puede servir en términos de procesamiento y no hay pérdida de datos

dummies_descripcion = pd.get_dummies(data["descripcion"], prefix= "descripcion_", drop_first=True)
dummies_descripcion

Unnamed: 0,descripcion__Normal,descripcion__Warm
0,0,0
1,0,1
2,1,0
3,0,0
4,0,0
...,...,...
9990,1,0
9991,1,0
9992,1,0
9993,1,0


Ahora que tenemos el DataFrame de variables dummies generado debemos unirlo a nuestro DataFrame original con el método [join](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html?highlight=join#pandas.DataFrame.join).

También podrían utilizarse lo métodos [merge](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html) o [concat](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html?highlight=concat#pandas.concat)

In [50]:
data=data.join(dummies_descripcion)

In [51]:
# Revisemos el resultado

data.sample(10)

Unnamed: 0,humedad,velocidad_viento_kmh,rumbo_viento_grados,visibilidad_km,presion_mbar,lluvia,descripcion,temperatura,lluvia2,descripcion__Normal,descripcion__Warm
9939,0.62,9.58,27.0,11.4,1021.64,1,Normal,15.18,1,1,0
272,0.81,20.3,139.0,9.87,1001.81,1,Normal,10.88,1,1,0
6329,0.9,4.75,290.0,16.1,1015.72,1,Normal,17.78,1,1,0
6766,0.58,17.71,320.0,11.27,1021.8,0,Cold,0.0,0,0,0
2716,0.69,6.12,302.0,14.96,1021.42,0,Cold,-2.65,0,0,0
1314,0.93,6.34,192.0,2.19,1008.52,1,Cold,2.78,1,0,0
6435,0.92,3.38,138.0,3.06,1033.64,0,Cold,-5.03,0,0,0
6507,0.93,9.34,161.0,11.7,1013.26,1,Normal,13.84,1,1,0
4329,0.96,0.66,290.0,3.14,1020.4,1,Cold,2.74,1,0,0
2523,0.58,7.99,203.0,8.42,1023.23,1,Normal,8.81,1,1,0


In [52]:
# Eliminamos la columna "descripcion" ya que su información está en las nuevas columnas

data.drop(columns="descripcion", inplace=True)

In [53]:
data.head(3)

Unnamed: 0,humedad,velocidad_viento_kmh,rumbo_viento_grados,visibilidad_km,presion_mbar,lluvia,temperatura,lluvia2,descripcion__Normal,descripcion__Warm
0,0.92,11.27,130.0,8.05,1021.6,0,-0.56,0,0,0
1,0.73,20.93,330.0,16.1,1017.0,1,21.11,1,0,1
2,0.97,5.97,193.0,14.91,1013.99,1,16.6,1,1,0


In [54]:
# Revisamos los tipos de datos nuevamente

data.dtypes

humedad                 float64
velocidad_viento_kmh    float64
rumbo_viento_grados     float64
visibilidad_km          float64
presion_mbar            float64
lluvia                    int64
temperatura             float64
lluvia2                   int64
descripcion__Normal       uint8
descripcion__Warm         uint8
dtype: object

### Conclusión

El Dataset que tenemos como resultado es un Dataset cuyas columnas son condieradas necesarias y cuyos datos cumplen con los criterios de calidad, no tiene ningún dato nulo y todas sus variables son numéricas. Por lo tanto podemos considerar terminado el paso de Limpieza de datos y pasar al siguiente de división de datos entre entrenamiento y testeo que realizareron el encuentro que viene.

Dado que hemos realizado cambios en el Dataset y el encuentro que viene retomaremos este mismo, vamos a utilizar el método *to_csv* que es el opuesto a *read_csv* y sirve para exportar un CSV de una Notebook

In [None]:
# Guardar en drive

data.to_csv("data_clima4.csv", index=False)
