# Procesamiento para variables categóricas con Python


### Diferencias entre los encoding 

| Categoria | Dummy | One-hot |
| --------- | ------| --------|
|Ingles     | [0,0] | [1,0,0] |
|Español    | [0,1] | [0,1,0] |
|Frances    | [1,0] | [0,0,1] |
| "Nan"     |  ?    | [0,0,0] |

<br>
En Python todos los frameworks no utilizan la transformacion Dummy solo existe el One-hot a pesar que algunas lo llaman dummies , ya que como pudimos ver es capaz de representar correctamente incluso datos que no se encontraban en el dataset original



In [None]:
import pandas as pd 

df = pd.read_csv('cars.csv')

Pandas dummies: https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html

In [None]:
set(df['engine_type'])

{'diesel', 'electric', 'gasoline'}

In [None]:
pd.get_dummies(df['engine_type'])

Unnamed: 0,diesel,electric,gasoline
0,0,0,1
1,0,0,1
2,0,0,1
3,0,0,1
4,0,0,1
...,...,...,...
38526,0,0,1
38527,1,0,0
38528,0,0,1
38529,0,0,1


One-hot con Scikit: https://scikit-learn.org/stable/modules/preprocessing.html#encoding-categorical-features 

In [None]:
import sklearn.preprocessing as  preprocessing
encoder =  preprocessing.OneHotEncoder(handle_unknown='ignore')

In [None]:
df[['engine_type']].values

array([['gasoline'],
       ['gasoline'],
       ['gasoline'],
       ...,
       ['gasoline'],
       ['gasoline'],
       ['gasoline']], dtype=object)

In [None]:
encoder.fit(df[['engine_type']].values)

OneHotEncoder(handle_unknown='ignore')

In [None]:
encoder.transform([['gasoline'], ['diesel'], ['aceite']]).toarray()

array([[0., 0., 1.],
       [1., 0., 0.],
       [0., 0., 0.]])

Variables numéricas discretas pueden ser codificadas como categoricas

In [None]:
encoder.fit(df[['year_produced']].values)

OneHotEncoder(handle_unknown='ignore')

In [None]:
# encoder.fit(df[['year_produced']].values)

OneHotEncoder(handle_unknown='ignore')

In [None]:
encoder.transform([[2016], [2009], [199]]).toarray()

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

# Correlaciones

Correlacion y covarianza

si la correlazion entre dos variables es muy alta hay que evaluar si representan la misma informacion para asi reducir el numero de variables.

se busca reducir el numero de columnas para obtener aquellas que representen la fuente principal de datos

## Correlacion

intutivamente se basa en medir las desvicaciones o variaciones de una variable X con respecto a otra variable Y

## Covarianza

$$
\text{cov}(x,y) = \frac{1}{n} * \sum_{i=1}^n (X_i - \bar{X}) (Y_i - \bar{Y})
$$


## Coeficiente de correlacion

Una forma de normalizar la covarianza es dividirla por la desviacion estandar de la variable X y la desviacion estandar de la variable Y

Si el coeficiente es alta quiere decir que hay una alta correlacion y si el coeficiente es bajo quiere decir que hay una baja correlacion

mientras mas cercano a 1 mayor es la correlacion y mientras mas cercano a 0 menor es la correlacion

$$
r =\frac{\sum\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sqrt{\sum\left(x_{i}-\bar{x}\right)^{2} \sum\left(y_{i}-\bar{y}\right)^{2}}}
$$

$$
r = \frac{\text{cov}(x,y)}{\sigma(x)\sigma(y)}
$$


[lectura para profundizar en el coeficiente de correlacion](https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf)


### Correlaciones

- ¿Qué es la correlación?
La correlación es una medida estadística que expresa hasta qué punto dos variables están relacionadas linealmente (esto es, cambian conjuntamente a una tasa constante).

- ¿Qué es la covarianza?
Es un valor que indica el grado de variación conjunta de dos variables aleatorias respecto a sus medias.

- ¿Qué es el coeficiente de correlación?
El coeficiente de correlación es la medida específica que cuantifica la intensidad de la relación lineal entre dos variables en un análisis de correlación.

![correlacion](./images/correlacion.png)


    Siempre debemos considerar que: Correlación no implica causalidad.

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=bc504059-8ad6-4235-92fa-88fa0fec1687' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>