<a href="https://colab.research.google.com/github/tuxsy/iebs-master-data-science/blob/main/m06/c1/Preparacion_datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Limpieza de datos

Entendemos por limpieza de datos el proceso mediante el cual procedemos a cambiar e incluso eliminar los datos ruidosos, incorrectos, duplicados, dañados o incompletos que hay en un conjunto de datos.

Para realizar este procedimiento no existe ninguna fórmula mágica que determine al cien por cien los procesos que hay que seguir para llevarlo a cabo de manera exitosa, pues todo depende del tipo de datos con los que se esté trabajando. Pero sí que existen una serie de herramientas o metodologías muy extendidas a la hora realizar este proceso y, justamente son las que vamos a tratar en este apartado.

A pesar de que este proceso normalmente es el menos atractivo en los proyectos de analítica, es de suma importancia dedicarle el tiempo suficiente y no tratar por él de manera superflua, pues de él **depende en gran medida el éxito o el fracaso de nuestro trabajo como analista de datos**. Es por ello que cada vez que nos enfrentemos ante un conjunto de datos sin preprocesar (en crudo), es de suma importancia reflexionar qué técnicas son más apropiadas para dicha situación en concreto.

La limpieza y preprocesamiento de los datos, por lo tanto, es **la primera tarea** a desarrollar cuando nos enfrentamos a nuevos proyectos como analista de datos. Tanto `pandas` como `scikt-learn` nos proporcionan herramientas para hacer esta tarea, es por ello que nos centraremos en estas librerías para desarrollar este notebook.

Como norma general, al comenzar de cero un proyecto de analítica, los datos no suelen venir en un sólo fichero, sino más bien en varios, que hay que unir mediante un determinado campo de enlace y, de este modo, conseguir un solo fichero o tablón con el que poder trabajar. Para hacer esto `pandas` nos proporciona la función  [`merge()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html). En este notebook, no la vamos a utilizar pues no es necesario, dado que el conjunto de datos con el que vamos a trabajar ya viene en un sólo fichero y, por lo tanto, ya tenemos los datos en formato adecuado para ir al paso siguiente.

# Importación de datos
Para mostrar el preprocesamiento de los datos, vamos a utilizar un ficherro de kaggle que se denomina *melb_data.csv* y que se puede localizar y descargar del siguiente enlace: [https://www.kaggle.com/datasets/gunjanpathak/melb-data](https://www.kaggle.com/datasets/gunjanpathak/melb-data).

Importamos el módulo pandas y cargamos los datos. 

*Nota: Si no funcionase la descarga desde Google Drive, siempre podéis ir a Kaggle, descargaros los datos manualmente y subirlos a la carpeta **/content** y leer el fichero desde dicha ruta*.

In [1]:
import pandas as pd
import numpy as np

In [2]:
#Verificamos cual es directorio de trabajo actual
import os
os.getcwd()

'/content'

In [3]:
#Descargamos los datos al directorio /content que es donde está apuntando por defecto el Directorio de trabajo
!wget --no-check-certificate 'https://drive.google.com/uc?export=download&id=1Y_fj29wRoTjlnRQGlQX00DFHZO_phZwv' -O 'melb_data.csv'
#Leemos los datos descargados
data  = pd.read_csv('melb_data.csv')
print("Dimensiones del data set. Filas: {}. Columnas: {}\n".format(data.shape[0],data.shape[1]))

print("Tipo de cada columna:\n",data.dtypes)


--2023-02-07 19:00:06--  https://drive.google.com/uc?export=download&id=1Y_fj29wRoTjlnRQGlQX00DFHZO_phZwv
Resolving drive.google.com (drive.google.com)... 74.125.142.113, 74.125.142.102, 74.125.142.139, ...
Connecting to drive.google.com (drive.google.com)|74.125.142.113|:443... connected.
HTTP request sent, awaiting response... 303 See Other
Location: https://doc-10-b0-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7deffksulhg5h7mbp1/6b4h4g1762ub1a7u1nj4sk2u0rlqfkpg/1675796400000/14644984037434537262/*/1Y_fj29wRoTjlnRQGlQX00DFHZO_phZwv?e=download&uuid=25508f81-2ce8-48d9-95bf-7f627536645f [following]
--2023-02-07 19:00:07--  https://doc-10-b0-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7deffksulhg5h7mbp1/6b4h4g1762ub1a7u1nj4sk2u0rlqfkpg/1675796400000/14644984037434537262/*/1Y_fj29wRoTjlnRQGlQX00DFHZO_phZwv?e=download&uuid=25508f81-2ce8-48d9-95bf-7f627536645f
Resolving doc-10-b0-docs.googleusercontent.com (doc-10-b0-docs.googleusercontent.com)... 74.125.142.132, 2607:

## Opción con Kaggle


Otra opción sería descargando los datos directamente de la API de Kaggle, pero para ello tendríamos que generar una clave y subir el archivo kaggle.json a nuestro Drive.

A continuación incluyo un ejemplo de cómo se haría, aunque no lo vamos a emplear para este laboratorio.

In [4]:
#from google.colab import drive
#drive.mount('/content/drive')

In [5]:
##Mi fichero se encuentra en /Kaggle/kaggle.json
#! pip install kaggle
#! mkdir ~/.kaggle
#! cp /content/drive/MyDrive/Kaggle/kaggle.json ~/.kaggle/kaggle.json
#! chmod 600 ~/.kaggle/kaggle.json
#! kaggle datasets download gunjanpathak/melb-data
#! unzip melb-data.zip

Para encontrar la referencia a todos los datasets disponibles.

In [6]:
#!kaggle datasets list

# Estudio de los datos

In [7]:
# Veamos el comienzo de los datos
data.head()

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
3,5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,2.0,1.0,94.0,,,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0
4,6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0


Aquí ya podemos ver que nuestro conjunto de datos tiene algún valor nulo, pues por ejemplo en la fila con índice cero para los campos BuildingArea y YearBuilt, observamos que contiene los valores `NaN` indicaticativo de valor nulo o faltante.  

In [8]:
# Veamos al final del fichero
data.tail()

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
18391,23540,Williamstown,8/2 Thompson St,2,t,622500.0,SP,Greg,26/08/2017,6.8,...,2.0,1.0,,89.0,2010.0,,-37.86393,144.90484,Western Metropolitan,6380.0
18392,23541,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0
18393,23544,Yallambie,17 Amaroo Wy,4,h,1100000.0,S,Buckingham,26/08/2017,12.7,...,3.0,2.0,,,,,-37.72006,145.10547,Northern Metropolitan,1369.0
18394,23545,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,...,1.0,1.0,362.0,112.0,1920.0,,-37.81188,144.88449,Western Metropolitan,6543.0
18395,23546,Yarraville,33 Freeman St,4,h,1050000.0,VB,Village,26/08/2017,6.3,...,2.0,2.0,,139.0,1950.0,,-37.81829,144.87404,Western Metropolitan,6543.0


Sin embargo, observar a los datos en crudo para detectar valores faltantes es una metodología algo rudimentaria y costosa. Es por ello que la librería `pandas` nos ofrece varias funciones que nos ayudan a ver si existen algún valor nulo en el conunto de datos. Veamos cómo podemos trabajar con ellas.

Con la siguiente función podremos obtener un valor booleano (`True`o `False`) en el dataset, indicativo de si el valor es nulo o no lo es:

In [9]:
data.isnull()

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,False,False,False,False,False,False,False,False,False,False,...,False,False,False,True,True,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,True,True,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18391,False,False,False,False,False,False,False,False,False,False,...,False,False,True,False,False,True,False,False,False,False
18392,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,True,False,False,False,False
18393,False,False,False,False,False,False,False,False,False,False,...,False,False,True,True,True,True,False,False,False,False
18394,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,True,False,False,False,False


Lo mismo obtendríamos si utilizamos el comando `data.isna()`. 

Sin embargo, nuevamente con este procedimiento es muy difícil de encontrar todos los valores faltantes en el dataset. Es por ello que para obtener de forma resumida si hay algún valor faltante, se puede utilizar lo siguiente:

In [10]:

# Con esta instrucción podemos ver si hay algún valor faltante en el datset
data.isnull().values.any()

True

Como vemos nos devuelve un valor True, indicando que sí tenemos datos faltantes en el dataset.
Si además queremos ver **en qué columnas tenemos datos faltantes**, lo hacemos con:

In [11]:
data.isnull().any()

Unnamed: 0       False
Suburb           False
Address          False
Rooms            False
Type             False
Price            False
Method           False
SellerG          False
Date             False
Distance          True
Postcode          True
Bedroom2          True
Bathroom          True
Car               True
Landsize          True
BuildingArea      True
YearBuilt         True
CouncilArea       True
Lattitude         True
Longtitude        True
Regionname        True
Propertycount     True
dtype: bool

Podemos incluso saber el **número total de datos faltantes por columnas**, para ello empleamos el siguiente comando.

In [12]:
valores_faltantes = (data.isnull().sum())
valores_faltantes

Unnamed: 0           0
Suburb               0
Address              0
Rooms                0
Type                 0
Price                0
Method               0
SellerG              0
Date                 0
Distance             1
Postcode             1
Bedroom2          3469
Bathroom          3471
Car               3576
Landsize          4793
BuildingArea     10634
YearBuilt         9438
CouncilArea       6163
Lattitude         3332
Longtitude        3332
Regionname           1
Propertycount        1
dtype: int64

Para ver los datos anteriores en porcentaje.

In [13]:
(valores_faltantes/data.shape[0])*100

Unnamed: 0        0.000000
Suburb            0.000000
Address           0.000000
Rooms             0.000000
Type              0.000000
Price             0.000000
Method            0.000000
SellerG           0.000000
Date              0.000000
Distance          0.005436
Postcode          0.005436
Bedroom2         18.857360
Bathroom         18.868232
Car              19.439008
Landsize         26.054577
BuildingArea     57.806045
YearBuilt        51.304631
CouncilArea      33.501848
Lattitude        18.112633
Longtitude       18.112633
Regionname        0.005436
Propertycount     0.005436
dtype: float64

Vemos que hay columnas con un alto porcentaje de valores faltantes que habrá que tener en cuenta cuando se haga el procesamiento de los datos.

Pandas nos ofrece la función [`fillna()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html), para llenar valores NA/NaN o 0 en lugar de espacios nulos.

# Imputación de datos

La imputaciónn de datos es otra de las tareas más importantes en el tratamiento de la información. Hay que tener en cuenta que **algunos algoritmos no admiten datos faltantes** y, por lo tanto, habrá que solucionar de alguna manera este inconveniente.

En primer lugar, hay que tener en cuenta el porcentaje de datos faltantes para una variable, pues si este porcentaje es alto lo mejor es no tener en cuenta esa columna. En este ejemplo, vamos a eliminar las columnas que tienen más de un 20 por ciento de datos faltantes.

In [14]:
#Eliminamos las columnas >20% de valores faltantes
data.drop(["Landsize","BuildingArea","YearBuilt","CouncilArea"], axis=1, inplace=True)

In [15]:
# Comprobamos
valores_faltantes = (data.isnull().sum())
(valores_faltantes/data.shape[0])*100

Unnamed: 0        0.000000
Suburb            0.000000
Address           0.000000
Rooms             0.000000
Type              0.000000
Price             0.000000
Method            0.000000
SellerG           0.000000
Date              0.000000
Distance          0.005436
Postcode          0.005436
Bedroom2         18.857360
Bathroom         18.868232
Car              19.439008
Lattitude        18.112633
Longtitude       18.112633
Regionname        0.005436
Propertycount     0.005436
dtype: float64

Ahora procederemos a realizar la imputación de los datos que faltan. Para ello vamos a ver alguna de las posibilidades que [nos ofrece scikit-learn](https://scikit-learn.org/stable/modules/impute.html#impute). En este notebook vamos a estudiar alguna de las opciones que nos ofrece esta herramienta. 

Comenzamos con la función [`SimpleImputer()`](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html#sklearn.impute.SimpleImputer). Esta función tiene el parámetro  `strategy` que sirve para indicar qué método queremos emplear para imputar el valor faltante: media, mediana, más frecuente o constante (cuando `strategy='constant'` establecemos el valor constante con el parámetro `fill_value`).

Para ello, seleccionamos una de las columnas que sabemos tienen datos faltantes y lo probamos. 

In [16]:
from sklearn.impute import SimpleImputer

bath = data[["Bathroom"]]
imp = SimpleImputer(missing_values=np.nan, strategy='mean')
imp.fit(bath)
bath_imp = imp.transform(bath)

In [17]:
# Comprobamos ahora que no hay datos faltantes.
print("Antes de la imputación: ",data["Bathroom"].isna().sum())
print("Después de la imputación: ",np.isnan(bath_imp).sum())

Antes de la imputación:  3471
Después de la imputación:  0


Vamos a comprobar como influye la imputación de los datos en los cálculos de estadísticos básicos como la media, mediana, etc.

In [18]:
print(data["Bathroom"].mean())
np.mean(bath_imp)

1.538492462311558


1.538492462311558

La **media vemos que se mantiene igual**. Tiene sentido, al ser éste el valor que hemos usado para imputar. ¿Pero ocurrirá lo mismo con el valor de la mediana o el de la desviación típica?

In [19]:
print(data["Bathroom"].median())
np.median(bath_imp)

1.0


1.538492462311558

El **valor de la mediana ha variado**. De hecho, es importante observar que ahora el valor de la mediana es el mismo que el de la media. Esto tiene sentido, ya que ha sido el valor que hemos imputado, es decir, más del 18% de las observaciones toma este valor para la variable "bathroom".

Si obtenemos la desviación estándar, vemos que al haber imputado siempre el mismo valor la dispersión de los datos disminuye.

In [20]:
print(data["Bathroom"].std())
np.std(bath_imp)

0.6893111279904035


0.6208636151658183

Este tipo de imputación puede ser útil en algunos casos, pero lógicamente la técnica empleada para imputar valores depende de los datos con los que trabajemos, incluso en algunas ocasiones, necesitaremos construir funciones a medida para hacer una imputación adecuada.

Scikit learn, nos ofrece más posibilidades que la comentado anteriormente, por ejemplo [`IterativeImputer()`](https://scikit-learn.org/stable/modules/generated/sklearn.impute.IterativeImputer.html#sklearn.impute.IterativeImputer), o [`KNNImputer()`](https://scikit-learn.org/stable/modules/generated/sklearn.impute.KNNImputer.html#sklearn.impute.KNNImputer). Este ultimo utilizando la información del/los vecinos más próximos. No lo desarrollamos en este apartado por no elevar en exceso su contenido.

## Ejercicio



1.   Os animo a probar otros métodos de imputación y comentar la diferencia de los resultados obtenidos con respecto al usado en el ejemplo.
2.   ¿Qué tipo de imputación aplicarías a cada variable de dataset? 

Dejad vuestras conclusiones en el foro de la clase.




# Estandarización y normalización

La **estandarización y normalización** de datos es una práctica común en el aprendizaje automático. 

*   La **normalización** es una técnica de escalado en la que los valores se desplazan y se vuelven a escalar para que terminen oscilando entre 0 y 1. También se conoce como escalado Mín-Máx.

*   La **estandarización** es otra técnica de escala donde los valores se centran alrededor de la media con una desviación estándar unitaria. Esto significa que la media del atributo se convierte en cero y la distribución resultante tiene una desviación estándar de 1.

Una de las ventajas que nos ofrece esta técnica de tratamiento de los datos es que  mejora significativamente el rendimiento y precisión de algunos algoritmos de aprendizaje automático, debido a que con estos procedimientos hacemos muchos más estándar los datos con los que trabajamos, ya que las unidades de medida después de hacer este proceso son más uniformes.

Para la **normalización** de los datos, la fórmula que se utiliza es la siguiente:

$$X^{'}=\frac{X-X_{min}}{X_{max}-X_{min}}$$

Como podemos ver con este procedimiento los datos siempre van a quedar entre cero y uno

Cuando hacemos una **estandarización**, los datos resultantes van a tener una media de cero y varianza de uno. La fórmula a utilizar en estos casos va a ser:

$$X^{'}=\frac{X-\mu}{\sigma}$$

Donde $\mu$ es la media y $\sigma$ la desviación típica. 




## Normalización usando Scikit-learn.

Para normalizar los datos, debe importar [`MinMaxScaler`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html) de la librería sklearn y aplicarlo a nuestro conjunto de datos.

Vamos a utilizar este procedimiento a la variable 'Distance'.

In [21]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
distancias = data[["Distance"]]
distancias_norm = scaler.fit_transform(distancias)
print("Máximo valor distancia normalizada: ",distancias_norm.max())

Máximo valor distancia normalizada:  nan


Este es un claro ejemplo de la influencia que tienen los valores faltantes y porqué es importante tratarlos. En este caso, al haber un valor faltante, el programa nos devuelve *nan* al solicitar el valor máximo después de la normalización. 

Por lo tanto, tenemos que imputar el valor faltante que tiene antes de proceder a su normalización. En este caso emplearemos el método de la media, al ser un único valor.

In [22]:
from sklearn.impute import SimpleImputer
imp2 = SimpleImputer(missing_values=np.nan, strategy='mean')
imp2.fit(distancias)
distancias_imp = imp2.transform(distancias)

In [23]:
print(data["Distance"].mean())
print(np.mean(distancias_imp))
(np.isnan(distancias_imp).sum())

10.389986409350366
10.389986409350367


0

Una vez realizada la imputación de valores faltantes volvemos a realizar la normalización.

In [24]:
scaler = MinMaxScaler()
distancias_norm = scaler.fit_transform(distancias_imp)


In [25]:
# Comprobemos
print(distancias_imp.max())
print(round(distancias_norm.max(),2))

48.1
1.0


## Estandarización usando Scikit-learn.

Para estandarizar los datos, se debe importar la clase [`StandardScaler`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html) de la biblioteca sklearn y aplicarlo a nuestro conjunto de datos. Lo hacemos también sobre la variable *distancias_imp*.

In [26]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
distancias4 = scaler.fit_transform(distancias_imp)

In [27]:
# Veamos que la media es 0 y desviación típica 1
print(distancias4.mean())
print(distancias4.std())

-9.887961532647621e-17
1.0000000000000002


# Trabajo con variables categóricas.

Otro de los inconvenientes con los que nos podemos encontrar a la hora de realizar tratamiento de datos, consiste en el tratamiento de las variables categóricas, más aún si estas categorías figuran con literales en el dataset con el que estamos trabajando. `Scikit-learn` y `pandas` ofrecen algunas herramientas que facilitan la transformación de los valores de estas variables para que puedan ser utilizadas en los procedimientos empleados por un científico de datos. En este apartado vamos a ver alguna de las posibilidades que tenemos.

En el fichero con el que estamos trabajando, la variable "Method" es categórica con los siguientes niveles o categorías:

In [28]:
data.Method.unique()

array(['S', 'SP', 'PI', 'VB', 'SA'], dtype=object)

Si intentamos emplear los datos con estas categorías, muchas de la funciones de scikit-learn no va a admitir este formato. Para que podamos trabajar con ellos, lo que se puede hacer es codificar su categorías. Un opción puede hacer utilizar [OrdinalEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html#sklearn.preprocessing.OrdinalEncoder). Veamos cómo conseguir esto:

In [29]:
from sklearn.preprocessing import OrdinalEncoder
le = OrdinalEncoder()
le.fit_transform(np.array(data.Method).reshape(-1,1))

array([[1.],
       [1.],
       [3.],
       ...,
       [1.],
       [3.],
       [4.]])

Como vemos, de esta manera los valores de la variable los hemos convertido de tipo string a numérico. Sin embargo, esta transformación a veces puede ser peligrosa, puesto que alguno de los algoritmos utilizados en ciencia de datos pueden interpretar que a mayor valor del número mayor importancia, y por lo tanto para categorías igualmente importantes, asignar mayor peso a una en concreto simplemente por el hecho de que este método ha decidido asignarle el valor más elevado a la hora de codificarla. 

Por tanto, para casos en los que no exista un orden entre las diferentes categorías, lo que se suele hacer es transformar estas variables en **variables de tipo dummy**.

Para tratar de clarificar este tipo de transformación vamos a emplear el siguiente ejemplo. Supongamos que tenemos una variable que sólo puede tomar dos valores:"hombre" o "mujer". En ese caso, para pasarlo a variables dummies (también conocido como *one-hot encoding*) crearemos dos nuevas variables (de forma general, tantas como categorías tiene esa varable). De tal forma que, para un sujeto que es hombre, una de las variables dummy tomará el valor 1 y la otra el valor 0. Para el caso de mujer los valores que toman las nuevas variables son justamente los opuestos.

Esto se puede conseguir con scikit learn utilizando [`OneHotEncoder`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html). Veamos cómo aplicamos esta metodología para la variable *Method*.

In [30]:
from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder(handle_unknown='ignore',sparse=False)
dat = enc.fit_transform(np.array(data.Method).reshape(-1,1))
print(dat)

[[0. 1. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 0. 1. 0.]
 ...
 [0. 1. 0. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


In [31]:
data.Method

0         S
1         S
2        SP
3        PI
4        VB
         ..
18391    SP
18392    PI
18393     S
18394    SP
18395    VB
Name: Method, Length: 18396, dtype: object

Como vemos la variable categórica tiene cinco categorías, y son 5 las nuevas variables generadas, cada una tomando sólo los valores 0 ó 1.

Otra posibilidad que se tiene es utilizar la clase [`pandas.get_dummies`](https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html), que transforma las variables categóricas que existan en el dataframe de Pandas en variables de tipo dummy.

Para ver mejor esta forma de actuar, vamos a usar del fichero original, sólo algunas columnas, que las almacenamos en la variable denominado *datos_prueba*.

In [32]:
datos_prueba = data.iloc[:,1:7]

In [33]:
datos_prueba.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method
0,Abbotsford,85 Turner St,2,h,1480000.0,S
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S
2,Abbotsford,5 Charles St,3,h,1465000.0,SP
3,Abbotsford,40 Federation La,3,h,850000.0,PI
4,Abbotsford,55a Park St,4,h,1600000.0,VB


In [34]:
pd.get_dummies(datos_prueba)

Unnamed: 0,Rooms,Price,Suburb_Abbotsford,Suburb_Aberfeldie,Suburb_Airport West,Suburb_Albanvale,Suburb_Albert Park,Suburb_Albion,Suburb_Alphington,Suburb_Altona,...,Address_9b Marquis Rd,Address_9b Stewart St,Type_h,Type_t,Type_u,Method_PI,Method_S,Method_SA,Method_SP,Method_VB
0,2,1480000.0,1,0,0,0,0,0,0,0,...,0,0,1,0,0,0,1,0,0,0
1,2,1035000.0,1,0,0,0,0,0,0,0,...,0,0,1,0,0,0,1,0,0,0
2,3,1465000.0,1,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,1,0
3,3,850000.0,1,0,0,0,0,0,0,0,...,0,0,1,0,0,1,0,0,0,0
4,4,1600000.0,1,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18391,2,622500.0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,1,0
18392,4,2500000.0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,1,0,0,0,0
18393,4,1100000.0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,1,0,0,0
18394,4,1285000.0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,1,0


Como vemos en la anterior salida, las variables que no son categóricas, las mantiene intactas y al resto las transforma en variables de tipo dummy, que sí son las adecuadas para ser empleadas en los procesos de análisis de datos usando *scikit-learn*. 

# **Bonus track**: Estudio exploratiorio de los datos con `dtale`

Aprender Python puede llegar a ser abrumador al principio, y algunas tareas que pueden ser fáciles después de un tiempo, para los usuarios menos experimentados suelen requerir bastante tiempo para aprender a hacerlas y utilizarlas. Ahí es donde **D-Tale** puede ser útil.

Incluso para los usuarios más experimentados de Python, algunas tareas pueden resultar repetitivas y hacerles perder mucho tiempo. Por esta razón, **D-Tale** puede servir de ayuda para optimizar tareas como el análisis exploratorio de datos y la limpieza de datos. Este tiempo ahorrado permitirá al científico de datos centrarse en otras tareas, como el perfeccionamiento del código y el ajuste de los modelos de aprendizaje automático.

Y es que **D-Tale** es una herramienta bastante orientada al usuario final ('user friendly'), que permite a los programadores y no programadores explorar el conjunto de datos de manera rápida e intuitiva, ya sea cambiando el formato de los datos, estudiando los datos faltantes o incluso realizando visualizaciones de todo tipo. Y lo mejor de todo: permite el acceso al código fuente para luego poder trasladar dichas operaciones a su propio notebook o editor de código.

In [35]:
#Descomentar esta linea si no se tiene instalado DTale
#IMPORTANTE: Una vez descargadas las dependencias es necesario restablecer la sesión
! pip install dtale

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [36]:
# Actualizar statsmodels para evita un error al importar dtale
! pip install statsmodels --upgrade

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [37]:
import dtale
import dtale.app as dtale_app

dtale_app.USE_COLAB = True

In [38]:
import pandas as pd
import numpy as np

In [39]:
#Descargamos los datos al directorio /content que es donde está apuntando por defecto el Directorio de trabajo
!wget --no-check-certificate 'https://drive.google.com/uc?export=download&id=1Y_fj29wRoTjlnRQGlQX00DFHZO_phZwv' -O 'melb_data.csv'

--2023-02-07 19:00:54--  https://drive.google.com/uc?export=download&id=1Y_fj29wRoTjlnRQGlQX00DFHZO_phZwv
Resolving drive.google.com (drive.google.com)... 108.177.98.139, 108.177.98.138, 108.177.98.100, ...
Connecting to drive.google.com (drive.google.com)|108.177.98.139|:443... connected.
HTTP request sent, awaiting response... 303 See Other
Location: https://doc-10-b0-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7deffksulhg5h7mbp1/6b4h4g1762ub1a7u1nj4sk2u0rlqfkpg/1675796400000/14644984037434537262/*/1Y_fj29wRoTjlnRQGlQX00DFHZO_phZwv?e=download&uuid=4d60a36f-d5bc-41b3-a596-928833e6edd1 [following]
--2023-02-07 19:00:54--  https://doc-10-b0-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7deffksulhg5h7mbp1/6b4h4g1762ub1a7u1nj4sk2u0rlqfkpg/1675796400000/14644984037434537262/*/1Y_fj29wRoTjlnRQGlQX00DFHZO_phZwv?e=download&uuid=4d60a36f-d5bc-41b3-a596-928833e6edd1
Resolving doc-10-b0-docs.googleusercontent.com (doc-10-b0-docs.googleusercontent.com)... 74.125.142.132, 2607:

In [40]:
#Leemos de nuevo los datos descargados al inicio del notebook
data  = pd.read_csv('melb_data.csv')

In [41]:
dtale.show(data)

https://apv7q66u4j-496ff2e9c6d22116-40000-colab.googleusercontent.com/dtale/main/1

Siguiendo el enlace anterior se nos abre una nueva pestaña en el navegador con la interfaz visual de D-Tale. En dicha interfaz podremos interactuar con los datos, realizar operaciones como eliminar o renombrar columnas, cambiar el tipo de la variable que queramos y muchísimas opciones más.


A continuación se muestra el ejemplo de un código copiado de la interfaz de D-Tale. Simplemente con ajustar el nombre del dataframe que contiene los datos se pueden obtener unas visualizaciones muy interesantes. 

In [42]:
# DISCLAIMER: 'df' refers to the data you passed in when calling 'dtale.show'
df = data ##IMPORTANTE hacer esta asignación para que funcione el resto del código por defecto
import pandas as pd

if isinstance(df, (pd.DatetimeIndex, pd.MultiIndex)):
	df = df.to_frame(index=False)

# remove any pre-existing indices for ease of use in the D-Tale code, but this is not required
df = df.reset_index().drop('index', axis=1, errors='ignore')
df.columns = [str(c) for c in df.columns]  # update columns to strings in case they are numbers

df = df.rename(columns={'Regionname': 'Region'})
df = df[[c for c in df.columns if c not in ['Unnamed: 0']]]
chart_data = pd.concat([
	df['Region'],
	df['Price'],
], axis=1)
chart_data = chart_data.sort_values(['Region'])
chart_data = chart_data.rename(columns={'Region': 'x'})
chart_data_mean = chart_data.groupby(['x'])[['Price']].mean()
chart_data_mean.columns = ['Price|mean']
chart_data = chart_data_mean.reset_index()
chart_data = chart_data.dropna()

import plotly.graph_objs as go

charts = []
charts.append(go.Bar(
	x=chart_data['x'],
	y=chart_data['Price|mean']
))
figure = go.Figure(data=charts, layout=go.Layout({
    'barmode': 'group',
    'legend': {'orientation': 'h'},
    'title': {'text': 'Mean of Price by Region'},
    'xaxis': {'title': {'text': 'Region'}},
    'yaxis': {'title': {'text': 'Mean of Price'}, 'type': 'linear'}
}))


# If you're having trouble viewing your chart in your notebook try passing your 'chart' into this snippet:
#
#from plotly.offline import iplot, init_notebook_mode

#init_notebook_mode(connected=True)
#for chart in charts:
#    chart.pop('id', None) # for some reason iplot does not like 'id'
#iplot(figure)

In [43]:
# Indicamos al programa que debe renderizar y mostrar el gráfico en colab
figure.show(renderer="colab")

Documentación: https://dtale.readthedocs.io/en/latest/dtale.html

Más información: https://towardsdatascience.com/d-tale-one-of-the-best-python-libraries-you-have-ever-seen-c2deecdfd2b

## Ejercicio extra

Os animo a estudiar otras funcionalidades no mostradas en clase de `dtale` y comentarlas en el foro de la clase. ¡Estoy seguro de que entre todos podemos sacar chispas a esta aplicación! 😃