# Lectura de datasets y preprocesado
**Autores:** José A. Troyano, Beatriz Pontes   &nbsp;&nbsp;&nbsp; **Última modificación:** 01/03/2022

--------------------------------------------------------------------------
## Contenido
1. <a href="#pandas"> Lectura y representación de datasets con Pandas  </a> <br>
    1.1. <a href="#series_dataframe"> Creación de objetos <code>Series</code> y <code>DataFrame</code>  </a> <br>
    1.2. <a href="#smart"> Acceso y _smart indexing_  </a> <br>
    1.3. <a href="#lectura_pandas"> Lectura de datasets  </a> <br>
    1.4. <a href="#combinacion_pandas"> Operaciones y combinación  </a> <br>
    1.5. <a href="#apply"> Métodos <code>apply</code> y <code>map</code>  </a> <br>
    1.6. <a href="#fechas"> Tratamiento de fechas  </a> <br>    
2. <a href="#normalizacion">Normalización <br>
    2.1. <a href="#min_max_z_score">Min-max y _Z-score_  </a> <br>
    2.2. <a href="#norm_sklearn">Normalización con _sklearn_ </a> <br>
3. <a href="#codificacion"> Codificación de atributos discretos </a> <br>
    3.1. <a href="#tipos_atributos">Tipos de atributos </a> <br>
    3.2. <a href="#label_encoding">Codificación _label encoding_</a> <br>
    3.3. <a href="#one_hot_encoding">Codificación _one hot encoding_</a> <br>
4. <a href="#nans"> Tratamiento de valores ausentes </a> <br>
    4.1. <a href="#eliminar">Eliminar filas con valores ausentes</a><br>
    4.2. <a href="#global">Rellenar con  valores globales </a><br>
    
-------------------------------------------------

## 1. Lectura y representación de datasets con Pandas <a name="pandas"> </a>

Trabajaremos con el dataset _bike_. Antes de empezar, echaremos un vistazo a los datos con un editor de textos planos, o con Excel:

![image.png](attachment:image.png)

Pandas es una librería desarrollada sobre Numpy para la manipulación y análisis de datos. Proporciona, entre otras cosas, dos estructuras para representar datos: 
- <code>Series</code> para datos vectoriales
- <code>DataFrame</code> para datasets

Importaremos pandas y numpy de la siguiente forma:

In [1]:
import numpy as np
import pandas as pd

### 1.1. Creación de objetos <code>Series</code> y <code>DataFrame</code> <a name="series_dataframe"> </a>

In [10]:
# EJERCICIO: crear dos series con los números del 1 al 5
#    - numeros: con el índice por defecto
#    - numeros_ix_ch: usando como índices las vocales = ['a', 'e', 'i', 'o', 'u']
numeros = pd.Series([1, 2, 3, 4, 5])
numeros

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [11]:
numeros_ix_ch = pd.Series([1, 2, 3, 4, 5], ['a', 'e', 'i', 'o', 'u'])
numeros_ix_ch

a    1
e    2
i    3
o    4
u    5
dtype: int64

In [12]:
# EJERCICIO: crear dos dataframes de la siguiente matriz de números aleatorios 'np.random.rand(10,3)'
#    - df: sin especificar nombres de columnas
#    - df_col: usando como nombres de columnas ['C1', 'C2', 'C3']
df = pd.DataFrame(np.random.rand(10,3))
df

Unnamed: 0,0,1,2
0,0.220943,0.210307,0.669514
1,0.881317,0.56354,0.394811
2,0.588788,0.20648,0.786255
3,0.607004,0.060077,0.946822
4,0.042578,0.405615,0.915681
5,0.619761,0.837263,0.020348
6,0.499692,0.733716,0.465083
7,0.296631,0.168728,0.760465
8,0.360751,0.781769,0.373654
9,0.540772,0.134708,0.879729


In [14]:
df_col = pd.DataFrame(np.random.rand(10,3), columns=['C1', 'C2', 'C3'])
df_col

Unnamed: 0,C1,C2,C3
0,0.877469,0.514417,0.92793
1,0.485863,0.986145,0.387483
2,0.804721,0.944699,0.724195
3,0.821912,0.176408,0.478759
4,0.246768,0.659037,0.591549
5,0.354088,0.453686,0.203927
6,0.707616,0.074473,0.369525
7,0.108568,0.259585,0.761244
8,0.322856,0.925452,0.808982
9,0.853121,0.234897,0.864194


### 1.2. Acceso y _smart indexing_ <a name="smart"> </a>

In [17]:
# EJERCICIO: mostrar el resultado de las siguientes consultas sobre series
#    - elemento 0 de la serie 'numeros'
#    - serie con los elementos 1-3 de la serie 'numeros'
#    - elemento de la serie 'numeros_ix_ch' indexado con el carácter 'e'
#    - serie con los elementos de la serie 'numeros' que sean mayores que 3
numeros

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [22]:
numeros_ix_ch

a    1
e    2
i    3
o    4
u    5
dtype: int64

In [19]:
numeros[0]

1

In [21]:
numeros[1:4]

1    2
2    3
3    4
dtype: int64

In [23]:
numeros_ix_ch['e']

2

In [25]:
resultado = pd.Series([i for i in numeros if i > 3])
resultado

0    4
1    5
dtype: int64

In [26]:
# EJERCICIO: mostrar el resultado de las siguientes consultas sobre dataframes
#    - fila 3 del dataframe 'df'
#    - fila 3 del dataframe 'df_col'
#    - columna 1 de la fila 3 del dataframe 'df'
#    - columna 'C1' del dataframe df_col
df

Unnamed: 0,0,1,2
0,0.220943,0.210307,0.669514
1,0.881317,0.56354,0.394811
2,0.588788,0.20648,0.786255
3,0.607004,0.060077,0.946822
4,0.042578,0.405615,0.915681
5,0.619761,0.837263,0.020348
6,0.499692,0.733716,0.465083
7,0.296631,0.168728,0.760465
8,0.360751,0.781769,0.373654
9,0.540772,0.134708,0.879729


In [27]:
df_col

Unnamed: 0,C1,C2,C3
0,0.877469,0.514417,0.92793
1,0.485863,0.986145,0.387483
2,0.804721,0.944699,0.724195
3,0.821912,0.176408,0.478759
4,0.246768,0.659037,0.591549
5,0.354088,0.453686,0.203927
6,0.707616,0.074473,0.369525
7,0.108568,0.259585,0.761244
8,0.322856,0.925452,0.808982
9,0.853121,0.234897,0.864194


In [34]:
df.iloc[3]

0    0.607004
1    0.060077
2    0.946822
Name: 3, dtype: float64

In [35]:
df_col.iloc[3]

C1    0.821912
C2    0.176408
C3    0.478759
Name: 3, dtype: float64

In [36]:
df.iloc[3].get(1)

0.060077036192262456

In [37]:
df_col.get('C1')

0    0.877469
1    0.485863
2    0.804721
3    0.821912
4    0.246768
5    0.354088
6    0.707616
7    0.108568
8    0.322856
9    0.853121
Name: C1, dtype: float64

In [39]:
# EJERCICIO: mostrar el resultado de los siguientes consultas sobre dataframes
#    - dataframe compuesto por las columnas 'C1' y 'C3' del dataframe 'df_col'
#    - dataframe compuesto por las filas del dataframe 'df_col' cuyo valor de 'C2' sea mayor que 0.5
#    - dataframe compuesto por las columnas 'C1' y 'C3', con las filas cuyo valor de 'C2' sea mayor que 0.5
#    - dataframe con todas las columnas y con las filas en las que 'C2' sea mayor que 0.5 y 'C3' sea menor que 0.5
df_col

Unnamed: 0,C1,C2,C3
0,0.877469,0.514417,0.92793
1,0.485863,0.986145,0.387483
2,0.804721,0.944699,0.724195
3,0.821912,0.176408,0.478759
4,0.246768,0.659037,0.591549
5,0.354088,0.453686,0.203927
6,0.707616,0.074473,0.369525
7,0.108568,0.259585,0.761244
8,0.322856,0.925452,0.808982
9,0.853121,0.234897,0.864194


In [49]:
# dataframe compuesto por las columnas 'C1' y 'C3' del dataframe 'df_col'
df13 = pd.DataFrame(columns = [df_col.get('C1'), df_col.get('C3')])
df13

C1,0.877469,0.485863,0.804721,0.821912,0.246768,0.354088,0.707616,0.108568,0.322856,0.853121
C3,0.927930,0.387483,0.724195,0.478759,0.591549,0.203927,0.369525,0.761244,0.808982,0.864194


In [63]:
# dataframe compuesto por las filas del dataframe 'df_col' cuyo valor de 'C2' sea mayor que 0.5
df_col[df_col['C2'] > 0.5]

Unnamed: 0,C1,C2,C3
0,0.877469,0.514417,0.92793
1,0.485863,0.986145,0.387483
2,0.804721,0.944699,0.724195
4,0.246768,0.659037,0.591549
8,0.322856,0.925452,0.808982


In [67]:
# dataframe compuesto por las columnas 'C1' y 'C3', con las filas cuyo valor de 'C2' sea mayor que 0.5
df_col[df_col['C2'] > 0.5][['C1', 'C3']]

Unnamed: 0,C1,C3
0,0.877469,0.92793
1,0.485863,0.387483
2,0.804721,0.724195
4,0.246768,0.591549
8,0.322856,0.808982


In [69]:
# dataframe con todas las columnas y con las filas en las que 'C2' sea mayor que 0.5 y 'C3' sea menor que 0.5
df_col[(df_col['C2'] > 0.5) & (df_col['C3'] < 0.5)]

Unnamed: 0,C1,C2,C3
1,0.485863,0.986145,0.387483


### 1.3. Lectura de datasets <a name="lectura_pandas"> </a>

En este apartado trabajaremos con un dataset de datos de un servicio de alquiler de bicicletas, donde los usuarios pueden alquilar una bicicleta en un lugar y devolverla en otro cuando lo necesiten. 

Los datos generados por estos sistemas los hacen atractivos para los investigadores, ya que se registra la duración del viaje, el lugar de salida, el lugar de llegada y el tiempo transcurrido. Estos datos pueden utilizarse para estudiar la movilidad en una ciudad.

Los datos que utilizaremos a continuación han sido obtenidos de Capital bikeshare (https://ride.capitalbikeshare.com/system-data), a través de kaggle: https://www.kaggle.com/c/bike-sharing-demand/overview/

Haremos uso del conjunto de entrenamiento proporcionado, que se compone de los primeros 19 días de cada mes, mientras que el conjunto de prueba es del 20 al final del mes.



In [71]:
# EJERCICIO: leer el fichero de datos './train-bike.csv' en un dataframe
BIKE = pd.read_csv('./train-bike.csv')
BIKE[:5]

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0,3,13,16
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0,8,32,40
2,2011-01-01 02:00:00,1,0,0,1,9.02,13.635,80,0.0,5,27,32
3,2011-01-01 03:00:00,1,0,0,1,9.84,14.395,75,0.0,3,10,13
4,2011-01-01 04:00:00,1,0,0,1,9.84,14.395,75,0.0,0,1,1


El significado de las distintas variables de estudio es el siguiente:

datetime - fecha y hora<br>
estación - 1 = primavera, 2 = verano, 3 = otoño, 4 = invierno<br> 
festivo - si el día se considera festivo<br>
día laborable - si el día no es ni fin de semana ni festivo<br>
tiempo - 1: Despejado, Pocas nubes, Parcialmente nublado, Parcialmente nublado<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;  2: Niebla + Nublado, Niebla + Nubes dispersas, Niebla + Pocas nubes, Niebla<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;  3: Nieve ligera, Lluvia ligera + Tormenta + Nubes dispersas, Lluvia ligera + Nubes dispersas<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;  4: Lluvia intensa + Paletas de hielo + Tormenta eléctrica + Niebla, Nieve + Niebla<br> 
temp - temperatura en Celsius<br>
atemp - sensación de temperatura en Celsius<br>
humedad - humedad relativa<br>
windspeed - velocidad del viento<br>
casual - número de alquileres iniciados por usuarios no registrados<br>
registrado - número de alquileres iniciados por usuarios registrados<br>
count - número de alquileres totales<br>



In [72]:
# EJERCICIO: probar los métodos de los dataframes para las siguientes operaciones:
#    - Mostrar información sobre las columnas
#    - Mostrar indicadores estadísticos sobre las columnas
#    - Mostrar los tipos de las columnas
#    - Obtener una matriz numpy con los valores de los datos
BIKE.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10886 entries, 0 to 10885
Data columns (total 12 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   datetime    10886 non-null  object 
 1   season      10886 non-null  int64  
 2   holiday     10886 non-null  int64  
 3   workingday  10886 non-null  int64  
 4   weather     10886 non-null  int64  
 5   temp        10886 non-null  float64
 6   atemp       10886 non-null  float64
 7   humidity    10886 non-null  int64  
 8   windspeed   10886 non-null  float64
 9   casual      10886 non-null  int64  
 10  registered  10886 non-null  int64  
 11  count       10886 non-null  int64  
dtypes: float64(3), int64(8), object(1)
memory usage: 978.1+ KB


In [73]:
BIKE.describe()

Unnamed: 0,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
count,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0
mean,2.506614,0.028569,0.680875,1.418427,20.23086,23.655084,61.88646,12.799395,36.021955,155.552177,191.574132
std,1.116174,0.166599,0.466159,0.633839,7.79159,8.474601,19.245033,8.164537,49.960477,151.039033,181.144454
min,1.0,0.0,0.0,1.0,0.82,0.76,0.0,0.0,0.0,0.0,1.0
25%,2.0,0.0,0.0,1.0,13.94,16.665,47.0,7.0015,4.0,36.0,42.0
50%,3.0,0.0,1.0,1.0,20.5,24.24,62.0,12.998,17.0,118.0,145.0
75%,4.0,0.0,1.0,2.0,26.24,31.06,77.0,16.9979,49.0,222.0,284.0
max,4.0,1.0,1.0,4.0,41.0,45.455,100.0,56.9969,367.0,886.0,977.0


In [76]:
BIKE.dtypes

datetime       object
season          int64
holiday         int64
workingday      int64
weather         int64
temp          float64
atemp         float64
humidity        int64
windspeed     float64
casual          int64
registered      int64
count           int64
dtype: object

In [77]:
BIKE.values

array([['2011-01-01 00:00:00', 1, 0, ..., 3, 13, 16],
       ['2011-01-01 01:00:00', 1, 0, ..., 8, 32, 40],
       ['2011-01-01 02:00:00', 1, 0, ..., 5, 27, 32],
       ...,
       ['2012-12-19 21:00:00', 4, 0, ..., 4, 164, 168],
       ['2012-12-19 22:00:00', 4, 0, ..., 12, 117, 129],
       ['2012-12-19 23:00:00', 4, 0, ..., 4, 84, 88]], dtype=object)

In [80]:
# Adicional 
# - Shape (nº filas + columnas)
# - Columns (columnas y sus valores)
BIKE.shape

(10886, 12)

In [81]:
BIKE.columns
BIKE.columns.values

array(['datetime', 'season', 'holiday', 'workingday', 'weather', 'temp',
       'atemp', 'humidity', 'windspeed', 'casual', 'registered', 'count'],
      dtype=object)

### 1.4. Operaciones y combinación <a name="combinacion_pandas"> </a>

In [83]:
# EJERCICIO: realizar las siguientes consultas sobre el dataframe con los datos de bike
#    - contar cuántas ocurrencias de cada valor del atributo season hay en el dataset.
#    - dividir el rango de valores de temp en diez partes y calcular cuántos elementos hay en cada uno de esos segmentos. 
BIKE['season'].value_counts()

4    2734
2    2733
3    2733
1    2686
Name: season, dtype: int64

In [84]:
# BIKE['temp'].value_counts()
pd.cut(BIKE['temp'], 10).value_counts()

(24.928, 28.946]    1901
(12.874, 16.892]    1891
(20.91, 24.928]     1753
(16.892, 20.91]     1587
(8.856, 12.874]     1440
(28.946, 32.964]    1194
(4.838, 8.856]       648
(32.964, 36.982]     355
(0.78, 4.838]         69
(36.982, 41.0]        48
Name: temp, dtype: int64

In [86]:
# EJERCICIO: realizar las siguientes consultas sobre el dataframe con los datos de bike
#    - crear un atributo temp_wind que se calcule mediante la diferencia entre temp y windspeed.
#    - normalizar (de 0 a 1) las columnas season y weather guardándolas en las columnas 'season_norm' y 'weather_norm'.
#    La normalización la llevaremos a cabo dividiendo cada elemento por el máximo de los valores de su columna
BIKE['temp_wind'] = BIKE['temp'] - BIKE['windspeed']
BIKE['temp_wind']

0         9.8400
1         9.0200
2         9.0200
3         9.8400
4         9.8400
          ...   
10881   -10.4227
10882    -0.2413
10883    -1.0613
10884     7.9368
10885     4.1219
Name: temp_wind, Length: 10886, dtype: float64

In [87]:
BIKE

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count,temp_wind
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0000,3,13,16,9.8400
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0000,8,32,40,9.0200
2,2011-01-01 02:00:00,1,0,0,1,9.02,13.635,80,0.0000,5,27,32,9.0200
3,2011-01-01 03:00:00,1,0,0,1,9.84,14.395,75,0.0000,3,10,13,9.8400
4,2011-01-01 04:00:00,1,0,0,1,9.84,14.395,75,0.0000,0,1,1,9.8400
...,...,...,...,...,...,...,...,...,...,...,...,...,...
10881,2012-12-19 19:00:00,4,0,1,1,15.58,19.695,50,26.0027,7,329,336,-10.4227
10882,2012-12-19 20:00:00,4,0,1,1,14.76,17.425,57,15.0013,10,231,241,-0.2413
10883,2012-12-19 21:00:00,4,0,1,1,13.94,15.910,61,15.0013,4,164,168,-1.0613
10884,2012-12-19 22:00:00,4,0,1,1,13.94,17.425,61,6.0032,12,117,129,7.9368


In [90]:
# normalizar (de 0 a 1) las columnas season y weather guardándolas en las columnas 'season_norm' y 'weather_norm'

'''
ERROR - PENDIENTE DE ARREGLAR!
'''

BIKE['season_norm'] = BIKE['season'].value_counts(normalize=True)
BIKE['weather_norm'] = BIKE['weather'].value_counts(normalize=True)
BIKE

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count,temp_wind,season_norm,weather_norm
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0000,3,13,16,9.8400,,
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0000,8,32,40,9.0200,0.246739,0.660665
2,2011-01-01 02:00:00,1,0,0,1,9.02,13.635,80,0.0000,5,27,32,9.0200,0.251056,0.260334
3,2011-01-01 03:00:00,1,0,0,1,9.84,14.395,75,0.0000,3,10,13,9.8400,0.251056,0.078909
4,2011-01-01 04:00:00,1,0,0,1,9.84,14.395,75,0.0000,0,1,1,9.8400,0.251148,0.000092
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10881,2012-12-19 19:00:00,4,0,1,1,15.58,19.695,50,26.0027,7,329,336,-10.4227,,
10882,2012-12-19 20:00:00,4,0,1,1,14.76,17.425,57,15.0013,10,231,241,-0.2413,,
10883,2012-12-19 21:00:00,4,0,1,1,13.94,15.910,61,15.0013,4,164,168,-1.0613,,
10884,2012-12-19 22:00:00,4,0,1,1,13.94,17.425,61,6.0032,12,117,129,7.9368,,


In [92]:
# EJERCICIO: crear un dataframe con los atributos weather y humidity, con los registros de los datasets train y test.
BIKE_TEST = pd.read_csv('./test-bike.csv')
BIKE_TEST.info()

BIKE_TT = pd.concat([BIKE[['weather', 'humidity']], BIKE_TEST[['weather', 'humidity']]])
BIKE_TT.info()
BIKE_TT.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6493 entries, 0 to 6492
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   datetime    6493 non-null   object 
 1   season      6493 non-null   int64  
 2   holiday     6493 non-null   int64  
 3   workingday  6493 non-null   int64  
 4   weather     6493 non-null   int64  
 5   temp        6493 non-null   float64
 6   atemp       6493 non-null   float64
 7   humidity    6493 non-null   int64  
 8   windspeed   6493 non-null   float64
dtypes: float64(3), int64(5), object(1)
memory usage: 431.2+ KB
<class 'pandas.core.frame.DataFrame'>
Int64Index: 17379 entries, 0 to 6492
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   weather   17379 non-null  int64
 1   humidity  17379 non-null  int64
dtypes: int64(2)
memory usage: 407.3 KB


Unnamed: 0,weather,humidity
0,1,81
1,1,80
2,1,80
3,1,75
4,1,75


### 1.5 Métodos <code>apply</code> y <code>map</code> <a name="apply"> </a>

In [101]:
# EJERCICIO: definir una función calcula_level que devuelva los siguientes valores
# a partir de una temperatura:
#      'T1' para temperaturas menores a 15
#      'T2' para temperaturas mayores o iguales que 15 y menores que 30
#      'T3' para temperaturas mayores o iguales que 30
def calcula_level(temp):
    if temp < 15:
        return 'T1'
    elif (temp >= 15 and temp < 30):
        return 'T2'
    else:
        return 'T3'

# crear un atributo 'temp_level' segmentando el atributo 'temp' usando la función calcula_level 
BIKE['temp_level'] = BIKE['temp'].apply(calcula_level)
BIKE.head()

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count,temp_wind,season_norm,weather_norm,temp_level
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0,3,13,16,9.84,,,T1
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0,8,32,40,9.02,0.246739,0.660665,T1
2,2011-01-01 02:00:00,1,0,0,1,9.02,13.635,80,0.0,5,27,32,9.02,0.251056,0.260334,T1
3,2011-01-01 03:00:00,1,0,0,1,9.84,14.395,75,0.0,3,10,13,9.84,0.251056,0.078909,T1
4,2011-01-01 04:00:00,1,0,0,1,9.84,14.395,75,0.0,0,1,1,9.84,0.251148,9.2e-05,T1


In [None]:
# EJERCICIO: crear el atributo temp_code a partir del atributo numérico temp_level que toma los valores 1, 2 y 3 (usando map)
BIKE['temp_code']

### 1.6. Tratamiento de fechas <a name="fechas"> </a>

In [None]:
# EJERCICIO: volver a leer el dataset train analizando los datos tipo fecha y generar dos nuevas columnas:
#    - dia: con el día de la fecha
#    - mes: con el mes de la fecha


## 2. Normalización <a name="normalizacion"> </a>

### 2.1. Min-max y _Z-score_ <a name="min_max_z_score"> </a>
Algunos algoritmos de aprendizaje necesitan que los distintos atributos estén en un rango de valores similar (<code>SVM</code> es uno de ellos. Probaremos dos técnicas simples de normalización de datos: 
- Normalización _min-max_: restar el mínimo y dividir por la diferencia entre máximo y mínimo (produce valores entre 0 y 1)
- Normalización _Z-score_: restar la media y dividir por la desviación estándar (puede producir valores negativos)


In [None]:
# EJERCICIO: normalizar los valores de 'temp' entre [0,1] con la técnica _min-max_ y guardarlos en la columna 'temp_mm'


In [None]:
# EJERCICIO: 
#    - Normalizar los valores de 'registered' con la técnica z-score y guardarlos en la columna 'registered_zs'
#    - Comparar la media y la desviación estándar de ambas columnas


### 2.2. Normalización con <code>sklearn</code> <a name="norm_sklearn"> </a>

Sklearn proporciona algunos métodos de normalización, probaremos también cómo usar algunos de ellos:
- <code>MaxAbsScaler</code>: desplaza y escala para que el máximo valor absoluto sea 1. Los valores resultantes quedan, por tanto, dentro del rango [-1,1]
- <code>MinMaxScaler</code>: resta el mínimo y divide por la amplitud (máximo-mínimo)
- <code>StandardScaler</code>: resta la media y divide por la desviación típica (es el _Z-score_)

Será la primera vez que usemos un estimador de Sklearn. Antes de empezar tendremos que buscar la respuesta a estas preguntas:
- ¿Qué es <code>fit</code>?
- ¿Qué es <code>transform</code>?
- ¿Qué es <code>fit_transform</code>?

In [None]:
# EJERCICIO: importar desde sklearn los elementos que necesitemos


In [None]:
# EJERCICIO: aplicar las transformacines necesarias para crear las siguientes columnas
#    - registered_maxabs: MaxAbsScaler sobre la columna 'registered'
#    - registered_minmax: MinMaxScaler sobre la columna 'registered'
#    - registered_sca: StandardScaler sobre la columna 'registered'


## 3. Codificación de atributos discretos <a name="codificacion"> </a>

En esta sección veremos cómo codificar atributos discretos mediante valores numéricos. Esto es necesario porque muchos de los algoritmos de aprendizaje solo soportan atributos numéricos. En concreto, los algoritmos implemenatdos en Sklearn solo pueden manejar atributos numéricos.

In [None]:
# Cargamos los datos de 'weather.csv' en el dataframe 'DATOS'


### 3.1. Tipos de atributos <a name="tipos_atributos"> </a>

In [None]:
# EJERCICIO: crear las matrices 'DATOS_discretos' y 'DATOS_numericos' con los atributos discretos y numéricos, respectivamente, de 'DATOS'


En general, nos podemos encontrar con tres tipos de atributos discretos:
- **Binarios (o categóricos con dos _levels_)** : como el atributo <code>play</code> del ejemplo
- **Categóricos**: como el atributo <code>outlook</code> del ejemplo
- **Ordinales**: sería un atributo categórico en el que, además, hay una relación de orden. Por ejemplo sería un atributo <code>nivel_humedad</code> con valores <code>['bajo', 'medio', 'alto']</code>.

Los atributos ordinales se pueden codificar mediante un único atributo numérico, ya que la relación de orden se mantiene en la representación numérica. A este tipo de codificación se le denomina _label encoding_.

Los categóricos, sin embargo, no se pueden codificar con un número, ya que el algoritmo de aprendizaje asumiría una relación de orden que no existe. En este caso se debe utilizar una codificación en varias columnas, el denominado _one-hot encoding_.

Los binarios son realmente categóricos, pero podemos intentar codificarlos con un único atributo numérico que tome los valores $0$ y $1$.

In [None]:
# EJERCICIO: mostrar el número de 'levels' para cada atributo discreto
# Crear un DataFrame con las columnas 'Número' y 'Niveles'
# Añadir una fila para cada atributo discreto con el número de posibles valores y sus valores


### 3.2. Codificación _label encoding_<a name="label_encoding"> </a>

In [None]:
# EJERCICIO: codificar mediante label encoding el atributo 'play' en una nueva columna 'play_label', usando map


### 3.3. Codificación _one hot encoding_ <a name="one_hot_encoding"> </a>

In [None]:
# EJERCICIO: codificar mediante one hot encoding el atributo categórico 'outlook'
#    - Pandas proporciona un método para hacerlo


## 4. Tratamiento de valores ausentes <a name="nans"> </a>

Es común encontrarse con datasets en los que faltan valores en algunas columnas. Antes de despreciar la fila correspondiente, puede ser una buena estrategia rellenar esos huecos con valores razonables. Veremos algunas técnicas simples para hacer esto.

In [None]:
# Cargamos los datos de 'titanic.csv' en el dataframe 'TITANIC'


In [None]:
# EJERCICIO: mostrar aquellas filas que contengan algún valor ausente


### 4.1. Eliminar filas con valores ausentes <a name="eliminar"> </a>

Esta opción no es la más recomendable, sobretodo cuando se tienen conjuntos de datos pequeños o con un alto porcentaje de valores perdidos

In [None]:
# EJERCICIO: Crear un dataframe TITANIC2 donde se hayan eliminado todas las filas con valores ausentes


In [None]:
# EJERCICIO: Crear un dataframe TITANIC3 a partir del original donde:
# - Se elimine la columna cabin (es la que más NaN tiene)
# - Se eliminen aquellas filas con valores ausentes (una vez eliminada cabin)


### 4.2. Rellenar con  valores globales <a name="global"> </a>

La técnica más simple para calcular esos valores es apoyarse en las funciones media y moda. En concreto, dependiendo del tipo de atributo para el que falten valores:
- **Numérico**: media del resto de valores de la columna
- **Discreto**: valor más frecuente (moda) del resto de los valores de la columna 

In [None]:
# EJERCICIO: construir las siguientes columnas en la que se sustituyen los valores NaN de la forma en que se indica:
#    - 'age_fill' sustituyendo los valores NaN de 'age' con la media de la columna
#    - 'fare_fill' sustituyendo los valores NaN de 'fare' con la media de la columna
#    - 'cabin_fill' sustituyendo los valores NaN de 'cabin' con el valor más frecuente de la columna (moda)
#    - 'embarked_fill' sustituyendo los valores NaN de 'embarked' con el valor más frecuente de la columna (moda)


In [None]:
# EJERCICIO: Crear un DataFrame TITANIC4 a partir del anterior borrando las columnas con datos ausentes
