### Importar dataset

In [10]:
df <- read.csv("Data.csv")
df

Country,Age,Salary,Purchased
<chr>,<int>,<int>,<chr>
France,44.0,72000.0,No
Spain,27.0,48000.0,Yes
Germany,30.0,54000.0,No
Spain,38.0,61000.0,No
Germany,40.0,,Yes
France,35.0,58000.0,Yes
Spain,,52000.0,No
France,48.0,79000.0,Yes
Germany,50.0,83000.0,No
France,37.0,67000.0,Yes


### Tratar valores nulos

Se pueden tomar diferentes estrategias para manejar esta situación:
1. Eliminar las filas en las que se encuentran datos vacios. Una opción muy drástica y poco usada puesto que, al menos de que la fila venga vacía o casi, aún así aporta algo de información util para lo que estamos estudiando.
2. Sustituir los valores vacíos por medidas de localización de los datos, como la media, moda o mediana de la fila. Es la más usada y la que aprenderemos a hacer.

In [16]:
df$Age = ifelse(is.na(df$Age), mean(df$Age, na.rm = TRUE), df$Age)
df$Salary = ifelse(is.na(df$Salary), mean(df$Salary, na.rm = TRUE), df$Salary)

df

Country,Age,Salary,Purchased
<chr>,<dbl>,<dbl>,<chr>
France,44.0,72000.0,No
Spain,27.0,48000.0,Yes
Germany,30.0,54000.0,No
Spain,38.0,61000.0,No
Germany,40.0,63777.78,Yes
France,35.0,58000.0,Yes
Spain,38.77778,52000.0,No
France,48.0,79000.0,Yes
Germany,50.0,83000.0,No
France,37.0,67000.0,Yes


### Tratar con datos categoricos

Para ambos casos se usa la función `factor()` de R, que convierte una variable en un factor. Un factor es una variable categórica que puede tomar un número limitado y fijo de valores. En este caso, la función `factor()` se usa para convertir las variables categóricas en factores, **lo que permite a R tratarlas como variables categóricas en lugar de numéricas**. Esto es útil para el análisis estadístico y la visualización de datos, ya que permite a R manejar correctamente las variables categóricas.

In [19]:
df$Country = factor(df$Country, levels = unique(df$Country), labels = 1:length(unique(df$Country)))
df$Purchased = factor(df$Purchased, levels = unique(df$Purchased), labels = 1:length(unique(df$Purchased)))
df

Country,Age,Salary,Purchased
<fct>,<dbl>,<dbl>,<fct>
1,44.0,72000.0,1
2,27.0,48000.0,2
3,30.0,54000.0,1
2,38.0,61000.0,1
3,40.0,63777.78,2
1,35.0,58000.0,2
2,38.77778,52000.0,1
1,48.0,79000.0,2
3,50.0,83000.0,1
1,37.0,67000.0,2


### Dividr el dataframe en conjuntos de entrenamiento y testeo

In [27]:
library(caTools)

split = sample.split(df$Purchased, SplitRatio = 0.8)
training_set = subset(df, split == TRUE)
test_set = subset(df, split == FALSE)

training_set

Unnamed: 0_level_0,Country,Age,Salary,Purchased
Unnamed: 0_level_1,<fct>,<dbl>,<dbl>,<fct>
1,1,44.0,72000.0,1
4,2,38.0,61000.0,1
5,3,40.0,63777.78,2
6,1,35.0,58000.0,2
7,2,38.77778,52000.0,1
8,1,48.0,79000.0,2
9,3,50.0,83000.0,1
10,1,37.0,67000.0,2


In [28]:
test_set

Unnamed: 0_level_0,Country,Age,Salary,Purchased
Unnamed: 0_level_1,<fct>,<dbl>,<dbl>,<fct>
2,2,27,48000,2
3,3,30,54000,1


### Escalar datos

In [30]:
training_set[, 2:3] = scale(training_set[, 2:3])
test_set[, 2:3] = scale(test_set[, 2:3])

training_set

Unnamed: 0_level_0,Country,Age,Salary,Purchased
Unnamed: 0_level_1,<fct>,<dbl>,<dbl>,<fct>
1,1,0.490231,0.477099958,1
4,2,-0.6185637,-0.566720944,1
5,3,-0.2489655,-0.303129807,2
6,1,-1.172961,-0.851399372,2
7,2,-0.4748311,-1.420756228,1
8,1,1.2294274,1.141349623,2
9,3,1.5990257,1.52092086,1
10,1,-0.8033628,0.002635911,2


In [31]:
test_set

Unnamed: 0_level_0,Country,Age,Salary,Purchased
Unnamed: 0_level_1,<fct>,<dbl>,<dbl>,<fct>
2,2,-0.7071068,-0.7071068,2
3,3,0.7071068,0.7071068,1
