# tratamiento datos python

In [9]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [10]:
dataframe = pd.read_csv("Data.csv")
df = dataframe

In [11]:
x = df.iloc[:,:-1].values
y = df.iloc[:, -1].values
x

array([['France', 44.0, 72000.0],
       ['Spain', 27.0, 48000.0],
       ['Germany', 30.0, 54000.0],
       ['Spain', 38.0, 61000.0],
       ['Germany', 40.0, nan],
       ['France', 35.0, 58000.0],
       ['Spain', nan, 52000.0],
       ['France', 48.0, 79000.0],
       ['Germany', 50.0, 83000.0],
       ['France', 37.0, 67000.0]], dtype=object)

## tratamiento de los NA

In [12]:
from sklearn.impute import SimpleImputer

In [13]:
imputer = SimpleImputer(missing_values=np.nan, strategy="mean")

In [14]:
x[:, 1:3] =imputer.fit(x[:, 1:3]).transform(x[:, 1:3])
x

array([['France', 44.0, 72000.0],
       ['Spain', 27.0, 48000.0],
       ['Germany', 30.0, 54000.0],
       ['Spain', 38.0, 61000.0],
       ['Germany', 40.0, 63777.77777777778],
       ['France', 35.0, 58000.0],
       ['Spain', 38.77777777777778, 52000.0],
       ['France', 48.0, 79000.0],
       ['Germany', 50.0, 83000.0],
       ['France', 37.0, 67000.0]], dtype=object)

## Codificar datos categoricos (palabras a numeros)

In [15]:
#from sklearn.preprocessing import LabelEncoder

In [16]:
#LabelEncoder().fit_transform(x[:, 0])

In [17]:
# pero no queremos esto, pues no podemos ordenar francia, españa y alemania, son variables categoricas, asi que solo puede tenerla o no tenerla, entonces tenemos 
# que ponerlas con un onehotencoder (la variable vale 1 o vale 0)
#from sklearn.preprocessing import OneHotEncoder

In [18]:
#x = OneHotEncoder().fit_transform(x)
#x

In [19]:
# pero no sé como hacerlo, asi que voy a usar otra cosa
x = pd.DataFrame(x)
x = pd.concat((x,pd.get_dummies(x.iloc[:, 0])),1)
x = x.drop([x.columns[0]], axis=1)
x

Unnamed: 0,1,2,France,Germany,Spain
0,44.0,72000.0,1,0,0
1,27.0,48000.0,0,0,1
2,30.0,54000.0,0,1,0
3,38.0,61000.0,0,0,1
4,40.0,63777.777778,0,1,0
5,35.0,58000.0,1,0,0
6,38.777778,52000.0,0,0,1
7,48.0,79000.0,1,0,0
8,50.0,83000.0,0,1,0
9,37.0,67000.0,1,0,0


In [20]:
# dado que purchased (y) solo tiene 2 opciones (si y no), lo podemos simplemente pasar por label encoder
from sklearn.preprocessing import LabelEncoder
y = LabelEncoder().fit_transform(y)
y

array([0, 1, 0, 0, 1, 1, 0, 1, 0, 1])

## dividir entre datos de entrenamiento y datos de testing

In [21]:
from sklearn.model_selection import train_test_split

In [22]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0)

## Normalización y estandarización de los datos
$$ x_{stand} = \frac{x-\bar{x}}{\sigma_x}, \quad\quad\quad       x_{norm} = \frac{x-x_{min}}{x_{max}-x_{min}} $$

In [25]:
# importo una libreria que hace una standarización
from sklearn.preprocessing import StandardScaler 
xScaler = StandardScaler() # lo hacemos por separado pa que se guarde el fit y usar el mismo para los datos de testing
x_train = xScaler.fit_transform(x_train)
x_test = xScaler.transform(x_test)
x_train


array([[ 0.26306757,  0.12381479, -1.        ,  2.64575131, -0.77459667],
       [-0.25350148,  0.46175632,  1.        , -0.37796447, -0.77459667],
       [-1.97539832, -1.53093341, -1.        , -0.37796447,  1.29099445],
       [ 0.05261351, -1.11141978, -1.        , -0.37796447,  1.29099445],
       [ 1.64058505,  1.7202972 ,  1.        , -0.37796447, -0.77459667],
       [-0.0813118 , -0.16751412, -1.        , -0.37796447,  1.29099445],
       [ 0.95182631,  0.98614835,  1.        , -0.37796447, -0.77459667],
       [-0.59788085, -0.48214934,  1.        , -0.37796447, -0.77459667]])

In [None]:
# dado que lo que queremos hacer es "clasificar", no necesitamos hacer una standarización en los datos "y"
# si fuera un trabajo de "predicción" entonces sí habría que estandarizar los datos por consistencia