In [1]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
from math import sqrt

# LIMPIEZA

In [2]:
# Traemos los datos a entrenar
data = pd.read_csv('diamonds_train.csv')

In [3]:
data.head()

Unnamed: 0,id,carat,cut,color,clarity,depth,table,x,y,z,price
0,0,0.78,Premium,F,VS1,61.5,58.0,5.93,5.98,3.66,3446
1,1,0.31,Ideal,D,SI1,60.8,56.0,4.37,4.32,2.64,732
2,2,0.3,Ideal,F,SI1,62.3,54.0,4.3,4.34,2.69,475
3,3,1.04,Ideal,E,VVS2,62.0,58.0,6.54,6.46,4.03,9552
4,4,0.65,Ideal,J,SI1,61.4,55.0,5.58,5.62,3.44,1276


In [4]:
# Nos quitamos el id
data = data.iloc[:,1:]
data.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,x,y,z,price
0,0.78,Premium,F,VS1,61.5,58.0,5.93,5.98,3.66,3446
1,0.31,Ideal,D,SI1,60.8,56.0,4.37,4.32,2.64,732
2,0.3,Ideal,F,SI1,62.3,54.0,4.3,4.34,2.69,475
3,1.04,Ideal,E,VVS2,62.0,58.0,6.54,6.46,4.03,9552
4,0.65,Ideal,J,SI1,61.4,55.0,5.58,5.62,3.44,1276


In [34]:
import seaborn as sns
a = data._get_numeric_data()
sns.pairplot(a);

In [5]:
# Asignamos las features a la X
X = data.iloc[:,[0,1,2,3,4,5,6,7,8]]
X.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,x,y,z
0,0.78,Premium,F,VS1,61.5,58.0,5.93,5.98,3.66
1,0.31,Ideal,D,SI1,60.8,56.0,4.37,4.32,2.64
2,0.3,Ideal,F,SI1,62.3,54.0,4.3,4.34,2.69
3,1.04,Ideal,E,VVS2,62.0,58.0,6.54,6.46,4.03
4,0.65,Ideal,J,SI1,61.4,55.0,5.58,5.62,3.44


In [6]:
# Asignamos el precio a predecir a la y
y = data.price
y

0        3446
1         732
2         475
3        9552
4        1276
         ... 
40340    1716
40341     781
40342    1123
40343    5651
40344    3959
Name: price, Length: 40345, dtype: int64

In [7]:
# Sacamos lista ordenada del tipo de corte del peor al mejor
cut_list = list(data.cut.value_counts().keys())
cut_list.reverse()
# Aplicamos el valor numérico para que lo valore en función de la importancia del corte
X['cut'] = X['cut'].apply(lambda x: cut_list.index(x))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """


In [8]:
# Sacamos lista ordenada del color del peor al mejor
color_list = sorted(list(data.color.value_counts().keys()),reverse=True)
# Aplicamos el valor numérico para que lo valore en función de la importancia del color
X['color'] = X['color'].apply(lambda x: color_list.index(x))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


In [9]:
# Sacamos lista ordenada de la claridad de peor a mejor
clarity_list = ['I1', 'SI2', 'SI1', 'VS2', 'VS1', 'VVS2', 'VVS1', 'IF']
# Aplicamos el valor numérico para que lo valore en función de la importancia de la claridad
X['clarity'] = X['clarity'].apply(lambda x: clarity_list.index(x))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


# PREDICCION

In [10]:
# Dividimos los datos en entrenamiento y test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.2)

In [11]:
# Entrenamos el modelo
linear = LinearRegression()
linear.fit(X_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [12]:
# Lo aplicamos para hacer la predicción
pred = linear.predict(X_test)

In [13]:
# Lo cerca que están los datos de la línea de regresión
r2_score(y_test, pred)

0.8927553859770581

In [14]:
# Veo comparativa en una tabla
compare = pd.DataFrame({'Reality':y_test, 'Predicted':pred})
compare.head(10)

Unnamed: 0,Reality,Predicted
22381,3812,4076.975481
39210,13250,12204.567714
27568,9630,8019.954147
728,2625,3727.357522
35626,2326,1506.567858
11087,4491,5327.566121
32927,2004,3009.496934
1241,13299,10524.113187
31552,5921,6641.749822
38289,2330,2321.368947


In [15]:
# La diferencia media que hay entre la realidad y la predicción
1-np.abs(y_test-pred).sum()/len(y_test)

-826.2225434614372

In [16]:
# Cuanto de similares de media son los datos reales vs predichos
rms = sqrt(mean_squared_error(y_test, pred))
rms

1332.092648742771

# PREDICCION 2

In [17]:
from sklearn.feature_selection import RFE

In [18]:
# Aplicamos un selector de features según su importancia para la predicción
selector = RFE(linear, 3, step=1)
selector = selector.fit(X, y)

In [19]:
selector.ranking_

array([1, 3, 2, 1, 4, 5, 1, 6, 7])

In [20]:
# Hacemos dos listas porque nunca se cuales son los importantes, si números bajos o altos
menor = []
mayor = []

for i in range(len(X.columns)):
    if selector.ranking_[i] <= 3:
        menor.append(X.columns[i])
    else:
        mayor.append(X.columns[i])

In [21]:
# Hacemos PRIMERA prueba quitando las features con bajo ranking
X2 = X.drop(columns=menor)

In [22]:
# Dividimos los datos en entrenamiento y test
X_train, X_test, y_train, y_test = train_test_split(X2, y, test_size=.2)

In [23]:
# Entrenamos el modelo
linear.fit(X_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [24]:
# Lo aplicamos para hacer la predicción
pred = linear.predict(X_test)

In [25]:
# Lo cerca que están los datos de la línea de regresión
r2_score(y_test, pred)

0.734941659142915

In [27]:
# La diferencia media que hay entre la realidad y la predicción
1-np.abs(y_test-pred).sum()/len(y_test)

-1377.3435743703926

In [28]:
# Cuanto de similares de media son los datos reales vs predichos
rms = sqrt(mean_squared_error(y_test, pred))
rms

2087.763182271904

In [29]:
# Hacemos SEGUNDA prueba quitando las features con alto ranking
X3 = X.drop(columns=mayor)
# Dividimos los datos en entrenamiento y test
X_train, X_test, y_train, y_test = train_test_split(X3, y, test_size=.2)
# Entrenamos el modelo
linear.fit(X_train, y_train)
# Lo aplicamos para hacer la predicción
pred = linear.predict(X_test)

In [30]:
# Lo cerca que están los datos de la línea de regresión
r2_score(y_test, pred)

0.8964898395623394

In [31]:
# Veo comparativa en una tabla
compare = pd.DataFrame({'Reality':y_test, 'Predicted':pred})
compare.head(10)

Unnamed: 0,Reality,Predicted
10199,4306,4554.29282
31309,718,484.653768
24082,812,-614.362251
35113,4740,5528.287487
18420,5428,5418.031361
15843,1608,2018.899491
30185,886,2118.412578
17362,8158,6952.267659
17058,579,44.155296
29069,828,-180.954236


In [32]:
# La diferencia media que hay entre la realidad y la predicción
1-np.abs(y_test-pred).sum()/len(y_test)

-825.6188768551036

In [33]:
# Cuanto de similares de media son los datos reales vs predichos
rms = sqrt(mean_squared_error(y_test, pred))
rms

1286.0030498174533

In [1]:
# Descarto por resultados desastrosos