In [157]:
import numpy as np
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
from math import sqrt
import warnings

warnings.filterwarnings('ignore')

# LIMPIEZA

In [158]:
data = pd.read_csv('diamonds_train.csv')
data.head()

Unnamed: 0,id,carat,cut,color,clarity,depth,table,x,y,z,price
0,0,0.78,Premium,F,VS1,61.5,58.0,5.93,5.98,3.66,3446
1,1,0.31,Ideal,D,SI1,60.8,56.0,4.37,4.32,2.64,732
2,2,0.3,Ideal,F,SI1,62.3,54.0,4.3,4.34,2.69,475
3,3,1.04,Ideal,E,VVS2,62.0,58.0,6.54,6.46,4.03,9552
4,4,0.65,Ideal,J,SI1,61.4,55.0,5.58,5.62,3.44,1276


In [159]:
# Nos quitamos el id
data = data.iloc[:,1:]
data.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,x,y,z,price
0,0.78,Premium,F,VS1,61.5,58.0,5.93,5.98,3.66,3446
1,0.31,Ideal,D,SI1,60.8,56.0,4.37,4.32,2.64,732
2,0.3,Ideal,F,SI1,62.3,54.0,4.3,4.34,2.69,475
3,1.04,Ideal,E,VVS2,62.0,58.0,6.54,6.46,4.03,9552
4,0.65,Ideal,J,SI1,61.4,55.0,5.58,5.62,3.44,1276


In [160]:
# Asignamos las features a la X
X = data.iloc[:,[0,1,2,3,4,5,6,7,8]]
# Asignamos el precio a predecir a la y
y = data.price

In [161]:
# Sacamos lista ordenada del tipo de corte del peor al mejor
cut_list = list(data.cut.value_counts().keys())
cut_list.reverse()
# Aplicamos el valor numérico para que lo valore en función de la importancia del corte
X['cut'] = X['cut'].apply(lambda x: cut_list.index(x))

In [162]:
# Sacamos lista ordenada del color del peor al mejor
color_list = sorted(list(data.color.value_counts().keys()),reverse=True)
# Aplicamos el valor numérico para que lo valore en función de la importancia del color
X['color'] = X['color'].apply(lambda x: color_list.index(x))

In [163]:
# Sacamos lista ordenada de la claridad de peor a mejor
clarity_list = ['I1', 'SI2', 'SI1', 'VS2', 'VS1', 'VVS2', 'VVS1', 'IF']
# Aplicamos el valor numérico para que lo valore en función de la importancia de la claridad
X['clarity'] = X['clarity'].apply(lambda x: clarity_list.index(x))

In [164]:
X.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,x,y,z
0,0.78,3,4,4,61.5,58.0,5.93,5.98,3.66
1,0.31,4,6,2,60.8,56.0,4.37,4.32,2.64
2,0.3,4,4,2,62.3,54.0,4.3,4.34,2.69
3,1.04,4,5,5,62.0,58.0,6.54,6.46,4.03
4,0.65,4,0,2,61.4,55.0,5.58,5.62,3.44


# ENTRENAMIENTO MODELO

In [203]:
# Dividimos los datos en entrenamiento y test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,random_state=123)

In [204]:
# Entrenamos el modelo
model = RandomForestRegressor(n_estimators=250)
data_trained = model.fit(X_train, y_train)

In [205]:
# Lo aplicamos para hacer la predicción
pred = data_trained.predict(X_test)

In [206]:
# Lo cerca que están los datos de la línea de regresión
r2_score(y_test, pred)

0.9798012235724091

In [207]:
# Veo comparativa en una tabla
compare = pd.DataFrame({'Reality':y_test, 'Predicted':pred})
compare.head(10)

Unnamed: 0,Reality,Predicted
38864,1122,1232.404
3790,1441,1532.376
23618,626,641.068
31131,1974,1904.924
6617,5535,5441.308
2760,4234,4222.778
24734,2398,2259.824
23010,1571,1758.116
7659,1956,1879.252
5049,4905,5137.144


In [208]:
# La diferencia media que hay entre la realidad y la predicción
1-np.abs(y_test-pred).sum()/len(y_test)

-270.2862483632244

In [209]:
# Cuanto de similares de media son los datos reales vs predichos
rms = sqrt(mean_squared_error(y_test, pred))
rms

557.5262921142277

# PREDICCION

In [186]:
# ENTRENAMIENTO SOBRE EL 100% DE LOS DATOS
data_trained = model.fit(X, y)

In [187]:
data2 = pd.read_csv('diamonds_test.csv')
data2.head()

Unnamed: 0,id,carat,cut,color,clarity,depth,table,x,y,z
0,0,1.1,Premium,H,SI2,62.2,58.0,6.69,6.6,4.13
1,1,0.51,Ideal,I,SI1,62.5,57.0,5.07,5.1,3.18
2,2,2.03,Premium,G,SI1,61.9,59.0,8.14,8.09,5.02
3,3,1.21,Premium,F,SI1,60.0,60.0,6.96,6.91,4.16
4,4,0.55,Ideal,F,SI1,61.8,55.0,5.27,5.22,3.24


In [188]:
# Nos quitamos el id
data2 = data2.iloc[:,1:]
data2.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,x,y,z
0,1.1,Premium,H,SI2,62.2,58.0,6.69,6.6,4.13
1,0.51,Ideal,I,SI1,62.5,57.0,5.07,5.1,3.18
2,2.03,Premium,G,SI1,61.9,59.0,8.14,8.09,5.02
3,1.21,Premium,F,SI1,60.0,60.0,6.96,6.91,4.16
4,0.55,Ideal,F,SI1,61.8,55.0,5.27,5.22,3.24


In [189]:
# Sacamos lista ordenada del tipo de corte del peor al mejor
cut_list = list(data2.cut.value_counts().keys())
cut_list.reverse()
# Aplicamos el valor numérico para que lo valore en función de la importancia del corte
data2['cut'] = data2['cut'].apply(lambda x: cut_list.index(x))

In [190]:
# Sacamos lista ordenada del color del peor al mejor
color_list = sorted(list(data2.color.value_counts().keys()),reverse=True)
# Aplicamos el valor numérico para que lo valore en función de la importancia del color
data2['color'] = data2['color'].apply(lambda x: color_list.index(x))

In [191]:
# Sacamos lista ordenada de la claridad de peor a mejor
clarity_list = ['I1', 'SI2', 'SI1', 'VS2', 'VS1', 'VVS2', 'VVS1', 'IF']
# Aplicamos el valor numérico para que lo valore en función de la importancia de la claridad
data2['clarity'] = data2['clarity'].apply(lambda x: clarity_list.index(x))

In [192]:
data2.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,x,y,z
0,1.1,3,2,1,62.2,58.0,6.69,6.6,4.13
1,0.51,4,1,2,62.5,57.0,5.07,5.1,3.18
2,2.03,3,3,2,61.9,59.0,8.14,8.09,5.02
3,1.21,3,4,2,60.0,60.0,6.96,6.91,4.16
4,0.55,4,4,2,61.8,55.0,5.27,5.22,3.24


In [193]:
pred = data_trained.predict(data2)

In [194]:
data2['price'] = pred
data2.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,x,y,z,price
0,1.1,3,2,1,62.2,58.0,6.69,6.6,4.13,4592.885
1,0.51,4,1,2,62.5,57.0,5.07,5.1,3.18,1013.9475
2,2.03,3,3,2,61.9,59.0,8.14,8.09,5.02,16493.9525
3,1.21,3,4,2,60.0,60.0,6.96,6.91,4.16,6743.7975
4,0.55,4,4,2,61.8,55.0,5.27,5.22,3.24,1491.743839


In [195]:
copia = data2.copy()

In [196]:
copia['price'] = copia['price'].apply(lambda x: int(x))

In [197]:
copia.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,x,y,z,price
0,1.1,3,2,1,62.2,58.0,6.69,6.6,4.13,4592
1,0.51,4,1,2,62.5,57.0,5.07,5.1,3.18,1013
2,2.03,3,3,2,61.9,59.0,8.14,8.09,5.02,16493
3,1.21,3,4,2,60.0,60.0,6.96,6.91,4.16,6743
4,0.55,4,4,2,61.8,55.0,5.27,5.22,3.24,1491


In [198]:
copia['id'] = copia.index
submit = copia[['id','price']]
submit.head()

Unnamed: 0,id,price
0,0,4592
1,1,1013
2,2,16493
3,3,6743
4,4,1491


In [199]:
submit.to_csv('result7.csv',index=False)