In [1]:

import numpy as np
import pandas as pd
import random 

import matplotlib.pyplot as plt
import seaborn as sns

import statsmodels.api as sm
from statsmodels.formula.api import ols
from statsmodels.multivariate.manova import MANOVA
from sklearn.preprocessing import StandardScaler

plt.rcParams["figure.figsize"] = (10,8) 

  from pandas import (to_datetime, Int64Index, DatetimeIndex, Period,
  from pandas import (to_datetime, Int64Index, DatetimeIndex, Period,


In [2]:
#Cargamos el dataframe con el que vamos a trabajar.
df = pd.read_csv("../ficheros/diamons_estandarizados.csv", index_col = 0)
df.head(2)

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
1,-0.777778,Ideal,E,SI2,-1.428571,1.333333,326,-0.965909,-1.0,-1.018182
2,-0.746032,Premium,E,SI1,-3.5,2.666667,326,-0.875,-0.867816,-1.018182


In [3]:
lm = ols("price ~ carat + cut + color + clarity + depth + table + x + y + z", data= df).fit()
sm.stats.anova_lm(lm)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
cut,4.0,5236258000.0,1309065000.0,340.536548,1.894856e-289
color,6.0,8943270000.0,1490545000.0,387.74637,0.0
clarity,7.0,9785157000.0,1397880000.0,363.640665,0.0
carat,1.0,171483800000.0,171483800000.0,44609.332964,0.0
depth,1.0,232050000.0,232050000.0,60.364878,8.041345e-15
table,1.0,624695700.0,624695700.0,162.506678,3.699683e-37
x,1.0,4784580000.0,4784580000.0,1244.647929,4.324508e-269
y,1.0,35059440.0,35059440.0,9.120268,0.002529298
z,1.0,172169.7,172169.7,0.044788,0.8323957
Residual,46578.0,179051600000.0,3844123.0,,


Según vemos aquí, todas nuestras variables tienen un p-valor menor de 0.05, por lo que debemos rechazar la hipótesis nula, lo que quiere decir que todas las variables influyen en nuestra variable respuesta, que es el precio de los diamantes.

In [4]:
lm.summary()

0,1,2,3
Dep. Variable:,price,R-squared:,0.529
Model:,OLS,Adj. R-squared:,0.529
Method:,Least Squares,F-statistic:,2275.0
Date:,"Mon, 23 Jan 2023",Prob (F-statistic):,0.0
Time:,09:42:23,Log-Likelihood:,-419400.0
No. Observations:,46602,AIC:,838900.0
Df Residuals:,46578,BIC:,839100.0
Df Model:,23,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,2836.6933,90.759,31.255,0.000,2658.805,3014.582
cut[T.Good],-149.3547,62.232,-2.400,0.016,-271.330,-27.379
cut[T.Ideal],-237.8308,56.904,-4.179,0.000,-349.364,-126.298
cut[T.Premium],30.3994,57.535,0.528,0.597,-82.370,143.169
cut[T.Very Good],-103.1000,58.083,-1.775,0.076,-216.944,10.744
color[T.E],-15.5140,32.903,-0.472,0.637,-80.003,48.975
color[T.F],222.9021,33.424,6.669,0.000,157.391,288.413
color[T.G],328.0472,32.547,10.079,0.000,264.255,391.839
color[T.H],330.6912,34.537,9.575,0.000,262.998,398.385

0,1,2,3
Omnibus:,10905.187,Durbin-Watson:,0.366
Prob(Omnibus):,0.0,Jarque-Bera (JB):,108228.223
Skew:,0.843,Prob(JB):,0.0
Kurtosis:,10.273,Cond. No.,32.2


- Nuestro *R cuadrado* es 0.529, que no es lo mejor, pero indica que sí que afectan a la variable respuesta.

- Respecto al *error estándar*, los que tienen el valor más bajo son **Depth** y **Table**, lo que quiere decir que la estimación de la variable respuesta será más precisa. El **color** también parece bastante preciso. Sin embargo, tanto x como y tienen valores muy altos.

- Respecto a la *P*, la mayoría son menores de 0.05, con lo cual son importantes al hacer las predicciones. 
    Respecto al c**orte(cut)**, la categoría *premium*, pero nos quedaríamos con **cut** igual porque el resto de las categorías sí son importantes.

    Con el **color** pasa lo mismo, que todas son menores que 0.05, excepto el **color** T.E, por lo que también nos quedaríamos con la variable **color**.

    Con **clarity** tendremos 3 menores que 0.05, y el resto de las categorías serían mayores, pero con que haya una que sí influya ya no nos podríamos deshacer de la variable.

    **Carat**, **depth**, **table**, **x** e **y** tienen valores menores de 0.05, por lo que sí son importantes al hacer la predicción.

    La **z** en este caso parece que no es significativa para hacer las predicciones, cosa que nos ha sorprendido porque no era lo que parecía en los anteriores análisis. Pero según esto, podríamos eliminar esta variable.

- Respecto al *coeficiente*, vemos que sobre todo el **carat (quilates)** tiene un coeficiente muy alto. Cuanto mayor son los quilates, el precio de los diamantes sube mucho. En el caso de **depth** y **table** la relación es inversamente proporcional.

In [5]:
# Eliminamos la columna z y guardamos otro csv para no perder los datos con lo que empezamos hoy, ya que no tenemos claro cual seguiremos usando
df.drop(columns=["z"], axis= 1, inplace= True)

In [6]:
df.head(1)

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y
1,-0.777778,Ideal,E,SI2,-1.428571,1.333333,326,-0.965909,-1.0


In [7]:
df.to_csv("../ficheros/diamons_estand_sinz.csv")

Hacemos lo mismo con los datos sin estandarizar, para comprobar los resultados

In [9]:
df2= pd.read_csv("../ficheros/diamons_01.csv", index_col = 0)
df2.head(2)

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31


In [10]:
lm2 = ols("price ~ carat + cut + color + clarity + depth + table + x + y + z", data= df2).fit()
sm.stats.anova_lm(lm2)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
cut,4.0,4790534000.0,1197634000.0,1908.550474,0.0
color,6.0,8518113000.0,1419685000.0,2262.412529,0.0
clarity,7.0,9270288000.0,1324327000.0,2110.448921,0.0
carat,1.0,330018100000.0,330018100000.0,525917.282722,0.0
depth,1.0,966768.1,966768.1,1.540643,0.2145279
table,1.0,32510850.0,32510850.0,51.80934,6.201355e-13
x,1.0,319514800.0,319514800.0,509.179193,3.462949e-112
y,1.0,4681036.0,4681036.0,7.459705,0.006311735
z,1.0,954765.3,954765.3,1.521515,0.2173961
Residual,50247.0,31530470000.0,627509.5,,


In [11]:
lm2.summary()

0,1,2,3
Dep. Variable:,price,R-squared:,0.918
Model:,OLS,Adj. R-squared:,0.918
Method:,Least Squares,F-statistic:,24460.0
Date:,"Mon, 23 Jan 2023",Prob (F-statistic):,0.0
Time:,12:16:19,Log-Likelihood:,-406870.0
No. Observations:,50271,AIC:,813800.0
Df Residuals:,50247,BIC:,814000.0
Df Model:,23,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-1294.5174,309.367,-4.184,0.000,-1900.879,-688.155
cut[T.Good],483.8604,24.403,19.828,0.000,436.029,531.691
cut[T.Ideal],691.2052,24.321,28.420,0.000,643.535,738.876
cut[T.Premium],635.0755,23.437,27.097,0.000,589.138,681.013
cut[T.Very Good],607.4155,23.489,25.860,0.000,561.377,653.454
color[T.E],-162.9624,12.813,-12.719,0.000,-188.076,-137.849
color[T.F],-212.0875,13.010,-16.302,0.000,-237.586,-186.588
color[T.G],-346.8630,12.769,-27.164,0.000,-371.891,-321.835
color[T.H],-700.0175,13.642,-51.313,0.000,-726.756,-673.279

0,1,2,3
Omnibus:,12827.16,Durbin-Watson:,1.072
Prob(Omnibus):,0.0,Jarque-Bera (JB):,205461.271
Skew:,0.801,Prob(JB):,0.0
Kurtosis:,12.774,Cond. No.,7460.0


La columna **z** sigue sin afectar a nuestra variable resultado, por lo que vamos a eliminarla.

In [12]:
df2.drop(columns=["z"], axis= 1, inplace= True)

In [13]:
df2.head(1)

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y
1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98


In [14]:
df2.to_csv("../ficheros/diamons_sinz.csv")