># **Ciência dos Dados** <font color=purple>- Projeto 3</font>
   #### <font color=grey> <p>Gianlucca de La Torre Napolitano </p> <p>Lucas Nicascio dos Santos</p> </font>

### Classificação do peso de características a serem destacadas na fabricação da maconha e seus impactos na avaliação final

 O projeto visa a análise de características presentes na Maconha como seus efeitos, sabor e tipo de forma a prever quais os fatores devem ser mais focados na fabricação de forma a obter uma ótima avaliação pelo público, tendo em vista que as características podem ser ajustadas pelas proporções de THC (Tetrahidrocanabinol) e CBD (Canabidiol) (não aprofundados nesse projeto) 

Inicialmente é necessário ler o Dataset "Cannabis Strains" obtido na plataforma Kaggle, bem como criar um Data Frame ábil para análise, pois contém variáveis qualitativas e quantitativas.

In [None]:
%matplotlib inline
%reset -f
import pandas as pd
import numpy as np
from scipy.stats import beta, probplot
import matplotlib.pyplot as plt
from numpy import array
from numpy import argmax
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
import statsmodels.api as sm
from mpl_toolkits.mplot3d import Axes3D

In [2]:
# Leitura dos arquivos em .csv e eliminação dos valores nulos do DataFrame 
df = pd.read_csv('cannabis.csv')
data = df.dropna(how = 'any')

In [3]:
# Classificação dos valores em "Type" em colunas de 0 e 1 para equivalência de variáveis qualitativas em quantitativas
tipo = data['Type'].str.get_dummies(sep=',')

In [4]:
#Classificação dos valores em "Effects" em colunas de 0 e 1 e eliminação de valores "None" 
efeitos = data['Effects'].str.get_dummies(sep=',')
efeitos = efeitos.drop("None", axis =1)

In [5]:
# Junção dos DataFrames
data_nova = data.join(efeitos, how = 'inner')

In [6]:
#Classificação dos valores em "Flavours" em colunas de 0 e 1 e eliminação de valores "None" 
sabores = data['Flavor'].str.get_dummies(sep=',')
sabores = sabores.drop("None", axis =1)

In [7]:
# Junção dos DataFrames
datanova = data_nova.join(sabores, how = 'inner')
datanova0 = datanova.join(tipo,how = 'inner')

In [8]:
# Remoção de colunas não mais necessárias do DataFrame
datanova1 = datanova0.drop(['Effects','Flavor','Type','Strain','Description'], 1)

In [9]:
datanova1.columns

Index(['Rating', 'Aroused', 'Creative', 'Dry', 'Energetic', 'Euphoric',
       'Focused', 'Giggly', 'Happy', 'Hungry', 'Mouth', 'Relaxed', 'Sleepy',
       'Talkative', 'Tingly', 'Uplifted', 'Ammonia', 'Apple', 'Apricot',
       'Berry', 'Blue', 'Blueberry', 'Butter', 'Cheese', 'Chemical',
       'Chestnut', 'Citrus', 'Coffee', 'Diesel', 'Earthy', 'Flowery', 'Fruit',
       'Grape', 'Grapefruit', 'Honey', 'Lavender', 'Lemon', 'Lime', 'Mango',
       'Menthol', 'Mint', 'Minty', 'Nutty', 'Orange', 'Peach', 'Pear',
       'Pepper', 'Pine', 'Pineapple', 'Plum', 'Pungent', 'Rose', 'Sage',
       'Skunk', 'Spicy/Herbal', 'Strawberry', 'Sweet', 'Tar', 'Tea', 'Tobacco',
       'Tree', 'Tropical', 'Vanilla', 'Violet', 'Woody', 'hybrid', 'indica',
       'sativa'],
      dtype='object')

In [10]:
def regress1(X,Y):
    X_cp = sm.add_constant(X)
    model = sm.OLS(Y,X_cp)
    results = model.fit()
    return results

Determinação das variáveis a serem utilizadas na regressão. A variável x foi separada de duas formas para testarmos a hipótese de que os sabores podem não ter um efeito significativo na regressão, pois são avaliados de forma subjetiva

In [11]:
Y = datanova1['Rating']
x = datanova1[['hybrid', 'indica',
       'sativa', 'Aroused', 'Creative', 'Dry', 'Energetic', 'Euphoric',
       'Focused', 'Giggly', 'Happy', 'Hungry', 'Mouth', 'Relaxed', 'Sleepy',
       'Talkative', 'Tingly', 'Uplifted', 'Ammonia', 'Apple', 'Apricot',
       'Berry', 'Blue', 'Blueberry', 'Butter', 'Cheese', 'Chemical',
       'Chestnut', 'Citrus', 'Coffee', 'Diesel', 'Earthy', 'Flowery', 'Fruit',
       'Grape', 'Grapefruit', 'Honey', 'Lavender', 'Lemon', 'Lime', 'Mango',
       'Menthol', 'Mint', 'Minty', 'Nutty', 'Orange', 'Peach', 'Pear',
       'Pepper', 'Pine', 'Pineapple', 'Plum', 'Pungent', 'Rose', 'Sage',
       'Skunk', 'Spicy/Herbal', 'Strawberry', 'Sweet', 'Tar', 'Tea', 'Tobacco',
       'Tree', 'Tropical', 'Vanilla', 'Violet', 'Woody']]
X = datanova1[['Aroused', 'Creative', 'Dry', 'Energetic', 'Euphoric',
       'Focused', 'Giggly', 'Happy', 'Hungry', 'Relaxed', 'Sleepy',
       'Talkative', 'Tingly', 'Uplifted']]

In [12]:
results = regress1(x,Y)
results.summary()

0,1,2,3
Dep. Variable:,Rating,R-squared:,0.443
Model:,OLS,Adj. R-squared:,0.427
Method:,Least Squares,F-statistic:,27.47
Date:,"Mon, 19 Nov 2018",Prob (F-statistic):,5.39e-232
Time:,18:39:30,Log-Likelihood:,-2115.6
No. Observations:,2277,AIC:,4361.0
Df Residuals:,2212,BIC:,4734.0
Df Model:,64,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,1.2760,0.049,26.100,0.000,1.180,1.372
hybrid,0.4227,0.023,18.105,0.000,0.377,0.468
indica,0.4274,0.030,14.066,0.000,0.368,0.487
sativa,0.4259,0.032,13.345,0.000,0.363,0.489
Aroused,0.4590,0.051,8.927,0.000,0.358,0.560
Creative,0.4618,0.036,13.004,0.000,0.392,0.531
Dry,1.0586,0.340,3.116,0.002,0.392,1.725
Energetic,0.4496,0.039,11.409,0.000,0.372,0.527
Euphoric,0.4445,0.036,12.420,0.000,0.374,0.515

0,1,2,3
Omnibus:,557.494,Durbin-Watson:,1.938
Prob(Omnibus):,0.0,Jarque-Bera (JB):,18579.69
Skew:,-0.454,Prob(JB):,0.0
Kurtosis:,16.965,Cond. No.,1.15e+16


In [13]:
#tirando variaveis com p>|t| alto (sabores)
results = regress1(X,Y)
results.summary()

0,1,2,3
Dep. Variable:,Rating,R-squared:,0.428
Model:,OLS,Adj. R-squared:,0.425
Method:,Least Squares,F-statistic:,121.0
Date:,"Mon, 19 Nov 2018",Prob (F-statistic):,5.9e-262
Time:,18:39:30,Log-Likelihood:,-2145.2
No. Observations:,2277,AIC:,4320.0
Df Residuals:,2262,BIC:,4406.0
Df Model:,14,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,1.7278,0.065,26.705,0.000,1.601,1.855
Aroused,0.5517,0.048,11.465,0.000,0.457,0.646
Creative,0.5517,0.031,17.939,0.000,0.491,0.612
Dry,2.2722,0.626,3.629,0.000,1.044,3.500
Energetic,0.5412,0.034,15.845,0.000,0.474,0.608
Euphoric,0.5400,0.031,17.683,0.000,0.480,0.600
Focused,0.5161,0.032,16.031,0.000,0.453,0.579
Giggly,0.4525,0.042,10.764,0.000,0.370,0.535
Happy,0.5248,0.035,15.106,0.000,0.457,0.593

0,1,2,3
Omnibus:,621.229,Durbin-Watson:,1.939
Prob(Omnibus):,0.0,Jarque-Bera (JB):,20884.032
Skew:,-0.611,Prob(JB):,0.0
Kurtosis:,17.786,Cond. No.,92.0


Apos realizadas as regressoes, foi observado que o valor de R^2 estava baixo. eliminando as variaveis com valores "p" alto, continuou um valor baixo para R^2. Entao, foi retirado da regressao a constante os o resultados estao mostrados a seguir

In [14]:
#regressao sem a constante
def regress(X,Y):
    X_cp = sm.add_constant(X)
    model = sm.OLS(Y,X)
    results = model.fit()
    return results



In [15]:
Y = datanova1['Rating']
x = datanova1[['hybrid', 'indica',
       'sativa', 'Aroused', 'Creative', 'Dry', 'Energetic', 'Euphoric',
       'Focused', 'Giggly', 'Happy', 'Hungry', 'Mouth', 'Relaxed', 'Sleepy',
       'Talkative', 'Tingly', 'Uplifted', 'Ammonia', 'Apple', 'Apricot',
       'Berry', 'Blue', 'Blueberry', 'Butter', 'Cheese', 'Chemical',
       'Chestnut', 'Citrus', 'Coffee', 'Diesel', 'Earthy', 'Flowery', 'Fruit',
       'Grape', 'Grapefruit', 'Honey', 'Lavender', 'Lemon', 'Lime', 'Mango',
       'Menthol', 'Mint', 'Minty', 'Nutty', 'Orange', 'Peach', 'Pear',
       'Pepper', 'Pine', 'Pineapple', 'Plum', 'Pungent', 'Rose', 'Sage',
       'Skunk', 'Spicy/Herbal', 'Strawberry', 'Sweet', 'Tar', 'Tea', 'Tobacco',
       'Tree', 'Tropical', 'Vanilla', 'Violet', 'Woody']]



In [16]:
results = regress(x,Y)
results.summary()

0,1,2,3
Dep. Variable:,Rating,R-squared:,0.443
Model:,OLS,Adj. R-squared:,0.427
Method:,Least Squares,F-statistic:,27.47
Date:,"Mon, 19 Nov 2018",Prob (F-statistic):,5.39e-232
Time:,18:39:31,Log-Likelihood:,-2115.6
No. Observations:,2277,AIC:,4361.0
Df Residuals:,2212,BIC:,4734.0
Df Model:,64,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
hybrid,1.6987,0.066,25.816,0.000,1.570,1.828
indica,1.7034,0.071,24.126,0.000,1.565,1.842
sativa,1.7019,0.072,23.777,0.000,1.562,1.842
Aroused,0.4590,0.051,8.927,0.000,0.358,0.560
Creative,0.4618,0.036,13.004,0.000,0.392,0.531
Dry,1.0586,0.340,3.116,0.002,0.392,1.725
Energetic,0.4496,0.039,11.409,0.000,0.372,0.527
Euphoric,0.4445,0.036,12.420,0.000,0.374,0.515
Focused,0.4287,0.037,11.612,0.000,0.356,0.501

0,1,2,3
Omnibus:,557.494,Durbin-Watson:,1.938
Prob(Omnibus):,0.0,Jarque-Bera (JB):,18579.69
Skew:,-0.454,Prob(JB):,0.0
Kurtosis:,16.965,Cond. No.,1.48e+16


A coluna "tipo" foi retirada, pois observamos que para os 3 diferentes tipos hibrida, sativa, indica o coeficiente era o mesmo, por isso usamos como se o "tipo" fosse sempre 1 no np.dot .

In [17]:
xx = datanova1[[  
        'Aroused', 'Creative', 'Dry', 'Energetic', 'Euphoric',
       'Focused', 'Giggly', 'Happy', 'Hungry', 'Mouth', 'Relaxed', 'Sleepy',
       'Talkative', 'Tingly', 'Uplifted',  'Peach']]

In [18]:
#tirando variaveis com p>|t| alto
results = regress(xx,Y)
results.summary()

0,1,2,3
Dep. Variable:,Rating,R-squared:,0.974
Model:,OLS,Adj. R-squared:,0.974
Method:,Least Squares,F-statistic:,5615.0
Date:,"Mon, 19 Nov 2018",Prob (F-statistic):,0.0
Time:,18:39:31,Log-Likelihood:,-2455.1
No. Observations:,2277,AIC:,4940.0
Df Residuals:,2262,BIC:,5026.0
Df Model:,15,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Aroused,0.9061,0.053,17.089,0.000,0.802,1.010
Creative,0.9018,0.032,28.300,0.000,0.839,0.964
Dry,2.0000,0.357,5.605,0.000,1.300,2.700
Energetic,0.9021,0.036,25.086,0.000,0.832,0.973
Euphoric,0.8774,0.032,27.562,0.000,0.815,0.940
Focused,0.8611,0.034,25.493,0.000,0.795,0.927
Giggly,0.7955,0.046,17.351,0.000,0.706,0.885
Happy,0.8454,0.037,22.602,0.000,0.772,0.919
Hungry,0.7991,0.038,20.758,0.000,0.724,0.875

0,1,2,3
Omnibus:,1419.293,Durbin-Watson:,1.964
Prob(Omnibus):,0.0,Jarque-Bera (JB):,51287.042
Skew:,2.373,Prob(JB):,0.0
Kurtosis:,25.761,Cond. No.,2.45e+17


Apos a retirada dos valores de "p" alto, ficamos com 15 variaveis, as quais estao citadas a seguir.

In [19]:
Variaveis = results.params[[ 'Aroused', 'Creative', 'Dry', 'Energetic', 'Euphoric',
       'Focused', 'Giggly', 'Happy', 'Hungry', 'Mouth', 'Relaxed', 'Sleepy',
       'Talkative', 'Tingly', 'Uplifted']]
Variaveis

Aroused      0.906083
Creative     0.901776
Dry          2.000000
Energetic    0.902062
Euphoric     0.877395
Focused      0.861131
Giggly       0.795519
Happy        0.845407
Hungry       0.799066
Mouth        2.000000
Relaxed      1.073139
Sleepy       0.834394
Talkative    0.900653
Tingly       0.826177
Uplifted     0.849996
dtype: float64

Aqui foi usando o np.dot para conseguirmos prever nota esperada, dependendo das variaveis escolhidas. (Essa parte do teste ainda não esta completa, pretendemos formatar a apresentação com espaços para Input de cada característica na fabricação da maconha)

In [20]:
np.dot(Variaveis, np.array([0,0,0,0,1,0,0,1,0,0,1,1,0,0,1]))

4.4803301868117575

In [None]:
lista = [ 'Aroused', 'Creative', 'Dry', 'Energetic', 'Euphoric',
       'Focused', 'Giggly', 'Happy', 'Hungry', 'Mouth', 'Relaxed', 'Sleepy',
       'Talkative', 'Tingly', 'Uplifted']
lista_final = []
i=1
while i <= 15:
    for e in lista:
        ef = int(input("{} - ".format(e)))
        if ef > 1:
            print("Digite 1 para efeito desejado ou 0 para indesejado ")
            ef = int(input("{} - ".format(e)))
        if sum(lista_final)== 4 and ef == 1:
            print('Você ja escolheu os 4 efeitos')
            ef = int(input("{} - ".format(e)))
        lista_final.append(ef)
        i+=1
    
nota_final = np.dot(Variaveis, lista_final)
print('Os efeitos que você escolheu deixam a sua strain com uma nota aproximadamente igual a {}'.format(nota_final))  

Tendo em vista que a classificação dos diferentes strains leva em conta as sensações e(...) do usuário, a análise deveria se embasar naquilo que apesar de subjetivo, pudesse ser perceptível por diversos usuários. Dessa forma, avaliar sabores, como constatamos pela análise não seria um bom viés, por ser extremamente subjetivo, cada usuário teria uma preferência diferente. A eficiência então da starn poderia ser avaliada.

Na criação de novas strains, por meio da manipulação de duas ou mais já existentes, leva-se em consideração os índices de TCH e CDI de cada substância. A proporção de tais valores é fator limitante para a criação de novas strains com efeitos desejados. Portanto, saber quais efeitos se deseja obter, tendo em vista seu impacto individual na avaliação final dos usuários contribui para determinar a proporção de TCH e CDI. É importante ressaltar que o grau do efeito, não apenas se ele existe ou não contribui para a nota (fonte), fator que poder ter diminuído a acurácia de nosso teste por não termos dados. Por outro lado, pode-se afirmar que, no desenvolvimento de uma nova strain, focar na causa mais intensa daqueles efeitos que possuem maior coeficiente em nossa regressão (como Dry, Mouth, Aroused, Energetic) pode culminar para uma melhor avaliação dos usuários também, pois são efeitos mais valorizados.

In [None]:
probplot(datanova1, dist = 'norm', plot = plt);