# Olio d'oliva

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
import plotly.express as px
import seaborn as sns

In [2]:
df=pd.read_excel('olive_oil.xlsx')
df.rename(columns={'Unnamed: 0':'class'},inplace=True)
df.rename(columns=lambda x: x.strip(), inplace=True)

In [3]:
df.columns

Index(['palmitico', 'palmitoleico', 'stearico', 'oleico', 'linoleico',
       'eicosanoico', 'linolenico'],
      dtype='object')

In [4]:
df.head()

Unnamed: 0,palmitico,palmitoleico,stearico,oleico,linoleico,eicosanoico,linolenico
,10.75,0.75,2.26,78.230011,6.72,0.36,0.6
,10.88,0.73,2.24,77.089996,7.81,0.31,0.61
,9.109999,0.54,2.46,81.129997,5.49,0.31,0.63
,9.66,0.57,2.4,79.519997,6.19,0.5,0.78
,10.51,0.67,2.59,77.709999,6.72,0.5,0.8


Nel dataset sono presenti 5 tipi di olio d'oliva: ['NA ', 'SA ', 'U  ', 'EL ', 'WL ']

In [5]:
df['class'].unique()

KeyError: 'class'

###### Distribuzione dei valori nel dataset

In [None]:
sns.countplot(df['class'])

La classe più comune è SA.

In [None]:
from scipy.stats import zscore

df_test=df.copy()
for c in df_test.columns:
    if df_test[c].dtypes=='float64':
        df_test[c]=zscore(df_test[c])

        
df_test['class_number']=pd.factorize(df_test['class'])[0]

In [None]:
features=['palmitico', 'palmitoleico', 'stearico', 'oleico', 'linoleico','eicosanoico', 'linolenico']
for c in features:
    plt.figure(figsize=(10,6))
    sns.boxplot(y=df[c],x=df['class'])

In [None]:
plt.figure(figsize=(10,6))
sns.boxplot(y=df['eicosanoico'],x=df['class'])
plt.title('Boxplot della variabile "eicosanoico"')

In [None]:
df['class'].unique()

In [None]:
df.loc[df['class']=='SA ','oleico'].describe()

WL ha un valore di linoleico, eicosanoico più basso rispetto agli altri, SA ha un valore palmitico, linoleico, palmitoleico più alto rispetto gli altri, mentre un valore più basso per oleico

In [None]:
features=['palmitico', 'palmitoleico', 'stearico', 'oleico', 'linoleico','eicosanoico', 'linolenico']
data=pd.melt(df_test[features])
plt.figure(figsize=(12,8))
plt.title('Distribuzioni delle feature (normalizzate usando lo z-score)')
ax= sns.boxplot(x="variable", y="value", data=data)
ax.set_xlabel(None)

plt.xticks(rotation=90)


In [None]:
for f in features:
    sns.kdeplot(df_test[f])
    plt.show()

In [None]:
sns.pairplot(df,hue='class')

Nella combinazione tra 'Linolenico' e 'Oleico' si notano  una divisione in gruppi. In generale si può notare come in alto a sx (con Linoleico alto e oleico basso sia presente la classe SA), con Oleico sugli 80 e Linoleico variabile la classe (U), con Oleico tra i 72 e gli 80 la classe WL, la classe U invece sta in alto a dx (Linoleico da 0.6 a 0.9 e Oleico vicino agli 80). La classe EL invece è quella più sparsa.
Andando a vedere invece la combinazione tra Linoleico e linolenico, vediamo che si evidenziano sempre i gruppi. In generale però guardando tutti gli elementi e guardando come si distribuiscono boxplot rispetto alle variabili, notiamo che mentre le classi SA e WL hanno caratteristiche particolari, le classi EL, NA e U hanno tutte caratteristiche simili tra loro. 

In [None]:
df.corr()

In [None]:
pd.set_option('display.max_rows',None)
df_test['class']

In [None]:
from scipy.stats import zscore

plt.figure(figsize=(16,10))
pd.plotting.parallel_coordinates(
    df_test[['eicosanoico', 'linolenico','palmitico','linoleico', 'palmitoleico','stearico','oleico', 'class']], 
    'class',color = ('navy','orange','green','red','darkorchid') 
)
  



In [None]:
features

In [None]:
plt.figure(figsize=(10,8))
plt.matshow(df.corr(),fignum=1)
plt.colorbar()
plt.xticks(range(len(features)), features, fontsize=14, rotation=90)
plt.yticks(range(len(features)), features, fontsize=14)



In [None]:
fig, ax = plt.subplots(figsize=(10,10))
cax = ax.matshow(df_test.iloc[:,1:-1], interpolation='nearest',aspect='auto',cmap='jet')
plt.xticks(range(len(features)), features, fontsize=14, rotation=90)

plt.show()

In [None]:
df_test['class'].unique()

In [None]:
df_copy=df_test.copy()
order = ['SA ','WL ', 'U  ', 'EL ','NA ' ]
ordered_class=pd.CategoricalDtype(categories=order,ordered=True)
df_copy['class']=df_copy['class'].astype(ordered_class)

In [None]:
df_copy=df_copy.sort_values(by='class')
fig, ax = plt.subplots(figsize=(10,10))
cax = ax.matshow(df_copy.iloc[:,1:-1], interpolation='nearest',aspect='auto',cmap='jet')
plt.xticks(range(len(features)), features, fontsize=14, rotation=90)

plt.show()

In [None]:
pd.set_option('display.max_rows',None)
df_copy['class'].reset_index(drop=True)

In [None]:
df.corr()

In [None]:
df['class'].unique()

In [None]:
df.corr()

In [None]:
def scatter_hist(x, y, ax, ax_histx, ax_histy,hue=None):
    # no labels
    ax_histx.tick_params(axis="x", labelbottom=False)
    ax_histy.tick_params(axis="y", labelleft=False)

    # the scatter plot:
    scatter=ax.scatter(x, y,c=pd.factorize(hue)[0])
    print(*scatter.legend_elements())
    ax.legend(*scatter.legend_elements(),
                    loc="lower left", title="Classes")
    # now determine nice limits by hand:
    binwidth = 0.25
    xymax = max(np.max(np.abs(x)), np.max(np.abs(y)))
    lim = (int(xymax/binwidth) + 1) * binwidth
    
    bins = np.arange(-lim, lim + binwidth, binwidth)
    ax_histx.hist(x, bins=bins)
    ax_histy.hist(y, bins=bins, orientation='horizontal')

# definitions for the axes
left, width = 0.1, 0.65
bottom, height = 0.1, 0.65
spacing = 0.005


rect_scatter = [left, bottom, width, height]
rect_histx = [left, bottom + height + spacing, width, 0.2]
rect_histy = [left + width + spacing, bottom, 0.2, height]

# start with a square Figure
fig = plt.figure(figsize=(10, 10))

ax = fig.add_axes(rect_scatter)
ax_histx = fig.add_axes(rect_histx, sharex=ax)
ax_histy = fig.add_axes(rect_histy, sharey=ax)

# use the previously defined function
scatter_hist(df_test['palmitico'], df_test['palmitoleico'], ax, ax_histx, ax_histy,hue=df_test['class'])

plt.show()

In [None]:
sns.scatterplot(x=df_test['oleico'],y=df_test['linoleico'],hue=df_test['class'])

In [None]:
for c in features:
    plt.figure(figsize=(8,6))
    plt.title(c)
    plt.hist(df[c])

In [None]:
import math

for c in features:
    plt.figure(figsize=(8,6))
    plt.title(c)
    sns.distplot(df[c], hist=True, kde=True,
             color = 'darkblue', bins=int(round(math.sqrt(len(df[c])),0)),
             hist_kws={'edgecolor':'black'},
             kde_kws={'linewidth': 4})
    #ax.set_xticks(range(1,50))