In [None]:
# 01. importar biblioteca Pandas e filtrar warnings
import pandas as pd
from pandas.plotting import scatter_matrix

import warnings
warnings.filterwarnings('ignore')

In [None]:
#%% 02. importar folha de excel
filepath = 'E:/PGADSE/11 - Machine Learning em Python (Nelson Pires)/Datasets/winequality.xls'

df1 = pd.read_excel(filepath, sheet_name = 0)

In [None]:
#%% 03. renomeiar colunas
df1.rename(columns={'type':'tipo'}, inplace=True)
df1.rename(columns={'quality':'qualidade'}, inplace=True)

In [None]:
#%% 04. obter informação da dataframe
df1.head()
df1.tail()
df1.info()

In [None]:
#%% 05. calcular estatística sumária
temp = df1.describe()
df1[['pH','sulphates','alcohol']].describe()

In [None]:
#%% 06. modificar formatação do output
pd.set_option('display.float_format', lambda x: '%.5f' % x)

In [None]:
#%% 07. seleccionar linhas
df1[15:18]

In [None]:
#%% 08. remover colunas
df1.drop(['chlorides'], axis = 1, inplace = True)

In [None]:
#%% 09. operações entre colunas
df1['RATIO'] = df1['sulphates'] / df1['alcohol'] # basic operation
df1['RATIO'].head()

In [None]:
#%% 10. seleccão de linhas aplicando critérios
df1.query('13 < alcohol')
df1.query('(13 < alcohol) & (volatile_acidity < 0.6)')

In [None]:
#%% 11. correlação entre colunas
matcorr = df1.corr()
df1[['alcohol', 'pH']].corr()

In [None]:
#%% 12. identificação de NaN na dataframe
df1.isnull().sum()

In [None]:
#%% 13. isolar regiao de controlo e converter para binario
control = df1.loc[df1['tipo'].isin(['white'])]
control['qualidade'] = (control['qualidade'] >= 7).astype(int)

control['qualidade'].sum()

In [None]:
#%% 14. agrupar por valores e calcular estatísticas
zonasel = df1.groupby(['tipo']).mean()


#### PLOTTING ####
#-----------------

In [None]:
#%% 15. gráficos de variáveis no Pandas
control['alcohol'].plot() # x=indice, y=valor

control[['fixed_acidity','volatile_acidity']].plot.hist(stacked=False, bins=200) # histograma

control.plot.scatter(x='fixed_acidity', y='volatile_acidity') # scatter plot

control.plot.scatter(x='fixed_acidity', 
                     y='volatile_acidity', 
                     c='alcohol', 
                     s=50, 
                     colormap='jet', 
                     grid='on')

In [None]:
#%% 16. Scatter Matrix no Pandas
scatter_matrix(control[['fixed_acidity','volatile_acidity','alcohol']], 
               alpha=0.2, 
               figsize=(10,10), 
               diagonal='hist')
             # diagonal='kde'

In [None]:
#%% 17. Integração do Pandas com o Seaborn
import seaborn as sns
sns.set(style='whitegrid') #whitegrid, dark, white, ticks

sns.pairplot(control, 
             vars=control[['fixed_acidity','volatile_acidity','alcohol']], 
             hue='qualidade',
             diag_kind='kde')

In [None]:
#%% 18. exportar dataframe para csv e excel
control.to_csv('exportdata.txt')
control.to_excel('control.xls')