# Notebook desenvolvido para Análise Exploratória dos dados do dataset 2: **Espectros de massa por infusão Direta - Orbitrap**

**Requirements**:

`Python == 3.9.10`

`jupyter == 1.0.0`

`matplotlib == 3.6.0`

`numpy == 1.23.3`

`pandas == 1.5.0`

`plotly == 5.10.0`

`scikit-learn == 1.1.2`

`scipy == 1.9.1`

`seaborn == 0.12.0`

> pip install pip -r /path/to/requirements.txt

> Atenção: executar todas as células deste notebook faz com que este arquivo ocupe mais de 150 MB. Os gráficos interativos podem não ser renderizados de forma adequada. 

> Tempo total de execução total: 0.77 minutos

# Resumo

Este arquivo conta com toda a análise exploratória dos dados do dataset 02. Contudo, e especialmente devido aos gráficos interativos, o arquivo final fica muito pesado, o que pode comprometer a usabilidade deste arquivo. Por este motivo, optei por separa-lo em 5 partes. O conteúdo é similar.

A análise exploratória de dados é uma das etapas mais importantes de análise multivariada. É um momento utilizado para compreender melhor os resultados obtidos, decidir quais caminhos trilhar (mesmo que seja seguir em frente, ou repensar algumas decisões já tomadas), procurar por pontos suspeitos, além de tirar conclusões.

De forma geral, esta análise me auxiliou a decidir quais variáveis utilizar nos testes de ML que vão seguir. O pouco conhecimento da técnica, e especialmente do equipamento que foi utilizado para obter os dados, foram as variáveis mais significativas na minha dificuldade em decidir quais variáveis fazem parte do conjunto de dados, e quais fazem parte de escolhas do pesquisador. Contudo, isto não me preocupa, pois em um ambiente real, eu terei contato com os pesquisadores que efetuaram a análise, e será possível determinar de fato as variáveis mais importantes.

Além disto, esta análise me chamou atenção para 2 pontos específicos: os Scans 26 e 34 para a amostra de `25.63` ppm. São pontos muito distintos do restante dos dados e que talvez sejam outliers. As amostras de `4.10` e `36.41` ppm também apresentam variações mais acentuadas, mas me parece apenas variabilidade. 

Caso encontre este tipo de situação, minha decisão seria ir discutir estes pontos com outras pessoas, para tentar descobrir o motivo destes pontos tão diferentes. Com o auxílio dos demais, dai sim seria possível tomar uma decisão adequada.

Cada parte de arquivo conta com um resumo. Você consegue navegar através deste resumo no índice abaixo, ou diretamente do resumo de cada parte.

Estou a disposição para eventuais dúvidas.


# Índice


- <a href='#importacoes'>Importações</a>

- <a href='#loading'>Carregando os dados</a>

- <a href='#analise-exploratoria'>Análise exploratória dos dados</a>

    - <a href='#df-info'>Análise dos dados gerais</a>

    - <a href='#df-data-info'>Análise dos dados do ScanHeader</a>

        - <a href='#df-data-info-ScanHeader'>ScanHeader</a>

        - <a href='#df-data-info-start_time'>start_time</a>

        - <a href='#df-data-info-num_readings'>num_readings</a>

        - <a href='#df-data-info-integ_intens'>integ_intens</a>

        - <a href='#df-data-info-datapacketpos'>datapacketpos</a>

        - <a href='#df-data-info-PeakIntensity'>PeakIntensity</a>

        - <a href='#df-data-info-PeakMass'>PeakMass</a>
        
        - <a href='#df-data-info-resumo'>Resumo</a>

    - <a href='#df-data'>Análise dos dados do Packet</a>

        - <a href='#packet'>Packet</a>
    
            - <a href='#packet-0-5'>0.5 ppm</a>

            - <a href='#packet-4-10'>4.10 ppm</a>

            - <a href='#packet-7-68'>7.68 ppm</a>

            - <a href='#packet-11-27'>11.27 ppm</a>

            - <a href='#packet-14-86'>14.86 ppm</a>

            - <a href='#packet-22-05'>22.05 ppm</a>

            - <a href='#packet-25-63'>25.63 ppm</a>

            - <a href='#packet-29-23'>29.23 ppm</a>

            - <a href='#packet-32-82'>32.82 ppm</a>

            - <a href='#packet-36-41'>36.41 ppm</a>

            - <a href='#packet-40-00'>40.00 ppm</a>

            - <a href='#packet-resumo'>Resumo</a>

        - <a href='#intensity'>Intensity</a>

            - <a href='#intensity-0-5'>0.5 ppm</a>

            - <a href='#intensity-4-10'>4.10 ppm</a>

            - <a href='#intensity-7-68'>7.68 ppm</a>

            - <a href='#intensity-11-27'>11.27 ppm</a>

            - <a href='#intensity-14-86'>14.86 ppm</a>

            - <a href='#intensity-18-45'>18.45 ppm</a>

            - <a href='#intensity-22-05'>22.05 ppm</a>

            - <a href='#intensity-25-63'>25.63 ppm</a>

            - <a href='#intensity-29-23'>29.23 ppm</a>

            - <a href='#intensity-32-82'>32.82 ppm</a>

            - <a href='#intensity-36-41'>36.41 ppm</a>

            - <a href='#intensity-40-00'>40.00 ppm</a>

            - <a href='#intensity-resumo'>Resumo</a>

        - <a href='#mass-position'>Mass position</a>

            - <a href='#mass-position-0-5'>0.5 ppm</a>

            - <a href='#mass-position-4-10'>4.10 ppm</a>

            - <a href='#mass-position-7-68'>7.68 ppm</a>

            - <a href='#mass-position-11-27'>11.27 ppm</a>

            - <a href='#mass-position-14-86'>14.86 ppm</a>

            - <a href='#mass-position-18-45'>18.45 ppm</a>

            - <a href='#mass-position-22-05'>22.05 ppm</a>

            - <a href='#mass-position-25-63'>25.63 ppm</a>

            - <a href='#mass-position-29-23'>29.23 ppm</a>

            - <a href='#mass-position-32-82'>32.82 ppm</a>

            - <a href='#mass-position-36-41'>36.41 ppm</a>

            - <a href='#mass-position-40-00'>40.00 ppm</a>

            - <a href='#mass-position-resumo'>Resumo</a>

        - <a href='#mass-position-intensity'>mass_position versus intensity</a>

            - <a href='#mass-position-intensity-0-5'>0.5 ppm</a>

            - <a href='#mass-position-intensity-4-10'>4.10 ppm</a>

            - <a href='#mass-position-intensity-7-68'>7.68 ppm</a>

            - <a href='#mass-position-intensity-11-27'>11.27 ppm</a>

            - <a href='#mass-position-intensity-14-86'>14.86 ppm</a>

            - <a href='#mass-position-intensity-18-45'>18.45 ppm</a>

            - <a href='#mass-position-intensity-22-05'>22.05 ppm</a>

            - <a href='#mass-position-intensity-25-63'>25.63 ppm</a>

            - <a href='#mass-position-intensity-29-23'>29.23 ppm</a>

            - <a href='#mass-position-intensity-32-82'>32.82 ppm</a>

            - <a href='#mass-position-intensity-36-41'>36.41 ppm</a>

            - <a href='#mass-position-intensity-40-00'>40.00 ppm</a>

        - <a href='#mass-position-intensity-out'>mass_position versus intensity - entre concentrações</a>

            - <a href='#mass-position-intensity-out-22'>ScanHeader 22</a>

            - <a href='#mass-position-intensity-out-36'>ScanHeader 36</a>

            - <a href='#mass-position-intensity-out-2'>ScanHeader 2</a>

            - <a href='#mass-position-intensity-out-3'>ScanHeader 3</a>

            - <a href='#mass-position-intensity-out-3'>ScanHeader 3</a>

            - <a href='#mass-position-intensity-out-42'>ScanHeader 42</a>

            - <a href='#mass-position-intensity-out-7'>ScanHeader 7</a>

            - <a href='#mass-position-intensity-resumo'>Resumo</a>




<a id='importacoes'></a>
# Importações

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import plotly.express as px
import seaborn as sns
from scipy import stats
import time
 
pd.set_option('display.expand_frame_repr', False)
start_time = time.time()

<a id='loading'></a>
## Carregando os dados

In [None]:
df_data = pd.read_csv('df_dataset_2.csv')
df_data = df_data.sort_values(by =['compound_concentration', 'ScanHeader'])
df_data.head()

In [None]:
df_data.shape

<a id='analise-exploratoria'></a>
# Análise exploratória dos dados



<a id='df-info'></a>
## Análise dos dados gerais

Vou começar a análise com os dados gerais obtidos, que estão contidos nas colunas `'SpectrumPosition', 'max_integ_intensity', 'compound_concentration'`. Para isto, vou criar um novo dataframe com apenas estas colunas. Como temos muitos dados repetidos nestas colunas, vou remove-lo e ficar apenas com valores únicos. Para facilitar, também vou resetar o index:

In [None]:
df_aux = df_data[['SpectrumPosition', 'max_integ_intensity', 'compound_concentration']].copy()
df_aux = df_aux.drop_duplicates()
df_aux.reset_index(inplace=True, drop=True)

A variavel independente do conjunto de dados é a concentração do composto. Então, vamos observar os comportamento das outras medidas em relação a `compound_concentration` através de um gráfico de dispersão:

In [None]:
df_aux[['SpectrumPosition']].describe().transpose()

In [None]:
plt.figure(figsize=(10,4))
plt.scatter(df_aux['compound_concentration'], df_aux['SpectrumPosition'])
plt.plot(df_aux['compound_concentration'], df_aux['SpectrumPosition'])
plt.xlabel('compound_concentration')
plt.ylabel('SpectrumPosition')
plt.ylim(bottom=0)
plt.show()

Como posso observar, existe uma tendência nos dados: após 3 medidas de concentração com aumento do `SpectrumPosition`, a próxima concentração tem uma redução no seu valor. Em seguida, novamente 3 aumentos, e outra redução. Contudo, 

In [None]:
lin_regres = stats.linregress(df_aux['compound_concentration'], df_aux['SpectrumPosition'])
print(f"r pearson = {round(lin_regres.rvalue,4)}")
print(f"p-valor = {round(lin_regres.pvalue,3)}")
ax = sns.regplot(x="compound_concentration", y="SpectrumPosition", data=df_aux)
plt.show()

a correlação linear não é singnificativa (`p >  0.05`) e, portanto, a variação da concentração do composto não interfere no `SpectrumPosition` significativamente. É importante salientar que eu não tenho a ordem de aquisição deste dados, o que seria uma informação importante para chegar a esta conclusão.

Estes dados me levam a acreditar que o `SpectrumPosition` é apenas um valor de posição física do equipamento, que é ajustada pelo instrumentista ou automaticamente pelo software do equiapamento. Entretanto, esta talvez seja uma medida relevante como dados categóricos.

O comportamento da `max_integ_intensity` em relação a concentração é, de alguma forma, similar ao `SpectrumPosition`. Contudo....

In [None]:
df_aux[['SpectrumPosition']].describe().transpose()

In [None]:
plt.figure(figsize=(10,4))
plt.scatter(df_aux['compound_concentration'], df_aux['max_integ_intensity'])
plt.xlabel('compound_concentration')
plt.ylabel('max_integ_intensity')
plt.ylim(bottom=0)
plt.show() 

In [None]:
lin_regres = stats.linregress(df_aux['compound_concentration'], df_aux['max_integ_intensity'])
print(f"r pearson = {round(lin_regres.rvalue,4)}")
print(f"p-valor = {round(lin_regres.pvalue,3)}")
ax = sns.regplot(x="compound_concentration", y="max_integ_intensity", data=df_aux)
plt.show()

a correlação linear não é singificativa (`p > 0.05`). Isto me leva a pensar que esta medida também é algo mais relacionado ao equipamento do que ao composto que esta sendo avaliado.

Podemos alocar estas três medidas em um único gráfico, para facilitar a obervação:

In [None]:
df_aux['compound_concentration'] = df_aux['compound_concentration'].astype(str)
plt.figure(figsize=(6,4)) 
plt.scatter(df_aux['SpectrumPosition'], df_aux['max_integ_intensity'])
plt.xlabel('SpectrumPosition')
plt.ylabel('max_integ_intensity')
for i in range(df_aux.shape[0]):
     plt.text(df_aux['SpectrumPosition'][i], df_aux['max_integ_intensity'][i], df_aux['compound_concentration'][i])
plt.ylim(bottom=0)
plt.show()

A correlação linear não é significativa. Assim, ou estes valores devem ser descartados, ou utilizados como variáveis categóricas.

In [None]:
lin_regres = stats.linregress(df_aux['SpectrumPosition'], df_aux['max_integ_intensity'])
print(f"r pearson = {round(lin_regres.rvalue,4)}")
print(f"p-valor = {round(lin_regres.pvalue,3)}")
ax = sns.regplot(x="SpectrumPosition", y="max_integ_intensity", data=df_aux)
plt.show()

<a id='df-data-info'></a>
## Análise dos dados do ScanHeader

Agora vou avaliar os dados provenientes de ScanHeader. Primeiramente, vou filtrar os dados para obter apenas as colunas desta fonte de dados:

In [None]:
df_aux = df_data[['SpectrumPosition', 'max_integ_intensity', 'compound_concentration', 'ScanHeader', 'start_time',
                  'num_readings', 'integ_intens', 'datapacketpos', 'PeakIntensity', 'PeakMass']].copy() 
df_aux = df_aux.drop_duplicates()
df_aux.reset_index(inplace=True, drop=True)
df_aux['concentration'] = df_aux['compound_concentration'].astype(str)
df_aux.shape

In [None]:
df_aux.head()

Para facilitar os calculos das estatísticas por concentração, vou criar um novo dataframe utilizando o método describe; porém, vou agrupar os dados pela coluna `'compound_concentration'` préviamente. Isto irá gerar um dataframe com multiheaders com as estatísticas calculadas

In [None]:
df_describe = df_aux.groupby('compound_concentration').describe()

Vamos verificar cada medida em relação a concentração do composto. 

<a id='df-data-info-ScanHeader'></a>
### ScanHeader

In [None]:
df_describe['ScanHeader']

In [None]:
plt.figure(figsize=(10,4))
plt.scatter(df_aux['compound_concentration'], df_aux['ScanHeader'])
plt.xlabel('compound_concentration')
plt.ylabel('ScanHeader')
plt.show()

Como podemos observar, todas das concentrações apresentam os mesmos valores para o `ScanHeader`. Provavelmente, esta é uma opção escolhida pelo instrumentista de quantas varreduras serão feitas, tendo sido escolhidas 50 varreduras para cada concentração do composto.

<a id='df-data-info-start_time'></a>
### start_time

In [None]:
plt.figure(figsize=(10,4))
plt.scatter(df_aux['compound_concentration'], df_aux['start_time'])
plt.xlabel('compound_concentration')
plt.ylabel('start_time')
plt.show()

In [None]:
df_describe['start_time']

O `'start_time'` parece ser o tempo para iniciar a varredura. Contudo, existe um padrão de que quanto mais distante do médida de concentração, menor é este tempo. 

In [None]:
plt.figure(figsize=(10,4))
plt.scatter(df_describe['start_time'].index, df_describe['start_time']['mean'], label='média')
plt.scatter(df_describe['start_time'].index, df_describe['start_time']['std'], label='desvio padrão')
plt.xlabel('compound_concentration')
plt.ylabel('start_time')
plt.legend()
# plt.ylim(bottom=0)
plt.show()

<a id='df-data-info-num_readings'></a>
### num_readings

In [None]:
df_describe['num_readings']

In [None]:
lin_regres = stats.linregress(df_aux['compound_concentration'], df_aux['num_readings'])

x_pred = np.array([df_aux['compound_concentration'].min(), df_aux['compound_concentration'].max()])
y_pred = lin_regres.slope*x_pred + lin_regres.intercept


fig, ax = plt.subplots(figsize=(8,4))

ax.plot(x_pred, y_pred)
ax.scatter(df_aux['compound_concentration'], y=df_aux['num_readings'])

plt.show()

print(f"r pearson = {round(lin_regres.rvalue,4)}")
print(f"p-valor = {round(lin_regres.pvalue,3)}")

Como podemos observar acima, o `num_readings`, provavelmente número de leituras, tem uma variação bastante acentuada. Isto fica mais evidente ao obervar o gráfico de erros abaixo.

As cocentrações de `4.10, 25.63 e 36.41` ppm tem uma variância muito maior do que as demais. `num_readings` talvez seja o número de espécies identificadas.

In [None]:
plt.figure(figsize=(10,4))
plt.errorbar(df_describe['num_readings'].index, df_describe['num_readings']['mean'], yerr=df_describe['num_readings']['std'],
            capsize=10, linestyle="none", marker='o', barsabove=True,)
plt.xlabel('compound_concentration')
plt.ylabel('num_readings')
plt.show()

<a id='df-data-info-integ_intens'></a>
 ### integ_intens

In [None]:
df_describe['integ_intens']

In [None]:
plt.figure(figsize=(10,4))
plt.scatter(df_aux['compound_concentration'], df_aux['integ_intens'])
plt.xlabel('compound_concentration')
plt.ylabel('integ_intens')
plt.show()

In [None]:
plt.figure(figsize=(10,4))
plt.errorbar(df_describe['integ_intens'].index, df_describe['integ_intens']['mean'], yerr=df_describe['integ_intens']['std'],
            capsize=10, linestyle="none", marker='o', barsabove=True,)
plt.xlabel('compound_concentration')
plt.ylabel('integ_intens')
plt.show()

Em relação as medidas de `integ_intens`, chama atenção a concentração de `25.63` ppmm que tem a maior variância,  e os pontos `14.86 e 22.05` ppm que tem uma variância muito menor do que os demais.

In [None]:
100*df_describe['integ_intens']['std']/df_describe['integ_intens']['mean']

In [None]:
plt.figure(figsize=(10,4))
plt.scatter(df_describe['integ_intens'].index,
           100*df_describe['integ_intens']['std']/df_describe['integ_intens']['mean'], label="Coeficiente de variação")
plt.legend()
plt.xlabel('compound_concentration')
plt.ylabel('integ_intens - coeficiente de variação (%)')
plt.show()

Contudo, ao observar o coeficiente de variação, apenas a medida de `25.63` tem uma valor muito distante dos demais, com mais de `72%` de variação.

<a id='df-data-info-datapacketpos'></a>
### datapacketpos

In [None]:
df_describe['integ_intens']

In [None]:
plt.figure(figsize=(10,4))
plt.scatter(df_aux['compound_concentration'], df_aux['datapacketpos'])
plt.xlabel('compound_concentration')
plt.ylabel('datapacketpos')
plt.show()

Aparentemente, esta medida esta relacionada com o `ScanHeader`:

In [None]:
ax = sns.scatterplot(data=df_aux, x='ScanHeader', y='datapacketpos', 
                     hue=df_aux['compound_concentration'].astype(str), palette="tab10")
sns.move_legend(ax, "upper left", bbox_to_anchor=(1, 1))
plt.show()

<a id='df-data-info-PeakIntensity'></a>
### PeakIntensity

In [None]:
df_describe['PeakIntensity']

In [None]:
plt.figure(figsize=(10,4))
plt.scatter(df_aux['compound_concentration'], df_aux['PeakIntensity'])
plt.xlabel('compound_concentration')
plt.ylabel('PeakIntensity')
plt.show()

Novamente, temos bastante variância no ponto `25.63`. 

In [None]:
plt.figure(figsize=(10,4))
plt.errorbar(df_describe['PeakIntensity'].index, df_describe['PeakIntensity']['mean'], yerr=df_describe['PeakIntensity']['std'],
            capsize=10, linestyle="none", marker='o', barsabove=True,)
plt.xlabel('compound_concentration')
plt.ylabel('PeakIntensity')
plt.show()

O comportamento apresentado pelo `PeakIntensity` é muito semelhante ao observado com `integ_intens`. Vamos comparar os gráficos lado a lado:

In [None]:
fig, (ax1, ax2) = plt.subplots(1,2, figsize=(12,4))
ax1.errorbar(df_describe['PeakIntensity'].index, df_describe['PeakIntensity']['mean'], yerr=df_describe['PeakIntensity']['std'],
            capsize=10, linestyle="none", marker='o', barsabove=True,)
ax1.set_xlabel('compound_concentration')
ax1.set_ylabel('PeakIntensity')

ax2.errorbar(df_describe['integ_intens'].index, df_describe['integ_intens']['mean'], yerr=df_describe['integ_intens']['std'],
            capsize=10, linestyle="none", marker='o', barsabove=True,)
ax2.set_xlabel('compound_concentration')
ax2.set_ylabel('integ_intens')

plt.show()

Parecem iguais, com diferença apenas nos valores de y (valores proporcionalmente iguais). Vamos observar de outra forma:

In [None]:
fig, ax1 = plt.subplots(figsize=(10,4))
ax1.errorbar(df_describe['PeakIntensity'].index, df_describe['PeakIntensity']['mean'], yerr=df_describe['PeakIntensity']['std'],
            capsize=10, linestyle="none", marker='o', barsabove=True,)
ax1.set_xlabel('compound_concentration')
ax1.set_ylabel('PeakIntensity')

ax2 = ax1.twinx() 

ax2.errorbar(df_describe['integ_intens'].index, df_describe['integ_intens']['mean'], yerr=df_describe['integ_intens']['std'],
            capsize=10, linestyle="none", marker='o', barsabove=True, c='r')
ax2.set_xlabel('compound_concentration')
ax2.set_ylabel('integ_intens')

plt.show()

Existe diferença entre as medidas, porém ela é intensificada com o aumento do `PeakIntensity`

In [None]:
df_comp = pd.DataFrame({
    'CV_integ_intens': 100*df_describe['integ_intens']['std']/df_describe['integ_intens']['mean'],
    'CV_PeakIntensity': 100*df_describe['PeakIntensity']['std']/df_describe['PeakIntensity']['mean'],
})
df_comp['Desvio'] = df_comp['CV_integ_intens'] - df_comp['CV_PeakIntensity']
df_comp

Com a análise acima, podemos dizer que os valores não são iguais, porém tem variância muito semelhante e provavelmente são correlacionados

In [None]:
lin_regres = stats.linregress(df_aux['integ_intens'], df_aux['PeakIntensity'])

x_pred = np.array([df_aux['integ_intens'].min(), df_aux['integ_intens'].max()])
y_pred = lin_regres.slope*x_pred + lin_regres.intercept


fig, ax = plt.subplots(figsize=(8,4))

ax.plot(x_pred, y_pred)
ax = sns.scatterplot(data=df_aux, x='integ_intens', y='PeakIntensity', 
                     hue=df_aux['compound_concentration'].astype(str), palette="tab10")
sns.move_legend(ax, "upper left", bbox_to_anchor=(1, 1))
plt.show()
print(f"r pearson = {round(lin_regres.rvalue,4)}")
print(f"p-valor = {round(lin_regres.pvalue,3)}")

Como podemos verificar, existe uma forte correlação entre `'integ_intens' e 'PeakIntensity'` (`p-valor<0.05`). O principal ponto destoante é o ponto:

In [None]:
df_aux[df_aux['integ_intens'] == df_aux['integ_intens'].max()]

Este ponto deve ser mantido sob investigação ao longo da análise.

<a id='df-data-info-PeakMass'></a>
### PeakMass

In [None]:
df_describe['PeakMass']

In [None]:
plt.figure(figsize=(10,4))
plt.scatter(df_aux['compound_concentration'], df_aux['PeakMass'])
plt.xlabel('compound_concentration')
plt.ylabel('PeakMass')
plt.ylim(bottom=0)
plt.show()

Podemos observar que os valores de `PeakMass` são constantes para a maioria das concentrações; porém, `32.82, 29.23 e 25.63` ppm, apresentam variação nestes valores. Temos 5 concentrações que apresentam valores diferentes dos demais (acima de 150), que são as concentrações de `0.50, 25.63, 29.23, 32.82 e 36.41`. 

Vamos verificar quantas medidas apresentam valores de `PeakMass` acima de 150:

In [None]:
df_aux[df_aux['PeakMass'] > 150]

In [None]:
100*df_aux[df_aux['PeakMass'] > 150].shape[0]/df_aux.shape[0]

Temos quase 1/4 dos dados com valores de `PeakMass` diferentes dos demais. Mas é preciso saber quantos valores únicos temos nesta coluna:

In [None]:
pd.value_counts(df_aux['PeakMass'])

Portanto, das 600 observações, 408 apresentam valores diferentes, mesmo que a maioria seja próxima.

O gráfico a seguir tenta trazer mais informações sobre a coluna `PeakMass`. Mantenha as colunas `0.50, 25.63, 29.23, 32.82 e 36.41` (clicando na legenda), e observe atentamente que a maioria dos pontos ainda permanece no menor valor de `PeakMass`

In [None]:
fig = px.scatter(df_aux, x ='PeakMass', y='PeakIntensity', color='concentration')

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
            )
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico


fig.show()

É possível que, devido ao comportamento observado acima, a coluna `PeakMass` seja útil para auxiliar o modelo diferenciar as difentes amostras.

<a id='df-data-info-resumo'></a>
### Resumo

Nesta parte da análise exploratória, fiz uma análise dos dados "gerais". Estes dados provavelmente não são muito úteis, pois eu tenho a impressão de que estes dados estão relacionados à medidas ajustadas pelo operador do equipamento, e não exatamente a aquisição dos dados. Entretanto, algumas informações importantes foram reunidas. 

Em relação aos dados gerais, temos 3 variáveis: `'SpectrumPosition', 'max_integ_intensity' e 'compound_concentration'`. Como estas variáveis são fixas para cada concentração, elas não irão causar impacto. A principal chance delas terem alguma importância, é se elas tiverem um papel *categórico* nos dados, auxiliando o algoritmo a escolher um melhor caminho.

Já em relaçao aos dados do ScanHeader, foi possível observar que algumas variáveis não apresentam o comportamento esperado. Por exemplo, a variável `num_readings` não tem um padrão. Eu poderia imaginar que, soluções mais concentradas o a quantidade de leituras fosse maior do que em concentrações baixas. Também poderia imaginar que, em concentrações intermediárias mais leituras fosse feitas (ou menos), em uma espécie de parábola com concavidade para cima (ou para baixo). Não existe correlação linear significativa nestes dados. O que existe é uma variação muito grande dentro de algumas concentrações, como a 4.0, 25.63 e 36.4 ppm. Isto provavelmente é uma caractetística das soluções utilizadas; se for, isto será refletido em outras variáveis mais importantes.

Também foi possível observar que as variáveis `integ_intens` e `PeakIntensity` tem praticamente o mesmo coeficiente de variação, o que me induz a pensar que não é necessário utilizar as duas variáveis no modelo. 

A variável `PeakMass` tem um comportamento diferente. Na maioria das concentrações, ela apresenta um único valor (valores muito próximos na verdade). Mas, para as concentrações `32.82, 29.23 e 25.63`, ela tem dois (ou três) valores bem distintos. Talvez esta seja uma característica que ajude alguns tipos de modelo.

Depois da análise destes dados, das colunas `'SpectrumPosition', 'max_integ_intensity', 'compound_concentration', 'SpectrumPosition', 'max_integ_intensity', 'ScanHeader', 'start_time', 'num_readings', 'integ_intens', 'datapacketpos', 'PeakIntensity' e 'PeakMass'`, vou decidir por inicialmente manter apenas as colunas `PeakMass` e `PeakIntensity`, além das colunas de chave primária e estrangeira. 

Caso encontre dificuldades, eu pretendo tentar alocar as colunas `'SpectrumPosition' e 'max_integ_intensity'` como variáveis *categóricas*. 

> NOTA: em um projeto real, estas decisões seriam tomadas com suporte de informações coletadas dos pequisadores responsáveis pela aquisição dos dados, além de uma busca na literatura.

<a id='df-data'></a>
## Análise dos dados do Packet

Agora vamos analisar as colunas restantes. Para isto, vou criar uma cópia do dataframe com os dados:

In [None]:
df_aux = df_data.copy()

E calcular as estatísticas, separando os dados por `'compound_concentration' e 'ScanHeader'`:

In [None]:
df_describe = df_aux.groupby(['compound_concentration', 'ScanHeader']).describe()
df_describe.head()

Como os dados agora de acordo com a concentração do composto, para cada coluna restante vou analisar os dados separados pela concentração.

<a id='packet'></a>
### Packet

Os Packet são números inteiros contínuos que provavelmente indicam o número de compostos identificados por varredura. Vamos dar uma geral entre as diferentes concentrações.



<a id='packet-0-5'></a>
#### 0.5 ppm

In [None]:
concentracao = 0.5
df_describe_aux = df_describe.loc[[concentracao]]['Packet'].copy()
df_describe_aux

In [None]:
plt.figure(figsize=(12,4))
plt.bar(
    df_describe_aux.index.get_level_values('ScanHeader'),
    df_describe_aux['count']
       )
plt.xlabel('ScanHeader')
plt.ylabel('Packet (soma)')
plt.title(str(concentracao) + ' ppm')
plt.show()

Como podemos observar, existe uma flutuação no quantidade de Packets por ScanHeader. Isto quer dizer que a cada varredura, informações diferentes são obtidas.

<a id='packet-4-10'></a>
#### 4.10 ppm

In [None]:
concentracao = 4.10
df_describe_aux = df_describe.loc[[concentracao]]['Packet'].copy()
df_describe_aux

In [None]:
plt.figure(figsize=(12,4))
plt.bar(
    df_describe_aux.index.get_level_values('ScanHeader'),
    df_describe_aux['count']
       )
plt.xlabel('ScanHeader')
plt.ylabel('Packet (soma)')
plt.title(str(concentracao) + ' ppm')
plt.show()

Para `4.10` ppm, temos uma grande flutuação no total de Packets realizados. 

<a id='packet-7-68'></a>
### 7.68 ppm

In [None]:
concentracao = 7.68
df_describe_aux = df_describe.loc[[concentracao]]['Packet'].copy()
df_describe_aux

In [None]:
plt.figure(figsize=(12,4))
plt.bar(
    df_describe_aux.index.get_level_values('ScanHeader'),
    df_describe_aux['count']
       )
plt.xlabel('ScanHeader')
plt.ylabel('Packet (soma)')
plt.title(str(concentracao) + ' ppm')
plt.show()

Para `7.68` ppm, temos dados comportados.

<a id='packet-11-27'></a>
#### 11.27 ppm

In [None]:
concentracao = 11.27
df_describe_aux = df_describe.loc[[concentracao]]['Packet'].copy()
df_describe_aux

In [None]:
plt.figure(figsize=(12,4))
plt.bar(
    df_describe_aux.index.get_level_values('ScanHeader'),
    df_describe_aux['count']
       )
plt.xlabel('ScanHeader')
plt.ylabel('Packet (soma)')
plt.title(str(concentracao) + ' ppm')
plt.show()

Para `11.27` ppm, temos dados comportados.

<a id='packet-14-86'></a>
#### 14.86 ppm

In [None]:
concentracao = 14.86
df_describe_aux = df_describe.loc[[concentracao]]['Packet'].copy()
df_describe_aux

In [None]:
plt.figure(figsize=(12,4))
plt.bar(
    df_describe_aux.index.get_level_values('ScanHeader'),
    df_describe_aux['count']
       )
plt.xlabel('ScanHeader')
plt.ylabel('Packet (soma)')
plt.title(str(concentracao) + ' ppm')
plt.show()

Para `14.86` ppm, temos dados comportados.

<a id='packet-22-05'></a>
#### 22.05 ppm

In [None]:
concentracao = 22.05
df_describe_aux = df_describe.loc[[concentracao]]['Packet'].copy()
df_describe_aux

In [None]:
plt.figure(figsize=(12,4))
plt.bar(
    df_describe_aux.index.get_level_values('ScanHeader'),
    df_describe_aux['count']
       )
plt.xlabel('ScanHeader')
plt.ylabel('Packet (soma)')
plt.title(str(concentracao) + " ppm")
plt.show()

Para `22.05` ppm, temos dados comportados.

<a id='packet-25-63'></a>
#### 25.63 ppm

In [None]:
concentracao = 25.63
df_describe_aux = df_describe.loc[[concentracao]]['Packet'].copy()
df_describe_aux

In [None]:
plt.figure(figsize=(12,4))
plt.bar(
    df_describe_aux.index.get_level_values('ScanHeader'),
    df_describe_aux['count']
       )
plt.xlabel('ScanHeader')
plt.ylabel('Packet (soma)')
plt.title(str(concentracao) + " ppm")
plt.show()

Para `25.63` ppm, temos dados com bastante variação na quantidade de packets.

<a id='packet-29-23'></a>
#### 29.23 ppm

In [None]:
concentracao = 29.23
df_describe_aux = df_describe.loc[[concentracao]]['Packet'].copy()
df_describe_aux

In [None]:
plt.figure(figsize=(12,4))
plt.bar(
    df_describe_aux.index.get_level_values('ScanHeader'),
    df_describe_aux['count']
       )
plt.xlabel('ScanHeader')
plt.ylabel('Packet (soma)')
plt.title(str(concentracao) + " ppm")
plt.show()

Para `29.23` ppm, temos dados com alguma variação na quantidade de packets.

<a id='packet-32-82'></a>
#### 32.82 ppm

In [None]:
concentracao = 32.82
df_describe_aux = df_describe.loc[[concentracao]]['Packet'].copy()
df_describe_aux

In [None]:
plt.figure(figsize=(12,4))
plt.bar(
    df_describe_aux.index.get_level_values('ScanHeader'),
    df_describe_aux['count']
       )
plt.xlabel('ScanHeader')
plt.ylabel('Packet (soma)')
plt.title(str(concentracao) + " ppm")
plt.show()

Para `32.82` ppm, temos dados comportados

<a id='packet-36-41'></a>
#### 36.41 ppm

In [None]:
concentracao = 36.41
df_describe_aux = df_describe.loc[[concentracao]]['Packet'].copy()
df_describe_aux

In [None]:
plt.figure(figsize=(12,4))
plt.bar(
    df_describe_aux.index.get_level_values('ScanHeader'),
    df_describe_aux['count']
       )
plt.xlabel('ScanHeader')
plt.ylabel('Packet (soma)')
plt.title(str(concentracao) + " ppm")
plt.show()


Para `36.41` ppm, temos dados com bastante variação

<a id='packet-40-00'></a>
#### 40.00 ppm

In [None]:
concentracao = 40.00
df_describe_aux = df_describe.loc[[concentracao]]['Packet'].copy()
df_describe_aux

In [None]:
plt.figure(figsize=(12,4))
plt.bar(
    df_describe_aux.index.get_level_values('ScanHeader'),
    df_describe_aux['count']
       )
plt.xlabel('ScanHeader')
plt.ylabel('Packet (soma)')
plt.title(str(concentracao) + " ppm")
plt.show()

Para `40.00` ppm, temos dados comportados

<a id='packet-resumo'></a>
#### Resumo

De forma resumida, em geral temos dados bastante comportados, com contagem de Packet similar. Contudo, as amostras de `4.1, 25.63, 29.23 e 36.41` ppm apresentam flutuações interessantes. Para comparar melhor estes dados, vou concatena-los em um dataframe, e gerar um gráfico interativo de linhas .

In [None]:
lista_aux = []
for conc in df_data['compound_concentration'].unique():
    df_describe_aux = df_describe.loc[[conc]]['Packet'].copy()
    lista_aux.append(
        pd.DataFrame({
            'Packet_count': np.array(df_describe_aux['count']),
            'ScanHeader': np.array(df_describe_aux.index.get_level_values('ScanHeader')),
            'concentration': [str(conc)]*df_describe_aux['count'].shape[0]
        })
    )
df_aux = pd.concat(lista_aux)

In [None]:
fig = px.line(df_aux, x ='ScanHeader', y='Packet_count', color='concentration')

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
            )
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico


fig.show()

Neste arquivo esta resumido a análise dos dados referente ao Packet (que provavelmente é a mesma coisa que o position, que foi removido em uma etapa prelimiar).

Foi possível observar que cada Scan não irá resultar em uma mesma quantidade de Packets. A maioria das concentrações apresenta uma quantidade normal de Packets, média de 10 +- 2 mil leituras, com distribuição aproximadamente Binomial (conclusões visuais apenas, sem aplicar um teste estatístico).  Contudo, algumas amostras são bastante complexas. 

As que mais se destacaram por apresentar grande variedade de quantidade de Packets foram as concentrações de `4.1, 25.6, e  36.41` ppm, especialmente a de `25.6` ppm. A heterogeneindade destas amostras certamente será um desafio a mais para obter modelos adequados para este dados. 

Entretanto, eu tenho dúvidas se esta coluna é importante para obter os resultados. Intuitivamente, esta coluna seria utilizada como variável independente, mas ela não é. Ela deve ser utilizada no eixo x para avaliar dados de intensidade, mas me parece que a medida mais adequda será a `mass_position`.

> A variável será mantida no dataset. caso o modelo tenha dificuldade em se ajustar, repenso esta variável. 

<a id='intensity'></a>
### Intensity

O intensity deve ser a intensidade medida em cada Packet. Vamos dar uma geral entre as diferentes concentrações.



<a id='intensity-0-5'></a>
#### 0.5 ppm

In [None]:
concentracao = 0.5
df_describe_aux = df_describe.loc[[concentracao]]['intensity'].copy()
df_describe_aux

Temos uma grande variação nos valores obtidos, com desvio padrão maior do que a média em todos os scans. Vamos observar isto através de um gráfico de barras. 

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12,4))
ax1.bar(df_describe_aux.index.get_level_values('ScanHeader'), df_describe_aux['mean'],)
ax1.set_xlabel('ScanHeader')
ax1.set_ylabel('Intensity mean')
ax2.bar(df_describe_aux.index.get_level_values('ScanHeader'), df_describe_aux['std'],)    
ax2.set_xlabel('ScanHeader')
ax2.set_ylabel('Intensity std')
plt.suptitle(f"{concentracao} ppm")
plt.show()

Podemos observar uma tendência de queda na intensidade obtidada nos diversos scans, contudo, pouco pode ser observado. Vamos olhar para as intensidades em relação aos Packts. Como temos 50 Scans, e cada scan tem aproximadamente 10000 Packets, vou amostrar 5 e desenhar um gráfico interativo.

Vou amostrar 5 valores de `range(50)` uma única vez, e utilizar estes 5 valores como índice em todas as comparações. Para fazer isto, vou criar este range, e utilizar a função `random.sample` para fazer a amostragem

In [None]:
import random

In [None]:
amostra = range(50)
random.seed(42)
amostra = random.sample(amostra, k=5)
amostra

Agora é preciso filtrar os dados baseado na concentração e na amostra:

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(amostra)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='intensity', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

Podemos observar a presença de diversos picos, com grande variação para a mesma concentração. Imagino que este comportamento será padrão;

<a id='intensity-4-10'></a>
#### 4.10 ppm

In [None]:
concentracao = 4.10
df_describe_aux = df_describe.loc[[concentracao]]['intensity'].copy()
df_describe_aux

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12,4))
ax1.bar(df_describe_aux.index.get_level_values('ScanHeader'), df_describe_aux['mean'],)
ax1.set_xlabel('ScanHeader')
ax1.set_ylabel('Intensity mean')
ax2.bar(df_describe_aux.index.get_level_values('ScanHeader'), df_describe_aux['std'],)    
ax2.set_xlabel('ScanHeader')
ax2.set_ylabel('Intensity std')
plt.suptitle(f"{concentracao} ppm")
plt.show()

Para `4.1` ppm observamos uma quantidade menor de picos nos primeiros scans, que tem um salto após 30 scans

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(amostra)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='intensity', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='intensity-7-68'></a>
#### 7.68 ppm

In [None]:
concentracao = 7.68
df_describe_aux = df_describe.loc[[concentracao]]['intensity'].copy()
df_describe_aux

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12,4))
ax1.bar(df_describe_aux.index.get_level_values('ScanHeader'), df_describe_aux['mean'],)
ax1.set_xlabel('ScanHeader')
ax1.set_ylabel('Intensity mean')
ax2.bar(df_describe_aux.index.get_level_values('ScanHeader'), df_describe_aux['std'],)    
ax2.set_xlabel('ScanHeader')
ax2.set_ylabel('Intensity std')
plt.suptitle(f"{concentracao} ppm")
plt.show()

Comportamento similar ao obtido com `0.5` ppm

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(amostra)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='intensity', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='intensity-11-27'></a>
#### 11.27 ppm

In [None]:
concentracao = 11.27
df_describe_aux = df_describe.loc[[concentracao]]['intensity'].copy()
df_describe_aux

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12,4))
ax1.bar(df_describe_aux.index.get_level_values('ScanHeader'), df_describe_aux['mean'],)
ax1.set_xlabel('ScanHeader')
ax1.set_ylabel('Intensity mean')
ax2.bar(df_describe_aux.index.get_level_values('ScanHeader'), df_describe_aux['std'],)    
ax2.set_xlabel('ScanHeader')
ax2.set_ylabel('Intensity std')
plt.suptitle(f"{concentracao} ppm")
plt.show()

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(amostra)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='intensity', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='intensity-14-86'></a>
#### 14.86 ppm

In [None]:
concentracao = 14.86
df_describe_aux = df_describe.loc[[concentracao]]['intensity'].copy()
df_describe_aux

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12,4))
ax1.bar(df_describe_aux.index.get_level_values('ScanHeader'), df_describe_aux['mean'],)
ax1.set_xlabel('ScanHeader')
ax1.set_ylabel('Intensity mean')
ax2.bar(df_describe_aux.index.get_level_values('ScanHeader'), df_describe_aux['std'],)    
ax2.set_xlabel('ScanHeader')
ax2.set_ylabel('Intensity std')
plt.suptitle(f"{concentracao} ppm")
plt.show()

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(amostra)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='intensity',  color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='intensity-18-45'></a>
#### 18.45 ppm

In [None]:
concentracao = 18.45
df_describe_aux = df_describe.loc[[concentracao]]['intensity'].copy()
df_describe_aux

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12,4))
ax1.bar(df_describe_aux.index.get_level_values('ScanHeader'), df_describe_aux['mean'],)
ax1.set_xlabel('ScanHeader')
ax1.set_ylabel('Intensity mean')
ax2.bar(df_describe_aux.index.get_level_values('ScanHeader'), df_describe_aux['std'],)    
ax2.set_xlabel('ScanHeader')
ax2.set_ylabel('Intensity std')
plt.suptitle(f"{concentracao} ppm")
plt.show()

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(amostra)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='intensity', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='intensity-22-05'></a>
#### 22.05 ppm

In [None]:
concentracao = 22.05
df_describe_aux = df_describe.loc[[concentracao]]['intensity'].copy()
df_describe_aux

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12,4))
ax1.bar(df_describe_aux.index.get_level_values('ScanHeader'), df_describe_aux['mean'],)
ax1.set_xlabel('ScanHeader')
ax1.set_ylabel('Intensity mean')
ax2.bar(df_describe_aux.index.get_level_values('ScanHeader'), df_describe_aux['std'],)    
ax2.set_xlabel('ScanHeader')
ax2.set_ylabel('Intensity std')
plt.suptitle(f"{concentracao} ppm")
plt.show()

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(amostra)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='intensity', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='intensity-25-63'></a>
#### 25.63 ppm

In [None]:
concentracao = 25.63
df_describe_aux = df_describe.loc[[concentracao]]['intensity'].copy()
df_describe_aux

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12,4))
ax1.bar(df_describe_aux.index.get_level_values('ScanHeader'), df_describe_aux['mean'],)
ax1.set_xlabel('ScanHeader')
ax1.set_ylabel('Intensity mean')
ax2.bar(df_describe_aux.index.get_level_values('ScanHeader'), df_describe_aux['std'],)    
ax2.set_xlabel('ScanHeader')
ax2.set_ylabel('Intensity std')
plt.suptitle(f"{concentracao} ppm")
plt.show()

A amostra com `25.63` ppm novamente traz um resultado bastante diferente dos demais. Para descobrir quais são os extremos, basta utilizar filtros da seguinte forma:

In [None]:
df_describe_aux[df_describe_aux['mean'] == df_describe_aux['mean'].min()]

In [None]:
df_describe_aux[df_describe_aux['mean'] == df_describe_aux['mean'].max()]

Além destas duas amostras, vou adicionar outras duas amostras (obtidas aleatoriamente) para fins de comparação

In [None]:
ams = list(range(26)) + list(range(27,34)) + list(range(35,50))
random.seed(42)
ams = random.sample(ams, k=2)
ams.append(26)
ams.append(34)
ams

Mas plotar estas duas amostras:

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(ams)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='intensity', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

Por fins de padronização:

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(amostra)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='intensity', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='intensity-29-23'></a>
#### 29.23 ppm

In [None]:
concentracao = 29.23
df_describe_aux = df_describe.loc[[concentracao]]['intensity'].copy()
df_describe_aux

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12,4))
ax1.bar(df_describe_aux.index.get_level_values('ScanHeader'), df_describe_aux['mean'],)
ax1.set_xlabel('ScanHeader')
ax1.set_ylabel('Intensity mean')
ax2.bar(df_describe_aux.index.get_level_values('ScanHeader'), df_describe_aux['std'],)    
ax2.set_xlabel('ScanHeader')
ax2.set_ylabel('Intensity std')
plt.suptitle(f"{concentracao} ppm")
plt.show()

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(amostra)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='intensity', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='intensity-32-82'></a>
#### 32.82 ppm

In [None]:
concentracao = 32.82
df_describe_aux = df_describe.loc[[concentracao]]['intensity'].copy()
df_describe_aux

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12,4))
ax1.bar(df_describe_aux.index.get_level_values('ScanHeader'), df_describe_aux['mean'],)
ax1.set_xlabel('ScanHeader')
ax1.set_ylabel('Intensity mean')
ax2.bar(df_describe_aux.index.get_level_values('ScanHeader'), df_describe_aux['std'],)    
ax2.set_xlabel('ScanHeader')
ax2.set_ylabel('Intensity std')
plt.suptitle(f"{concentracao} ppm")
plt.show()

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(amostra)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='intensity', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='intensity-36-41'></a>
#### 36.41 ppm

In [None]:
concentracao = 36.41
df_describe_aux = df_describe.loc[[concentracao]]['intensity'].copy()
df_describe_aux

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12,4))
ax1.bar(df_describe_aux.index.get_level_values('ScanHeader'), df_describe_aux['mean'],)
ax1.set_xlabel('ScanHeader')
ax1.set_ylabel('Intensity mean')
ax2.bar(df_describe_aux.index.get_level_values('ScanHeader'), df_describe_aux['std'],)    
ax2.set_xlabel('ScanHeader')
ax2.set_ylabel('Intensity std')
plt.suptitle(f"{concentracao} ppm")
plt.show()

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(amostra)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='intensity', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='intensity-40-00'></a>
#### 40.00 ppm

In [None]:
concentracao = 40.00
df_describe_aux = df_describe.loc[[concentracao]]['intensity'].copy()
df_describe_aux

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12,4))
ax1.bar(df_describe_aux.index.get_level_values('ScanHeader'), df_describe_aux['mean'],)
ax1.set_xlabel('ScanHeader')
ax1.set_ylabel('Intensity mean')
ax2.bar(df_describe_aux.index.get_level_values('ScanHeader'), df_describe_aux['std'],)    
ax2.set_xlabel('ScanHeader')
ax2.set_ylabel('Intensity std')
plt.suptitle(f"{concentracao} ppm")
plt.show()

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(amostra)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='intensity', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='intensity-resumo'></a>
#### Resumo

Neste arquivo esta resumido a análise dos dados referente ao Intensity (que provavelmente é a intensidade do sinal obtido).


Em relação a análise utilizando os Scans, os resultados são muito similares aos obtidos com a variávei Packet. A maioria das concentrações apresenta distribuição de médias e desvio padrão semelhante a distribuição Binomial. Contudo, algumas amostras não são bem assim. Novamente, as amosttras de concentrações de `4.1, 25.6, e  36.41` ppm, especialmente a de `25.6` ppm, tem um comportamento bastante irregular. Este comportamento me leva a acreditar que nestas concentrações, a técnica esta conseguindo identificar uma maior quantidade de compostos químicos. 

Também foram gerados gráficos interativos relacionando o Packet com a respectiva intensidade para 5 ScanHeader distintos e as 11 concentrações. Visualmente, estes gráficos são muito semelhates; mas acredito que um analísta mais experiente conseguiria retirar informações mais interessantes. Por exemplo, para a amostra de 25.6 ppm, temos 2 condições bastante peculiares: no Scan 34 foi obtido a menor intensidade média 65.545287, enquanto que no Scan 26 foi obtido a maior intensidade médida 179459.652654.

De forma geral, temos que as leituras tem um comportamento muito similar entre si, onde as principais diferenças provavelmente ocorrem nos picos de baixa intensidade. Provavelmente é nesta região que estamos interessados.

<a id='mass-position'></a>
### mass_position

<a id='mass-position-0-5'></a>
#### 0.5 ppm

In [None]:
concentracao = 0.5
df_describe_aux = df_describe.loc[[concentracao]]['mass_position'].copy()
df_describe_aux

Visualmente, podemos observar que os valores tem baixa variância. Vamos desenhar um gráfico de disersão com barras de erro

In [None]:
fig, ax1 = plt.subplots(figsize=(12,4))
ax1.errorbar(df_describe_aux.index.get_level_values('ScanHeader'), 
             df_describe_aux['mean'], 
             yerr=df_describe_aux['std'], 
            capsize=5, linestyle="none", marker='o', barsabove=True,)
ax1.set_xlabel('ScanHeader')
ax1.set_ylabel('mass_position')

ax1.set_ylim(bottom=0)
ax1.set_title(f"{concentracao} ppm")
plt.show()

Vamos plotar estes dados em relação ao Packet, novamente obtendo uma amostra. Mas, vou obter uma amostra diferente para aumentar o número de dados que estou observando

In [None]:
amostra = range(50)
random.seed(31416)
amostra = random.sample(amostra, k=5)
amostra

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(amostra)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='mass_position', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

Achei, suspeitamente interessante

<a id='mass-position-4-10'></a>
#### 4.10 ppm

In [None]:
concentracao = 4.10
df_describe_aux = df_describe.loc[[concentracao]]['mass_position'].copy()
df_describe_aux

In [None]:
fig, ax1 = plt.subplots(figsize=(12,4))
ax1.errorbar(df_describe_aux.index.get_level_values('ScanHeader'), 
             df_describe_aux['mean'], 
             yerr=df_describe_aux['std'], 
            capsize=5, linestyle="none", marker='o', barsabove=True,)
ax1.set_xlabel('ScanHeader')
ax1.set_ylabel('mass_position')

ax1.set_ylim(bottom=0)
ax1.set_title(f"{concentracao} ppm")
plt.show()

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(amostra)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='mass_position', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-7-68'></a>
#### 7.68 ppm

In [None]:
concentracao = 7.68
df_describe_aux = df_describe.loc[[concentracao]]['mass_position'].copy()
df_describe_aux

In [None]:
fig, ax1 = plt.subplots(figsize=(12,4))
ax1.errorbar(df_describe_aux.index.get_level_values('ScanHeader'), 
             df_describe_aux['mean'], 
             yerr=df_describe_aux['std'], 
            capsize=5, linestyle="none", marker='o', barsabove=True,)
ax1.set_xlabel('ScanHeader')
ax1.set_ylabel('mass_position')

ax1.set_ylim(bottom=0)
ax1.set_title(f"{concentracao} ppm")
plt.show()

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(amostra)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='mass_position', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-11-27'></a>
#### 11.27 ppm

In [None]:
concentracao = 11.27
df_describe_aux = df_describe.loc[[concentracao]]['mass_position'].copy()
df_describe_aux

In [None]:
fig, ax1 = plt.subplots(figsize=(12,4))
ax1.errorbar(df_describe_aux.index.get_level_values('ScanHeader'), 
             df_describe_aux['mean'], 
             yerr=df_describe_aux['std'], 
            capsize=5, linestyle="none", marker='o', barsabove=True,)
ax1.set_xlabel('ScanHeader')
ax1.set_ylabel('mass_position')

ax1.set_ylim(bottom=0)
ax1.set_title(f"{concentracao} ppm")
plt.show()

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(amostra)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='mass_position', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-14-86'></a>
#### 14.86 ppm

In [None]:
concentracao = 14.86
df_describe_aux = df_describe.loc[[concentracao]]['mass_position'].copy()
df_describe_aux

In [None]:
fig, ax1 = plt.subplots(figsize=(12,4))
ax1.errorbar(df_describe_aux.index.get_level_values('ScanHeader'), 
             df_describe_aux['mean'], 
             yerr=df_describe_aux['std'], 
            capsize=5, linestyle="none", marker='o', barsabove=True,)
ax1.set_xlabel('ScanHeader')
ax1.set_ylabel('mass_position')

ax1.set_ylim(bottom=0)
ax1.set_title(f"{concentracao} ppm")
plt.show()

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(amostra)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='mass_position', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-18-45'></a>
#### 18.45 ppm

In [None]:
concentracao = 18.45
df_describe_aux = df_describe.loc[[concentracao]]['mass_position'].copy()
df_describe_aux

In [None]:
fig, ax1 = plt.subplots(figsize=(12,4))
ax1.errorbar(df_describe_aux.index.get_level_values('ScanHeader'), 
             df_describe_aux['mean'], 
             yerr=df_describe_aux['std'], 
            capsize=5, linestyle="none", marker='o', barsabove=True,)
ax1.set_xlabel('ScanHeader')
ax1.set_ylabel('mass_position')

ax1.set_ylim(bottom=0)
ax1.set_title(f"{concentracao} ppm")
plt.show()

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(amostra)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='mass_position', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-22-05'></a>
#### 22.05 ppm

In [None]:
concentracao = 22.05
df_describe_aux = df_describe.loc[[concentracao]]['mass_position'].copy()
df_describe_aux

In [None]:
fig, ax1 = plt.subplots(figsize=(12,4))
ax1.errorbar(df_describe_aux.index.get_level_values('ScanHeader'), 
             df_describe_aux['mean'], 
             yerr=df_describe_aux['std'], 
            capsize=5, linestyle="none", marker='o', barsabove=True,)
ax1.set_xlabel('ScanHeader')
ax1.set_ylabel('mass_position')

ax1.set_ylim(bottom=0)
ax1.set_title(f"{concentracao} ppm")
plt.show()

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(amostra)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='mass_position', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-25-63'></a>
#### 25.63 ppm

In [None]:
concentracao = 25.63
df_describe_aux = df_describe.loc[[concentracao]]['mass_position'].copy()
df_describe_aux

In [None]:
fig, ax1 = plt.subplots(figsize=(12,4))
ax1.errorbar(df_describe_aux.index.get_level_values('ScanHeader'), 
             df_describe_aux['mean'], 
             yerr=df_describe_aux['std'], 
            capsize=5, linestyle="none", marker='o', barsabove=True,)
ax1.set_xlabel('ScanHeader')
ax1.set_ylabel('mass_position')

ax1.set_ylim(bottom=0)
ax1.set_title(f"{concentracao} ppm")
plt.show()

A amostra com `25.63` ppm no scan 34 ai outra vez.

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(amostra)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='mass_position', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

Para este caso específico, vamos observar os pontos atipicos encontrados vistos anteriormente (com duas amostras de referência)

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(ams)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='mass_position', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-29-23'></a>
#### 29.23 ppm

In [None]:
concentracao = 29.23
df_describe_aux = df_describe.loc[[concentracao]]['mass_position'].copy()
df_describe_aux

In [None]:
fig, ax1 = plt.subplots(figsize=(12,4))
ax1.errorbar(df_describe_aux.index.get_level_values('ScanHeader'), 
             df_describe_aux['mean'], 
             yerr=df_describe_aux['std'], 
            capsize=5, linestyle="none", marker='o', barsabove=True,)
ax1.set_xlabel('ScanHeader')
ax1.set_ylabel('mass_position')

ax1.set_ylim(bottom=0)
ax1.set_title(f"{concentracao} ppm")
plt.show()

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(amostra)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='mass_position', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-32-82'></a>
#### 32.82 ppm

In [None]:
concentracao = 32.82
df_describe_aux = df_describe.loc[[concentracao]]['mass_position'].copy()
df_describe_aux

In [None]:
fig, ax1 = plt.subplots(figsize=(12,4))
ax1.errorbar(df_describe_aux.index.get_level_values('ScanHeader'), 
             df_describe_aux['mean'], 
             yerr=df_describe_aux['std'], 
            capsize=5, linestyle="none", marker='o', barsabove=True,)
ax1.set_xlabel('ScanHeader')
ax1.set_ylabel('mass_position')

ax1.set_ylim(bottom=0)
ax1.set_title(f"{concentracao} ppm")
plt.show()

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(amostra)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='mass_position', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-36-41'></a>
#### 36.41 ppm

In [None]:
concentracao = 36.41
df_describe_aux = df_describe.loc[[concentracao]]['mass_position'].copy()
df_describe_aux

In [None]:
fig, ax1 = plt.subplots(figsize=(12,4))
ax1.errorbar(df_describe_aux.index.get_level_values('ScanHeader'), 
             df_describe_aux['mean'], 
             yerr=df_describe_aux['std'], 
            capsize=5, linestyle="none", marker='o', barsabove=True,)
ax1.set_xlabel('ScanHeader')
ax1.set_ylabel('mass_position')

ax1.set_ylim(bottom=0)
ax1.set_title(f"{concentracao} ppm")
plt.show()

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(amostra)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='mass_position', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-40-00'></a>
#### 40.00 ppm

In [None]:
concentracao = 40.00
df_describe_aux = df_describe.loc[[concentracao]]['mass_position'].copy()
df_describe_aux

In [None]:
fig, ax1 = plt.subplots(figsize=(12,4))
ax1.errorbar(df_describe_aux.index.get_level_values('ScanHeader'), 
             df_describe_aux['mean'], 
             yerr=df_describe_aux['std'], 
            capsize=5, linestyle="none", marker='o', barsabove=True,)
ax1.set_xlabel('ScanHeader')
ax1.set_ylabel('mass_position')

ax1.set_ylim(bottom=0)
ax1.set_title(f"{concentracao} ppm")
plt.show()

In [None]:
df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()

df_aux = df_aux[df_aux['ScanHeader'].isin(amostra)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='Packet', y='mass_position', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.add_vline(x=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-resumo'></a>
#### Resumo

Neste arquivo foi avaliada a medida de `mass_position`. Em geral, observamos através das métricas estatísticas que o `mass_position` tem um comportamento constante. Mas, ao observar a evolução deste valor em relação ao Packet, é possível observar uma mudança de tendência no última quarto dos dados. Esta mudança passa de um aumento linear para um aumento exponencial. Isto foi observado em todos os casos.

Foi possível observar que a amostra de `25.63` ppm tem alguma diferença das demais, especialmente no `ScanHeader` número 34, que foi observado sua diferença no dois gráficos gerados.

<a id='mass-position-intensity'></a>
### mass_position versus intensity

Provavelmente é este o resultado mais importante de que temos de observar. Vamos comparar os resultados obtidos dentro de cada concentração para 5 `ScanHeader` obtdos aleatóriamente. Depois, vamos comparar todas as concentrações com outros cinco `ScanHeader` (um em cada gráfico). 

Vamos começar obtendo os valores aleatórios para comparar os resultados dentro das concentrações

In [None]:
conc_aleatorio = range(50)
random.seed(12)
conc_aleatorio = random.sample(conc_aleatorio, k=5)
conc_aleatorio

<a id='mass-position-intensity-0-5'></a>
#### 0.5 ppm

In [None]:
concentracao = 0.5

df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()
df_aux = df_aux[df_aux['ScanHeader'].isin(conc_aleatorio)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='mass_position', y='intensity', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-intensity-4-10'></a>
#### 4.10 ppm

In [None]:
concentracao = 4.10

df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()
df_aux = df_aux[df_aux['ScanHeader'].isin(conc_aleatorio)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='mass_position', y='intensity', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-intensity-7-68'></a>
#### 7.68 ppm

In [None]:
concentracao = 7.68

df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()
df_aux = df_aux[df_aux['ScanHeader'].isin(conc_aleatorio)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='mass_position', y='intensity', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-intensity-11-27'></a>
#### 11.27 ppm

In [None]:
concentracao = 11.27

df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()
df_aux = df_aux[df_aux['ScanHeader'].isin(conc_aleatorio)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='mass_position', y='intensity', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-intensity-14-86'></a>
#### 14.86 ppm

In [None]:
concentracao = 14.86

df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()
df_aux = df_aux[df_aux['ScanHeader'].isin(conc_aleatorio)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='mass_position', y='intensity', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-intensity-18-45'></a>
#### 18.45 ppm

In [None]:
concentracao = 18.45

df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()
df_aux = df_aux[df_aux['ScanHeader'].isin(conc_aleatorio)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='mass_position', y='intensity', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-intensity-22-05'></a>
#### 22.05 ppm

In [None]:
concentracao = 22.05

df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()
df_aux = df_aux[df_aux['ScanHeader'].isin(conc_aleatorio)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='mass_position', y='intensity', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-intensity-25-63'></a>
#### 25.63 ppm

In [None]:
concentracao = 25.63

df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()
df_aux = df_aux[df_aux['ScanHeader'].isin(conc_aleatorio)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='mass_position', y='intensity', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

In [None]:
concentracao = 25.63

df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()
df_aux = df_aux[df_aux['ScanHeader'].isin(ams)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='mass_position', y='intensity', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-intensity-29-23'></a>
#### 29.23 ppm

In [None]:
concentracao = 29.23

df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()
df_aux = df_aux[df_aux['ScanHeader'].isin(conc_aleatorio)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='mass_position', y='intensity', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-intensity-32-82'></a>
#### 32.82 ppm

In [None]:
concentracao = 32.82

df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()
df_aux = df_aux[df_aux['ScanHeader'].isin(conc_aleatorio)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='mass_position', y='intensity', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-intensity-36-41'></a>
#### 36.41 ppm

In [None]:
concentracao = 36.41

df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()
df_aux = df_aux[df_aux['ScanHeader'].isin(conc_aleatorio)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='mass_position', y='intensity', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-intensity-40-00'></a>
#### 40.00 ppm

In [None]:
concentracao =  40.00

df_aux = df_data[df_data['compound_concentration'] == concentracao].copy()
df_aux = df_aux[df_aux['ScanHeader'].isin(conc_aleatorio)]
df_aux.reset_index(inplace=True, drop=True)
df_aux['ScanHeader'] = df_aux['ScanHeader'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='mass_position', y='intensity', color='ScanHeader', title=f"{concentracao} ppm" )

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-intensity-out'></a>
### mass_position versus intensity - entre concentrações

Agora vamos plotar os gráficos comparando a mass-position e intensity entre as 11 concentrações.

In [None]:
conc_alea = range(50)
random.seed(98)
conc_alea = random.sample(conc_alea, k=5)
conc_alea

<a id='mass-position-intensity-out-22'></a>
#### ScanHeader 22

In [None]:
df_aux = df_data.copy()
df_aux = df_aux[df_aux['ScanHeader'] == 22]
df_aux.reset_index(inplace=True, drop=True)
df_aux['compound_concentration'] = df_aux['compound_concentration'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='mass_position', y='intensity', color='compound_concentration', hover_name="ScanHeader")

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-intensity-out-36'></a>
#### ScanHeader 36

In [None]:
df_aux = df_data.copy()
df_aux = df_aux[df_aux['ScanHeader'] == 36]
df_aux.reset_index(inplace=True, drop=True)
df_aux['compound_concentration'] = df_aux['compound_concentration'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='mass_position', y='intensity', color='compound_concentration', hover_name="ScanHeader")

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-intensity-out-2'></a>
#### ScanHeader 2

In [None]:
df_aux = df_data.copy()
df_aux = df_aux[df_aux['ScanHeader'] == 2]
df_aux.reset_index(inplace=True, drop=True)
df_aux['compound_concentration'] = df_aux['compound_concentration'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='mass_position', y='intensity', color='compound_concentration', hover_name="ScanHeader")

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-intensity-out-26'></a>
#### ScanHeader 26

In [None]:
df_aux = df_data.copy()
df_aux = df_aux[df_aux['ScanHeader'] == 26]
df_aux.reset_index(inplace=True, drop=True)
df_aux['compound_concentration'] = df_aux['compound_concentration'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='mass_position', y='intensity', color='compound_concentration', hover_name="ScanHeader")

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-intensity-out-3'></a>
#### ScanHeader 3

In [None]:
df_aux = df_data.copy()
df_aux = df_aux[df_aux['ScanHeader'] == 3]
df_aux.reset_index(inplace=True, drop=True)
df_aux['compound_concentration'] = df_aux['compound_concentration'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='mass_position', y='intensity', color='compound_concentration', hover_name="ScanHeader")

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-intensity-out-42'></a>
#### ScanHeader 42

In [None]:
df_aux = df_data.copy()
df_aux = df_aux[df_aux['ScanHeader'] == 42]
df_aux.reset_index(inplace=True, drop=True)
df_aux['compound_concentration'] = df_aux['compound_concentration'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='mass_position', y='intensity', color='compound_concentration', hover_name="ScanHeader")

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-intensity-out-7'></a>
#### ScanHeader 7

In [None]:
df_aux = df_data.copy()
df_aux = df_aux[df_aux['ScanHeader'] == 7]
df_aux.reset_index(inplace=True, drop=True)
df_aux['compound_concentration'] = df_aux['compound_concentration'].astype(str)
df_aux.head(2)

In [None]:
fig = px.line(df_aux, x ='mass_position', y='intensity', color='compound_concentration', hover_name="ScanHeader")

fig.update_layout(template='simple_white', margin={"r":0,"l":0,"b":0, 't':30},
                  title={'y':0.98,'x':0.5,'xanchor': 'center','yanchor': 'top'})                  
                 
fig.add_hline(y=0, line_width=1, line_color="black")
fig.update_xaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo x do grafico
fig.update_yaxes(showline=True, linewidth=1, linecolor='black', mirror=True) # adicionando linhas no eixo y do gráfico
fig.show()

<a id='mass-position-intensity-resumo'></a>
#### Resumo

Neste arquivo, analiso o gráfico obtido relacionando a `intensity` com a `mass_position`. Este provavelmente é o resultado mais importante. 

Como a quantidade de dados é muito grande, optei por trabalhar com apenas 5 amostras por gráfico. Inicialmente, eu fixei 5 Scans, e obtive os gráficos. Neste caso, os resultados são muito semelhantes entre si. Eu consigo apenas verificar que a complexidade dos dados é muito grande, especialmente nos picos de baixa intensidade. Neste ponto, poder dar zoom no gráfico é muito útil. 

Após esta análise, eu escolhi aleatóriamente 5 scans, e plotei as 11 concentrações juntas para cada scan. Contudo, os dados mais gerais tendem a ser muito semelhantes.

A excessão é a amostra de `25.63` ppm no Scan `26`. Esta amostra tem uma intensidade muito maior do que todas as demais.

In [None]:
print(f"Tempo de execução total: {(time.time() - start_time)/60} minutos")