# Entendendo o problema

Foi solicitado, a partir de dez leituras de sensores e a duração dessas leituras, um modelo de inteligência artificial capaz de prever o valor do campo "inference" e a sua acurácia.

# Análise dos dados

Os dados que darão ao suporte ao projeto se encontram no arquivo "dados.csv" já presente no projeto. Para ler e manipular esses dados serão usadas as bibliotecas **Pandas** e **Numpy**. A seguir, será feita a importação dessas bibliotecas e a leitura do arquivo .csv.

In [1]:
import pandas as pd
import numpy as np

df = pd.read_csv('data.csv')

#Pronto! Os dados já foram carregados como objeto DataFrame e estão prontos para
#consulta e manipulação!

#Para imprimir as dez primeiras linhas do DataFrame, utilizaremos o método head()
# do pandas

print(df.head(15))


             read0           read1           read2           read3  \
0   [-0.29, -0.07]   [0.24, -0.62]   [-0.29, 0.14]     [0.1, 0.14]   
1   [-0.25, -0.04]    [0.04, 0.19]    [0.11, 0.19]   [-0.23, 0.07]   
2   [-0.59, -0.27]  [-0.42, -0.27]  [-0.42, -0.34]  [-0.35, -0.37]   
3    [-0.2, -0.15]  [-0.44, -0.31]  [-0.65, -0.31]   [-0.7, -0.17]   
4   [-0.35, -0.19]  [-0.61, -0.19]  [-0.61, -0.15]  [-0.61, -0.13]   
5   [-0.47, -0.22]  [-0.47, -0.23]  [-0.64, -0.27]    [-0.71, 0.3]   
6    [-0.73, 0.05]  [-0.73, -0.06]   [-0.77, 0.16]   [-0.39, -0.1]   
7    [-0.09, 0.89]   [-0.49, 0.46]   [-0.06, 0.65]    [0.31, 0.65]   
8     [0.73, 0.46]    [-0.2, 0.54]   [-0.2, -0.14]  [-0.46, -0.44]   
9     [0.19, 0.32]   [0.19, -0.07]    [0.38, 0.11]   [-0.71, 0.11]   
10    [0.64, 0.55]   [0.67, -0.06]   [1.04, -0.02]   [0.26, -0.02]   
11   [0.19, -0.54]   [0.21, -0.74]  [-0.62, -0.74]    [0.7, -0.02]   
12  [-0.54, -0.56]   [-0.5, -0.56]  [-0.55, -0.51]  [-0.55, -0.61]   
13  [-0.24, -0.52]  

Podemos observar acima as dez leituras (campos de "read0" ate "read9"), os timestamps de início e fim dessas leituras e o valor esperado que nosso modelo preveja.

# Entendendo o tipo de problema e uma possível solução

Em inteligência artificial, machine learning é uma técnica de aprendizado automático que permite que uma máquina possa aprender a realizar tarefas específicas a partir de **exemplos passados**, sem precisar de instruções explícitas. Como sabemos a resposta correta para o nosso problema, temos um caso de **aprendizado supervisionado**, ou seja, a máquina consegue entender os padrões dados para determinar uma resposta.


# Duas grandes vertentes do aprendizado supervisionado

Dentro do aprendizado supervisionado, temos os problemas de **classificação e regressão**. 

*   **Problemas de classificação**: a variável a ser prevista é discreta e assume valores finitos, que geralmente são representados como **rótulos ou classes**. Um exemplo comum de problema de classificação é a classificação de e-mails em spam (1) e não-spam (0) com base em suas características como palavras-chave, remetente, assunto, entre outras.

*   **Problemas de regressão**: Em um problema de regressão, a variável a ser prevista é contínua **e assume valores em um intervalo ou conjunto de números reais**. Um exemplo comum de problema de regressão é a previsão do preço de uma casa com base em suas características como tamanho, número de quartos, localização, entre outras.



Como podemos perceber na tabela dada, o valor "*inference*" a ser previsto vai ser gerado a partir de um **modelo de classificação**, pois varia apenas entre 0 e 1.

# Pré processamento dos dados

Após entender o contexto, importar os dados e discutir alguns modelos de machine learning, vamos explorar os dados. Abaixo, vamos imprimir apenas a primeira linha do dataframe importado.

In [2]:
print(df.head(1))

            read0          read1          read2        read3          read4  \
0  [-0.29, -0.07]  [0.24, -0.62]  [-0.29, 0.14]  [0.1, 0.14]  [0.41, -0.45]   

          read5         read6         read7         read8         read9  \
0  [0.41, 0.22]  [0.36, 0.03]  [0.37, 0.42]  [0.19, 0.42]  [0.19, 0.01]   

   start_timestamp  end_timestamp  inference  
0       1665656955     1665656967          1  


Acima, notamos que os campos de "read0" a "read9" são arrays contendo dois valores de ponto flutuante. Abaixo, será impresso o valor da primeira leitura e o tipo de seu objeto.

In [3]:
# imprimindo a primeira leitura 
print(df.head(1)['read0'])

# imprimindo o tipo da primeira leitura
print(type(df.head(1)['read0']))

0    [-0.29, -0.07]
Name: read0, dtype: object
<class 'pandas.core.series.Series'>


Um objeto Series no pandas é uma estrutura de dados unidimensional que pode armazenar vários tipos de dados (inteiros, strings, floats, etc.). Ele é semelhante a uma coluna em uma planilha e é rotulado por um índice.

Vamos agora imprimir o tipo de cada elemento do array:

In [4]:
# O atributo df.values em um objeto DataFrame do Pandas contém uma matriz Numpy 
# com os valores armazenados no DataFrame. Cada linha na matriz representa uma 
# observação, enquanto cada coluna representa uma variável.
print(df.head(1)["read0"].values)
# como o valor de cada read é um objeto Series do panda, para acessar o seu
# valor é necessário passar o índice 0
print(f'Valor do primeiro elemento da matriz: {df.head(1)["read0"][0]}')
print(f'Tipo do primeiro elemento da matriz: {type(df.head(1)["read0"][0])}')


['[-0.29, -0.07]']
Valor do primeiro elemento da matriz: [-0.29, -0.07]
Tipo do primeiro elemento da matriz: <class 'str'>


Acima notamos que cada campo "read" da tabela fornecida é uma matriz contendo uma string no formato '[x, y]'. A fim de poder realizar operações matemáticas com esses valores, vamos percorrer toda a tabela do dataframe e converter todos os campos "read" de string para um array contendo dois floats.

In [5]:
# converter a string '[x, y]' em um array numpy [x, y]
for col in df.columns[:10]:
    df[col] = df[col].apply(lambda x: np.fromstring(x[1:-1], sep=','))

Vamos conferir a tipagem do campo "read0" do primeiro registro do dataframe, como feito anteriormente:

In [6]:
print(f'Valores contidos no array: {df.head(1)["read0"]}')
print(f'Tipos dos valores presentes no array: {type(df.head(1)["read0"][0][0])}')

Valores contidos no array: 0    [-0.29, -0.07]
Name: read0, dtype: object
Tipos dos valores presentes no array: <class 'numpy.float64'>


Com os valores de "read" convertidos, para facilitar a aprendizagem do modelo, iremos **substituir o valor de cada read pela magnitude de seu array**. A magnitude de um array é simplesmente o seu comprimento, ou seja, representa a intensidade do vetor em questão. Fazendo isso, podemos utilizar as duas medidas da leitura e transformá-la em um valor só.

In [7]:
# Calculando a magnitude de todos os arrays presentes no dataframe
for col in df.columns[:10]:
    df[col] = df[col].apply(lambda x: np.log(np.linalg.norm(x)).round(2))

# imprimindo os 5 primeiros elementos do dataframe
print(df.head(5))

   read0  read1  read2  read3  read4  read5  read6  read7  read8  read9  \
0  -1.21  -0.41  -1.13  -1.76  -0.50  -0.77  -1.02  -0.58  -0.77  -1.66   
1  -1.37  -1.64  -1.52  -1.43  -0.81  -0.50  -0.63  -0.91  -1.19  -1.10   
2  -0.43  -0.69  -0.62  -0.67  -0.63  -0.52  -0.90  -2.01  -2.98  -0.75   
3  -1.39  -0.62  -0.33  -0.33  -0.33  -0.44  -0.55  -0.74  -0.71  -0.61   
4  -0.92  -0.45  -0.46  -0.47  -0.50  -0.55  -0.66  -0.77  -0.45  -0.51   

   start_timestamp  end_timestamp  inference  
0       1665656955     1665656967          1  
1       1665656968     1665656980          1  
2       1665656982     1665656994          1  
3       1665656914     1665656926          1  
4       1665656928     1665656940          1  


Para cada linha do dataframe serão calculadas e adicionadas a **variância das magnitudes, a média das magnitudes, a soma das magnitudes, o desvio padrão das magnitudes, o valor máximo e o valor mínimo** dessas magnitudes. Essas estatísticas descritivas servirão de apoio ao modelo de aprendizagem empregado.

In [8]:
# calculando as estatísticas descritivas de cada linha do dataframe
df['variancia'] = df[df.columns[:10]].apply(np.var, axis=1)
df['media_magnitudes'] = df[df.columns[:10]].apply(np.mean, axis=1)
df['soma_magnitudes'] = df[df.columns[:10]].apply(np.sum, axis=1)
df['desvio_padrao'] = df[df.columns[:10]].apply(np.std, axis=1)
df['valor_max'] = df[df.columns[:10]].apply(np.max, axis=1)
df['valor_min'] = df[df.columns[:10]].apply(np.min, axis=1)

# imprimindo o primeiro elemento do dataframe para checagem dos campos
print(df.head(1))


   read0  read1  read2  read3  read4  read5  read6  read7  read8  read9  \
0  -1.21  -0.41  -1.13  -1.76   -0.5  -0.77  -1.02  -0.58  -0.77  -1.66   

   start_timestamp  end_timestamp  inference  variancia  media_magnitudes  \
0       1665656955     1665656967          1   0.195129            -0.981   

   soma_magnitudes  desvio_padrao  valor_max  valor_min  
0            -9.81       0.441734      -0.41      -1.76  


Agora, vamos fazer o processamento dos timestamps. Um novo campo "duracao" será adicionado, tendo como valor a diferença entre o timestamp final e o timestamp inicial.

In [9]:
# calcula a diferenca entre os timestamps
df['duracao'] = df['end_timestamp'] - df['start_timestamp']

print(df.head(1))

   read0  read1  read2  read3  read4  read5  read6  read7  read8  read9  \
0  -1.21  -0.41  -1.13  -1.76   -0.5  -0.77  -1.02  -0.58  -0.77  -1.66   

   start_timestamp  end_timestamp  inference  variancia  media_magnitudes  \
0       1665656955     1665656967          1   0.195129            -0.981   

   soma_magnitudes  desvio_padrao  valor_max  valor_min  duracao  
0            -9.81       0.441734      -0.41      -1.76       12  


Pronto! Agora temos os dados pré-processados e prontos para serem aplicados ao nosso modelo! Vamos para a parte de aprendizagem.

## Implementação do modelo de Machine Learning

Para construir um modelo de inteligência artificial simples, é necessário seguir alguns passos básicos:


1.   Definir o problema
2.   Coletar e separar os dados
3.   Escolher o algoritmo de aprendizagem de máquina
4.   Treinar o modelo
5.   Avaliar o modelo
6.   Fazer previsões

A biblioteca que auxiliará no processo de modelagem será a **scikit-learn** do Python, pois já tem muitos dos algoritmos de aprendizado implementados. 

Como já definimos o problema e processamos os dados, vamos revisar alguns conceitos de machine learning.


*   ***Features*** são as entradas que alimentam o modelo de Machine Learning para gerar previsões ou classificações.
*   ***Target*** é a variável dependente que se deseja prever ou explicar.
*   ***Variáveis de treino*** são utilizadas para treinar modelos de machine learning. O objetivo é que o modelo aprenda a relação entre as features e o target a fim de fazer predições precisas em dados futuros.
*   ***Variáveis de teste*** são um conjunto de dados separado do conjunto de treinamento para avaliar o desempenho do modelo de machine learning em dados não vistos.  A avaliação do modelo nos dados de teste ajuda a determinar se o modelo está pronto para ser implantado em um ambiente de produção.


Em nosso caso, as features são as leituras dos sensores e a duração das mesmas, já o target é o campo "inference" dado no exemplo.


*Após testar diversos modelos de aprendizado de máquina, incluindo árvores de decisão, Random Forest, SVM, KNN, Naive Bayes e Redes Neurais, obtive maior acurácia com o modelo de Regressão Logística. Este modelo se destacou por conseguir classificar corretamente maior parte das instâncias do conjunto de testes, mostrando-se superior aos outros modelos avaliados. Portanto, seguiremos utilizando o modelo de Regressão Logística para a resolução do problema em questão.*

## Um pouco sobre regressão logística
A regressão logística é um modelo de aprendizado de máquina que é usado para prever se um determinado evento irá ocorrer ou não. Ele é frequentemente utilizado em problemas de classificação, e usa dados históricos para analisar as características dos eventos e identificar padrões que indicam a probabilidade de um evento ocorrer ou não. Ele é uma ferramenta poderosa para tomada de decisão, pois permite que as empresas tomem ações proativas com base em previsões precisas e confiáveis.

In [10]:
# importando o modelo de regressao logistica da biblioteca sklearn
from sklearn.linear_model import LogisticRegression, LinearRegression


Agora, vamos separar os dados em features e targets. No exemplo abaixo a variável "y" vai receber os valores a serem previstos e a variável "X" vai receber as variáveis independentes.


*Obs.: A classe RFE (Recursive Feature Elimination) da biblioteca Scikit-learn é utilizada para seleção de características em um conjunto de dados, eliminando as menos relevantes, a fim de melhorar a precisão e eficiência do modelo de machine learning. Após muitos (e muitos) testes, as features "desvio_padrao", "media_magnitudes" e "valor_max" foram as que resultaram em maior acurácia no modelo de regressão logística.*

In [11]:
# criar series da variavel dependente
y = df['inference']

# criar series das variáveis independentes
X = df[['desvio_padrao', 'media_magnitudes', 'valor_max']]

Com os datasets em mãos, vamos separar as variáveis de treino e as variáveis de teste através do método *train_test_split()* da biblioteca **sklearn**:

In [12]:
# importar o método responsável por separar as variáveis entre treino e teste
from sklearn.model_selection import train_test_split

# importar o método que determina a acurácia do modelo
from sklearn.metrics import accuracy_score

# separar os dados de treino e de teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

*O método train_test_split recebe como parâmetros:*

*   X: *Conjunto de variáveis independentes (features).*
*   y: *Variável dependente (target).*
*   *O argumento test_size=0.3 define que 30% dos dados serão usados para teste.*
*   *O argumento random_state=42 garante que a divisão será sempre a mesma (reprodutível) a cada execução.*
*   O parâmetro stratify é usado para garantir que a proporção das classes de uma variável dependente em um conjunto de dados seja mantida nos conjuntos de treinamento e teste. 



*A biblioteca GridSearchCV realiza busca exaustiva para encontrar a melhor combinação de hiperparâmetros de um modelo de aprendizado de máquina. Abaixo será declarado um objeto do modelo de regressão logística com seus parâmetros já ajustados pelo GridSearchCV*

In [13]:
logistic_model = LogisticRegression(C=0.1, penalty='l2', solver='liblinear')

Onde:


*   **C**: *um parâmetro de regularização que controla o peso da regularização no modelo. Valores menores de C aumentam a força da regularização. O parâmetro C foi escolhido como 0.1, que significa uma regularização moderada*
*   **penalty**: *tipo de regularização a ser utilizada, nesse caso é escolhida a regularização 'l2', o que indica a utilização de uma penalização do tipo Ridge para lidar com overfitting.*

*  **solver**: *algoritmo utilizado para resolver o problema de otimização da regressão logística. Nesse caso, é escolhido o solver 'liblinear'.*


Feito isso podemos treinar nosso modelo com os dados de treino, para que mais para frente possamos utilizá-lo em novos dados.

In [14]:
# O código abaixo ajusta o modelo de regressão logística aos dados de 
# treinamento fornecidos por X_train e y_train, ou seja, o modelo é "treinado" 
# para fazer previsões com base nesses dados de treinamento.
logistic_model.fit(X_train, y_train)


Agora, utilizaremos o modelo de regressão logística previamente ajustado para fazer previsões nos dados de teste. Essas previsões serão posteriormente usadas para avaliar o desempenho do modelo.

In [15]:
# O método predict é utilizado para fazer previsões com base em um modelo 
# treinado.
y_pred_logistic = logistic_model.predict(X_test)

Podemos agora calcular a acurácia do modelo de regressão logística comparando as previsões feitas pelo modelo y_pred_logistic com os valores reais da variável dependente y_test.

A acurácia é uma métrica que mede a taxa de acertos do modelo em relação ao total de previsões, é a proporção entre o número de acertos e o número total de previsões. Essa métrica é expressa em porcentagem, sendo 100% a acurácia máxima possível.

In [16]:
logistic_acc = accuracy_score(y_test, y_pred_logistic.round(2))
print(f'Acurácia do modelo de logistica: {logistic_acc.round(2)*100}%')


Acurácia do modelo de logistica: 82.0%


Portanto, com as features definidas tratadas e definidas anteriormente, o modelo desenvolvido teve 82% de acurácia, ou seja, previu corretamente em 82% do total de tentativas.

## Conclusão
  Foram explorados alguns conceitos de estatística, bem como sua aplicação utilizando a linguagem de programação Python e duas bibliotecas de manipulação de dados, Pandas e Numpy, além de também percorrer (brevemente) alguns conceitos de machine learning, como classificação de modelos, dados de treino e teste, dando ênfase ao modelo de classificação de **Regressão Logística** e sua aplicação ao problema proposto, com uma acurácia de 82%.