### Machine Learning

Dentre as práticas de aprendizagem de máquina, temos:

Aprendizagem supervisionada:
A aprendizagem supervisionada é um tipo de abordagem em que um modelo de aprendizado de máquina é treinado usando um conjunto de dados rotulados. Nesse tipo de aprendizagem, cada exemplo de treinamento consiste em uma entrada (características) e uma saída desejada (rótulo). O objetivo é que o modelo aprenda a mapear corretamente as entradas para as saídas, de modo que possa generalizar e fazer previsões precisas para novos exemplos. Algoritmos comuns de aprendizagem supervisionada incluem regressão linear, árvores de decisão, redes neurais e algoritmos de classificação, como o SVM (Support Vector Machine) e o KNN (K-Nearest Neighbors).

Aprendizagem não supervisionada:
A aprendizagem não supervisionada é um tipo de abordagem em que um modelo de aprendizado de máquina é treinado em um conjunto de dados não rotulados, ou seja, não há informações sobre as saídas desejadas. O objetivo da aprendizagem não supervisionada é descobrir padrões, estruturas ou relações ocultas nos dados. Os algoritmos de aprendizagem não supervisionada são usados principalmente para agrupar os dados em clusters, encontrar associações entre os exemplos ou reduzir a dimensionalidade dos dados. Alguns exemplos de algoritmos de aprendizagem não supervisionada são o algoritmo K-means, a análise de componentes principais (PCA) e as redes neurais autoencoder.

Aprendizagem por reforço:
A aprendizagem por reforço é um tipo de abordagem em que um agente de aprendizado interage com um ambiente dinâmico. O agente recebe feedback positivo ou negativo, chamado de recompensa, com base em suas ações. O objetivo da aprendizagem por reforço é que o agente aprenda a tomar ações que maximizem a recompensa total ao longo do tempo. O agente aprende através de tentativa e erro, explorando o ambiente e ajustando sua estratégia com base no feedback recebido. Algoritmos de aprendizagem por reforço são amplamente usados em áreas como jogos, robótica e otimização de processos. O algoritmo Q-learning e o método Monte Carlo são exemplos populares de técnicas de aprendizagem por reforço.

### ScikitLearn

Scikit-learn é uma biblioteca popular de aprendizado de máquina em Python. Também conhecida como sklearn, ela fornece uma ampla gama de algoritmos de aprendizado de máquina supervisionado e não supervisionado, bem como ferramentas para pré-processamento de dados, avaliação de modelos e seleção de recursos.

Scikit-learn é amplamente utilizada devido à sua interface simples e consistente, facilitando o uso e a experimentação com diferentes algoritmos. A biblioteca possui uma documentação abrangente, além de uma comunidade ativa que contribui com exemplos e recursos adicionais.

Algumas das principais funcionalidades do scikit-learn incluem:

Implementação de algoritmos: Scikit-learn oferece implementações eficientes de uma variedade de algoritmos de aprendizado de máquina, como regressão linear, regressão logística, árvores de decisão, florestas aleatórias, SVM (Support Vector Machines), redes neurais, algoritmos de agrupamento, entre outros.

Pré-processamento de dados: Scikit-learn possui ferramentas para pré-processar dados antes de alimentá-los aos algoritmos de aprendizado de máquina. Isso inclui a normalização de dados, o tratamento de valores ausentes, a codificação de variáveis categóricas e a redução de dimensionalidade.

Avaliação de modelos: Scikit-learn oferece funções para avaliar o desempenho dos modelos de aprendizado de máquina. Isso inclui métricas de avaliação, como precisão, recall, F1-score, matriz de confusão, curvas ROC, entre outras. Também possui ferramentas para validação cruzada e divisão de conjuntos de treinamento e teste.

Seleção de recursos: Scikit-learn fornece métodos para selecionar as melhores características (variáveis) a serem usadas em um modelo de aprendizado de máquina. Isso ajuda a reduzir a dimensionalidade dos dados e melhorar a eficiência e a precisão dos modelos.

Scikit-learn é uma ferramenta muito útil para iniciar projetos de aprendizado de máquina, permitindo que desenvolvedores e cientistas de dados apliquem algoritmos de forma fácil e eficiente.

#### O algoritmo será usado para um exemplo de relação entre horas de estudo no mês e salário. Porém, é valido informar que essa relação tem finalidade didática e que para representar de maneira mais fidedigna a nossa realidade, seriam necessárias mais variáveis e dados. Isso se deve ao fato de que no mundo real todos possuem realidades diferentes, seja econômico ou social.

### Preparação

In [3]:
# importação

import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split # futuramente precisaremos separar dados de treino e teste

In [4]:
# carregando todos os dados necessários

df = pd.read_csv('data.csv')
df.shape # linhas e colunas


(500, 2)

In [5]:
df.columns # colunas

Index(['horas_estudo_mes', 'salario'], dtype='object')

In [6]:
df.head() # primeiras linhas

Unnamed: 0,horas_estudo_mes,salario
0,57.0,6813.0
1,48.0,6855.0
2,60.0,5801.0
3,73.0,7431.0
4,46.0,5475.0


In [7]:
df.info() # informações sobre o dataset

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 2 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   horas_estudo_mes  500 non-null    float64
 1   salario           500 non-null    float64
dtypes: float64(2)
memory usage: 7.9 KB


### Análise exploratória e resumo estatístico

In [9]:
df.isnull().sum() # valores nulos

horas_estudo_mes    0
salario             0
dtype: int64

In [12]:
df.corr() # coeficientes de correlação. vai de -1 até +1, sendo -1 uma correlação negativa perfeita e +1 uma correlação positiva perfeita, próximo de 0 não há correlação.

# as diagonais são sempre 1 pois é a correlação de uma variável com ela mesma, ou seja, 100% de correlação. Já a outra metade da matriz é simétrica pois a correlação entre A e B é a mesma entre B e A.

# como nosso valor é próximo de 1, temos uma correlação positiva forte entre as variáveis.

Unnamed: 0,horas_estudo_mes,salario
horas_estudo_mes,1.0,0.818576
salario,0.818576,1.0
