# Principais



1.   Pandas:

* Descrição: Ferramenta poderosa para manipulação e análise de dados.
* Funcionalidades: Manipulação de dados tabulares (DataFrames), leitura e escrita em vários formatos de arquivo (CSV, Excel, SQL, etc.), tratamento de dados ausentes, agregações e agrupamentos de dados.

2. NumPy:
* Descrição: Biblioteca fundamental para computação científica em Python.
* Funcionalidades: Suporte a arrays multidimensionais, funções matemáticas avançadas, álgebra linear, transformadas de Fourier, e geração de números aleatórios.

3. Matplotlib:
* Descrição: Biblioteca de plotagem 2D muito utilizada para visualização de dados.
* Funcionalidades: Criação de gráficos variados (linhas, barras, histogramas, scatter plots), personalização avançada de gráficos, suporte a visualizações interativas com o módulo mpl_toolkits.

4. Seaborn:
* Descrição: Biblioteca de visualização de dados baseada no Matplotlib, com uma interface mais amigável.
* Funcionalidades: Gráficos estatísticos mais atraentes e informativos, integração com pandas DataFrames, gráficos de regressão, heatmaps, entre outros.

5. Scikit-learn:
* Descrição: Biblioteca para machine learning em Python.
* Funcionalidades: Implementação de uma variedade de algoritmos de machine learning (classificação, regressão, clustering), pré-processamento de dados, seleção de modelos, validação cruzada.

6. SciPy:
* Descrição: Biblioteca usada para computação científica e técnica.
* Funcionalidades: Otimização, integração, interpolação, álgebra linear, estatísticas, e outras tarefas científicas e de engenharia.

7. TensorFlow e PyTorch:
* Descrição: Bibliotecas de deep learning amplamente utilizadas.
* Funcionalidades: Criação e treinamento de redes neurais, suporte para computação em GPUs, construção de modelos complexos de aprendizado profundo.

8. Statsmodels:
* Descrição: Biblioteca para estimar e testar modelos estatísticos.
* Funcionalidades: Modelos de regressão linear e não-linear, séries temporais, testes estatísticos, modelos de efeitos mistos, entre outros.

9. Plotly:
* Descrição: Biblioteca para criação de gráficos interativos e publicação de visualizações.
* Funcionalidades: Gráficos interativos (2D e 3D), mapas, dashboards interativos, integração com notebooks Jupyter.

10. BeautifulSoup e Scrapy:
* Descrição: Bibliotecas para web scraping.
* Funcionalidades: Extração de dados de HTML e XML, navegação em páginas da web, scraping de dados para análise posterior.

# Pulo do gato

## Lazy predict

LazyPredict é uma biblioteca em Python que permite a você rapidamente treinar e comparar vários modelos de machine learning sem a necessidade de escrever muito código. Ela fornece uma visão geral rápida de como diferentes algoritmos se comportam com seu conjunto de dados, ajudando a identificar quais modelos podem ser mais promissores.
Principais Funcionalidades:

* Treinamento Rápido: Treina e avalia múltiplos modelos de machine learning com apenas algumas linhas de código.
* Comparação de Modelos: Retorna métricas de desempenho de diferentes modelos, facilitando a comparação e seleção do melhor modelo.
* Economia de Tempo: Ideal para uma análise inicial rápida, permitindo que você foque em ajustar e otimizar os modelos mais promissores.

1. Principais Métricas Retornadas:

* Accuracy: Precisão do modelo.
* Balanced Accuracy: Precisão balanceada do modelo.
* ROC AUC: Área sob a curva ROC.
* F1 Score: Média harmônica da precisão e sensibilidade.
* Time Taken: Tempo total gasto para treinar e avaliar o modelo.

2. Vantagens e Limitações:
  
  2.1 Vantagens:

* Rapidez: Permite uma visão geral rápida de vários modelos.
* Facilidade de Uso: Muito fácil de configurar e usar.
* Comparação Inicial: Útil para uma análise inicial e para selecionar modelos promissores para afinação e otimização posterior.

  2.2 Limitações:

* Falta de Personalização: Pode não ser adequada para casos em que a personalização e a otimização detalhada são necessárias.
* Desempenho Limitado: Útil apenas para uma visão geral; a otimização e afinação posteriores ainda são necessárias para uso em produção.

### Codigo

In [None]:
pip install lazypredict

In [None]:
from lazypredict.Supervised import LazyClassifier, LazyRegressor
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

# Carregar dataset
data = load_iris()
X = data.data
y = data.target

# Dividir dataset em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicializar LazyClassifier
clf = LazyClassifier(verbose=0, ignore_warnings=True, custom_metric=None)

# Treinar e avaliar modelos
models, predictions = clf.fit(X_train, X_test, y_train, y_test)

# Mostrar resultados
print(models)

## H2O.ai

Descrição: H2O.ai é uma plataforma de machine learning que oferece AutoML para a criação, otimização e implementação de modelos de machine learning.

Principais Funcionalidades:

* AutoML: Automatiza o processo de seleção de modelos e otimização de hiperparâmetros.
* Suporte a Múltiplos Modelos: Suporte para uma ampla gama de modelos, incluindo gradient boosting, deep learning e ensembles.
* Interface Web: Interface gráfica para facilitar a análise e visualização de resultados.

1. metricas:
Tabela de Modelos:
Após a conclusão do AutoML, ele gera uma tabela com os modelos treinados, junto com suas métricas de desempenho.
As métricas incluem
* RMSE (Root Mean Squared Error),
* MSE (Mean Squared Error),
* MAE (Mean Absolute Error),
* RMSLE (Root Mean Squared Logarithmic Error),
* média dos resíduos deviance.
= aml.predict = ele traz a previsão de qual classe pertenceria, mas é preciso colocar um range.

    
    Quanto menor essas metricas melhor.
Predições do Modelo: O H2O AutoML também faz predições no conjunto de teste usando o melhor modelo encontrado durante o processo de treinamento.

As predições são exibidas como uma tabela com uma coluna contendo os valores previstos.

2. Modelos

Os modelos apresentados nos resultados são modelos gerados pelo H2O AutoML durante o processo de treinamento. O H2O AutoML é uma ferramenta que automatiza o processo de seleção e treinamento de vários modelos de machine learning, incluindo:

### Codigo

In [None]:
!pip install h2o

In [None]:
import h2o
from h2o.automl import H2OAutoML
from sklearn.datasets import load_iris
import pandas as pd

# Inicializar H2O
h2o.init()

# Carregar dataset e converter para H2OFrame
data = load_iris()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target, name='target')
df = h2o.H2OFrame(pd.concat([X, y], axis=1))

# Dividir dataset em treino e teste
train, test = df.split_frame(ratios=[0.8], seed=42)

# Inicializar e treinar H2OAutoML
aml = H2OAutoML(max_runtime_secs=120, seed=42)
aml.train(y='target', training_frame=train)

# Avaliar desempenho
lb = aml.leaderboard
print(lb)

# Previsões no conjunto de teste
preds = aml.predict(test)

In [None]:
import numpy as np

# Converter H2OFrame para pandas DataFrame
preds_df = preds.as_data_frame()

# Aplicar um limiar para converter probabilidades em previsões de classe
previsoes_classes = np.round(preds_df)

# Exibir as previsões de classe
previsoes_classes


#### Para pegar o melhor modelo

In [None]:
# Get the best model using the metric
m = aml.leader
# this is equivalent to
m = aml.get_best_model()

# Get the best model using a non-default metric
m = aml.get_best_model(criterion="logloss")

# Get the best XGBoost model using default sort metric
xgb = aml.get_best_model(algorithm="xgboost")

# Get the best XGBoost model, ranked by logloss
xgb = aml.get_best_model(algorithm="xgboost", criterion="logloss")

#### Para usar um modelo especifico do H2O

In [None]:
# Carregar o modelo GBM específico pelo seu ID
modelo_gbm = h2o.get_model("GBM_grid_1_AutoML_1_20240528_105427_model_1")

# Fazer previsões usando o modelo
previsoes = modelo_gbm.predict(dados_teste)

# Exibir as previsões
print(previsoes)


## MLJAR

MLJAR é uma ferramenta de AutoML que automatiza a construção de modelos de machine learning, incluindo a pré-processamento de dados, engenharia de características, seleção de modelos, e ajuste de hiperparâmetros.

Principais Funcionalidades:

* Exploração de Modelos: Explora uma variedade de modelos de machine learning.
* Relatórios Detalhados: Gera relatórios detalhados sobre o desempenho dos modelos.
* Interface Web e API: Disponível tanto como uma plataforma web quanto como uma biblioteca Python.

In [None]:
pip install mljar-supervised

In [None]:
from supervised.automl import AutoML
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import pandas as pd

# Carregar dataset
data = load_iris()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target, name='target')

# Dividir dataset em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicializar e treinar AutoML
automl = AutoML()
automl.fit(X_train, y_train)

# Avaliar desempenho
predictions = automl.predict_all(X_test)


## XGBoost

XGBoost, ou eXtreme Gradient Boosting, é uma biblioteca popular de machine learning que implementa o algoritmo de gradient boosting. Ele é amplamente utilizado para problemas de classificação e regressão devido à sua eficácia e desempenho geralmente superior a outros métodos de aprendizado de máquina.

O algoritmo de gradient boosting combina várias árvores de decisão fracas para criar um modelo forte. Ele funciona de forma iterativa, onde cada nova árvore é treinada para corrigir os erros cometidos pelos modelos anteriores. XGBoost aprimora esse processo com técnicas como regularização, função de perda personalizada e aprendizado de máquina distribuído.

In [None]:
import xgboost as xgb
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Carregar dataset
iris = load_iris()
X = iris.data
y = iris.target

# Dividir dataset em conjunto de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Converter dados para formato DMatrix, que é específico para XGBoost
dtrain = xgb.DMatrix(X_train, label=y_train)
dtest = xgb.DMatrix(X_test, label=y_test)

# Definir os parâmetros do modelo
param = {'max_depth': 3, 'eta': 0.3, 'objective': 'multi:softmax', 'num_class': 3}

# Treinar o modelo
num_round = 10
model = xgb.train(param, dtrain, num_round)

# Fazer previsões
predictions = model.predict(dtest)

# Avaliar o desempenho do modelo
accuracy = accuracy_score(y_test, predictions)
print("Acurácia:", accuracy)


Acurácia: 1.0


### Tecnica para ver o melhor parametro

 O Grid Search é uma técnica que permite testar várias combinações de parâmetros especificados em uma grade pré-definida. Você pode usar a função GridSearchCV da biblioteca sklearn.model_selection para isso.

In [None]:
from sklearn.model_selection import GridSearchCV

# Definir os parâmetros a serem testados
param_grid = {'max_depth': [3, 6, 9], 'eta': [0.1, 0.3, 0.5], 'subsample': [0.8, 0.9, 1.0]}

# Inicializar o modelo
model = xgb.XGBClassifier()

# Realizar a busca em grade
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5)
grid_search.fit(X_train, y_train)

# Exibir os melhores parâmetros
print("Melhores parâmetros:", grid_search.best_params_)


Melhores parâmetros: {'eta': 0.1, 'max_depth': 3, 'subsample': 0.9}


Random Search: Random Search é uma técnica semelhante ao Grid Search, mas em vez de testar todas as combinações possíveis, ele amostra aleatoriamente um subconjunto do espaço de parâmetros. Você pode usar a função RandomizedSearchCV da biblioteca sklearn.model_selection.

In [None]:
from sklearn.model_selection import RandomizedSearchCV

# Definir os parâmetros a serem testados
param_dist = {'max_depth': [3, 6, 9], 'eta': [0.1, 0.3, 0.5], 'subsample': [0.8, 0.9, 1.0]}

# Inicializar o modelo
model = xgb.XGBClassifier()

# Realizar a busca aleatória
random_search = RandomizedSearchCV(estimator=model, param_distributions=param_dist, n_iter=10, cv=5)
random_search.fit(X_train, y_train)

# Exibir os melhores parâmetros
print("Melhores parâmetros:", random_search.best_params_)

Melhores parâmetros: {'subsample': 0.9, 'max_depth': 6, 'eta': 0.1}
