**Objetivo:** listar exemplos de conjuntos de dados disponíveis no módulo datasets do scikit-learn, divididos por problemas de classificação, regressão, agrupamento e associação.

Estes são exemplos adicionais de conjuntos de dados disponíveis no scikit-learn para diferentes tipos de problemas de aprendizado de máquina. Cada conjunto de dados tem uma finalidade específica e pode ser usado para testar e praticar algoritmos em diferentes contextos.

In [1]:
#!pip install scikit-learn
#!pip install --upgrade scikit-learn

1. **Classificação**:

* **Iris Dataset (load_iris)**: Um conjunto de dados de medidas de pétalas e sépalas de três espécies de íris, com 150 amostras. O objetivo é classificar as amostras em das três classes.

* **Wine Dataset (load_wine)**: Um conjunto de dados de análise química de vinhos, com 178 amostras e 13 características. O objetivo é classificar os vinhos em uma das três classes.

* **Breast Cancer Wisconsin (Diagnostic) Dataset (load_breast_cancer)**: Um conjunto de dados de diagnóstico de câncer de mama, com 569 amostras e 30 características clínicas. O objetivo é prever se um tumor é benigno ou maligno.

* **Titanic Dataset (fetch_openml(name='titanic'))**: Um conjunto de dados com informações sobre passageiros do Titanic, como idade, sexo, classe social, etc. O objetivo é prever se um passageiro sobreviveu ao desastre.

* **Census Income Dataset**: Este conjunto de dados contém informações sobre adultos dos EUA, coletadas a partir do censo de 1994. Ele inclui características como idade, educação, ocupação, estado civil, entre outras. O objetivo é prever se a renda de um adulto excede 50,000 dólares por ano com base em suas características demográficas e socioeconômicas (Classificação binária: renda superior a $50,000 ou não).

* **Bank Marketing Dataset (fetch_openml(name='bank-marketing'))**: Este conjunto de dados contém informações relacionadas a campanhas de marketing direto de uma instituição bancária portuguesa. Inclui atributos como idade, ocupação, estado civil, educação, entre outros, e o objetivo é prever se um cliente subscreverá (ou não) um produto bancário (depósito a prazo).

* **MNIST Dataset (load_digits)**: Um conjunto de dados de dígitos escritos à mão, com 70.000 imagens em escala de cinza de 8x8 pixels. Cada imagem é um dígito de 0 a 9.

* **CIFAR-10 Dataset (fetch_openml(name='CIFAR_10'))**: Um conjunto de dados de imagens coloridas de 32x32 pixels, com 10 classes diferentes, como aviões, carros e pássaros.

In [2]:
# Problemas de Classificação
# Importar biblioteca para carregar conjuntos de dados
from sklearn.datasets import load_iris, load_breast_cancer, load_wine
from sklearn.datasets import fetch_openml

# Carregar conjuntos de dados para problemas de classificação
iris = load_iris()
wine = load_wine()
breast_cancer = load_breast_cancer()
titanic = fetch_openml(name='titanic')
census_income = fetch_openml(name='census-income')
bank_marketing = fetch_openml(name='bank-marketing')
# Conjunto contendo imagens - um pouco pesado
# mnist = load_digits()
# cifar_10 = fetch_openml(name='CIFAR_10')

  warn(
  warn(
  warn(
  warn(
  warn(


In [None]:
# Visualizar informações sobre os conjuntos de dados de classificação
print("Conjunto de dados Iris:")
print(iris.DESCR)

print("\nConjunto de dados Wine:")
print(wine.DESCR)

print("\nConjunto de dados Breast Cancer:")
print(breast_cancer.DESCR)

print("\nConjunto de dados Titanic:")
print(titanic.DESCR)

print("\nConjunto de dados Census Income:")
print(census_income.DESCR)

print("\nConjunto de dados Bank Marketing:")
print(bank_marketing.DESCR)

In [9]:
# Para obter informações do Dataset

# Carregar o conjunto de dados Titanic
titanic = fetch_openml(name='titanic')

# Número de amostras (registros)
num_samples = titanic.data.shape[0]

# Número de características (colunas)
num_features = titanic.data.shape[1]

# Nomes das características
feature_names = titanic.feature_names

# Descrição do conjunto de dados
dataset_description = titanic.DESCR

# Imprimir informações
print("Informações sobre o conjunto de dados Titanic:")
print("Número de amostras (registros):", num_samples)
print("Número de características (colunas):", num_features)
print("Nomes das características:", feature_names)
print("Descrição do conjunto de dados:")
print(dataset_description)

Informações sobre o conjunto de dados Titanic:
Número de amostras (registros): 2201
Número de características (colunas): 3
Nomes das características: ['Class', 'Age', 'Sex']
Descrição do conjunto de dados:
PMLB version of the Titanic dataset, which only uses 3 features. See version 1 for the complete version: https://www.openml.org/d/40945

Downloaded from openml.org.


  warn(
  warn(


2. **Regressão**:
* **Diabetes Dataset (load_diabetes)**: Um conjunto de dados de diagnóstico de diabetes, com 442 amostras e 10 características clínicas. O objetivo é prever a progressão da doença após um ano.

* **California Housing Dataset (fetch_california_housing)**: Um conjunto de dados de preços de habitação na Califórnia, com 20.640 amostras e 8 características geográficas. O objetivo é prever o valor médio das casas em um bairro.

* **Energy Efficiency Dataset**: Este conjunto de dados contém informações sobre a eficiência energética de edifícios. Ele inclui o desempenho térmico de diferentes edifícios, bem como características relacionadas ao projeto, como área de superfície, orientação, altura, entre outras. O Objetivo é prever a eficiência energética de um edifício com base em suas características de projeto.


In [11]:
# Problemas de Regressão
# Importar biblioteca para carregar conjuntos de dados
from sklearn.datasets import load_diabetes, fetch_california_housing
from sklearn.datasets import fetch_openml

# Carregar conjuntos de dados para problemas de regressão
diabetes = load_diabetes()
california_housing = fetch_california_housing()
energy_efficiency = fetch_openml(name='energy_efficiency')

  warn(
  warn(


In [14]:
# Visualizar informações sobre os conjuntos de dados de regressão
print("\nConjunto de dados Diabetes:")
print(diabetes.DESCR)

print("\nConjunto de dados California Housing:")
print(california_housing.DESCR)

print("\nConjunto de dados Energy Efficiency:")
print("Número de atributos:", energy_efficiency.data.shape[1])
print("Número de objetos:", energy_efficiency.data.shape[0])


Conjunto de dados Diabetes:
.. _diabetes_dataset:

Diabetes dataset
----------------

Ten baseline variables, age, sex, body mass index, average blood
pressure, and six blood serum measurements were obtained for each of n =
442 diabetes patients, as well as the response of interest, a
quantitative measure of disease progression one year after baseline.

**Data Set Characteristics:**

  :Number of Instances: 442

  :Number of Attributes: First 10 columns are numeric predictive values

  :Target: Column 11 is a quantitative measure of disease progression one year after baseline

  :Attribute Information:
      - age     age in years
      - sex
      - bmi     body mass index
      - bp      average blood pressure
      - s1      tc, total serum cholesterol
      - s2      ldl, low-density lipoproteins
      - s3      hdl, high-density lipoproteins
      - s4      tch, total cholesterol / HDL
      - s5      ltg, possibly log of serum triglycerides level
      - s6      glu, blood sugar

**3. Agrupamento:**

* **Iris Dataset (load_iris)**: Um conjunto de dados de medidas de pétalas e sépalas de três espécies de íris, com 150 amostras. O objetivo é agrupar as amostras em clusters semelhantes.

* **Wine Dataset (load_wine)**: Um conjunto de dados de análise química de vinhos, com 178 amostras e 13 características. O objetivo é agrupar as amostras em clusters semelhantes.

In [None]:
# Problemas de Agrupamento
# Importar biblioteca para carregar conjuntos de dados
from sklearn.datasets import load_iris
from sklearn.datasets import fetch_openml

# Carregar conjuntos de dados para problemas de agrupamento
iris = load_iris()
wine = load_wine()

**4. Associação:**
* **Market Basket Dataset**: Este conjunto de dados contém informações sobre transações de compras em um supermercado, onde cada linha representa uma transação e os itens comprados nessa transação.

Como o Market Basket Dataset não está disponível diretamente na biblioteca Scikit-learn ou no repositório OpenML, você precisará obter o conjunto de dados de uma fonte alternativa. Aqui está um exemplo de código que mostra como carregar o conjunto de dados a partir de um arquivo CSV usando a biblioteca pandas:


In [15]:
import pandas as pd

# Carregar o conjunto de dados Market Basket a partir de um arquivo CSV
market_basket_data = pd.read_csv('caminho/do/seu/arquivo/market_basket_dataset.csv')

# Visualizar as primeiras linhas do conjunto de dados
print(market_basket_data.head())

FileNotFoundError: [Errno 2] No such file or directory: 'caminho/do/seu/arquivo/market_basket_dataset.csv'

**Repositório OpenML**

Você pode acessar o repositório OpenML diretamente pelo site oficial em https://www.openml.org/. Neste site, você pode explorar uma ampla variedade de conjuntos de dados, experimentos e modelos de aprendizado de máquina compartilhados pela comunidade.

Além disso, você também pode acessar o repositório OpenML diretamente pela API do Python, que é fornecida pela biblioteca openml. Aqui está um exemplo simples de como usar a API para listar todos os conjuntos de dados disponíveis:

In [16]:
!pip install openml
import openml

# Listar todos os conjuntos de dados disponíveis
datasets = openml.datasets.list_datasets()

# Imprimir os primeiros 10 conjuntos de dados
for dataset_id, dataset in list(datasets.items())[:10]:
    default_target_attribute = dataset.get('default_target_attribute', 'N/A')
    print(f"ID: {dataset_id}, Nome: {dataset['name']}, Tarefa: {default_target_attribute}")

Collecting openml
  Downloading openml-0.14.2.tar.gz (144 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/144.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m143.4/144.5 kB[0m [31m4.3 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m144.5/144.5 kB[0m [31m3.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Installing backend dependencies ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Collecting liac-arff>=2.4.0 (from openml)
  Downloading liac-arff-2.5.0.tar.gz (13 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting xmltodict (from openml)
  Downloading xmltodict-0.13.0-py2.py3-none-any.whl (10.0 kB)
Collecting minio (from openml)
  Downloading minio-7.2.5-py3-none-any.whl (93 kB)
[2K     [90m━━━━━

  datasets = openml.datasets.list_datasets()


ID: 2, Nome: anneal, Tarefa: N/A
ID: 3, Nome: kr-vs-kp, Tarefa: N/A
ID: 4, Nome: labor, Tarefa: N/A
ID: 5, Nome: arrhythmia, Tarefa: N/A
ID: 6, Nome: letter, Tarefa: N/A
ID: 7, Nome: audiology, Tarefa: N/A
ID: 8, Nome: liver-disorders, Tarefa: N/A
ID: 9, Nome: autos, Tarefa: N/A
ID: 10, Nome: lymph, Tarefa: N/A
ID: 11, Nome: balance-scale, Tarefa: N/A


Para importar um conjunto de dados específico do repositório OpenML e obter informações sobre ele, você pode usar a função openml.datasets.get_dataset() e fornecer o ID do conjunto de dados que você deseja importar. Em seguida, você pode usar os métodos e atributos do objeto Dataset retornado para obter informações sobre o conjunto de dados.

In [17]:
import openml
# Importar o conjunto de dados com o ID específico (por exemplo, ID 5: arrhythmia)
dataset_id = 5
dataset = openml.datasets.get_dataset(dataset_id)

# Imprimir informações sobre o conjunto de dados
print("Nome do conjunto de dados:", dataset.name)
print("----------------------------------------")
print("Descrição do conjunto de dados:", dataset.description)
print("----------------------------------------")
print("Atributos do conjunto de dados:", dataset.features)
print("----------------------------------------")
print("Rótulo padrão do conjunto de dados:", dataset.default_target_attribute)

  dataset = openml.datasets.get_dataset(dataset_id)


Nome do conjunto de dados: arrhythmia
----------------------------------------
Descrição do conjunto de dados: **Author**: H. Altay Guvenir, Burak Acar, Haldun Muderrisoglu  
**Source**: [UCI](https://archive.ics.uci.edu/ml/datasets/arrhythmia)   
**Please cite**: [UCI](https://archive.ics.uci.edu/ml/citation_policy.html)

**Cardiac Arrhythmia Database**  
The aim is to determine the type of arrhythmia from the ECG recordings. This database contains 279 attributes, 206 of which are linear valued and the rest are nominal. 

Concerning the study of H. Altay Guvenir: "The aim is to distinguish between the presence and absence of cardiac arrhythmia and to classify it in one of the 16 groups. Class 01 refers to 'normal' ECG classes, 02 to 15 refers to different classes of arrhythmia and class 16 refers to the rest of unclassified ones. For the time being, there exists a computer program that makes such a classification. However, there are differences between the cardiologist's and the progr