O `scikit-learn`, uma biblioteca popular de aprendizado de máquina em Python, oferece vários conjuntos de dados (_datasets_) para fins de teste e aprendizado. Estes conjuntos de dados são divididos em três categorias principais:

1. **Conjuntos de Dados Carregados**: São pequenos conjuntos de dados padrão que podem ser carregados usando funções específicas do scikit-learn. Eles são úteis para exemplos rápidos e testes de algoritmos.

2. **Conjuntos de Dados de Amostra Gerados**: O scikit-learn pode gerar uma variedade de conjuntos de dados sintéticos de acordo com padrões específicos, úteis para testar algoritmos em condições controladas.

3. **Conjuntos de Dados do Mundo Real**: O `scikit-learn` oferece acesso a alguns conjuntos de dados maiores, geralmente usados em problemas do mundo real.

### Conjuntos de Dados Carregados

Alguns exemplos de conjuntos de dados carregados incluem:

- `load_boston()`: Preços de casas em Boston (este conjunto de dados é considerado obsoleto e não é recomendado para uso em análises novas).
- `load_iris()`: O famoso conjunto de dados Iris, um clássico na classificação.
- `load_digits()`: Conjunto de dígitos escritos à mão, útil para experimentos de classificação de imagens.
- `load_wine()`: Dados para classificação de vinhos.
- `load_breast_cancer()`: Dados para classificação de câncer de mama.

### Conjuntos de Dados de Amostra Gerados

Exemplos incluem:

- `make_classification()`: Gera um conjunto de dados de classificação aleatório.
- `make_regression()`: Gera um conjunto de dados de regressão aleatório.
- `make_blobs()`: Gera dados para agrupamento em grupos isotrópicos gaussianos.

### Conjuntos de Dados do Mundo Real

O scikit-learn facilita o acesso a alguns conjuntos de dados maiores através de funções que baixam e carregam esses conjuntos de dados. Exemplos incluem:

- `fetch_20newsgroups()`: Dados de grupos de notícias para experimentos de classificação de texto.
- `fetch_openml()`: Baixa dados do [OpenML](https://www.openml.org), uma plataforma online para conjuntos de dados de aprendizado de máquina.
- `fetch_lfw_people()`: Conjunto de dados de rostos de pessoas famosas para reconhecimento facial.

### Exemplo de Uso

Aqui está um exemplo de como carregar o conjunto de dados Iris e visualizar suas características básicas:

```python
from sklearn.datasets import load_iris
import pandas as pd

# Carregar o conjunto de dados Iris
iris = load_iris()

# Converter para DataFrame para facilitar a visualização
iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)

# Exibir as primeiras linhas do DataFrame
print(iris_df.head())

# Informações sobre o conjunto de dados
print("\nDescrição do Conjunto de Dados:\n", iris.DESCR)
```

Este código carrega o conjunto de dados Iris, converte os dados para um DataFrame do pandas (uma estrutura de dados tabular popular em Python), e imprime as primeiras linhas do DataFrame, bem como uma descrição do conjunto de dados.

In [1]:
import openml
import pandas as pd




In [2]:
openml.datasets.list_datasets(output_format='dataframe')

Unnamed: 0,did,name,version,uploader,status,format,MajorityClassSize,MaxNominalAttDistinctValues,MinorityClassSize,NumberOfClasses,NumberOfFeatures,NumberOfInstances,NumberOfInstancesWithMissingValues,NumberOfMissingValues,NumberOfNumericFeatures,NumberOfSymbolicFeatures
2,2,anneal,1,1,active,ARFF,684.0,7.0,8.0,5.0,39.0,898.0,898.0,22175.0,6.0,33.0
3,3,kr-vs-kp,1,1,active,ARFF,1669.0,3.0,1527.0,2.0,37.0,3196.0,0.0,0.0,0.0,37.0
4,4,labor,1,1,active,ARFF,37.0,3.0,20.0,2.0,17.0,57.0,56.0,326.0,8.0,9.0
5,5,arrhythmia,1,1,active,ARFF,245.0,13.0,2.0,13.0,280.0,452.0,384.0,408.0,206.0,74.0
6,6,letter,1,1,active,ARFF,813.0,26.0,734.0,26.0,17.0,20000.0,0.0,0.0,16.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
45751,45751,padding-attack-dataset-2023-04-28-DamnVulnerab...,1,2086,active,arff,20123.0,,19838.0,11.0,95.0,219920.0,0.0,0.0,94.0,0.0
45752,45752,padding-attack-dataset-2023-04-28-OpenSSL097a-...,1,2086,active,arff,20376.0,,19859.0,11.0,125.0,219913.0,219912.0,6597360.0,124.0,0.0
45753,45753,padding-attack-dataset-2023-04-28-OpenSSL097b-...,1,2086,active,arff,20257.0,,19781.0,11.0,125.0,219915.0,219914.0,6597420.0,124.0,0.0
45754,45754,padding-attack-dataset-2023-04-28-OpenSSL111t-...,1,2086,active,arff,20216.0,,19726.0,11.0,95.0,219900.0,0.0,0.0,94.0,0.0


In [3]:
import openml


# Listar conjuntos de dados disponíveis
datasets = openml.datasets.list_datasets(output_format='dataframe')

# Filtrar conjuntos de dados com base em uma palavra-chave na descrição
keyword = 'date'
filtered_datasets = datasets[datasets['name'].str.contains(keyword, case=False)]

print(filtered_datasets[['name']])


                                  name
43600  Updated-Wine-Enthusiast-Reviews


In [4]:
from sklearn.datasets import fetch_openml
# Baixar um conjunto de dados do OpenML pelo nome ou ID. 
dataset = fetch_openml(name='Updated-Wine-Enthusiast-Reviews')



In [5]:
# Converter para DataFrame para facilitar a visualização
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)

In [6]:
df.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_photo,taster_twitter_handle,title,variety,vintage,winery
0,Portugal,This is a deliciously creamy wine with light w...,Assobio Branco,87,14.0,Douro,,,Roger Voss,https://253qv1sx4ey389p9wtpp9sj0-wpengine.netd...,vossroger,Quinta dos Muras 2016 Assobio Branco White (Do...,Portuguese White,2016,Quinta dos Muras
1,US,"Black plum juice, black pepper, caramel and sm...",,87,25.0,California,Paso Robles,Central Coast,Matt Kettmann,https://253qv1sx4ey389p9wtpp9sj0-wpengine.netd...,mattkettmann,Western Slope 2014 Cabernet Sauvignon (Paso Ro...,Cabernet Sauvignon,2014,Western Slope
2,Georgia,Aromas of green apple and white flowers prepar...,,87,14.0,Lechkhumi,,,Mike DeSimone,https://253qv1sx4ey389p9wtpp9sj0-wpengine.netd...,worldwineguys,Teliani Valley 2015 Tsolikouri (Lechkhumi),Tsolikouri,2015,Teliani Valley
3,Kosovo,"This wine has aromas of black berry, dried red...",,87,13.0,Rahoveci Valley,,,Jeff Jenssen,https://253qv1sx4ey389p9wtpp9sj0-wpengine.netd...,worldwineguys,Stone Castle 2013 Shiraz (Rahoveci Valley),Shiraz,2013,Stone Castle
4,Italy,"A blend of organically cultivated Groppello, M...",San'Emiliano Chiaretto,87,13.0,Lombardy,Valtnesi,,Kerin OKeefe,https://253qv1sx4ey389p9wtpp9sj0-wpengine.netd...,kerinokeefe,Pratello 2016 San'Emiliano Chiaretto Rosato (V...,Rosato,2016,Pratello
