https://medium.com/analytics-vidhya/skip-the-data-preprocessing-accessing-12-ready-to-go-datasets-829e53f2d78

# CIFAR10 (cats & dogs)

In [11]:
import numpy as np
import keras
from keras.datasets import cifar10

(x_train, y_train), (x_test, y_test) = cifar10.load_data()

mask_train = np.logical_or(y_train == 3, y_train == 5).ravel()
x_train_filtered = x_train[mask_train]
y_train_filtered = y_train[mask_train]

mask_test = np.logical_or(y_test == 3, y_test == 5).ravel()
x_test_filtered = x_test[mask_test]
y_test_filtered = y_test[mask_test]

In [12]:
x_train_flattened = x_train_filtered.reshape(x_train_filtered.shape[0], -1)
x_test_flattened = x_test_filtered.reshape(x_test_filtered.shape[0], -1)

from sklearn.ensemble import RandomForestClassifier

clf = RandomForestClassifier(n_estimators=100)
clf.fit(x_train_flattened, y_train_filtered.ravel())
accuracy = clf.score(x_test_flattened, y_test_filtered.ravel())
print("Accuracy:", accuracy)


Accuracy: 0.653


# IMDB reviews

In [25]:
from keras.datasets import imdb
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier

(x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz",num_words=None,skip_top=0, maxlen=None,seed=1,start_char=1,oov_char=2,index_from=3)

'''
num_words=None: Określa maksymalną liczbę słów, które mają zostać uwzględnione na podstawie częstości występowania słowa. Jeśli jest ustawione na None, zostaną załadowane wszystkie słowa.

skip_top=0: Ignoruje określoną liczbę najczęściej występujących słów. Dla skip_top=0 nie ignoruje żadnych słów.

maxlen=None: Maksymalna długość recenzji do załadowania. Recenzje przekraczające tę długość zostaną przycięte. Jeśli jest None, załaduje recenzje o dowolnej długości.

seed=1: Wartość nasionka używana do mieszania danych.

start_char=1: Wartość charakterystyczna, która oznacza początek sekwencji w recenzji.

oov_char=2: Wartość charakterystyczna używana dla słów, które nie zostały uwzględnione z powodu ograniczenia num_words lub skip_top.

index_from=3: Indeks, od którego zaczynają się rzeczywiste słowa w słowniku. Oznacza to, że pierwsze trzy indeksy w słowniku są zarezerwowane dla start_char, oov_char oraz nieokreślonego znaku końca sekwencji.
'''


# Odwróć indeks słownika IMDB, aby uzyskać mapowanie z indeksu na słowo
word_index = imdb.get_word_index()
reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])

# Dekoduj recenzje do tekstów
decoded_train = [" ".join([reverse_word_index.get(i - 3, "?") for i in review]) for review in x_train] #Dlaczego i - 3? - trzy pierwsze indeksy są zarezerwowane dla wartości specjalnych: start sekwencji, nieznane słowo i koniec sekwencji, więc indeksy rzeczywistych słów w słowniku są przesunięte o 3.
decoded_test = [" ".join([reverse_word_index.get(i - 3, "?") for i in review]) for review in x_test]

# Wektoryzacja za pomocą BoW
vectorizer = CountVectorizer(max_features=5000)  # Limit do 5000 najczęstszych słów
x_train_vec = vectorizer.fit_transform(decoded_train)
x_test_vec = vectorizer.transform(decoded_test)

# Wektoryzacja za pomocą TF-IDF
# vectorizer = TfidfVectorizer(max_features=5000)
# x_train_vec = vectorizer.fit_transform(decoded_train)
# x_test_vec = vectorizer.transform(decoded_test)

clf = RandomForestClassifier(n_estimators=100)
clf.fit(x_train_vec, y_train)

accuracy = clf.score(x_test_vec, y_test)
print("Accuracy:", accuracy)


Accuracy: 0.8432


In [24]:
decoded_train[5]

'? on the day of the california presidential primary between midnight and 1 00 am the spy victor rovner sends a message from kuala lumpur to usa meanwhile in los angeles the federal agent jack bauer has returned to his family and is having trouble at home with his teenage daughter kimberly who blames her mother teri for putting jack out of the house teri and jack decide to have a serious conversation with kim and they discover that the girl has run away home while trying to solve his domestic problem jack is called to his counter terrorist unit by his colleague nina myers for a meeting with their chief richard walsh who discloses a menace against the life of senator david palmer who is running for president and they need to find the shooter later walsh has a private conversation with jack and tells that there is a conspiracy in the agency against david palmer and assigns jack to find the conspirators when an airplane explodes over the mojave desert jack has one additional issue to worr

# Wisconsin Breast Cancer Diagnostic Dataset

In [31]:
from sklearn import datasets
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

data = datasets.load_breast_cancer()
'''
data.data: Macierz, w której każdy wiersz reprezentuje próbkę, a każda kolumna reprezentuje cechę. W tym zestawie danych jest 569 próbek i 30 cech.

data.target: Lista etykiet dla każdej próbki. Wartość 0 oznacza złośliwy guz, a wartość 1 oznacza łagodny guz.

data.feature_names: Lista nazw cech.

data.target_names: Lista nazw klas. W tym przypadku to ['malignant' (złośliwy), 'benign' (łagodny)].

data.DESCR: Pełny opis zestawu danych.
'''

X, y = data.data, data.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train, y_train)

y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

Accuracy: 0.9707602339181286


In [30]:
len(data.target)

569