<h2>Análise de Gênero de Autores:</h2>
    <li>Fazer um experimento de classificação de texto e utilizar as métricas de classificação
    <li>Quem escreve mais páginas, homens ou mulheres ou não há diferença? (Fazer um gráfico)
    <li>Como é a distribuição de gênero de livro para homens e mulheres? (Fazer um gráfico)
    <li>Com todos os atributos, fazer um experimento para identificar gênero do autor. Não utilize a coluna gênero do autor nem nome do autor nem id do autor como atributo.
    <li>Fazer alguma visualização com wordcloud

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

In [None]:
df = pd.read_csv('good_reads_final.csv')

In [None]:
df.columns

<h2>Limpando os Dados

In [None]:
df.drop(columns=['book_fullurl','author_page_url'], inplace=True)

In [None]:
df['pages'] = np.where(df['pages'] == '1 page', 1, df['pages'])
df['birthplace'] = df['birthplace'].str.replace('\\n', '')
df['author_name'] = df['author_name'].str.replace('\\n', '')
df['book_title'] = df['book_title'].str.replace('\\n', '')
df.publish_date = df.publish_date.str.extract('(^[\d]{1,4})').astype('category')

In [None]:
df['author_average_rating'] = df['author_average_rating'].astype(float)
df['author_gender'] = df['author_gender'].astype(str).astype('category')
df['author_genres'] = df['author_genres'].astype(str).astype('category')
df['author_id'] = df['author_id'].astype(int).astype('category')
df['author_name'] = df['author_name'].astype(str)
df['author_rating_count'] = df['author_rating_count'].astype(int)
df['author_review_count'] = df['author_review_count'].astype(int)
df['book_id'] = df['book_id'].astype(str).astype('category')
df['birthplace'] = df['birthplace'].astype(str)
df['book_average_rating'] = df['book_average_rating'].astype(float)
df['book_title'] = df['book_title'].astype(str)
df['genre_1'] = df['genre_1'].astype(str).astype('category')
df['genre_2'] = df['genre_2'].astype(str).astype('category')
df['num_ratings'] = df['num_ratings'].astype(int)
df['num_reviews'] = df['num_reviews'].astype(int)
df['pages'] = df['pages'].astype(int)
df['score'] = df['score'].astype(float)

In [None]:
df.head()

In [None]:
df.groupby('author_gender',observed=True).count()['pages'].plot(kind='bar',figsize=(12,5)).set_title('Total de páginas por gênero')

In [None]:
plt.figure(figsize=(12,5))
sns.lineplot(df.dropna().groupby(['author_gender','publish_date'],observed=True,as_index=True).sum(),x='publish_date',y='pages',hue='author_gender').set_title('Total de páginas por gênero e ano de publicação')
plt.xticks([])

In [None]:
plt.figure(figsize=(30,5))
sns.boxplot(x='genre_1',y='pages',data=df,hue='author_gender', palette='rainbow')
plt.xticks(rotation=90)

In [None]:
plt.figure(figsize=(30,5))
sns.boxplot(x='genre_2',y='pages',data=df,hue='author_gender', palette='rainbow')
plt.xticks(rotation=90)

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.model_selection import cross_val_score
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from skopt import BayesSearchCV
from skopt.space import Real, Categorical, Integer
from sklearn.model_selection import train_test_split

In [51]:
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint, uniform

# Define a grade de parâmetros para cada modelo
nb_params = {
    'clf__alpha': uniform(0.01, 1)
}

lr_params = {
    'clf__C': uniform(0.1, 100),
    'tfidf__ngram_range': [(1, 1), (1, 2), (2, 2)],
    'tfidf__use_idf': [True, False],
    'tfidf__norm': ['l1', 'l2']
}

rf_params = {
    'clf__n_estimators': randint(10, 100),
    'clf__max_depth': randint(10, 100)
}

svm_params = {
    'clf__C': uniform(0.1, 100),
    'clf__kernel': ['linear', 'rbf', 'poly']
}

# Define uma grade de parâmetros para o pipeline
param_space = {
    'clf': [MultinomialNB(), LogisticRegression(max_iter=1000), 
            RandomForestClassifier(n_jobs=-1), SVC()],
    'tfidf__max_features': [10000, 50000, 100000],
}

In [52]:
search_spaces = []

for clf, params in zip(param_space['clf'], [nb_params, lr_params, rf_params, svm_params]):
    clf_name = clf.__class__.__name__.lower()
    clf_params = {f"{clf_name}__{key}": value for key, value in params.items()}
    clf_params[f"clf"] = [clf]
    search_spaces.append({**param_space, **clf_params})


In [53]:
pipe = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', MultinomialNB())
])

In [54]:
# Divide os dados em conjunto de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(df['book_title'], df['genre_1'], test_size=0.2, random_state=42)

In [55]:
opt = BayesSearchCV(
    pipe,
    param_space,
    n_iter=20,
    cv=5,
    n_jobs=-1,
    scoring='accuracy',
    random_state=42
)
opt.fit(X_train, y_train)

In [56]:
print("Melhores hiperparâmetros:")
for param in opt.best_params_:
    print("{}: {}".format(param, opt.best_params_[param]))

Melhores hiperparâmetros:
clf: RandomForestClassifier(n_jobs=-1)
tfidf__max_features: 10000


In [57]:
y_pred = opt.predict(X_test)
print("Acurácia: {:.2f}%".format(accuracy_score(y_test, y_pred) * 100))
print("Precisão: {:.2f}%".format(precision_score(y_test, y_pred, average='macro') * 100))
print("Recall: {:.2f}%".format(recall_score(y_test, y_pred, average='macro') * 100))
print("F1: {:.2f}%".format(f1_score(y_test, y_pred, average='macro') * 100))

Acurácia: 53.16%
Precisão: 51.90%
Recall: 32.73%
F1: 37.65%


In [60]:
from sklearn.metrics import confusion_matrix

cm = confusion_matrix(y_test, y_pred)
cm

array([[  7,   0,   0, ...,   0,   0,   1],
       [  0,   2,   0, ...,   0,   0,   1],
       [  0,   0,   0, ...,   0,   0,   0],
       ...,
       [  0,   0,   0, ...,   5,   0,   1],
       [  0,   0,   0, ...,   0,   1,   0],
       [  1,   0,   0, ...,   0,   1, 284]], dtype=int64)