# Этика искусственного интеллекта. Домашнее задание

## Задание  

В конце 2017 года платформа Civil Comments закрылась и опубликовала около 2 миллионов комментариев из социальных сетей, чтобы специалисты по данным со всего мира могли работать вместе над исследованием способов смягчения предвзятости в текстовых данных.

Таблица с комментариями также прилагается: data.csv. Мы будем работать с тысячами комментариев, где каждый комментарий помечен как «токсичный» или «нетоксичный».

В таблице data.csv в колонке comment_text написаны сами комментарии, с которыми нам предстоит работать. В колонке target стоят вероятности того, что комментарий токсичен. Давайте сделаем предпосылку, что комментарий считается токсичным, если вероятность выше 0.7.

Выполните код ниже, чтобы отделить колонки и преобразовать вероятности в бинарные величины, где 1 — токсичный комментарий, а 0 — нетоксичный комментарий.

In [2]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer


# Get the same results each time
np.random.seed(0)


# Load the training data
data = pd.read_csv("content/data.csv")
comments = data["comment_text"]
target = (data["target"]>0.7).astype(int)

In [5]:
data.head()

Unnamed: 0,id,target,comment_text,severe_toxicity,obscene,identity_attack,insult,threat,asian,atheist,...,article_id,rating,funny,wow,sad,likes,disagree,sexual_explicit,identity_annotator_count,toxicity_annotator_count
0,59856,0.893617,haha you guys are a bunch of losers.,0.021277,0.0,0.021277,0.87234,0.0,0.0,0.0,...,2006,rejected,0,0,0,1,0,0.0,4,47
1,239607,0.9125,Yet call out all Muslims for the acts of a few...,0.05,0.2375,0.6125,0.8875,0.1125,0.0,0.0,...,26670,approved,0,0,0,1,0,0.0,4,80
2,239612,0.830769,This bitch is nuts. Who would read a book by a...,0.107692,0.661538,0.338462,0.830769,0.0,0.0,0.0,...,26674,rejected,0,0,0,0,0,0.061538,4,65
3,240311,0.96875,You're an idiot.,0.03125,0.0625,0.0,0.96875,0.0,,,...,32846,rejected,0,0,0,0,0,0.0,0,32
4,240329,0.9,Who cares!? Stark trek and Star Wars fans are ...,0.1,0.2,0.0,0.9,0.0,,,...,32846,rejected,0,0,0,0,0,0.3,0,10


In [7]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90902 entries, 0 to 90901
Data columns (total 45 columns):
 #   Column                               Non-Null Count  Dtype  
---  ------                               --------------  -----  
 0   id                                   90902 non-null  int64  
 1   target                               90902 non-null  float64
 2   comment_text                         90902 non-null  object 
 3   severe_toxicity                      90902 non-null  float64
 4   obscene                              90902 non-null  float64
 5   identity_attack                      90902 non-null  float64
 6   insult                               90902 non-null  float64
 7   threat                               90902 non-null  float64
 8   asian                                21687 non-null  float64
 9   atheist                              21687 non-null  float64
 10  bisexual                             21687 non-null  float64
 11  black                       

In [6]:
comments.info()

<class 'pandas.core.series.Series'>
RangeIndex: 90902 entries, 0 to 90901
Series name: comment_text
Non-Null Count  Dtype 
--------------  ----- 
90902 non-null  object
dtypes: object(1)
memory usage: 710.3+ KB


In [8]:
target.info()

<class 'pandas.core.series.Series'>
RangeIndex: 90902 entries, 0 to 90901
Series name: target
Non-Null Count  Dtype
--------------  -----
90902 non-null  int64
dtypes: int64(1)
memory usage: 710.3 KB


In [10]:
comments.isna().sum()

np.int64(0)

In [12]:
target.isna().sum()

np.int64(0)

### Задание 1  

Теперь разделим наши данные на train и test. Пусть в тест у нас пойдет 30% данных. Для этого можете использовать библиотеку train_test_split из sklearn.

In [13]:
X_train, X_test, y_train, y_test = train_test_split(comments, target, test_size=0.3, random_state=42)

In [15]:
print('Размеры выборок')
print(f'X_train: {X_train.shape}, y_train: {y_train.shape}')
print(f'X_test:: {X_test.shape}, y_test: {y_test.shape}')

Размеры выборок
X_train: (63631,), y_train: (63631,)
X_test:: (27271,), y_test: (27271,)


In [16]:
X_train

Unnamed: 0,comment_text
12294,Muslim terrorist.
57506,It's ironic that these are the same groups tha...
56118,Star Wars has a wow factor that Star Trek does...
28624,The settlement is 100% appropriate.\nEnding th...
63482,Where did it say to cover your cough with your...
...,...
6265,You fit perfectly in Clinton's libdem basket o...
54886,I'll bet those independent contractors have no...
76820,"""Lower tier"" people, especially the young, wer..."
860,The Devil made her do it and the man too becau...


In [18]:
y_train

Unnamed: 0,target
12294,1
57506,0
56118,0
28624,1
63482,0
...,...
6265,1
54886,0
76820,0
860,1


In [45]:
y_train.value_counts()

Unnamed: 0_level_0,count
target,Unnamed: 1_level_1
0,31927
1,31704


### Задание 2  

в наших данных есть определенная проблема — это разные типы данных. Предсказывать мы хотим бинарную величину: 1 и 0. А на вход мы подаем текст, а не числа. Поэтому нам нужно как-то сконвертировать текст в число.

Давайте это сделаем!

Вам понадобится функция CountVectorizer: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html

Преобразуйте текст, который вы поделили на train и test, в числовой формат с помощью этой функции.

In [276]:
vec = CountVectorizer(max_features=180)

X_train_vectorized = vec.fit_transform(X_train)
X_test_vectorized = vec.fit_transform(X_test)

print('Размеры выборок после векторизации')
print(f'X_train: {X_train_vectorized.shape}, y_train: {y_train.shape}')
print(f'X_test:: {X_test_vectorized.shape}, y_test: {y_test.shape}')

Размеры выборок после векторизации
X_train: (63631, 180), y_train: (63631,)
X_test:: (27271, 180), y_test: (27271,)


### Задание 3  

Теперь в качестве модели, которая будет классифицировать нам комментарии на токсичные и нетоксичные, возьмем логистическую регрессию.

Импортируйте из библиотеки sklearn логистическую регрессию LogisticRegression с параметром max_iter=2000. Для оценки модели возьмите метрику accuracy и посчитайте ее.

In [277]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

lg = LogisticRegression(max_iter=2000, warm_start=True)
lg.fit(X_train_vectorized, y_train)


y_pred = lg.predict(X_test_vectorized)

accuracy = accuracy_score(y_test, y_pred)

print(f'accuracy: {accuracy:.3f}')

accuracy: 0.570


Точность больше 50%

### Задание 4  

Чтобы мы смогли протестировать разные комментарии, которые приходят в голову, пропишите ниже функцию, для которой на вход мы бы подавали наш комментарий, а на выход получали предсказание, насколько от 0 до 1 комментарий является токсичным.

In [278]:
model = lg

def is_comment_toxic(msg):
    score = model.predict(vec.transform([msg]))
    print(f'Предсказание: {score}')
    if score == 1:
        print('Токсичный комментарий')
    else:
        print('Нетоксичный комментарий')


### Задание 5  

Попробуйте предсказать, токсичен ли комментарий «Apples are stupid». Потом предскажите, токсичен ли комментарий «I love apples».

In [279]:
is_comment_toxic('Apples are stupid')

Предсказание: [1]
Токсичный комментарий


In [280]:
is_comment_toxic('I love apples')

Предсказание: [0]
Нетоксичный комментарий


### Задание 6

Если ваш алгоритм работает корректно, то комментарий «I love apples» должен быть определен как нетоксичный, а «Apples are stupid» — как токсичный.

А теперь перейдем к пониманию того, как модель принимает решения: модель присваивает каждому из примерно 58 000 слов коэффициент, причем более высокие коэффициенты обозначают слова, которые модель считает более токсичными. Выведите десять слов, которые считаются наиболее токсичными, а также их коэффициенты.

Hint: в этом вам поможет атрибут vectorizer.vocabulary_.keys() и classifier.coef_

In [281]:
vec.vocabulary_.keys()

dict_keys(['not', 'to', 'your', 'but', 'am', 'that', 'we', 'may', 'have', 'point', 'where', 'of', 'us', 'our', 'like', 'most', 'more', 'than', 'two', 'will', 'be', 'no', 'long', 'in', 'an', 'some', 'way', 'with', 'those', 'so', 'as', 'can', 'did', 'you', 'the', 'are', 'because', 'stupid', 'people', 'them', 'and', 'their', 'year', 'let', 'me', 'it', 'down', 'for', 'is', 'go', 'this', 'one', 'time', 'all', 'has', 'keep', 'many', 'day', 'they', 'work', 'also', 'out', 'by', 'which', 'or', 'at', 'canada', 'idiot', 'do', 'right', 'only', 'thing', 're', 'good', 'from', 'would', 'make', 'if', 'had', 'world', 'better', 'there', 'money', 'off', 'here', 'going', 'just', 'fact', 'other', 'didn', 'up', 'who', 'was', 'even', 'then', 'him', 'his', 'don', 'ever', 'someone', 'really', 'want', 'now', 'made', 'public', 'too', 'idiots', 'what', 'government', 'see', 'about', 'its', 'new', 'think', 'another', 'need', 'little', 'could', 'on', 'he', 'believe', 'own', 'years', 'left', 'when', 'very', 'much', '

In [282]:
# Получаем слова из словаря векторайзера
words = vec.vocabulary_

# Получаем коэффициенты модели
# 0 элемент, так как model.coef_ возвращает 2D массив для бинарной классификации
coefs = model.coef_[0]

# Создаем список кортежей (коэффициент, слово) для удобной сортировки
word_coef = [(coefs[ind], word) for word, ind in words.items()]

# Сортируем по убыванию коэффициента и берем топ-10
top_10_toxic = sorted(word_coef, reverse=True)[:10]

# Выводим топ-10 токсичных слов и их коэффициенты
print("Топ-10 наиболее токсичных слов:")
for coef, word in top_10_toxic:
    print(f"{word}: {coef:.4f}")

Топ-10 наиболее токсичных слов:
idiots: 5.9336
something: 5.4948
white: 0.9243
make: 0.5645
them: 0.4902
let: 0.3839
time: 0.3757
any: 0.3061
every: 0.2817
long: 0.2701


### Задание 7  

Взгляните на самые токсичные слова из задания 6. Вызывают ли у вас удивление какие-нибудь из них? Есть ли слова, которых, кажется, не должно быть в списке?

Первое слово в топ-10 не вызывает вопросов, однако остальные сложно отнести к токсичным. Они таковыми не являются. Слов something, white, make, them, let, time, any, every, long вероятно не должны быть в списке токсичных.

### Задание 8  

Давайте попробуем протестировать модель на ее предвзятость, например, к религии.
Давайте посмотрим, как ваш алгоритм классифицирует следующие комментарии:

"I have a christian friend"  
"I have a muslim friend"  
"I have a white friend"  
"I have a black friend"  
Что думаете о получившихся результатах? Есть ли у модели bias? Этичен ли он?

In [283]:
is_comment_toxic('I have a christian friend')
is_comment_toxic('I have a muslim friend')
is_comment_toxic('I have a white friend')
is_comment_toxic('I have a black friend')

Предсказание: [0]
Нетоксичный комментарий
Предсказание: [0]
Нетоксичный комментарий
Предсказание: [1]
Токсичный комментарий
Предсказание: [0]
Нетоксичный комментарий


У модели есть предвзятость, но не к слову muslim, а к слову white. Сказать этичен ли он. На мой взгляд использовать black/white в контексте типа кожи не этично. Но в данном случае мы не знаем, в каких словосочетаниях использовались данные слова. Поэтому нельзя говорить о том, что модель неэтична без дополнительной информации

### Задание 9  

Вы заметили, что комментарии, относящиеся к исламу, с большей вероятностью будут токсичными, чем комментарии, относящиеся к другим религиям, поскольку онлайн-сообщество исламофобно. Какой тип предвзятости это может внести в вашу модель?

Если модель будет предвзята на комментариях, относящихся к исламу, то модель будет иметь религиозный тип предвзятости. Модель может несправедливо завышать долю "токсичности" комментариев об исламе, по сравнению с другими религиями.

В таком случае нужно обратить внимание на критерий этики "равные возможности" и постараться сделать так, чтобы доля комментариев, которые должны быть отмечены с помощью модели как «токсичные», и которые правильно выбраны с помощью модели, одинакова для каждой группы регилий.
Нам нужно, чтобы получилась одинаковая чувствительность для всех комментариев о разных религиях, тогда модель не будет ошибочно чаще отмечать комменатрии об одной религиозной группе как токсичные.

### Задание 10  

Подумайте о том, как можно улучшить алгоритм, чтобы сделать его более этичным. Напишите 1–2 идеи.

1) Отдельные слова не всегда могут быть токсичными, а негативную окраску они могут преобретать именно в словосочетании, в контексте. Можно попробовать векторизацию не по словам, а по группам слов (например два-три слова в словосочетании).
  
2) Можно попробовать добавить стоп-слова, которые имеют высокий коэффициент, но точно не являются токсичнымми. Тогда необходимо настроить фильтр, чтобы такие слова не относитьб к токсичным.