### 1. Классификация текста - Анализ эмоциональной окраски

В этом задании мы будем использовать что-то, что называется логистическая регрессия, чтобы узнать, какие эмоции в тексте. Это похоже на то, как в школе мы анализируем, когда кто-то говорит что-то хорошее или плохое. 

#### Шаги:

1. **Соберем данные**: Сначала нам нужно собрать разные предложения, чтобы наша модель могла научиться.


2. **Векторизуем текст**: Затем мы используем специальный инструмент под названием `CountVectorizer`. Он помогает превратить текст в числа, чтобы модель могла их понимать

3. **Обучим модель**: После этого мы учим нашу модель с помощью логистической регрессии. 


4. **Проверим прогнозы**: Наконец, мы проверим, насколько хорошо наша модель работает на тестовых данных.



In [22]:
# Импорт необходимых библиотек
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

# Шаг 1: Собираем данные
# Создадим простой набор данных для примера
data = {
    'text': [
        "I'm happy", 
        "It's horrible and sad", 
        "I like this movie", 
        "Today was a bad day", 
        "I'm so excited to hear this news", 
        "I don't like this book"
    ],
    'label': [1, 0, 1, 0, 1, 0]  # 1 - позитивные, 0 - негативные
}

# Создаем DataFrame
df = pd.DataFrame(data)

# Шаг 2: Векторизуем текст
X = df['text']  # Признаки
y = df['label']  # Целевая переменная

# Используем CountVectorizer для векторизации текста
vectorizer = CountVectorizer()
X_vectorized = vectorizer.fit_transform(X)

# Шаг 3: Обучаем модель
X_train, X_test, y_train, y_test = train_test_split(X_vectorized, y, test_size=0.2, random_state=42)
model = LogisticRegression()
model.fit(X_train, y_train)

# Шаг 4: Проверяем прогнозы модели
y_pred = model.predict(X_test)

# Оценка модели
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)

print(f"Точность модели: {accuracy:.2f}")
print("Отчет по классификации:\n", report)

# Пример предсказаний для новых предложений
new_sentences = [
    "I'm so happy",
    "It's just horrible",
    "I don't like this movie"
]

new_vectors = vectorizer.transform(new_sentences)
predictions = model.predict(new_vectors)

print("Предсказания для новых предложений:", predictions)  # 1 - позитивные, 0 - негативные


Точность модели: 0.50
Отчет по классификации:
               precision    recall  f1-score   support

           0       0.50      1.00      0.67         1
           1       0.00      0.00      0.00         1

    accuracy                           0.50         2
   macro avg       0.25      0.50      0.33         2
weighted avg       0.25      0.50      0.33         2

Предсказания для новых предложений: [1 0 1]


  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


### 2. Нейросети

Нейросети — это такие умные штуки, которые пытаются работать, как мозг человека. Они состоят из множества маленьких "нейронов", которые соединены между собой. Каждый нейрон делает какую-то работу и передает результат дальше.

Есть разные типы нейросетей:

Полносвязные: Тут все нейроны связаны со всеми.
Свёрточные: Используются, чтобы распознавать картинки, такие как котики или собачки.
Рекуррентные: Они работают с последовательностями, как текст или музыка.
Пример простой нейросети на Keras:





In [14]:
from keras.models import Sequential
from keras.layers import Dense

# Создаем модель
model = Sequential()

# Добавляем слои нейронов
model.add(Dense(12, input_dim=8, activation='relu'))
model.add(Dense(8, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

# Компилируем модель
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

### 3. Логистическая регрессия

Логистическая регрессия — это такой метод, который помогает решать, к какому классу принадлежит что-то, например, хорошее или плохое. Это как если бы вы решали, брать ли вам на ужин пиццу или овощи. Она использует специальную функцию, чтобы решать, какова вероятность того, что это будет одно или другое.

Основная формула выглядит как-то так:

\[
P(Y=1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1X_1 + \dots + \beta_nX_n)}}
\]

Пример использования логистической регрессии:

```python
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

# Загружаем данные
iris = load_iris()
X, y = iris.data, iris.target

# Делим данные на тренировочные и тестовые
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Обучаем модель
model = LogisticRegression()
model.fit(X_train, y_train)

# Оцениваем точность 
accuracy = model.score(X_test, y_test)
print(f"Точность модели: {accuracy:.2f}")
```

### 4. Классификация писем - Spam Detection

Когда мы хотим проверить письма на спам, есть методы predict и predict_proba, которые помогают нам сразу увидеть, что это спам или нет. Мы можем классифицировать много писем одновременно.

Пример:

In [15]:

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

# Пример данных
emails = [
    "Win a million dollars now!", 
    "Meeting at 3 PM today", 
    "Discount on your favorite items!"
]

# Преобразуем текст в векторы
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(emails)

# Обучаем модель
model = MultinomialNB()
model.fit(X, [1, 0, 1])  # 1 - спам, 0 - не спам

# Классифицируем письма
predictions = model.predict(X)
print(f"Предсказания для писем: {predictions}")

# Вероятности спама
probabilities = model.predict_proba(X)
print(f"Вероятности спама: {probabilities}")

Предсказания для писем: [1 0 1]
Вероятности спама: [[0.08058542 0.91941458]
 [0.95733433 0.04266567]
 [0.05366998 0.94633002]]


Таким образом, можно одним разом проверить все письма и сразу увидеть, что к чему. Чтобы узнать результаты для каждого письма, просто вызываем метод predict.