# Импортируем библиотеки `"pandas"` (библиотека для обработки и анализа данных), `"matmlotlib"` (низкоуровневая библиотека для построения графиков на `Python`, которая служит в качестве утилиты визуализации), а именно модуль `.pyplot` (модуль в пакете Matplotlib) и `NumPy` - это библиотека Python, которую применяют для математических вычислений: начиная с базовых функций и заканчивая линейной алгеброй.
---

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
# Снимаем ограничение на количество отображаемых колонок.
pd.set_option("display.max_columns", None)

# Перед анализом данных, очень важно выполнить этап предварительной обработки и очистки данных `(data cleaning & preprocessing)`. Это фундаментальный шаг, обеспечивающий корректность последующего анализа и визуализации.
---

| Шаг | Описание | Пример кода (Python) |
| ----------- | ----------- | ----------- |
| 1. Загрузка данных | Загрузить и ознакомится с набором данных | ✅Загрузка `CSV` или `Excel-файла`. Убедитесь, что указали правильный путь и кодировку (`encoding='utf-8'` или `'cp1251'` при необходимости). Для `Excel` используйте `pd.read_excel()`, а для `CSV` файла `df = pd.read_csv("data.csv/xlsx")` |
|  | Просмотр первых строк | ✅`df.head()` - Просмотр первых 5 строк — позволяет быстро оценить структуру и наличие очевидных проблем в данных. |
|  | Размерность таблицы | ✅`df.shape` - Возвращает (строки, столбцы), помогает понять размер набора данных.|
|  | Типы данных | ✅`df.info()` - Важный этап: показывает типы данных и наличие пропущенных значений. Помогает наметить стратегию очистки.|
|  | Статистика по числовым | ✅`df.describe()` - Дает сводную статистику по числовым признакам: среднее, минимум, максимум, квартили и т.д. Полезно для выявления выбросов.|
| 2. Пропущенные значения | Найти пропуски | ✅`df.isnull().sum()` - Показывает количество пропущенных значений по каждому столбцу. Критически важно для планирования очистки.|
|  | Удалить строки с пропусками | ❌`df.dropna(inplace=True)` - Осторожно! Удаляет все строки с хотя бы одним NaN. Может привести к сильной потере данных. Лучше применять только, если доля пропусков мала.|
|  | Заполнить средним | ❌`df['col'].fillna(df['col'].mean(), inplace=True)` - Заполняет средним значением. Применимо только к числовым признакам. Не подходит для категориальных данных или данных с сильными выбросами. Для категорий лучше использовать моду (.mode()[0]).|
| 3. Дубликаты | Найти дубликаты | ✅`df.duplicated().sum()` - Выявляет количество полностью дублирующихся строк.|
|  | Удалить дубликаты | ✅`df.drop_duplicates(inplace=True)` - Удаляет все полностью идентичные строки. Иногда полезно добавить subset=['col1', 'col2'] для удаления дубликатов по определённым признакам.|
| 4. Типы данных | Приведение типа к числовому | ✅`df['col'] = df['col'].astype(float)` - Преобразование в числовой тип (float). Если значения представлены как строки, но содержат числа — важно выполнить .str.replace(',', '.') при необходимости.|
|  | Преобразование в дату | ❌`df['date'] = pd.to_datetime(df['date'])` - Преобразование в формат datetime — обязательно перед анализом по дате: группировки, фильтрация по времени, визуализация.|
|  | Категориальный тип | ✅`df['col'] = df['col'].astype('category')` - Оптимизация памяти и явное указание на категориальный признак. Полезно для переменных с ограниченным числом уникальных значений.|
| 5. Текстовые данные | Очистка текста | ❌`df['text'] = df['text'].str.replace(r'[^\w\s]', '', regex=True)` - Удаление пунктуации, спецсимволов. Полезно перед анализом текста (например, WordCloud, NLP). Можно дополнительно привести к нижнему регистру (.str.lower()).|
| 6. Финальная проверка | Проверка на пропуски | ✅`df.isnull().sum()` - Финальная проверка на пропуски перед сохранением или анализом. Желательно, чтобы в финальном наборе данных не было NaN.|
|  | Сохранение очищенных данных | ❌`df.to_csv('clean_data.csv', index=False)` - Сохраняет очищенный датафрейм без индекса. Проверьте, чтобы путь и имя файла были корректны.|

In [3]:
# ========== 1. Загрузка данных ==========
# Загрузка csv-файла в объект DataFrame.
# Метод pd.read_csv() считывает данные из файла csv (формата .csv) и загружает в таблицу.
df_walmart = pd.read_csv("34_hw_dataset.csv")

In [4]:
# ========== 2. Первичный осмотр ==========
print(df_walmart.head())
print(df_walmart.tail())
# Функция info() показывает информацию о DataFrame
# Включая типы данных и использование памяти
# memory_usage = "deep" позволяет получить более точную информацию о потреблении памяти
# Важно отметить, что использование memory_usage = "deep" может занять больше времени, так как оно требует дополнительного анализа
print(df_walmart.info(memory_usage = "deep"))
print(df_walmart.describe())
print("Shape:", df_walmart.shape)

                Product                                      Review  Price  \
0    Samsung Galaxy S23  Perfect for gaming, but poor battery life.   $640   
1      Sony Xperia 1 IV                           Cheap & powerful!  $1044   
2    Samsung Galaxy S23     Battery life is awesome, but expensive.   $526   
3      Sony Xperia 1 IV  Stock Android is smooth, but no free case.   $728   
4  Xiaomi Redmi Note 12  Stock Android is smooth, but no free case.   $660   

             Seller  
0           Walmart  
1            Amazon  
2  OnePlus Official  
3      Samsung Shop  
4          Flipkart  
              Product                                     Review  Price  \
995    Google Pixel 7           Oxygen OS is better than before!  $1270   
996  Asus ROG Phone 6           Oxygen OS is better than before!   $606   
997        Huawei P50              Great phone! Amazing camera 📸   $941   
998        OnePlus 11              Great phone! Amazing camera 📸   $792   
999  Sony Xperia 1 IV  P

In [5]:
df_walmart['Product'] = df_walmart['Product'].astype('category')
df_walmart['Review'] = df_walmart['Review'].astype('category')
df_walmart['Seller'] = df_walmart['Seller'].astype('category')
df_walmart.dtypes

Product    category
Review     category
Price        object
Seller     category
dtype: object

In [6]:
# Находим пропуски
df_walmart.isnull().sum()

Product    0
Review     0
Price      0
Seller     0
dtype: int64

In [7]:
# Находим дубликаты
df_walmart.duplicated().sum()

np.int64(1)

In [8]:
# Просматриваем дубликаты
duplicates = df_walmart[df_walmart.duplicated()]
print(duplicates)

        Product                                Review  Price        Seller
241  Huawei P50  Good performance, but heating issue.  $1127  Samsung Shop


In [9]:
# Удаляем дубликаты
print("До удаления:", len(df_walmart))
df_walmart = df_walmart.drop_duplicates()
print("После удаления:", len(df_walmart))

До удаления: 1000
После удаления: 999


# Данный датасет содержит названия товаров, отзывы, цены и продавцов. Ваша задача – очистить и проанализировать текстовые данные, выполнив следующие упражнения:

### Приведите весь текст в колонках `Product` и `Seller` к нижнему регистру.
### Преобразуйте текст в колонке `Review` в верхний регистр.
### Удалите пробелы в начале и конце строк в колонках `Product` и `Seller`.
### Замените все вхождения слова `"free"` в колонке `Review` на `"complimentary"`.
### Используйте регулярные выражения, чтобы удалить специальные символы (например, `!` и `📸`) из колонки `Review`.
---

In [10]:
# Приведите весь текст в колонках Product и Seller к нижнему регистру.
for col in ["Product", "Seller"]:
    df_walmart[col] = df_walmart[col].str.lower()

df_walmart[["Product", "Seller"]].head()

Unnamed: 0,Product,Seller
0,samsung galaxy s23,walmart
1,sony xperia 1 iv,amazon
2,samsung galaxy s23,oneplus official
3,sony xperia 1 iv,samsung shop
4,xiaomi redmi note 12,flipkart


In [11]:
# Преобразуйте текст в колонке `Review` в верхний регистр.
df_walmart["Review"] = df_walmart["Review"].str.upper()
df_walmart[["Review"]].head()

Unnamed: 0,Review
0,"PERFECT FOR GAMING, BUT POOR BATTERY LIFE."
1,CHEAP & POWERFUL!
2,"BATTERY LIFE IS AWESOME, BUT EXPENSIVE."
3,"STOCK ANDROID IS SMOOTH, BUT NO FREE CASE."
4,"STOCK ANDROID IS SMOOTH, BUT NO FREE CASE."


In [12]:
# Удалите пробелы в начале и конце строк в колонках `Product` и `Seller`.
for col in ["Product", "Seller"]:
    df_walmart[col] = df_walmart[col].str.strip()

df_walmart[["Product", "Seller"]].head()

Unnamed: 0,Product,Seller
0,samsung galaxy s23,walmart
1,sony xperia 1 iv,amazon
2,samsung galaxy s23,oneplus official
3,sony xperia 1 iv,samsung shop
4,xiaomi redmi note 12,flipkart


In [13]:
# Замените все вхождения слова `"free"` в колонке `Review` на `"complimentary"`.
df_walmart["Review"] = df_walmart["Review"].str.replace("free", "complimentary", case = False)

df_walmart[df_walmart["Review"].str.contains("complimentary", case = False, regex = False)].head()

Unnamed: 0,Product,Review,Price,Seller
3,sony xperia 1 iv,"STOCK ANDROID IS SMOOTH, BUT NO complimentary ...",$728,samsung shop
4,xiaomi redmi note 12,"STOCK ANDROID IS SMOOTH, BUT NO complimentary ...",$660,flipkart
17,huawei p50,"STOCK ANDROID IS SMOOTH, BUT NO complimentary ...",$1154,newegg
23,asus rog phone 6,"STOCK ANDROID IS SMOOTH, BUT NO complimentary ...",$968,ebay
26,realme gt 2,"STOCK ANDROID IS SMOOTH, BUT NO complimentary ...",$452,oneplus official


In [14]:
# Используйте регулярные выражения, чтобы удалить специальные символы (например, `!` и `📸`) из колонки `Review`.
import re

df_walmart["Review"] = df_walmart["Review"].str.replace(r"[^A-Za-z0-9\s]", "", regex=True)

# Ищем emoji. Если на выходе пусто, значит они удалены.
df_walmart[df_walmart["Review"].str.contains("📸", case = False, regex = False)]

Unnamed: 0,Product,Review,Price,Seller


---

# Проверка на наличие подстрок:
### Создайте новую колонку `contains_awesome`, которая принимает значение `True`, если в тексте отзыва `(Review)` есть слово `"awesome"`, и `False` в противном случае.

### Извлеките числовое значение цены из колонки `Price` и сохраните его как целое число в новой колонке `Price_Numeric`.
---

In [15]:
# Создайте новую колонку `contains_awesome`, которая принимает значение `True`, 
# если в тексте отзыва `(Review)` есть слово `"awesome"`, и `False` в противном случае.
df_walmart["contains_awesome"] = df_walmart["Review"].str.contains(r"\bawesome\b", case=False, na=False)

df_walmart[["Review", "contains_awesome"]].head()

Unnamed: 0,Review,contains_awesome
0,PERFECT FOR GAMING BUT POOR BATTERY LIFE,False
1,CHEAP POWERFUL,False
2,BATTERY LIFE IS AWESOME BUT EXPENSIVE,True
3,STOCK ANDROID IS SMOOTH BUT NO complimentary CASE,False
4,STOCK ANDROID IS SMOOTH BUT NO complimentary CASE,False


In [16]:
# Извлеките числовое значение цены из колонки `Price` и сохраните его 
# как целое число в новой колонке `Price_Numeric`.
df_walmart["Price_Numeric"] = df_walmart["Price"].replace(r"[\$,]", "", regex = True).astype(int)

df_walmart[["Price", "Price_Numeric"]].head()

Unnamed: 0,Price,Price_Numeric
0,$640,640
1,$1044,1044
2,$526,526
3,$728,728
4,$660,660


### Использование `iterrows()`:
### Пройдитесь по строкам датасета и выведите на экран названия товаров вместе с их продавцами в формате: "`Товар: iPhone 14 продаётся у Amazon`"

### Создайте новую колонку `Word_Count`, которая содержит количество слов в каждом отзыве `(Review)`.

### Замените названия продавцов так, чтобы `"best buy"` стало `"Best Buy"`, а `"Google Store"` стало `"Google Official"`.

### Добавьте новую колонку `Review_Length`, в которой будет храниться длина каждого отзыва `(число символов)`, используя `lambda`.

### Используйте `while-цикл`, чтобы пройтись по строкам и прекратить вывод, как только встретится товар с ценой ниже `$500`.
---

In [17]:
# Пройдитесь по строкам датасета и выведите на экран названия товаров 
# вместе с их продавцами в формате: "`Товар: iPhone 14 продаётся у Amazon`"
for index, row in df_walmart.head().iterrows():
    print(f"Товар: {row['Product']} продаётся у {row['Seller']}")

Товар: samsung galaxy s23 продаётся у walmart
Товар: sony xperia 1 iv продаётся у amazon
Товар: samsung galaxy s23 продаётся у oneplus official
Товар: sony xperia 1 iv продаётся у samsung shop
Товар: xiaomi redmi note 12 продаётся у flipkart


In [18]:
# Создайте новую колонку `Word_Count`, которая содержит количество слов в каждом отзыве `(Review)`.
df_walmart["Word_Count"] = df_walmart["Review"].str.split().str.len()
df_walmart[["Review", "Word_Count"]].head()

Unnamed: 0,Review,Word_Count
0,PERFECT FOR GAMING BUT POOR BATTERY LIFE,7
1,CHEAP POWERFUL,2
2,BATTERY LIFE IS AWESOME BUT EXPENSIVE,6
3,STOCK ANDROID IS SMOOTH BUT NO complimentary CASE,8
4,STOCK ANDROID IS SMOOTH BUT NO complimentary CASE,8


In [29]:
# Замените названия продавцов так, чтобы `"best buy"` стало `"Best Buy"`, 
# а `"Google Store"` стало `"Google Official"`.
df_walmart["Seller"] = df_walmart["Seller"].str.replace("best buy", "Best Buy", case = False)
df_walmart["Seller"] = df_walmart["Seller"].str.replace("Google Store", "Google Official", case = False)

df_walmart["Seller"].value_counts()

Seller
walmart             110
oneplus official    106
flipkart            106
Google Official     104
samsung shop        103
Best Buy            102
newegg               99
amazon               97
aliexpress           96
ebay                 76
Name: count, dtype: int64

In [30]:
# Добавьте новую колонку `Review_Length`, в которой будет храниться длина каждого отзыва
# `(число символов)`, используя `lambda`.
df_walmart["Review_Length"] = df_walmart["Review"].apply(lambda x: len(x))

df_walmart[["Review", "Review_Length"]].head()

Unnamed: 0,Review,Review_Length
0,PERFECT FOR GAMING BUT POOR BATTERY LIFE,40
1,CHEAP POWERFUL,15
2,BATTERY LIFE IS AWESOME BUT EXPENSIVE,37
3,STOCK ANDROID IS SMOOTH BUT NO complimentary CASE,49
4,STOCK ANDROID IS SMOOTH BUT NO complimentary CASE,49


In [35]:
# Используйте `while-цикл`, чтобы пройтись по строкам и прекратить вывод,
# как только встретится товар с ценой ниже `$500`.
i = 0
while i < len(df_walmart):
    price = df_walmart["Price_Numeric"].iloc[i]

    if price < 500:
        break
    else:
        product = df_walmart["Product"].iloc[i]
        print(f"{i}: {product} - ${price}")
    
    i += 1

0: samsung galaxy s23 - $640
1: sony xperia 1 iv - $1044
2: samsung galaxy s23 - $526
3: sony xperia 1 iv - $728
4: xiaomi redmi note 12 - $660
5: xiaomi redmi note 12 - $1236
6: oneplus 11 - $1166
7: realme gt 2 - $1153
8: google pixel 7 - $1122
9: sony xperia 1 iv - $1033
10: oneplus 11 - $1079
