In [1]:
import pandas as pd
from sqlalchemy import create_engine

In [2]:
# Параметры подключения к базе данных
db_connection_string = 'postgresql://postgres:1234@localhost:5432/hw_1_db'
engine = create_engine(db_connection_string)

In [3]:
# Наш файл
file_path = "./customer_and_transaction.xlsx"

In [4]:
# Чтение данных из разных листов
customers_df = pd.read_excel(file_path, sheet_name="customer")
transactions_df = pd.read_excel(file_path, sheet_name="transaction")

----
### Проверка структуры таблиц и подготовка данных для аплоада в БД

In [5]:
# Выделим таблицы товаров из таблицы transactions
products_df = transactions_df[
    [
        "product_id",
        "brand",
        "product_line",
        "product_class",
        "product_size",
        "list_price",
        "standard_cost",
    ]
]
print(f"Дубликаты строк таблицы products_df = {products_df.duplicated().sum()}")

products_df = products_df[
    ~products_df.duplicated(subset=["product_id", "brand"])
]
products_df.reset_index(drop=True, inplace=True)
products_df

Дубликаты строк таблицы products_df = 19601


Unnamed: 0,product_id,brand,product_line,product_class,product_size,list_price,standard_cost
0,2,Solex,Standard,medium,medium,71.49,53.62
1,3,Trek Bicycles,Standard,medium,large,2091.47,388.92
2,37,OHM Cycles,Standard,low,medium,1793.43,248.82
3,88,Norco Bicycles,Standard,medium,medium,1198.46,381.10
4,78,Giant Bicycles,Standard,medium,large,1765.30,709.48
...,...,...,...,...,...,...,...
164,43,Norco Bicycles,Standard,medium,medium,1555.58,818.01
165,72,OHM Cycles,Standard,medium,medium,912.52,141.40
166,49,Solex,Standard,medium,large,1061.56,733.58
167,33,OHM Cycles,Road,medium,small,1810.00,1610.90


In [6]:
# Проверка пустых значений
products_df.isna().sum()

product_id       0
brand            1
product_line     1
product_class    1
product_size     1
list_price       0
standard_cost    1
dtype: int64

In [7]:
products_df[products_df["brand"].isna()]

Unnamed: 0,product_id,brand,product_line,product_class,product_size,list_price,standard_cost
87,0,,,,,1942.61,


In [8]:
# Очистка пустых значений
products_df = products_df.dropna()
products_df.isna().sum()

product_id       0
brand            0
product_line     0
product_class    0
product_size     0
list_price       0
standard_cost    0
dtype: int64

In [9]:
transactions = transactions_df[
    [
        "transaction_id",
        "transaction_date",
        "online_order",
        "order_status",
        "customer_id",
        "product_id",
        "brand"
    ]
]
display(transactions.head())
transactions.duplicated().sum()

Unnamed: 0,transaction_id,transaction_date,online_order,order_status,customer_id,product_id,brand
0,1,2017-02-25,False,Approved,2950,2,Solex
1,2,2017-05-21,True,Approved,3120,3,Trek Bicycles
2,3,2017-10-16,False,Approved,402,37,OHM Cycles
3,4,2017-08-31,False,Approved,3135,88,Norco Bicycles
4,5,2017-10-01,True,Approved,787,78,Giant Bicycles


0

In [10]:
# Проверим пропущенные значения для ключевых строк связанных таблиц (в частности customers)
transactions.isna().sum()

transaction_id        0
transaction_date      0
online_order        360
order_status          0
customer_id           0
product_id            0
brand               197
dtype: int64

In [11]:
# Удалим пропущенные значения в brand и заполним в online_order = False
transactions = transactions[~transactions["brand"].isna()]
transactions.reset_index(drop=True, inplace=True)

transactions["online_order"] = transactions["online_order"].fillna(False)

print(transactions.isna().sum())

transaction_id      0
transaction_date    0
online_order        0
order_status        0
customer_id         0
product_id          0
brand               0
dtype: int64


  transactions["online_order"] = transactions["online_order"].fillna(False)


In [12]:
# Проверим на соответсвие первичных таблиц transactions и customers
unmatch = list(set(transactions["customer_id"].values) - set(
    customers_df["customer_id"].values
))
print(f"Не совпадают первичные таблицы: {unmatch}")

Не совпадают первичные таблицы: [5034]


In [13]:
unmatch_subset = transactions[transactions["customer_id"].isin(unmatch)]
display(unmatch_subset)

Unnamed: 0,transaction_id,transaction_date,online_order,order_status,customer_id,product_id,brand
8626,8708,2017-10-07,False,Approved,5034,0,Solex
16537,16701,2017-01-27,False,Approved,5034,0,Norco Bicycles
17297,17469,2017-01-03,False,Approved,5034,0,OHM Cycles


In [14]:
# Удалим несоотвествия
transactions = transactions[~transactions["customer_id"].isin(unmatch)]

#### Вывод:

> Изначально таблицы не были нормализованы, что приводило к наличию дубликатов и транзитивным зависимостям. Это негативно сказывалось на целостности и управляемости данных.

>Таблица transactions, в частности, содержала избыточную информацию о продуктах. Для устранения этой проблемы было принято решение выделить дополнительную таблицу products. В результате был создан составной первичный ключ для таблицы products, который также служит внешним ключом в таблице transactions.

>Так же имело место наличие пустых строк в таблицах и несоотвествие наличия информации между таблицами, в незначительных объемах, что было подвержено очистке.

>Эти изменения улучшили структуру данных и привели её в соответствие с третьей нормальной формой (3НФ), что обеспечило:

> * Устранение дубликатов: Данные стали более компактными и точными.
> * Снижение транзитивных зависимостей: Упростилась структура связей между таблицами.
> * Целостность данных: Составной первичный ключ предотвращает дублирование и обеспечивает уникальность записей.


---


In [15]:
# Функция для загрузки данных в базу данных
def upload_data_to_db(df, df_name, columns, engine):
    """
    Загружает данные из DataFrame в базу данных, проверяя наличие новых записей.
    
    :param df: DataFrame с данными для загрузки
    :param df_name: Название таблицы в базе данных
    :param columns: Список столбцов для проверки наличия дубликатов
    :param engine: Экземпляр SQLAlchemy Engine для подключения к базе данных
    """
    
    # Удаляем строки с NaN в обязательных полях
    df = df.dropna(subset=columns)

    # Проверка на существование записей
    existing_rows = pd.read_sql(f"SELECT {', '.join(columns)} FROM {df_name}", engine)

    # Находим новые строки
    new_rows = df.merge(existing_rows, how='left', on=columns, indicator=True)
    new_rows = new_rows[new_rows['_merge'] == 'left_only'].drop(columns=['_merge'])

    # Импорт данных в таблицы с обработкой ошибок
    try:
        if not new_rows.empty:
            new_rows.to_sql(df_name, engine, if_exists="append", index=False)
            print(f"{len(new_rows)} новых записей успешно добавлены в {df_name}.")
        else:
            print(f"Нет новых записей для добавления в {df_name}.")
    except Exception as e:
        print(f"Ошибка при добавлении данных в {df_name}: {e}")



In [16]:
# Загрузка данных в базу данных
upload_data_to_db(customers_df, "customers", ["customer_id"], engine)
upload_data_to_db(products_df, "products", ["product_id", "brand"], engine)
upload_data_to_db(transactions, "transactions", ["transaction_id"], engine)

4000 новых записей успешно добавлены в customers.
168 новых записей успешно добавлены в products.
19800 новых записей успешно добавлены в transactions.
