In [45]:
import pandas as pd
from sqlalchemy import create_engine

In [46]:
# Параметры подключения к базе данных
db_connection_string = 'postgresql://postgres:1234@localhost:5432/hw_1_db_2'
engine = create_engine(db_connection_string)

In [47]:
# Наш файл
file_path = "./customer_and_transaction.xlsx"

In [48]:
# Чтение данных из разных листов
customers_df = pd.read_excel(file_path, sheet_name="customer")
transactions_df = pd.read_excel(file_path, sheet_name="transaction")

----
### Проверка структуры таблиц и подготовка данных для аплоада в БД

In [49]:
customers_df

Unnamed: 0,customer_id,first_name,last_name,gender,DOB,job_title,job_industry_category,wealth_segment,deceased_indicator,owns_car,address,postcode,state,country,property_valuation
0,1,Laraine,Medendorp,F,1953-10-12 00:00:00,Executive Secretary,Health,Mass Customer,N,Yes,060 Morning Avenue,2016,New South Wales,Australia,10
1,2,Eli,Bockman,Male,1980-12-16 00:00:00,Administrative Officer,Financial Services,Mass Customer,N,Yes,6 Meadow Vale Court,2153,New South Wales,Australia,10
2,3,Arlin,Dearle,Male,1954-01-20 00:00:00,Recruiting Manager,Property,Mass Customer,N,Yes,0 Holy Cross Court,4211,QLD,Australia,9
3,4,Talbot,,Male,1961-10-03 00:00:00,,IT,Mass Customer,N,No,17979 Del Mar Point,2448,New South Wales,Australia,4
4,5,Sheila-kathryn,Calton,Female,1977-05-13 00:00:00,Senior Editor,,Affluent Customer,N,Yes,9 Oakridge Court,3216,VIC,Australia,9
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3995,3996,Rosalia,Halgarth,Female,1975-08-09 00:00:00,VP Product Management,Health,Mass Customer,N,No,57042 Village Green Point,4511,QLD,Australia,6
3996,3997,Blanch,Nisuis,Female,2001-07-13 00:00:00,Statistician II,Manufacturing,High Net Worth,N,Yes,87 Crescent Oaks Alley,2756,NSW,Australia,10
3997,3998,Sarene,Woolley,U,,Assistant Manager,IT,High Net Worth,N,No,8194 Lien Street,4032,QLD,Australia,7
3998,3999,Patrizius,,Male,1973-10-24 00:00:00,,Manufacturing,Affluent Customer,N,Yes,320 Acker Drive,2251,NSW,Australia,7


In [50]:
customers = customers_df[["customer_id", "first_name", "last_name", "gender", "DOB"]]
customers.head()

Unnamed: 0,customer_id,first_name,last_name,gender,DOB
0,1,Laraine,Medendorp,F,1953-10-12 00:00:00
1,2,Eli,Bockman,Male,1980-12-16 00:00:00
2,3,Arlin,Dearle,Male,1954-01-20 00:00:00
3,4,Talbot,,Male,1961-10-03 00:00:00
4,5,Sheila-kathryn,Calton,Female,1977-05-13 00:00:00


In [51]:
prop_feats = customers_df[
    [
        "customer_id",
        "wealth_segment",
        "deceased_indicator",
        "owns_car",
        "property_valuation",
    ]
]

prop_feats.head()

Unnamed: 0,customer_id,wealth_segment,deceased_indicator,owns_car,property_valuation
0,1,Mass Customer,N,Yes,10
1,2,Mass Customer,N,Yes,10
2,3,Mass Customer,N,Yes,9
3,4,Mass Customer,N,No,4
4,5,Affluent Customer,N,Yes,9


In [52]:
job_title = customers_df[["customer_id", "job_title", "job_industry_category"]]
job_title.head()

Unnamed: 0,customer_id,job_title,job_industry_category
0,1,Executive Secretary,Health
1,2,Administrative Officer,Financial Services
2,3,Recruiting Manager,Property
3,4,,IT
4,5,Senior Editor,


In [53]:
location = customers_df[["customer_id", "address", "postcode", "state", "country"]]
location.head()

Unnamed: 0,customer_id,address,postcode,state,country
0,1,060 Morning Avenue,2016,New South Wales,Australia
1,2,6 Meadow Vale Court,2153,New South Wales,Australia
2,3,0 Holy Cross Court,4211,QLD,Australia
3,4,17979 Del Mar Point,2448,New South Wales,Australia
4,5,9 Oakridge Court,3216,VIC,Australia


In [54]:
# Выделим таблицы товаров из таблицы transactions
products_df = transactions_df[
    [
        "product_id",
        "brand",
        "product_line",
        "product_class",
        "product_size",
        "list_price",
        "standard_cost",
    ]
]
print(f"Дубликаты строк таблицы products_df = {products_df.duplicated().sum()}")

products_df = products_df[
    ~products_df.duplicated(subset=["product_id", "brand"])
]
products_df.reset_index(drop=True, inplace=True)
products_df.head()

Дубликаты строк таблицы products_df = 19601


Unnamed: 0,product_id,brand,product_line,product_class,product_size,list_price,standard_cost
0,2,Solex,Standard,medium,medium,71.49,53.62
1,3,Trek Bicycles,Standard,medium,large,2091.47,388.92
2,37,OHM Cycles,Standard,low,medium,1793.43,248.82
3,88,Norco Bicycles,Standard,medium,medium,1198.46,381.1
4,78,Giant Bicycles,Standard,medium,large,1765.3,709.48


In [55]:
# Проверка пустых значений
products_df.isna().sum()

product_id       0
brand            1
product_line     1
product_class    1
product_size     1
list_price       0
standard_cost    1
dtype: int64

In [56]:
products_df[products_df["brand"].isna()]

Unnamed: 0,product_id,brand,product_line,product_class,product_size,list_price,standard_cost
87,0,,,,,1942.61,


In [57]:
# Очистка пустых значений
products_df = products_df.dropna()
products_df.isna().sum()

product_id       0
brand            0
product_line     0
product_class    0
product_size     0
list_price       0
standard_cost    0
dtype: int64

In [58]:
transactions = transactions_df[
    [
        "transaction_id",
        "transaction_date",
        "online_order",
        "order_status",
        "customer_id",
        "product_id",
        "brand"
    ]
]
display(transactions.head())
transactions.duplicated().sum()

Unnamed: 0,transaction_id,transaction_date,online_order,order_status,customer_id,product_id,brand
0,1,2017-02-25,False,Approved,2950,2,Solex
1,2,2017-05-21,True,Approved,3120,3,Trek Bicycles
2,3,2017-10-16,False,Approved,402,37,OHM Cycles
3,4,2017-08-31,False,Approved,3135,88,Norco Bicycles
4,5,2017-10-01,True,Approved,787,78,Giant Bicycles


0

In [59]:
# Проверим пропущенные значения для ключевых строк связанных таблиц (в частности customers)
transactions.isna().sum()

transaction_id        0
transaction_date      0
online_order        360
order_status          0
customer_id           0
product_id            0
brand               197
dtype: int64

In [60]:
# Удалим пропущенные значения в brand и заполним в online_order = False
transactions = transactions[~transactions["brand"].isna()]
transactions.reset_index(drop=True, inplace=True)

transactions["online_order"] = transactions["online_order"].fillna(False)

print(transactions.isna().sum())

transaction_id      0
transaction_date    0
online_order        0
order_status        0
customer_id         0
product_id          0
brand               0
dtype: int64


  transactions["online_order"] = transactions["online_order"].fillna(False)


In [61]:
# Проверим на соответсвие первичных таблиц transactions и customers
unmatch = list(set(transactions["customer_id"].values) - set(
    customers_df["customer_id"].values
))
print(f"Не совпадают первичные таблицы: {unmatch}")

Не совпадают первичные таблицы: [5034]


In [62]:
unmatch_subset = transactions[transactions["customer_id"].isin(unmatch)]
display(unmatch_subset)

Unnamed: 0,transaction_id,transaction_date,online_order,order_status,customer_id,product_id,brand
8626,8708,2017-10-07,False,Approved,5034,0,Solex
16537,16701,2017-01-27,False,Approved,5034,0,Norco Bicycles
17297,17469,2017-01-03,False,Approved,5034,0,OHM Cycles


In [63]:
# Удалим несоотвествия
transactions = transactions[~transactions["customer_id"].isin(unmatch)]

#### Вывод:

> Изначально таблицы не были нормализованы, что приводило к наличию дубликатов и транзитивным зависимостям. Это негативно сказывалось на целостности и управляемости данных.

>Таблица transactions, в частности, содержала избыточную информацию о продуктах. Для устранения этой проблемы было принято решение выделить дополнительную таблицу products. В результате был создан составной первичный ключ для таблицы products, который также служит внешним ключом в таблице transactions.

>Так же имело место наличие пустых строк в таблицах и несоотвествие наличия информации между таблицами, в незначительных объемах, что было подвержено очистке.

>Эти изменения улучшили структуру данных и привели её в соответствие с третьей нормальной формой (3НФ), что обеспечило:

> * Устранение дубликатов: Данные стали более компактными и точными.
> * Снижение транзитивных зависимостей: Упростилась структура связей между таблицами.
> * Целостность данных: Составной первичный ключ предотвращает дублирование и обеспечивает уникальность записей.


---


In [64]:
# Функция для загрузки данных в базу данных
def upload_data_to_db(df, df_name, columns, engine):
    """
    Загружает данные из DataFrame в базу данных, проверяя наличие новых записей.
    
    :param df: DataFrame с данными для загрузки
    :param df_name: Название таблицы в базе данных
    :param columns: Список столбцов для проверки наличия дубликатов
    :param engine: Экземпляр SQLAlchemy Engine для подключения к базе данных
    """
    
    # Удаляем строки с NaN в обязательных полях
    df = df.dropna(subset=columns)

    # Проверка на существование записей
    existing_rows = pd.read_sql(f"SELECT {', '.join(columns)} FROM {df_name}", engine)

    # Находим новые строки
    new_rows = df.merge(existing_rows, how='left', on=columns, indicator=True)
    new_rows = new_rows[new_rows['_merge'] == 'left_only'].drop(columns=['_merge'])

    # Импорт данных в таблицы с обработкой ошибок
    try:
        if not new_rows.empty:
            new_rows.to_sql(df_name, engine, if_exists="append", index=False)
            print(f"{len(new_rows)} новых записей успешно добавлены в {df_name}.")
        else:
            print(f"Нет новых записей для добавления в {df_name}.")
    except Exception as e:
        print(f"Ошибка при добавлении данных в {df_name}: {e}")



In [65]:
# Загрузка данных в базу данных
upload_data_to_db(customers, "customers", ["customer_id"], engine)
upload_data_to_db(prop_feats, "prop_feats", ["customer_id"], engine)
upload_data_to_db(job_title, "job_title", ["customer_id"], engine)
upload_data_to_db(location, "location", ["customer_id"], engine)
upload_data_to_db(products_df, "products", ["product_id", "brand"], engine)
upload_data_to_db(transactions, "transactions", ["transaction_id"], engine)

Нет новых записей для добавления в customers.
4000 новых записей успешно добавлены в prop_feats.
4000 новых записей успешно добавлены в job_title.
4000 новых записей успешно добавлены в location.
168 новых записей успешно добавлены в products.
19800 новых записей успешно добавлены в transactions.


In [67]:
customers.to_csv("customers.csv", index=False)
prop_feats.to_csv("prop_feats.csv", index=False)
job_title.to_csv("job_title.csv", index=False)
location.to_csv("location.csv", index=False)
products_df.to_csv("products.csv", index=False)
transactions.to_csv("transactions.csv", index=False)
