<a href="https://colab.research.google.com/github/ElenaTratsevskaya/DA-Python-Project_Solving-a-complex-business-problem/blob/main/DA_Python_Project_Solving_a_complex_business_problem.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<div id="header" align="center"><h1><span style="color:#2F4F4F">PROJECT: Решение комплексной бизнес-задачи<br> для подготовки рекомендательной системы</p></h1></div>

<span style="color:#2F4F4F">**Ц Е Л Ь**:</p>
Подготовить основу рекомендательной системы для курсов он-лайн школы, благодаря которой можно будет предлагать клиентам интересные им курсы и тем самым повышать средний чек.

<span style="color:#2F4F4F">**КОНКРЕТНЫЕ ШАГИ (ФОРМАЛИЗОВАННЫЕ ЗАДАЧИ)**:</p><br>

1. Познакомиться с датасетом, подготовить и проанализировать данные с помощью SQL.<br>
2. Обработать данные средствами Python.<br>
3. Составить итоговую таблицу с рекомендациями, снабдив её необходимыми комментариями, и представить отчёт.<br><br>

<span style="color:#2F4F4F">**РЕЗУЛЬТАТ ПРОЕКТА**:</p>
Итогом работы является файл, содержащий результаты всех промежуточных этапов: скрипты с комментариями, таблица рекомендаций и выводы.

<span style="color:#2F4F4F">**ИСХОДНЫЕ ДАННЫЕ**:</p><br>
<span style="color:#2F4F4F">Таблица **carts** — данные о пользовательских корзинах:</p>
<table>
<thead>
<tr><th>Название поля</th><th>Описание</th></tr>
</thead>
<tbody>
<tr><td>Promo Code ID</td><td>ID промокода, если он есть</td></tr>
<tr><td>Purchased At</td><td>дата оплаты</td></tr>
<tr><td>User ID</td><td>ID пользователя</td></tr>
<tr><td>Created At</td><td>дата создания корзины</td></tr> 
<tr><td>Updated At</td><td>дата последнего обновления информации</td></tr>
<tr><td>ID</td><td>идентификатор корзины</td></tr>
<tr><td>State</td><td>состояние оплаты</td></tr>
</tbody>
</table>

<span style="color:#2F4F4F">Таблица **cart items** — данные о курсах, которые пользователи добавили в корзину:</p>
<table>
<thead>
<tr><th>Название поля</th><th>Описание</th></tr>
</thead>
<tbody>
<tr><td>Created At</td><td>дата создания события</td></tr>
<tr><td>Resource Type</td><td>тип продукта</td></tr>
<tr><td>Resource ID</td><td>ID курса</td></tr>
<tr><td>Cart ID</td><td>идентификатор корзины</td></tr> 
<tr><td>Updated At</td><td>дата последнего обновления информации</td></tr>
<tr><td>ID</td><td>идентификатор операции</td></tr>
</tbody>
</table>


In [None]:
!python -m pip install --upgrade pip



In [None]:
! pip install psycopg2 



In [None]:
#импортируем библиотеки
import pandas as pd
import numpy as np
import psycopg2
import psycopg2.extras
from itertools import combinations 
from collections import Counter
import json

<div id="header" align="center"><h1><span style="color:#2F4F4F">Решение формализованных задач 1-2</p></h1></div>

**Посмотрим сколько клиентов покупали курсы.**

In [None]:
try:
    connection = psycopg2.connect(
        user="skillfactory",
        password="cCkxxLVrDE8EbvjueeMedPKt",
        host="84.201.134.129",
        port="5432",
        database="skillfactory",
    )
    cursor = connection.cursor()

    create_table_query = '''SELECT 
    COUNT (DISTINCT user_id) AS quantity
    FROM final.carts c
    JOIN final.cart_items i ON i.cart_id = c.id
    WHERE state = 'successful'
    AND resource_type = 'Course'
    '''.format()

    cursor.execute(create_table_query)
    users_count = cursor.fetchall() 
    connection.commit()
    print(users_count)

except (Exception, psycopg2.DatabaseError) as error:
    print("Error while creating PostgreSQL table", error)
finally:
    if connection:
        cursor.close()
        connection.close()
        print("PostgreSQL connection is closed")

[(49006,)]
PostgreSQL connection is closed


**Определим колько всего есть различных курсов в он-лайн школе.**

In [None]:
try:
    connection = psycopg2.connect(
        user="skillfactory",
        password="cCkxxLVrDE8EbvjueeMedPKt",
        host="84.201.134.129",
        port="5432",
        database="skillfactory",
    )
    cursor = connection.cursor()

    create_table_query = '''SELECT
	COUNT(DISTINCT resource_id)
	FROM final.cart_items 
  	WHERE resource_type = 'Course'
    '''.format()

    cursor.execute(create_table_query)
    n_resource = cursor.fetchall() 
    connection.commit()
    print(n_resource)

except (Exception, psycopg2.DatabaseError) as error:
    print("Error while creating PostgreSQL table", error)
finally:
    if connection:
        cursor.close()
        connection.close()
        print("PostgreSQL connection is closed")

[(127,)]
PostgreSQL connection is closed


**Опреленим среднее число купленных курсов на одного клиента.**

In [None]:
try:
    connection = psycopg2.connect(
        user="skillfactory",
        password="cCkxxLVrDE8EbvjueeMedPKt",
        host="84.201.134.129",
        port="5432",
        database="skillfactory",
    )
    cursor = connection.cursor()

    create_table_query = '''WITH select_clients AS
    (
	SELECT
		DISTINCT user_id,
		COUNT(resource_id) as cr
	FROM final.carts c
  	JOIN final.cart_items i on i.cart_id = c.id
  	WHERE state = 'successful'
	AND resource_type = 'Course'
	GROUP BY 1
)

SELECT 
	AVG(cr)
	FROM select_clients
    '''.format()

    cursor.execute(create_table_query)
    avg_resource = cursor.fetchall() 
    connection.commit()
    print(avg_resource)

except (Exception, psycopg2.DatabaseError) as error:
    print("Error while creating PostgreSQL table", error)
finally:
    if connection:
        cursor.close()
        connection.close()
        print("PostgreSQL connection is closed")

[(Decimal('1.4402522140146105'),)]
PostgreSQL connection is closed


**Получим данные солько клиентов купили больше одного курса.**

In [None]:
try:
    connection = psycopg2.connect(
        user="skillfactory",
        password="cCkxxLVrDE8EbvjueeMedPKt",
        host="84.201.134.129",
        port="5432",
        database="skillfactory",
    )
    cursor = connection.cursor()

    create_table_query = '''WITH count_more_one AS 
(
SELECT
    user_id,
    COUNT (DISTINCT resource_id) 
FROM final.carts c
JOIN final.cart_items i on c.id=i.cart_id
WHERE resource_type = 'Course' and state = 'successful'
GROUP BY 1
HAVING COUNT (distinct resource_id) > 1
)

SELECT
    COUNT(user_id)
FROM count_more_one
    '''.format()

    cursor.execute(create_table_query)
    count1_resource = cursor.fetchall() 
    connection.commit()
    print(count1_resource)

except (Exception, psycopg2.DatabaseError) as error:
    print("Error while creating PostgreSQL table", error)
finally:
    if connection:
        cursor.close()
        connection.close()
        print("PostgreSQL connection is closed")

[(12656,)]
PostgreSQL connection is closed


**Выведем данные, сколько различных пар курсов встречаются вместе в покупках клиентов.**

In [None]:
try:
    connection = psycopg2.connect(
        user="skillfactory",
        password="cCkxxLVrDE8EbvjueeMedPKt",
        host="84.201.134.129",
        port="5432",
        database="skillfactory",
    )
    cursor = connection.cursor()

    create_table_query = '''WITH interested_clients AS
    (
    SELECT user_id,
    COUNT (DISTINCT resource_id) AS quantity
    FROM final.carts c
    JOIN final.cart_items i ON i.cart_id = c.id
    WHERE state = 'successful'
    AND resource_type = 'Course'
    GROUP BY 1
    HAVING COUNT (DISTINCT resource_id) > 1
    )
    SELECT DISTINCT c.user_id, 
    resource_id
    FROM final.carts c
    JOIN final.cart_items i ON i.cart_id = c.id
    JOIN interested_clients ic ON ic.user_id = c.user_id
    WHERE state = 'successful'
    AND resource_type = 'Course'
    ORDER BY 1
    '''.format()

    cursor.execute(create_table_query)
    mobile_table = cursor.fetchall() 
    connection.commit()
    

except (Exception, psycopg2.DatabaseError) as error:
    print("Error while creating PostgreSQL table", error)
finally:
    if connection:
        cursor.close()
        connection.close()
        print("PostgreSQL connection is closed")

PostgreSQL connection is closed


In [None]:
# Далее преобразую список кортежей в датафрейм.
select_clients_df = pd.DataFrame(mobile_table)
select_clients_df

Unnamed: 0,0,1
0,51,516
1,51,1099
2,6117,356
3,6117,357
4,6117,1125
...,...,...
34069,2188926,515
34070,2188926,743
34071,2190141,756
34072,2190141,794


In [None]:
# Необходимо ввести название колонок, для последующего обращения к данным из этих колонок.
select_clients_df.columns =['user_id', 'resource_id'] 
select_clients_df

Unnamed: 0,user_id,resource_id
0,51,516
1,51,1099
2,6117,356
3,6117,357
4,6117,1125
...,...,...
34069,2188926,515
34070,2188926,743
34071,2190141,756
34072,2190141,794


In [None]:
# Выполняю группировку данных по user_id.
df_course = select_clients_df.groupby('user_id')['resource_id'].unique().reset_index()
df_course

Unnamed: 0,user_id,resource_id
0,51,"[516, 1099]"
1,6117,"[356, 357, 1125]"
2,10275,"[553, 1147]"
3,10457,"[361, 1138]"
4,17166,"[356, 357]"
...,...,...
12651,2179430,"[566, 750]"
12652,2186581,"[794, 864, 1129]"
12653,2187601,"[356, 553, 571, 765, 912]"
12654,2188926,"[515, 743]"


In [None]:
# Применяю функцию combinations() модуля itertools, которая возвращает итератор со всеми возможными комбинациями элементов входной последовательности iterable. 
# Каждая комбинация заключена в кортеж с длинной r элементов, в которой нет повторяющихся элементов. 
from itertools import combinations
df_course['combinations'] = df_course['resource_id'].apply(lambda r: list(combinations(r, 2)))
df_course

Unnamed: 0,user_id,resource_id,combinations
0,51,"[516, 1099]","[(516, 1099)]"
1,6117,"[356, 357, 1125]","[(356, 357), (356, 1125), (357, 1125)]"
2,10275,"[553, 1147]","[(553, 1147)]"
3,10457,"[361, 1138]","[(361, 1138)]"
4,17166,"[356, 357]","[(356, 357)]"
...,...,...,...
12651,2179430,"[566, 750]","[(566, 750)]"
12652,2186581,"[794, 864, 1129]","[(794, 864), (794, 1129), (864, 1129)]"
12653,2187601,"[356, 553, 571, 765, 912]","[(356, 553), (356, 571), (356, 765), (356, 912..."
12654,2188926,"[515, 743]","[(515, 743)]"


In [None]:
# Использую цикл для перебора значений колонки combinations построчно и значений в строках. 
lst = []
for i in df_course['combinations']:
    for j in i:
        if j not in lst:
            lst.append(j)
            
print(f'Количество  различных пар курсов встречающихся вместе в покупках клиентов: {len(lst)}')

Количество  различных пар курсов встречающихся вместе в покупках клиентов: 3989


**Найдём самую популярную пару курсов.**

In [None]:
#56.3.7
# Перевожу колонку данных combinations в list.
pairs_course = df_course['combinations'].tolist()

In [None]:
# C помощью itertools.Counter() преобразуем данные в словарь, где номера курсов будут ключами итогового словаря, а значениями количество покупок.
from collections import Counter
from itertools import chain
res_dict = Counter(chain(*pairs_course))
#print(f'Количество кортежей, присутствующих в списке пар курсов:\n{res_dict}') 

In [None]:
sorted_dictionary = sorted(res_dict.items(), key=lambda x: -x[1])
best_pairs = []
for i in sorted_dictionary:
    if i == sorted_dictionary[0]:
        best_pairs.append(i)
    elif i == sorted_dictionary[1]:
        best_pairs.append(i)
        break
print(f'Две пары курсов с лучшим рейтингом: {best_pairs}')

Две пары курсов с лучшим рейтингом: [((551, 566), 797), ((515, 551), 417)]


<span style="color:red">**В Ы В О Д Ы**<span> <span style="color:#000000">по формализованны задачам 1-2:<span>
<blockquote>
<p>- Всего 49000 клиентов покупали курсы<br>
- В он-лайн школе всего 127 различных курсов.<br>
- Среднее число купленных курсов на одного клиента: 1.44<br>
- 12656 клиентов купили больше одного курса.<br>
- Всего в покупках клиентов встречаются вместе 3989 различных пар курсов.<br>
- Самая популярная пара курсов с ID: 551, 566
</p>

<div id="header" align="center"><h1><span style="color:#8B0000">Определение минимальной границы</span></h1></p>какое количество раз считать слишком малым</div>


<span style="color:#8B0000">**Ш А Г 1**</span><br>
Для получения общих статичтических данных создадим датафрейм и выведем общие статистические данные по count с помощью describe().

In [None]:
df_course_pairs = pd.DataFrame.from_dict(sorted_dictionary)
df_course_pairs.columns =['course_pairs', 'count']
df_course_pairs.describe()

Unnamed: 0,count
count,3989.0
mean,10.031838
std,26.355998
min,1.0
25%,1.0
50%,3.0
75%,9.0
max,797.0


<blockquote><p>Из полученных данных видно, что значения по count в интервале 1-3 составляют половину таблицы, при этом min=Q(25).</p>

<span style="color:#8B0000">**Ш А Г 2**</span><br>
Выведем датафрейм с фильтром по count>3 и вновь посмотрим на статистические данные по count.

In [None]:
df1_course_pairs = df_course_pairs.loc[df_course_pairs['count'] > 3]
df1_course_pairs.describe()

Unnamed: 0,count
count,1860.0
mean,19.665591
std,36.270041
min,4.0
25%,6.0
50%,9.0
75%,19.0
max,797.0



<span style="color:red">**В Ы В О Д**<span>
<blockquote><p>На основе полученных статистических данных датафрейма считаю возможным установить минимальную границу по значению параметра count =6.</p>

<div id="header" align="center"><h1><span style="color:#4682B4">Создание итоговой таблицы</span></h1>

решение формализованной задачи 3</p>



<span style="color:#4682B4">**Ш А Г 1**</span><br>
Получение списка id, к которым будут предложены рекомендации.

Сначала получим список всех id курсов из словаря res_dict, выведенного ранее.

In [None]:
#print(res_dict)

In [None]:
# Использую предыдущий цикл, только применяя ко всему словарю.
all_course = []
for i in res_dict.items():
    if i[1] >= 1:                    # Отсекаю из словаря пары курсов, которые ниже минимально установленного количества.
       all_course.append(i[0][0])   # Перебираю id в кортежах пар курсов словаря и добавляю в список заданный список.
       all_course.append(i[0][1])
all_course = list(set(all_course))  # C помощью set() убираю дубликаты
print(f'Всего курсов: {len(all_course)}')
print(f'id всех курсов:\n{all_course}')

Всего курсов: 126
id всех курсов:
[513, 514, 515, 516, 517, 518, 519, 523, 551, 552, 553, 562, 563, 564, 566, 568, 569, 570, 571, 572, 1099, 1100, 1101, 1102, 1103, 1104, 1115, 1116, 1124, 1125, 1128, 1129, 1138, 1139, 1140, 1141, 1144, 1145, 1146, 1147, 1152, 1156, 1160, 1161, 659, 664, 1181, 670, 671, 672, 1185, 1186, 1187, 1184, 1188, 1182, 679, 1198, 1199, 1200, 1201, 741, 742, 743, 744, 745, 749, 750, 752, 753, 755, 756, 757, 764, 765, 776, 777, 791, 794, 800, 803, 809, 810, 813, 814, 829, 830, 833, 834, 835, 836, 837, 840, 862, 863, 864, 865, 866, 356, 357, 358, 359, 360, 361, 362, 363, 364, 365, 366, 367, 368, 902, 907, 908, 909, 911, 912, 489, 490, 502, 503, 504, 507, 508, 509, 511]


Следующим шагом необходимо получить список курсов - рейтинг курсов из пар курсов, отфильтрованных по условию: count > 6. 

In [None]:
lst_course = []
for i in res_dict.items():
    if i[1] > 6:                    # Отсекаю из словаря пары курсов, которые ниже минимально установленного количества.
       lst_course.append(i[0][0])   # Перебираю id в кортежах пар курсов словаря и добавляю в заданный список.
       lst_course.append(i[0][1])
lst_course = list(set(lst_course))  # Очищаю список от дубликатов
print(f'Всего курсов в списке рейтинга: {len(lst_course)}')
print(f'Рейтинг id курсов:\n{lst_course}')

Всего курсов в списке рейтинга: 110
Рейтинг id курсов:
[513, 514, 515, 516, 517, 518, 519, 523, 551, 552, 553, 562, 563, 564, 566, 568, 569, 570, 571, 572, 1099, 1100, 1101, 1102, 1103, 1104, 1115, 1116, 1124, 1125, 1128, 1129, 1138, 1139, 1140, 1141, 1144, 1145, 1146, 1147, 1152, 1156, 1161, 659, 664, 1181, 670, 671, 672, 1185, 1186, 1187, 1184, 1188, 679, 741, 742, 743, 744, 745, 749, 750, 752, 753, 755, 756, 757, 764, 765, 776, 777, 791, 794, 800, 803, 809, 810, 813, 814, 829, 835, 840, 862, 863, 864, 865, 356, 357, 358, 359, 360, 361, 362, 363, 366, 367, 368, 907, 908, 909, 912, 489, 490, 502, 503, 504, 507, 508, 509, 511]


<span style="color:#4682B4">**Ш А Г 2**</span><br>
Получение списка id, 1-ой и 2-й рекомендации.

In [None]:
import random

In [None]:
# Создаём функцию, которая образует пары из смежных курсов и рейтинга.
def rec(id):
	rec_lst = []
	for i in res_dict.keys():
		if i[0] == id:
			rec_lst.append((i, res_dict[i]))
		elif i[1] == id:
			rec_lst.append((i, res_dict[i]))
	rec_lst_s = sorted(rec_lst, key=lambda x:x[1], reverse = True) # Сортировка пары по рейтингу
	return rec_lst_s[:2]
rec(551)

[((551, 566), 797), ((515, 551), 417)]

In [None]:
# Подадём на вход функции id курсов списка all_course.
import random
rec_lst_fin = []
for i in all_course:
	if len(rec(i)) == 2:
		rec_lst_fin.append((i, (set(rec(i)[0][0]) - set([i])).pop(), (set(rec(i)[1][0]) - set([i])).pop()))
	elif len(rec(i)) == 1:
		rec_lst_fin.append((i, (set(rec(i)[0][0]) - set([i])).pop(), random.choice(lst_course))) # Добавляю курсы из рейтинга.
rec_lst_fin[:10]

[(513, 503, 551),
 (514, 551, 515),
 (515, 551, 489),
 (516, 745, 553),
 (517, 551, 750),
 (518, 551, 490),
 (519, 551, 523),
 (523, 551, 515),
 (551, 566, 515),
 (552, 551, 523)]

<span style="color:#4682B4">**Ш А Г 3**</span><br>
Создание финальной таблицы через создание списков колонок. <br>
Из полученного списка кортежей необходимо извлечь id поочерёдно и вложить в соответсвующий список.


In [None]:
# В первом списке - id курсов, для которых делается рекомендация.
lst_1 = []
for i in rec_lst_fin:
    lst_1.append(i[0])
#print(lst_1)

In [None]:
# Во втором списке - id курсов для рекомендации № 1 (самый популярный).
lst_2 = []
for i in rec_lst_fin:
    lst_2.append(i[1])
#print(lst_2)

In [None]:
# В третьем списке - id курсов для рекомендации № 2 (второй по популярности).
lst_3 = []
for i in rec_lst_fin:
    lst_3.append(i[2])
#print(lst_3)

**Из списков формируем финальную таблицу с соответствующими колонками.**

In [None]:
final_df = pd.DataFrame(
    {'id_course': lst_1,
     'recommendation_1': lst_2,
     'recommendation_2': lst_3
    })
final_df

Unnamed: 0,id_course,recommendation_1,recommendation_2
0,513,503,551
1,514,551,515
2,515,551,489
3,516,745,553
4,517,551,750
...,...,...,...
121,504,572,569
122,507,570,752
123,508,507,570
124,509,745,553


In [None]:
print(random.choice(lst_course)) # Вывожу для наглядности как выдаётся id из списка рекомендаций.

829


In [None]:
# Необходимо проверить на совпадение рекомендаций и исключить совпадения.
for i in final_df['recommendation_1']:
    for j in final_df['recommendation_2']:
        if i == j:
            j == random.choice(lst_course) # В случае совпадения, предлагаю замену из списка рейтинга курсов.
        else:
            continue

<div id="header" align="center"><h1><span style="color:red">В Ы В О Д<span></h1></p>


<blockquote><p>В ходе работы получена таблица на условиях<br>отбора рейтинга курсов с установлением минимальной границы по значению параметра для пар курсов count =6,<br>
использованием для рекомендаций составленного рейтинга курсов (id) и рейтинга пар курсов.</p>

<div id="header" align="center"><h1><span style="color:#2F4F4F">Итоговая таблица</span></h1></p>

<blockquote><p>Итоговая таблица состит из трёх столбцов:<br><br>
1. Курс, к которому идёт рекомендация.<br>
2. Курс для рекомендации № 1 (самый популярный).<br>
3. Курс для рекомендации № 2 (второй по популярности).</p>

In [None]:
final_df

Unnamed: 0,id_course,recommendation_1,recommendation_2
0,513,503,551
1,514,551,515
2,515,551,489
3,516,745,553
4,517,551,750
...,...,...,...
121,504,572,569
122,507,570,752
123,508,507,570
124,509,745,553
