In [1]:
import psycopg2 as psycopg
import pandas as pd
from dotenv import load_dotenv
import os

connection = {"sslmode": "require", "target_session_attrs": "read-write"}
load_dotenv(dotenv_path=".env")
postgres_credentials = {
    "host": os.getenv("DB_DESTINATION_HOST", ""),
    "port": os.getenv("DB_DESTINATION_PORT", ""),
    "dbname": os.getenv("DB_DESTINATION_NAME", ""),
    "user": os.getenv("DB_DESTINATION_USER", ""),
    "password": os.getenv("DB_DESTINATION_PASSWORD", ""),
}
assert all([var_value != "" for var_value in list(postgres_credentials.values())])

connection.update(postgres_credentials)

# определяем название таблицы, в которой хранятся наши данные
TABLE_NAME = "users_churn"


# эта конструкция создаёт контекстное управление для соединения с базой данных 
# оператор with гарантирует, что соединение будет корректно закрыто после выполнения всех операций с базой данных
# причём закрыто оно будет даже в случае ошибки при работе с базой данных
# это нужно, чтобы не допустить так называемую "утечку памяти"
with psycopg.connect(**connection) as conn:

# создаём объект курсора для выполнения запросов к базе данных 
# с помощью метода execute() выполняется SQL-запрос для выборки данных из таблицы TABLE_NAME
    with conn.cursor() as cur:
        cur.execute(f"SELECT * FROM {TABLE_NAME}")
				
				# извлекаем все строки, полученные в результате выполнения запроса
        data = cur.fetchall()

				# получаем список имён столбцов из объекта курсора
        columns = [col[0] for col in cur.description]

# создаём объект DataFrame из полученных данных и имён столбцов 
# это позволяет удобно работать с данными в Python с использованием библиотеки Pandas
df = pd.DataFrame(data, columns=columns)

print(f"Размер нашей таблицы: {df.shape[0]} строк; {df.shape[1]} столбцов")

Размер нашей таблицы: 7043 строк; 22 столбцов


In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 22 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   id                 7043 non-null   int64         
 1   customer_id        7043 non-null   object        
 2   begin_date         7043 non-null   datetime64[ns]
 3   end_date           1869 non-null   datetime64[ns]
 4   type               7043 non-null   object        
 5   paperless_billing  7043 non-null   object        
 6   payment_method     7043 non-null   object        
 7   monthly_charges    7043 non-null   float64       
 8   total_charges      7032 non-null   float64       
 9   internet_service   5517 non-null   object        
 10  online_security    5517 non-null   object        
 11  online_backup      5517 non-null   object        
 12  device_protection  5517 non-null   object        
 13  tech_support       5517 non-null   object        
 14  streamin

In [3]:
columns = [
    "customer_id", "begin_date", "end_date", "type", "paperless_billing",
    "payment_method", "monthly_charges", "total_charges", "internet_service",
    "online_security", "online_backup", "device_protection", "tech_support",
    "streaming_tv", "streaming_movies", "gender", "senior_citizen", "partner",
    "dependents", "multiple_lines", "target"]

with open("columns.txt", "w", encoding="utf-8") as fio:
    fio.write(",".join(columns))

In [4]:
columns = [
    "customer_id", "begin_date", "end_date", "type", "paperless_billing",
    "payment_method", "monthly_charges", "total_charges", "internet_service",
    "online_security", "online_backup", "device_protection", "tech_support",
    "streaming_tv", "streaming_movies", "gender", "senior_citizen", "partner",
    "dependents", "multiple_lines", "target"]

stats = {}

for col in columns:
	# посчитайте уникальные значения для колонок, где немного уникальных значений (переменная counts_columns)
    column_stat = df[col].value_counts()
    column_stat = {f"{col}_{key}": value for key, value in column_stat.items()}
    stats


stats["data_length"] = df.shape[0]
stats["monthly_charges_min"] = df["monthly_charges"].min()
stats["monthly_charges_max"] = df["monthly_charges"].max() # посчитайте максимальное значение в колонке
stats["monthly_charges_mean"] = df["monthly_charges"].mean() # посчитайте среднее значение в колонке
stats["monthly_charges_median"] = df["monthly_charges"].median() # посчитайте медианное значение в колонке
stats["total_charges_min"] = df["total_charges"].min() # посчитайте минимальное значение в колонке
stats["total_charges_max"] = df["total_charges"].max() # посчитайте максимальное значение в колонке
stats["total_charges_mean"] = df["total_charges"].mean() # посчитайте среднее значение в колонке
stats["total_charges_median"] = df["total_charges"].median() # посчитайте медианное значение в колонке
stats["unique_customers_number"] = df["customer_id"].nunique() # посчитайте кол-во уникальных id
stats["end_date_nan"] = df["end_date"].isna().sum() # посчитайте кол-во пустых строк в колонке

In [5]:
df.to_csv("users_churn.csv", index=False) 

In [6]:
import mlflow
import os
EXPERIMENT_NAME='test_connection_experiment_vadim_shakula_type_pra'
RUN_NAME='practic'

# создаём новый эксперимент в MLflow с указанным названием 
# если эксперимент с таким именем уже существует, 
# MLflow возвращает идентификатор существующего эксперимента
mlflow.set_experiment(EXPERIMENT_NAME)
experiment_id = mlflow.get_experiment_by_name(EXPERIMENT_NAME).experiment_id

with mlflow.start_run(run_name=RUN_NAME, experiment_id=experiment_id) as run:
    # получаем уникальный идентификатор запуска эксперимента
    run_id = run.info.run_id
    
    # логируем метрики эксперимента
    # предполагается, что переменная stats содержит словарь с метриками,
    # где ключи — это названия метрик, а значения — числовые значения метрик
    mlflow.log_metrics(stats)
    
    # логируем файлы как артефакты эксперимента — 'columns.txt' и 'users_churn.csv'
    mlflow.log_artifact('columns.txt', "dataframe")
    mlflow.log_artifact('users_churn.csv', "dataframe")


experiment = mlflow.get_experiment_by_name(EXPERIMENT_NAME)
# получаем данные о запуске эксперимента по его уникальному идентификатору
run = mlflow.get_run(run_id) 


# проверяем, что статус запуска эксперимента изменён на 'FINISHED'
# это утверждение (assert) можно использовать для автоматической проверки того, 
# что эксперимент был завершён успешно
assert (run.info.status =='FINISHED')

# удаляем файлы 'columns.txt' и 'users_churn.csv' из файловой системы,
# чтобы очистить рабочую среду после логирования артефактов
os.remove('columns.txt') 
os.remove('users_churn.csv')


* 'schema_extra' has been renamed to 'json_schema_extra'


In [7]:
print(experiment_id)
print(EXPERIMENT_NAME)
print(run_id)

605134859207367797
test_connection_experiment_vadim_shakula_type_pra
29b797b646194ead86782fc8f0c2f4d1


In [8]:
def create_connection():

    load_dotenv()
    host = os.environ.get('DB_DESTINATION_HOST')
    port = os.environ.get('DB_DESTINATION_PORT')
    db = os.environ.get('DB_DESTINATION_NAME')
    username = os.environ.get('DB_DESTINATION_USER')
    password = os.environ.get('DB_DESTINATION_PASSWORD')
    
    print(f'postgresql://{username}:{password}@{host}:{port}/{db}')
    conn = create_engine(f'postgresql://{username}:{password}@{host}:{port}/{db}', connect_args={'sslmode':'require'})
    return conn

In [9]:
sql = f"""select count(*) 
from experiments 
join runs on experiments.experiment_id = runs.experiment_id 
where experiments.experiment_id = 548588041841417201
  and experiments.name = 'test_connection_experiment_vadim_shakula' 
  and runs.lifecycle_stage = 'active'"""

In [10]:
sql = f"""select *
from experiments 
join runs on experiments.experiment_id = runs.experiment_id
where experiments.name = 'eda'"""

In [39]:
sql = f"""select * 
        from runs join model_versions on runs.run_uuid=model_versions.run_id 
        where model_versions.name in ('feature_selection_intersection', 'feature_selection_union') 
            --and runs.run_uuid in ('7a0d6d437110492d86ea1656553067d9', '9e35466130db4a9ba27ebdfd8b2366e3') 
            --and model_versions.name = 'test_connection_experiment_vadim_shakula' 
           --and version in (8, 2)
            """

In [87]:
sql = f"""select model_versions.name as vn ,runs.name as rn, * 
        from runs join model_versions on runs.run_uuid=model_versions.run_id 
        where runs.name in ('Intersec_sbs', 'Union_sbs') 
                and runs.run_uuid in ('59369751017c494f85f8ce8a7c1c5b84', '4526ba7610864fabaee92cd46a3e5d14') 
                --and model_versions.name = 'churn_model_vadimshakula' 
                and version in (2, 1)"""
dt = pd.read_sql_query(sql, conn)
dt

  dt = pd.read_sql_query(sql, conn)


Unnamed: 0,vn,rn,run_uuid,name,source_type,source_name,entry_point_name,user_id,status,start_time,...,deleted_time,version,creation_time,last_updated_time,description,current_stage,source,run_id,status_message,run_link
0,feature_selection_intersection,Intersec_sbs,59369751017c494f85f8ce8a7c1c5b84,feature_selection_intersection,UNKNOWN,,,,READY,1757021304925,...,,2,1757021305271,1757021413837,,Production,s3://s3-student-mle-20250802-8a8f1a1def-freetr...,59369751017c494f85f8ce8a7c1c5b84,,
1,feature_selection_union,Union_sbs,4526ba7610864fabaee92cd46a3e5d14,feature_selection_union,UNKNOWN,,,,READY,1757020919115,...,,1,1757020919486,1757021427691,,Production,s3://s3-student-mle-20250802-8a8f1a1def-freetr...,4526ba7610864fabaee92cd46a3e5d14,,


In [46]:
dt = pd.read_sql_query(sql, conn)

  dt = pd.read_sql_query(sql, conn)


In [47]:
dt

Unnamed: 0,run_uuid,name,source_type,source_name,entry_point_name,user_id,status,start_time,end_time,source_version,...,creation_time,last_updated_time,description,user_id.1,current_stage,source,run_id,status.1,status_message,run_link


In [12]:
chargest_by_target_dist.png, charges_by_date.png, target_count.png, cat_features_1.png, cat_features_2_binary_heatmap.png, target_by_date.png

NameError: name 'chargest_by_target_dist' is not defined

In [None]:
dt = pd.read_sql_query(sql, conn)

  dt = pd.read_sql_query(sql, conn)


In [None]:
dt.head()

Unnamed: 0,experiment_id,name,artifact_location,lifecycle_stage,creation_time,last_update_time,run_uuid,name.1,source_type,source_name,entry_point_name,user_id,status,start_time,end_time,source_version,lifecycle_stage.1,artifact_uri,experiment_id.1,deleted_time


In [None]:
sqll = f"""select id,customer_id,begin_date,end_date,
type,
paperless_billing,
payment_method,
monthly_charges,
total_charges,
internet_service,
online_security,
online_backup,
device_protection,
tech_support,
streaming_tv,
streaming_movies,
gender,
senior_citizen,
partner, 
dependents,
multiple_lines,
target
from users_churn"""
date = pd.read_sql_query(sqll, conn)


  date = pd.read_sql_query(sqll, conn)


In [None]:
print(date)

         id customer_id begin_date   end_date            type   
0         4  7795-CFOCW 2016-05-01        NaT        One year  \
1         5  9237-HQITU 2019-09-01 2019-11-01  Month-to-month   
2         6  9305-CDSKC 2019-03-01 2019-11-01  Month-to-month   
3         7  1452-KIOVK 2018-04-01        NaT  Month-to-month   
4         8  6713-OKOMC 2019-04-01        NaT  Month-to-month   
...     ...         ...        ...        ...             ...   
7038  13028  0550-DCXLH 2019-01-01        NaT  Month-to-month   
7039  13029  9281-CEDRU 2014-06-01        NaT        Two year   
7040  13030  2235-DWLJU 2019-08-01        NaT  Month-to-month   
7041  13031  0871-OPBXW 2019-12-01        NaT  Month-to-month   
7042  13032  3605-JISKB 2015-07-01        NaT        One year   

     paperless_billing             payment_method  monthly_charges   
0                   No  Bank transfer (automatic)            42.30  \
1                  Yes           Electronic check            70.70   
2        

In [None]:
date.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 22 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   id                 7043 non-null   int64         
 1   customer_id        7043 non-null   object        
 2   begin_date         7043 non-null   datetime64[ns]
 3   end_date           1869 non-null   datetime64[ns]
 4   type               7043 non-null   object        
 5   paperless_billing  7043 non-null   object        
 6   payment_method     7043 non-null   object        
 7   monthly_charges    7043 non-null   float64       
 8   total_charges      7032 non-null   float64       
 9   internet_service   5517 non-null   object        
 10  online_security    5517 non-null   object        
 11  online_backup      5517 non-null   object        
 12  device_protection  5517 non-null   object        
 13  tech_support       5517 non-null   object        
 14  streamin