# Загрузка и предварительная обработка данных

## Google Drive

In [59]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## imports, consts

In [60]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go

from dateutil.relativedelta import relativedelta

# Пример кастомной дискретной палитры оттенков желтого
palette = ['#FFD700', '#FFC200', '#FFA500', '#FF8C00']


## Загрузка

Данные взяты с сайта kaggle
[пользователи Netflix](https://www.kaggle.com/datasets/arnavsmayan/netflix-userbase-dataset)

In [61]:
df = pd.read_csv('/content/drive/MyDrive/2024/2024-Аналитик данных/Python_lesson14_Portfolio/netflix_users_data.csv')

In [62]:
df

Unnamed: 0,User ID,Subscription Type,Monthly Revenue,Join Date,Last Payment Date,Country,Age,Gender,Device,Plan Duration
0,1,Basic,10,15-01-22,10-06-23,United States,28,Male,Smartphone,1 Month
1,2,Premium,15,05-09-21,22-06-23,Canada,35,Female,Tablet,1 Month
2,3,Standard,12,28-02-23,27-06-23,United Kingdom,42,Male,Smart TV,1 Month
3,4,Standard,12,10-07-22,26-06-23,Australia,51,Female,Laptop,1 Month
4,5,Basic,10,01-05-23,28-06-23,Germany,33,Male,Smartphone,1 Month
...,...,...,...,...,...,...,...,...,...,...
2495,2496,Premium,14,25-07-22,12-07-23,Spain,28,Female,Smart TV,1 Month
2496,2497,Basic,15,04-08-22,14-07-23,Spain,33,Female,Smart TV,1 Month
2497,2498,Standard,12,09-08-22,15-07-23,United States,38,Male,Laptop,1 Month
2498,2499,Standard,13,12-08-22,12-07-23,Canada,48,Female,Tablet,1 Month


In [63]:
print(df.head())
print(df.describe())
print('Columns: ' + ', '.join(df.columns))

   User ID Subscription Type  Monthly Revenue Join Date Last Payment Date  \
0        1             Basic               10  15-01-22          10-06-23   
1        2           Premium               15  05-09-21          22-06-23   
2        3          Standard               12  28-02-23          27-06-23   
3        4          Standard               12  10-07-22          26-06-23   
4        5             Basic               10  01-05-23          28-06-23   

          Country  Age  Gender      Device Plan Duration  
0   United States   28    Male  Smartphone       1 Month  
1          Canada   35  Female      Tablet       1 Month  
2  United Kingdom   42    Male    Smart TV       1 Month  
3       Australia   51  Female      Laptop       1 Month  
4         Germany   33    Male  Smartphone       1 Month  
          User ID  Monthly Revenue          Age
count  2500.00000      2500.000000  2500.000000
mean   1250.50000        12.508400    38.795600
std     721.83216         1.686851     

## Приведение столбцов к стилю camel_case

In [64]:
import re

# Функция для перевода в camelCase
def to_camel_case(s):
    s = re.sub(r'[^a-zA-Z0-9]', ' ', s).title().replace(' ', '')
    return s[0].lower() + s[1:]

# Применяем функцию к названиям столбцов
df.columns = [to_camel_case(col) for col in df.columns]

print('Columns: ' + ', '.join(df.columns))

Columns: userId, subscriptionType, monthlyRevenue, joinDate, lastPaymentDate, country, age, gender, device, planDuration


## Приведение типов данных

In [65]:
#привести дату к типу datetime
df['joinDate'] = pd.to_datetime(df['joinDate'])
df['lastPaymentDate'] = pd.to_datetime(df['lastPaymentDate'])
df


Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.


Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.



Unnamed: 0,userId,subscriptionType,monthlyRevenue,joinDate,lastPaymentDate,country,age,gender,device,planDuration
0,1,Basic,10,2022-01-15,2023-10-06,United States,28,Male,Smartphone,1 Month
1,2,Premium,15,2021-05-09,2023-06-22,Canada,35,Female,Tablet,1 Month
2,3,Standard,12,2023-02-28,2023-06-27,United Kingdom,42,Male,Smart TV,1 Month
3,4,Standard,12,2022-10-07,2023-06-26,Australia,51,Female,Laptop,1 Month
4,5,Basic,10,2023-01-05,2023-06-28,Germany,33,Male,Smartphone,1 Month
...,...,...,...,...,...,...,...,...,...,...
2495,2496,Premium,14,2022-07-25,2023-12-07,Spain,28,Female,Smart TV,1 Month
2496,2497,Basic,15,2022-04-08,2023-07-14,Spain,33,Female,Smart TV,1 Month
2497,2498,Standard,12,2022-09-08,2023-07-15,United States,38,Male,Laptop,1 Month
2498,2499,Standard,13,2022-12-08,2023-12-07,Canada,48,Female,Tablet,1 Month


In [66]:
df.nunique()

Unnamed: 0,0
userId,2500
subscriptionType,3
monthlyRevenue,6
joinDate,300
lastPaymentDate,26
country,10
age,26
gender,2
device,4
planDuration,1


## Поиск дублей и пропусков в данных

### Пропуски

In [67]:
df.isnull().sum()

Unnamed: 0,0
userId,0
subscriptionType,0
monthlyRevenue,0
joinDate,0
lastPaymentDate,0
country,0
age,0
gender,0
device,0
planDuration,0


Пропусков нет

### Дубли

In [68]:
print(f'До удаления дублей: {len(df)}')

df = df.drop_duplicates()

print(f'После удаления дублей: {len(df)}')

До удаления дублей: 2500
После удаления дублей: 2500


# Исследовательский анализ данных

In [69]:
df

Unnamed: 0,userId,subscriptionType,monthlyRevenue,joinDate,lastPaymentDate,country,age,gender,device,planDuration
0,1,Basic,10,2022-01-15,2023-10-06,United States,28,Male,Smartphone,1 Month
1,2,Premium,15,2021-05-09,2023-06-22,Canada,35,Female,Tablet,1 Month
2,3,Standard,12,2023-02-28,2023-06-27,United Kingdom,42,Male,Smart TV,1 Month
3,4,Standard,12,2022-10-07,2023-06-26,Australia,51,Female,Laptop,1 Month
4,5,Basic,10,2023-01-05,2023-06-28,Germany,33,Male,Smartphone,1 Month
...,...,...,...,...,...,...,...,...,...,...
2495,2496,Premium,14,2022-07-25,2023-12-07,Spain,28,Female,Smart TV,1 Month
2496,2497,Basic,15,2022-04-08,2023-07-14,Spain,33,Female,Smart TV,1 Month
2497,2498,Standard,12,2022-09-08,2023-07-15,United States,38,Male,Laptop,1 Month
2498,2499,Standard,13,2022-12-08,2023-12-07,Canada,48,Female,Tablet,1 Month


## Пользователи

In [70]:
unique_users = df['userId'].nunique()
unique_countries = df['country'].nunique()

min_date = df['joinDate'].min()
max_date = df['joinDate'].max()

min_l_date = df['lastPaymentDate'].min()
max_l_date = df['lastPaymentDate'].max()

min_age = df['age'].min()
max_age = df['age'].max()


print(f"Количество уникальных пользователей: {unique_users}")
print(f"Количество стран в данных: {unique_countries}")
print(f"Период появления пользователей: с {min_date.date()} по {max_date.date()}")
print(f"Период отписки пользователей: с {min_l_date.date()} по {max_l_date.date()}")
print(f"Диапазон возрастов пользователей: от {min_age} до {max_age} лет")

Количество уникальных пользователей: 2500
Количество стран в данных: 10
Период появления пользователей: с 2021-05-09 по 2023-12-01
Период отписки пользователей: с 2023-01-07 по 2023-12-07
Диапазон возрастов пользователей: от 26 до 51 лет


### Возраст пользователей

In [71]:
age_fig = px.histogram(df, x='age', nbins=30, title="Распределение возрастов пользователей"  ,  color_discrete_sequence=palette
)
age_fig.show()

print(f'Средний возраст {df.age.mean():.1f}')

Средний возраст 38.8


Примерно равномерное распределение от 27 до 51 года. (И один пользователь 26 лет)

### Пол пользователей

In [72]:
# изучить пол пользователей (визуализировать)
gender_fig = px.bar(df.groupby('gender')['userId'].nunique().reset_index(), x='gender', y='userId', color='gender', title="Распределение пользователей по полу",    color_discrete_sequence=palette
)
gender_fig.show()

# Подсчет количества пользователей каждого пола
gender_counts = df['gender'].value_counts()

# Подсчет процентов
gender_percentages = df['gender'].value_counts(normalize=True) * 100

# Вывод результатов построчно
for gender in gender_counts.index:
    count = gender_counts[gender]
    percentage = gender_percentages[gender]
    print(f"{gender}: {count} пользователей ({percentage:.2f}%)")

Female: 1257 пользователей (50.28%)
Male: 1243 пользователей (49.72%)


Пользователей мужчин и женщин почти одинаковое количество

#### Связь пола и возраста пользователей

In [73]:
# Преобразуем столбцы в нужные форматы, если это еще не сделано
# Создаем DataFrame для распределения возраста
age_gender_df = df[['age', 'gender']]

# Визуализация распределения возраста по полу с помощью гистограммы
age_gender_histogram = px.histogram(age_gender_df,
                                    x='age',
                                    color='gender',
                                    barmode='overlay',
                                    title="Распределение возраста пользователей по полу",
                                    labels={'age':'Age', 'gender':'Gender'}, nbins=6)

# Обновление макета графика для лучшего отображения
age_gender_histogram.update_layout(bargap=0.2)

age_gender_histogram.show()

# Преобразуем столбцы в нужные форматы, если это еще не сделано
# Создаем DataFrame для анализа
age_gender_df = df[['age', 'gender']]

# Определяем возрастные категории
age_gender_df['ageCategory'] = age_gender_df['age'].apply(lambda x: 'Under 40' if x < 40 else '40 and Above')

# Подсчитываем количество пользователей по полу в каждой возрастной категории
category_gender_counts = age_gender_df.groupby(['ageCategory', 'gender']).size().reset_index(name='count')

# Подсчитываем общее количество пользователей в каждой возрастной категории
category_totals = age_gender_df.groupby('ageCategory').size().reset_index(name='total')

# Объединяем данные о подсчетах с общими значениями
category_gender_counts = category_gender_counts.merge(category_totals, on='ageCategory')

# Рассчитываем процентное соотношение
category_gender_counts['percentage'] = (category_gender_counts['count'] / category_gender_counts['total']) * 100

# Формируем текстовый вывод
for _, row in category_gender_counts.iterrows():
    category = row['ageCategory']
    gender = row['gender']
    percentage = row['percentage']
    print(f"В возрастной категории '{category}' процент пользователей {gender}: {percentage:.2f}%")

В возрастной категории '40 and Above' процент пользователей Female: 52.86%
В возрастной категории '40 and Above' процент пользователей Male: 47.14%
В возрастной категории 'Under 40' процент пользователей Female: 48.00%
В возрастной категории 'Under 40' процент пользователей Male: 52.00%




A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Если смотреть соотношщение пользователей разного пола в разных возрастных группах, то видно, что до 40 лет немного больше мужчин, старше 40 лет - больше женщин, но отличие небольшое (2-3%)

### Девайсы пользователей

In [74]:
# Анализ устройств пользователей
device_counts = df['device'].value_counts()
device_percentages = df['device'].value_counts(normalize=True) * 100

# Визуализация через bar chart
device_fig = px.bar(device_counts, x=device_counts.index, y=device_counts.values, title="Распределение пользователей по устройствам", labels={'x':'Device', 'y':'Number of Users'},    color_discrete_sequence=palette
)
device_fig.show()

# Вывод результатов
for device in device_counts.index:
    count = device_counts[device]
    percentage = device_percentages[device]
    print(f"{device}: {count} пользователей ({percentage:.2f}%)")


Laptop: 636 пользователей (25.44%)
Tablet: 633 пользователей (25.32%)
Smartphone: 621 пользователей (24.84%)
Smart TV: 610 пользователей (24.40%)


Приблизительно равные доли пользователей используют каждый из 4х видов устройств

#### Связь девайса и пола

In [75]:
# Создаем DataFrame для анализа распределения по полу среди типов устройств
device_gender_df = df[['device', 'gender']]

# Визуализация распределения пола по типу устройства с помощью гистограммы
device_gender_histogram = px.histogram(device_gender_df,
                                       x='device',
                                       color='gender',
                                       barmode='overlay',
                                       title="Распределение пользователей по полу среди типов устройств",
                                       labels={'device':'Device Type', 'gender':'Gender'})

# Обновление макета графика для лучшего отображения
device_gender_histogram.update_layout(xaxis_title='Device Type',
                                       yaxis_title='Count')

device_gender_histogram.show()

# Создаем DataFrame для анализа распределения по полу среди типов устройств
device_gender_df = df[['device', 'gender']]

# Визуализация распределения пола по типу устройства с помощью графика плотности
device_gender_density = px.density_heatmap(device_gender_df,
                                          x='device',
                                          y='gender',
                                          title="Распределение пользователей по полу среди типов устройств (график плотности)",
                                          labels={'device':'Device Type', 'gender':'Gender'},
                                           color_continuous_scale=palette)

device_gender_density.show()


# Подсчитываем количество пользователей по полу для каждого типа устройства
device_gender_counts = device_gender_df.groupby(['device', 'gender']).size().reset_index(name='count')

# Подсчитываем общее количество пользователей для каждого типа устройства
device_totals = device_gender_df.groupby('device').size().reset_index(name='total')

# Объединяем данные о подсчетах с общими значениями
device_gender_counts = device_gender_counts.merge(device_totals, on='device')

# Рассчитываем процентное соотношение
device_gender_counts['percentage'] = (device_gender_counts['count'] / device_gender_counts['total']) * 100

# Формируем текстовый вывод
for _, row in device_gender_counts.iterrows():
    device = row['device']
    gender = row['gender']
    percentage = row['percentage']
    print(f"В категории '{device}' процент пользователей {gender}: {percentage:.2f}%")


В категории 'Laptop' процент пользователей Female: 51.73%
В категории 'Laptop' процент пользователей Male: 48.27%
В категории 'Smart TV' процент пользователей Female: 50.00%
В категории 'Smart TV' процент пользователей Male: 50.00%
В категории 'Smartphone' процент пользователей Female: 48.31%
В категории 'Smartphone' процент пользователей Male: 51.69%
В категории 'Tablet' процент пользователей Female: 51.03%
В категории 'Tablet' процент пользователей Male: 48.97%


Различия в использовании разных устройств пользователями разного пола есть, но в пределах 2% (достоверность сомнительна и изучению подвергаться не будет, так как разница не существенна)


#### Связь девайса и возраста

In [76]:
# Создаем DataFrame для анализа связи между типом устройства и возрастом
device_age_df = df[['device', 'age']]

# Визуализация распределения возраста по типу устройства с помощью боксплота (Box Plot)
device_age_boxplot = px.box(device_age_df,
                            x='device',
                            y='age',
                            title="Связь между типом устройства и возрастом пользователей",
                            labels={'device':'Device Type', 'age':'Age'},
                            color_discrete_sequence=palette)

# Обновление макета графика для лучшего отображения
device_age_boxplot.update_layout(xaxis_title='Device Type',
                                 yaxis_title='Age')

device_age_boxplot.show()

# Альтернативный вариант - создание виолончельного графика (Violin Plot) для более детального анализа
device_age_violinplot = px.violin(device_age_df,
                                  x='device',
                                  y='age',
                                  box=True,  # Включает отображение боксплота внутри виолончельного графика
                                  title="Связь между типом устройства и возрастом пользователей (Violin Plot)",
                                  labels={'device':'Device Type', 'age':'Age'},
                                  color_discrete_sequence=palette)

device_age_violinplot.update_layout(xaxis_title='Device Type',
                                    yaxis_title='Age')

device_age_violinplot.show()


# Разделение возраста на категории с шагом 10 лет
df['ageCategory'] = pd.cut(df['age'], bins=range(0, 101, 5), right=False)

# Преобразование интервалов в строки
df['ageCategory'] = df['ageCategory'].astype(str)

# Подсчет общего количества пользователей для каждой возрастной категории
total_age_category = df.groupby('ageCategory').size().reset_index(name='totalCount')

# Подсчет количества пользователей в каждой комбинации ageCategory и device
age_device_counts = df.groupby(['ageCategory', 'device']).size().reset_index(name='count')

# Объединение данных для расчета процентов
age_device_counts = age_device_counts.merge(total_age_category, on='ageCategory')

# Расчет процентного соотношения для каждого устройства среди пользователей данной возрастной категории
age_device_counts['percentage'] = (age_device_counts['count'] / age_device_counts['totalCount']) * 100

# Визуализация данных с помощью scatter plot с добавлением данных в hover
scatter_plot = px.scatter(age_device_counts,
                          x='ageCategory',
                          y='percentage',
                          color='device',
                          symbol='device',
                          hover_data={'count': True},  # Добавляем абсолютное количество пользователей в hover
                          title="Процент пользователей конкретного возраста, использующих заданное устройство",
                          labels={'ageCategory':'Age Category', 'percentage':'Percentage (%)', 'device':'Device Type'},
                          color_discrete_sequence=palette)

# Увеличиваем размер маркеров
scatter_plot.update_traces(marker=dict(size=10))

scatter_plot.show()






В целом существенной разницы в возрастном распределении по устройствам нет, разброс процентной доли с использовании каждого из 4х устройств лежит в пределах +-5% (20-30%), ари этом наибольшую вариабельность показала категория 40-45 лет : в этой категории всего 20% у категории Smart TV и почти 30% у категории Laptop, в остальных возрастных группах разброс ещё меньше (22-27%).

### Тип подписки пользователей

In [77]:
# Анализ типа подписки
subscription_counts = df['subscriptionType'].value_counts()
subscription_percentages = df['subscriptionType'].value_counts(normalize=True) * 100

# Визуализация через bar chart
subscription_fig = px.bar(
    subscription_counts,
    x=subscription_counts.index,
    y=subscription_counts.values,
    title="Распределение пользователей по типам подписки",
    labels={'x':'Subscription Type', 'y':'Number of Users'},
    color_discrete_sequence=palette
)
subscription_fig.show()

# Вывод результатов
for subscription in subscription_counts.index:
    count = subscription_counts[subscription]
    percentage = subscription_percentages[subscription]
    print(f"{subscription}: {count} пользователей ({percentage:.2f}%)")


Basic: 999 пользователей (39.96%)
Standard: 768 пользователей (30.72%)
Premium: 733 пользователей (29.32%)


Пользователей немного больше на подписке типа Basic (40% потив 30% у Standard и Premium)

#### Связь типа подписки и возраста

In [78]:
# Разделение возраста на корзины с шагом 10 лет
df['ageCategory'] = pd.cut(df['age'], bins=range(0, 101, 5), right=False).astype(str)

# Подсчет количества пользователей в каждой возрастной категории для каждого типа тарифа
tariff_age_distribution = df.groupby(['ageCategory', 'subscriptionType']).size().reset_index(name='userCount')

# Подсчет общего количества пользователей в каждой возрастной категории
total_users_by_age = df.groupby('ageCategory').size().reset_index(name='totalUserCount')

# Объединение данных для расчета процентов
tariff_age_distribution = pd.merge(tariff_age_distribution, total_users_by_age, on='ageCategory')
tariff_age_distribution['percentage'] = (tariff_age_distribution['userCount'] / tariff_age_distribution['totalUserCount']) * 100

# Построение stacked bar chart для отображения процентного соотношения типов тарифов по возрастным категориям
fig = px.bar(tariff_age_distribution,
             x='ageCategory',
             y='percentage',
             color='subscriptionType',
             title='Процентное соотношение типов тарифов по возрастным категориям',
             labels={'ageCategory':'Возрастная категория', 'percentage':'Процент пользователей', 'subscriptionType':'Тип тарифа'},
             barmode='stack',  # Режим наложения столбцов друг на друга
             color_discrete_sequence=palette)

# Настройка отображения графика
fig.update_layout(xaxis_title='Возрастная категория', yaxis_title='Процент пользователей')

fig.show()


# Определение мин/макс/среднего значений для каждого типа тарифа
summary = tariff_age_distribution.groupby('subscriptionType').apply(
    lambda x: pd.Series({
        'min_percentage': x['percentage'].min(),
        'max_percentage': x['percentage'].max(),
        'avg_percentage': x['percentage'].mean(),
        'min_age_category': x.loc[x['percentage'].idxmin(), 'ageCategory'],
        'max_age_category': x.loc[x['percentage'].idxmax(), 'ageCategory']
    })
).reset_index()

# Вывод результатов
for index, row in summary.iterrows():
    print(f"Тариф: {row['subscriptionType']}")
    print(f"Минимальное процентное соотношение: {row['min_percentage']:.2f}% в возрастной категории {row['min_age_category']} лет")
    print(f"Максимальное процентное соотношение: {row['max_percentage']:.2f}% в возрастной категории {row['max_age_category']} лет")
    print(f"Среднее процентное соотношение по всем возрастным группам: {row['avg_percentage']:.2f}%\n")

Тариф: Basic
Минимальное процентное соотношение: 36.07% в возрастной категории [40, 45) лет
Максимальное процентное соотношение: 43.02% в возрастной категории [35, 40) лет
Среднее процентное соотношение по всем возрастным группам: 39.85%

Тариф: Premium
Минимальное процентное соотношение: 26.74% в возрастной категории [35, 40) лет
Максимальное процентное соотношение: 31.92% в возрастной категории [25, 30) лет
Среднее процентное соотношение по всем возрастным группам: 29.50%

Тариф: Standard
Минимальное процентное соотношение: 28.01% в возрастной категории [25, 30) лет
Максимальное процентное соотношение: 34.27% в возрастной категории [40, 45) лет
Среднее процентное соотношение по всем возрастным группам: 30.65%



### Страны пользователей

In [79]:
# Анализ страны проживания
country_counts = df['country'].value_counts()
country_percentages = df['country'].value_counts(normalize=True) * 100

# Визуализация через bar chart
country_fig = px.bar(
    country_counts,
    x=country_counts.index,
    y=country_counts.values,
    title="Распределение пользователей по странам",
    labels={'x':'Country', 'y':'Number of Users'},
    color_discrete_sequence=palette
)
country_fig.show()

print(f'География пользователей представлена {len(country_counts)} странами')
# Вывод результатов
for country in country_counts.index:
    count = country_counts[country]
    percentage = country_percentages[country]
    print(f"{country}: {count} пользователей ({percentage:.2f}%)")


География пользователей представлена 10 странами
United States: 451 пользователей (18.04%)
Spain: 451 пользователей (18.04%)
Canada: 317 пользователей (12.68%)
United Kingdom: 183 пользователей (7.32%)
Australia: 183 пользователей (7.32%)
Germany: 183 пользователей (7.32%)
France: 183 пользователей (7.32%)
Brazil: 183 пользователей (7.32%)
Mexico: 183 пользователей (7.32%)
Italy: 183 пользователей (7.32%)


По 18% пользователей проживают в USA и Spain, 12% в Canada, в остальных 7 странах одинакокове число - по 7.3%

#### Связь страны и типа подписки пользователей

In [80]:
# Подсчет количества пользователей в каждой стране для каждого типа тарифа
tariff_country_distribution = df.groupby(['country', 'subscriptionType']).size().reset_index(name='userCount')

# Подсчет общего количества пользователей в каждой стране
total_users_by_country = df.groupby('country').size().reset_index(name='totalUserCount')

# Объединение данных для расчета процентов
tariff_country_distribution = pd.merge(tariff_country_distribution, total_users_by_country, on='country')
tariff_country_distribution['percentage'] = (tariff_country_distribution['userCount'] / tariff_country_distribution['totalUserCount']) * 100

# Визуализация bar chart с группировкой столбцов один над другим
fig = px.bar(
    tariff_country_distribution,
    x='country',
    y='percentage',
    color='subscriptionType',
    barmode='stack',
    labels={'percentage': 'Процент пользователей', 'country': 'Страна', 'subscriptionType': 'Тип тарифа'},
    title='Процентное соотношение типов тарифов по странам',
    color_discrete_sequence=palette,
    hover_data={'percentage': True, 'userCount': True, 'subscriptionType': True, 'country': True}  # Добавляем информацию для отображения в hover
)

fig.show()

# Вывод текста с процентным соотношением и доминирующим тарифом
for country in tariff_country_distribution['country'].unique():
    country_data = tariff_country_distribution[tariff_country_distribution['country'] == country]
    country_summary = []

    # Вывод процентного соотношения для каждого тарифа
    for _, row in country_data.iterrows():
        country_summary.append(f"{row['subscriptionType']}: {row['percentage']:.2f}%")

    # Определение доминирующего тарифа
    dominant_tariff = country_data.loc[country_data['percentage'].idxmax()]
    dominant_percentage = dominant_tariff['percentage']

    # Вывод результатов
    print(f"Страна: {country}")
    if dominant_percentage > 75:
        dominant_tariff_text = f"Почти все пользователи ({dominant_percentage:.2f}%) пользуются тарифом '{dominant_tariff['subscriptionType']}'"
        print(dominant_tariff_text)
    else:
        # dominant_tariff_text = f"Нет явного доминирования по тарифам"

        print("Процентное распределение по тарифам:")
        for summary in country_summary:
            print(f"  {summary}")
        #print(dominant_tariff_text)
    print("\n")

Страна: Australia
Процентное распределение по тарифам:
  Basic: 16.94%
  Premium: 55.19%
  Standard: 27.87%


Страна: Brazil
Почти все пользователи (79.78%) пользуются тарифом 'Basic'


Страна: Canada
Процентное распределение по тарифам:
  Basic: 45.74%
  Premium: 27.76%
  Standard: 26.50%


Страна: France
Почти все пользователи (80.33%) пользуются тарифом 'Premium'


Страна: Germany
Почти все пользователи (81.42%) пользуются тарифом 'Basic'


Страна: Italy
Почти все пользователи (96.17%) пользуются тарифом 'Basic'


Страна: Mexico
Почти все пользователи (97.81%) пользуются тарифом 'Standard'


Страна: Spain
Процентное распределение по тарифам:
  Basic: 24.39%
  Premium: 47.01%
  Standard: 28.60%


Страна: United Kingdom
Почти все пользователи (98.36%) пользуются тарифом 'Standard'


Страна: United States
Процентное распределение по тарифам:
  Basic: 44.12%
  Premium: 32.15%
  Standard: 23.73%




### Динамика привлечения пользователей

In [81]:
# Группировка данных по месяцам
df['joinMonth'] = df['joinDate'].dt.to_period('M').astype(str)
user_counts_by_month = df.groupby('joinMonth').size().reset_index(name='userCount')

# Визуализация динамики привлечения пользователей с кастомной желтой палитрой
join_fig = px.line(user_counts_by_month,
                   x='joinMonth',
                   y='userCount',
                   title="Динамика привлечения пользователей",
                   labels={'joinMonth':'Join Month', 'userCount':'Number of Users'},
                   color_discrete_sequence=palette)

join_fig.show()

Почти все пользователи были привлечены в 2022 г, при этом большая часть - в период с Июня по Октябрь. Расчитаем конкретные проценты:

In [82]:
# Фильтруем пользователей, присоединившихся в 2022 году
df_2022 = df[df['joinDate'].dt.year == 2022]

# Общее количество пользователей, присоединившихся в 2022 году
total_users_2022 = df_2022['userId'].nunique()

# Фильтруем пользователей, присоединившихся с июня по октябрь 2022 года
df_jun_oct_2022 = df_2022[(df_2022['joinDate'].dt.month >= 6) & (df_2022['joinDate'].dt.month <= 10)]

# Количество пользователей, присоединившихся с июня по октябрь 2022 года
users_jun_oct_2022 = df_jun_oct_2022['userId'].nunique()

# Общее количество пользователей в датасете
total_users = df['userId'].nunique()

# Расчет процентов
percentage_2022 = (total_users_2022 / total_users) * 100
percentage_jun_oct_2022 = (users_jun_oct_2022 / total_users) * 100

# Вывод результатов
print(f"Процент пользователей, привлеченных в 2022 году: {percentage_2022:.2f}%")
print(f"Процент пользователей, привлеченных с июня по октябрь 2022 года: {percentage_jun_oct_2022:.2f}%")

Процент пользователей, привлеченных в 2022 году: 97.92%
Процент пользователей, привлеченных с июня по октябрь 2022 года: 69.44%


#### Динамика привлечения пользователей разных возрастных групп

In [83]:
# Разбиение пользователей на возрастные категории
bins = [0, 20, 30, 40, 50, 60, 70, 100]  # Пример возрастных категорий
labels = ['0-20', '21-30', '31-40', '41-50', '51-60', '61-70', '71+']
df['ageCategory'] = pd.cut(df['age'], bins=bins, labels=labels)

# Группировка данных по месяцам и возрастным категориям
df['joinMonth'] = df['joinDate'].dt.to_period('M').astype(str)
user_counts_by_age_and_month = df.groupby(['joinMonth', 'ageCategory']).size().reset_index(name='userCount')

# Вычисление общего количества пользователей в каждой возрастной категории
total_users_by_age = df.groupby('ageCategory')['userId'].nunique().reset_index(name='totalUsers')

# Объединение данных для расчета процентов
user_counts_by_age_and_month = user_counts_by_age_and_month.merge(total_users_by_age, on='ageCategory')
user_counts_by_age_and_month['Percentage'] = (user_counts_by_age_and_month['userCount'] /
                                              user_counts_by_age_and_month['totalUsers']) * 100

# Визуализация динамики привлечения пользователей по возрастным категориям в процентах
join_fig = px.line(user_counts_by_age_and_month,
                   x='joinMonth',
                   y='Percentage',
                   color='ageCategory',
                   title="Динамика привлечения пользователей по возрастным категориям (в процентах)",
                   labels={'joinMonth': 'Join Month', 'Percentage': 'Percentage of Users', 'ageCategory': 'Age Category'},
                   color_discrete_sequence=palette)

join_fig.show()









### Динамика отписок пользователей

In [84]:
# Группировка данных по месяцам для даты присоединения
df['joinMonth'] = df['joinDate'].dt.to_period('M').astype(str)
user_counts_by_month = df.groupby('joinMonth').size().reset_index(name='userCount')
user_counts_by_month['Type'] = 'Привлечение'

# Группировка данных по месяцам для даты последней оплаты (отписки)
df['lastPaymentMonth'] = df['lastPaymentDate'].dt.to_period('M').astype(str)
user_cancellations_by_month = df.groupby('lastPaymentMonth').size().reset_index(name='userCount')
user_cancellations_by_month['Type'] = 'Отписка'
user_cancellations_by_month['joinMonth'] = user_cancellations_by_month['lastPaymentMonth']

# Вычисление процентов от общего числа пользователей
user_counts_by_month['Percentage'] = (user_counts_by_month['userCount'] / total_users) * 100
user_cancellations_by_month['Percentage'] = (user_cancellations_by_month['userCount'] / total_users) * 100

# Объединение данных в один DataFrame
combined_data = pd.concat([user_counts_by_month, user_cancellations_by_month])

# Визуализация динамики привлечения и отписок пользователей в процентах
combined_fig = px.line(combined_data,
                       x='joinMonth',
                       y='Percentage',
                       color='Type',
                       title="Динамика привлечения и отписок пользователей (в процентах)",
                       labels={'joinMonth': 'Месяц', 'Percentage': 'Процент пользователей'},
                       hover_data={'userCount': True, 'Percentage': True, 'Type': False},
                       color_discrete_sequence=palette)

combined_fig.show()

Отписки (последние платежи) были с января по декабрь 2023г, с острым пиком в Июне (40% пользователей имеют последний платеж в этом месяце)

### Динамика количества активных пользователей

In [85]:
# Создаем DataFrame для хранения данных по активным пользователям по месяцам
user_activity = pd.DataFrame()

# Для каждого пользователя создаем диапазон месяцев, в течение которых он был активен
for index, row in df.iterrows():
    # Создаем диапазон дат от joinDate до lastPaymentDate с шагом в 1 месяц
    date_range = pd.date_range(start=row['joinDate'], end=row['lastPaymentDate'], freq='MS')

    # Создаем временный DataFrame с датами и идентификатором пользователя
    temp_df = pd.DataFrame({'date': date_range, 'userId': row['userId']})

    # Добавляем данные в общий DataFrame
    user_activity = pd.concat([user_activity, temp_df])

# Подсчитываем количество активных пользователей по месяцам
user_counts_by_month = user_activity.groupby('date').size().reset_index(name='activeUsers')

# Визуализация динамики количества пользователей
user_counts_fig = px.line(user_counts_by_month,
                         x='date',
                         y='activeUsers',
                         title="Динамика количества активных пользователей по месяцам",
                         labels={'date':'Date', 'activeUsers':'Number of Active Users'},
                         color_discrete_sequence=palette)

user_counts_fig.show()


The behavior of DatetimeProperties.to_pydatetime is deprecated, in a future version this will return a Series containing python datetime objects instead of an ndarray. To retain the old behavior, call `np.array` on the result



Больше всего активных пользователей было в Январе 2023 (2462 пользователя), рост начался в Январе 2022, резкий спад - в Июле 2023.

## Выручка

In [86]:
# Рассчет общего количества месяцев, в течение которых клиент был активен
df['monthsActive'] = df.apply(lambda row: relativedelta(row['lastPaymentDate'], row['joinDate']).months +
                              relativedelta(row['lastPaymentDate'], row['joinDate']).years * 12 + 1, axis=1)

# Рассчет общей выручки для каждого клиента
df['totalRevenue'] = df['monthlyRevenue'] * df['monthsActive']

# Рассчет общей суммы выручки
total_revenue = df['totalRevenue'].sum()

# Рассчет общего количества уникальных пользователей
unique_users = df['userId'].nunique()

# Рассчет средней выручки на одного клиента
average_revenue_per_user = total_revenue / unique_users

# Вывод результатов
print(f"Полная сумма выручки: ${total_revenue:,.2f}")
print(f"Средняя выручка на одного клиента: ${average_revenue_per_user:,.2f}")

Полная сумма выручки: $349,400.00
Средняя выручка на одного клиента: $139.76


### Динамика выручки

In [87]:
# Создадим DataFrame для хранения данных по каждому месяцу с их выручкой
revenue_by_month = pd.DataFrame()

# Для каждого пользователя создаем диапазон месяцев и соответствующую выручку
for index, row in df.iterrows():
    # Создаем диапазон дат от joinDate до lastPaymentDate с шагом в 1 месяц
    date_range = pd.date_range(start=row['joinDate'], end=row['lastPaymentDate'], freq='MS')

    # Создаем временный DataFrame с датами и выручкой
    temp_df = pd.DataFrame({'date': date_range, 'revenue': row['monthlyRevenue']})

    # Добавляем данные в общий DataFrame
    revenue_by_month = pd.concat([revenue_by_month, temp_df])

# Группируем данные по месяцу и суммируем выручку
revenue_by_month = revenue_by_month.groupby('date').sum().reset_index()

revenue_fig = px.line(revenue_by_month,
                      x='date',
                      y='revenue',
                      title="Динамика накопленной выручки по месяцам",
                      labels={'date':'Date', 'revenue':'Cumulative Monthly Revenue'},
                      color_discrete_sequence=palette)
revenue_fig.show()



The behavior of DatetimeProperties.to_pydatetime is deprecated, in a future version this will return a Series containing python datetime objects instead of an ndarray. To retain the old behavior, call `np.array` on the result



график динамики выручки повторяет график динамики поличества активных пользователей (что не удивительно)

#### Динамика выручки по тарифам

In [88]:
# Создаем DataFrame для хранения данных по каждому месяцу и выручке
revenue_by_month_and_plan = pd.DataFrame()

# Для каждого пользователя создаем диапазон месяцев и соответствующую выручку
for index, row in df.iterrows():
    # Создаем диапазон дат от joinDate до lastPaymentDate с шагом в 1 месяц
    date_range = pd.date_range(start=row['joinDate'], end=row['lastPaymentDate'], freq='MS')

    # Создаем временный DataFrame с датами, выручкой и типом тарифа
    temp_df = pd.DataFrame({'date': date_range,
                            'revenue': row['monthlyRevenue'],
                            'subscriptionType': row['subscriptionType']})

    # Добавляем данные в общий DataFrame
    revenue_by_month_and_plan = pd.concat([revenue_by_month_and_plan, temp_df])

# Группируем данные по месяцу и типу тарифа и суммируем выручку
revenue_by_month_and_plan = revenue_by_month_and_plan.groupby(['date', 'subscriptionType']).sum().reset_index()

# Визуализация динамики накопленной выручки с тремя линиями по типу тарифа
revenue_fig = px.line(revenue_by_month_and_plan,
                      x='date',
                      y='revenue',
                      color='subscriptionType',
                      title="Динамика накопленной выручки по типу тарифа",
                      labels={'date':'Date', 'revenue':'Cumulative Monthly Revenue', 'subscriptionType':'Subscription Type'},
                      color_discrete_sequence=palette)

revenue_fig.update_layout(showlegend=True)  # Показываем легенду для различения линий

revenue_fig.show()



The behavior of DatetimeProperties.to_pydatetime is deprecated, in a future version this will return a Series containing python datetime objects instead of an ndarray. To retain the old behavior, call `np.array` on the result



Динамика выручки не различается между тарифами

#### Динамика выручки по странам

In [89]:
# Создаем DataFrame для хранения данных по каждому месяцу, выручке и стране
revenue_by_month_and_country = pd.DataFrame()

# Для каждого пользователя создаем диапазон месяцев и соответствующую выручку
for index, row in df.iterrows():
    # Создаем диапазон дат от joinDate до lastPaymentDate с шагом в 1 месяц
    date_range = pd.date_range(start=row['joinDate'], end=row['lastPaymentDate'], freq='MS')

    # Создаем временный DataFrame с датами, выручкой и страной
    temp_df = pd.DataFrame({'date': date_range,
                            'revenue': row['monthlyRevenue'],
                            'country': row['country']})

    # Добавляем данные в общий DataFrame
    revenue_by_month_and_country = pd.concat([revenue_by_month_and_country, temp_df])

# Группируем данные по месяцу и стране и суммируем выручку
revenue_by_month_and_country = revenue_by_month_and_country.groupby(['date', 'country']).sum().reset_index()

# Визуализация динамики накопленной выручки по странам
revenue_by_country_fig = px.line(revenue_by_month_and_country,
                                 x='date',
                                 y='revenue',
                                 color='country',
                                 title="Динамика накопленной выручки по странам",
                                 labels={'date':'Date', 'revenue':'Cumulative Monthly Revenue', 'country':'Country'},
                                 color_discrete_sequence=palette)


revenue_by_country_fig.update_layout(showlegend=True)  # Показываем легенду для различения линий

revenue_by_country_fig.show()


The behavior of DatetimeProperties.to_pydatetime is deprecated, in a future version this will return a Series containing python datetime objects instead of an ndarray. To retain the old behavior, call `np.array` on the result



То же и по странам - динамика идентична, различается только общий масштаб

### Платежеспособность по возрасту

In [90]:
# 1. Разделение возраста на корзины с шагом 10 лет
df['ageCategory'] = pd.cut(df['age'], bins=range(0, 101, 5), right=False)
df['ageCategory'] = df['ageCategory'].astype(str)
# 2. Подсчет общего дохода и средней выручки на пользователя в каждой возрастной корзине
df['monthlyRevenue'] = pd.to_numeric(df['monthlyRevenue'], errors='coerce')

# Группировка по возрастной категории и расчет показателей
revenue_by_age_category = df.groupby('ageCategory')['monthlyRevenue'].agg(['sum', 'mean', 'count']).reset_index()
revenue_by_age_category.columns = ['ageCategory', 'totalRevenue', 'averageRevenuePerUser', 'userCount']

# 3. Построение bar chart для отображения платежеспособности возрастных категорий
fig = px.bar(revenue_by_age_category,
             x='ageCategory',
             y='totalRevenue',
             title='Общий доход по возрастным категориям',
             labels={'ageCategory':'Возрастная категория', 'totalRevenue':'Общий доход'},
             text='totalRevenue',  # Отображение значения дохода на графике
             color_discrete_sequence=['#FFA500'])  # Цвет баров (оранжевый)

# Настройка отображения графика
fig.update_traces(texttemplate='%{text:.2s}', textposition='outside')
fig.update_layout(uniformtext_minsize=8, uniformtext_mode='hide')

fig.show()

График повторяет распределение пользователей по возрасту, посчитаем доход на одного пользователя:

In [91]:
from dateutil.relativedelta import relativedelta

# Вычисление количества месяцев между joinDate и lastPaymentDate
df['monthsActive'] = df.apply(lambda row: relativedelta(row['lastPaymentDate'], row['joinDate']).years * 12 + relativedelta(row['lastPaymentDate'], row['joinDate']).months + 1, axis=1)

# Вычисление суммарного дохода на одного пользователя за весь период
df['totalRevenuePerUser'] = df['monthsActive'] * df['monthlyRevenue']

# Разделение возраста на корзины с шагом 10 лет
df['ageCategory'] = pd.cut(df['age'], bins=range(25, 61, 5), right=False).astype(str)

# Группировка по возрастным категориям и расчет среднего дохода на одного пользователя
revenue_per_user_by_age_category = df.groupby('ageCategory')['totalRevenuePerUser'].mean().reset_index()

# Переименование столбцов для удобства
revenue_per_user_by_age_category.columns = ['ageCategory', 'averageTotalRevenuePerUser']

# Построение bar chart для отображения среднего суммарного дохода на одного пользователя по возрастным категориям
fig = px.bar(revenue_per_user_by_age_category,
             x='ageCategory',
             y='averageTotalRevenuePerUser',
             title='Средний суммарный доход на одного пользователя по возрастным категориям',
             labels={'ageCategory':'Возрастная категория', 'averageTotalRevenuePerUser':'Средний суммарный доход'},
             text='averageTotalRevenuePerUser',  # Отображение значения дохода на графике
             color_discrete_sequence=['#FFA500'])  # Цвет баров (оранжевый)

# Настройка отображения графика
fig.update_traces(texttemplate='%{text:.0f}', textposition='outside')
fig.update_layout(uniformtext_minsize=8, uniformtext_mode='hide')

fig.show()
# Вывод результатов
print(revenue_per_user_by_age_category)

  ageCategory  averageTotalRevenuePerUser
0    [25, 30)                  145.319218
1    [30, 35)                  141.053571
2    [35, 40)                  136.306202
3    [40, 45)                  140.486974
4    [45, 50)                  140.154930
5    [50, 55)                  133.344633


Самый большой суммарный доход на одного пользователя - в категории 25-30, но разброс значений мал (от 133 в категории 50-55 до 145 в категории 25-30)

# Выводы

- Представлены данные о 2500 пользователях из 10 стран, возрастом от 26 до 51 года, привлечённых в сервис с Мая 2021 г по Декабрь 2023 г. и отписавшихся в период с Января по Декабрь 2023 г.
  - распределение по возрасту равномерное от 27 до 51 года, один пользователь 26 лет
  - мужчин и женщин одинаковое число, в том числе в разных возрастных группах (среди пользователей до 40 лет незначительно больше мужчин, старше сорока - женщин)
  - почти все пользователи были привлечены в 2022 г
    - основная часть (~70%) была привлечена в период с Июня по Октябрь 2022 г.
  - большой процент пользователей (~40%) прекратил платежи в Июне 2023 г.
    - связи динамики привлечения и отписки с полом, возрастом, устройствами, и тарифом не обнаружено
  - пользователи равномерно распределены по используемым устройствам, при этом нет связи между используемым устройством и полом и возрастом
  - по 18% пользователей относятся к странам United States и Spain, 12% - Canada, остальные страны - по 7.3%
    - Динамика привлечения и отписки пользователей во всех странах одинакова
  - 40% пользователей имеют план подписки Basic, по 30% Standard и Premium
    - есть сильная связь типа подписки с страны
      - в странах Brazil, Germany, Italy почти все пользователи (80+%) пользуются тарифом Basic
      - в странах Mexico и United Kingdom Почти все пользователи (98%) пользуются тарифом 'Standard'
      - в стране France почти все пользователи (80.33%) пользуются тарифом Premium
      - в странах United States, Spain, Canada распределения более равномерные
- Полная выручка согласно предоставленным данным составила \$ 349,400
  - Динамика выручки повторяет динамику количества активных пользователей - рост в течение 2022г, после чего спад, с резким пиком спада в Июле 2023 г.
    - Динамика одинакова для разных тарифов, стран, возрастных групп
  - Средняя выручка на одного клиента ~$140
    - Выручка на одного клиента разных возрастных групп отличается, но слабо
      - Самый большой суммарный доход на одного пользователя - в категории 25-30, но разброс значений мал (от $133 в категории 50-55 до $145 в категории 25-30)

In [93]:
%%shell
jupyter nbconvert --to html "/content/drive/MyDrive/2024/2024-Аналитик данных/Python_lesson14_Portfolio/netflix_users_analysis.ipynb"

[NbConvertApp] Converting notebook /content/drive/MyDrive/2024/2024-Аналитик данных/Python_lesson14_Portfolio/netflix_users_analysis.ipynb to html
[NbConvertApp] Writing 1229569 bytes to /content/drive/MyDrive/2024/2024-Аналитик данных/Python_lesson14_Portfolio/netflix_users_analysis.html


