<h1>Первинний аналіз даних у Pandas</h1>

<h2>Імпорт потрібних бібліотек</h2>

In [None]:
# Імпорт Pandas і Numpy
import numpy as np
import pandas as pd

#Вхідні дані доступні в "../input/"
import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# Будь-які результати доступні у папці "../output/kaggle/working"

<h2>Демонстрація основних методів Pandas.</h2>

<p style="font-size: 16px">Прочитаємо дані і виведемо перші 5 рядків за допомогою методу head.</p>

In [None]:
df = pd.read_csv("../input/telecom-churn/telecom_churn.csv")
df.head(2)

<p style="font-size: 16px">Дізнаємось розмір даних, назву ознак та їх типи.</p>

In [None]:
df.shape

<p style="font-size: 16px">Отже, у датафреймі міститься 3333 записів та 21 ознака. Отримаємо назви стовпців:</p>

In [None]:
df.columns

<p style="font-size: 16px;text-align: justify">Щоб отримати загальну інформацію по датафрейму і всім ознакам, використаємо метод info:</p>

In [None]:
df.info()

<p style="font-size: 16px;text-align: justify">В результаті отримали: bool, int64, float64 і object – це типи даних ознак. Бачимо, що одна ознака – логічна (bool), чотири ознаки мають тип object і 16 ознак – числові. Також за допомогою методу info можна швидко і зручно подивитися на пропуски в даних, в нашому випадку їх немає, бо в кожному стовпці по 3333 спостереження.</p>
<p style="font-size: 16px;text-align: justify">Змінити тип колонки можна за допомогою методу astype. Застосуємо цей метод до ознаки Churn і трансформуємо її в int64.</p>

In [None]:
df['churn'] = df['churn'].astype('int64')

<p style="font-size: 16px;text-align: justify">Метод describe показує основні статистичні характеристики даних за кожною числовою ознакою (типи int64 і float64): число непропущених значень, середнє значення, стандартне відхилення, діапазон, медіану, 0.25 і 0.75 квартилі.</p>

In [None]:
df.describe()

<p style="font-size: 16px;text-align: justify">Щоб подивитися описову статистику нечислових ознак, потрібно явно вказати, які типи даних цікавлять нас в параметрі include.</p>

In [None]:
df.describe(include=['object', 'bool'])

<p style="font-size: 16px;text-align: justify">Для категоріальних (тип object) і булевих (тип bool) ознак можна скористатися методом value_counts. Подивимося на розподіл даних для цільової змінної – churn.</p>

In [None]:
df['churn'].value_counts()

<p style="font-size: 16px;text-align: justify">2850 користувачів з 3333 – лояльні, значення змінної churn у них 0. Подивимося на розподіл користувачів для змінної Area code. Зазначимо значення параметра normalize = True, щоб подивитися не абсолютні частоти, а відносні.</p>

In [None]:
df['area code'].value_counts(normalize=True)

<h2>Сортування.</h2>

<p style="font-size: 16px;text-align: justify">DataFrame можна впорядкувати за значенням якоїсь з ознак. У нашому випадку, наприклад, по Total day charge (ascending = False для сортування по спаданню).</p>

In [None]:
df.sort_values(by='total day charge', ascending=False).head()

<p style="font-size: 16px">Сортувати можна і по групі стовпців.</p>

In [None]:
df.sort_values(by=['area code', 'total day charge'],ascending=[True, False]).head()

<h2>Індексація та витягання даних.</h2>

<p style="font-size: 16px;text-align: justify">DataFrame можна індексувати по різному. У зв'язку з цим розглянемо різні способи індексації та вилучення потрібних нам даних з датафрейму на прикладі відповідей на прості питання. Для вилучення окремого стовпця можна використати конструкцію виду DataFrame['Name']. Скористаємося цим для відповіді на питання: яка частка нелояльних користувачів присутня в нашому датафреймі?</p>

In [None]:
round( df['churn'].mean(), 3)

<p style="font-size: 16px;text-align: justify"> Функція round дозволяє округлити значення до n знаків ([докладніше](https://www.w3schools.com/python/ref_func_round.asp)). 14.5% - доволі поганий показник для компанії, з таким відсотком можна і збанкрутувати! Функція mean – обчислює середнє значення, в цьому випадку її можна використати для обчислення частки, бо 1 – втрата клієнта. Середнє значення обчислюється як сума всіх значень ділена на кількість таких значень, так як у нас можливі варіанти тільки 0 і 1, то при додаванні чисельник буде мати вигляд 0 * кількість 0 у датафреймі для змінної churn + 1 * кількість 1 у датафреймі для змінної churn, знаменник – кількість значень у датафреймі. В цьому випадку – це буде і середнє значення, і частка нелояльних клієнтів. </p>

<p style="font-size: 16px;text-align: justify">Дуже зручною є логічна індексація DataFrame по одному стовпцю. Виглядає вона наступним чином: df[P(df['Name'])], де P - це деяка логічна умова, що перевіряється для кожного елемента стовпця Name. Підсумком такої індексації є DataFrame, що складається тільки з рядків, що задовольняють умові P по стовпцю Name.
Скористаємося цим для відповіді на питання: які середні значення числових ознак серед нелояльних користувачів?</p>

In [None]:
df[df['churn'] == 1].mean()

<p style="font-size: 16px;text-align: justify">Скомбінувавши попередні два види індексації, відповімо на запитання: скільки в середньому протягом дня розмовляють по телефону нелояльні користувачі?</p>

In [None]:
round ( df[df['churn'] == 1]['total day minutes'].mean(), 3)

In [None]:
df.head()

<p style="font-size: 16px;text-align: justify">Яка максимальна тривалість міжнародних дзвінків серед лояльних користувачів (churn == 0), що не користуються послугою міжнародного роумінгу ( international plan == No)?</p>

In [None]:
df[(df['churn'] == 0) & (df['international plan'] == 'no')]['total intl minutes'].max()

<p style="font-size: 16px;text-align: justify">Датафрейми можна індексувати як за назвою стовпця або рядка, так і за порядковим номером. Для індексації за назвою використовується метод loc, за номером – iloc.
У першому випадку ми говоримо «передай нам значення для id рядків від 0 до 5 і для стовпців від State до Area code», а в другому – «передай нам значення перших п'яти рядків в перших трьох стовпцях».</p>

In [None]:
df.loc[0:5, 'state':'area code']

In [None]:
df.iloc[0:5, 0:3]

<p style="font-size: 16px;text-align: justify">Якщо нам потрібний перший або останній рядок датафрейму, використаємо конструкцію df [: 1] або df [-1:].</p>

In [None]:
df[:1]

In [None]:
df[-1:]

<h2>Застосування функцій для комірок, стовпців і рядків.</h2>

<p style="font-size: 16px;text-align: justify">Застосування функції для кожного стовпчика: apply. Метод apply можна використати і для того, щоб застосувати функцію до кожного рядка. Для цього слід використати axis = 1.</p>

In [None]:
df.apply(np.max) 

<p style="font-size: 16px;text-align: justify">Застосування функції до кожної комірки стовпчика: map. Наприклад, метод map можна використати для заміни значень у стовпчику, передавши йому в якості аргументу словник виду: {old_value: new_value.</p>

In [None]:
d = {'no' : False, 'yes' : True}
df['international plan'] = df['international plan'].map(d)
df.head()

<p style="font-size: 16px">Аналогічну операцію можна виконати і за допомогою методу replace.</p>

In [None]:
df = df.replace({'voice mail plan': d})
df.head()

<h2>Групування даних</h2>

<span style="font-size: 16px">Загальний вигляд групування даних в Pandas:
<br><br>
*df.groupby(by=grouping_columns)[columns_to_show].function()*

1.	До датафрейму застосовується метод groupby, який розділяє дані по grouping_columns – ознаці чи набору ознак.
2.	Вибираємо потрібні стовпчики для відображення (columns_to_show).
3.	До отриманих груп застосовується функція чи декілька функцій.
</span>

<p style="font-size: 16px;text-align: justify">Групуємо дані в залежності від значень ознаки churn і виводимо статистики по двом стовпчикам в кожній групі.</p>

In [None]:
columns_to_show = ['total day minutes', 'total eve minutes']

df.groupby(['churn'])[columns_to_show].describe(percentiles=[])

<p style="font-size: 16px">Зробимо так само, але передамо в agg список функцій.</p>

In [None]:
columns_to_show = ['total day minutes', 'total eve minutes']
df.groupby(['churn'])[columns_to_show].agg([np.mean, np.std, np.min, np.max])

<h2>Зведені таблиці</h2>

<p style="font-size: 16px;text-align: justify">Припустимо, необхідно подивитись, як спостереження в нашій вибірці розподілені в контексті двох ознак – churn і international plan. Для цього ми можемо побудувати таблицю спряженості, скориставшись методом crosstab.</p>

In [None]:
pd.crosstab(df['churn'], df['international plan'])

<p style="font-size: 16px;text-align: justify">Визначимо, як розподілені спостереження в нашій вибірці в контексті двох ознак – churn і voice mail plan у відносних частках.</p>

In [None]:
pd.crosstab(df['churn'], df['voice mail plan'], normalize=True)

<span style="font-size: 16px;">Очевидно, що більшість користувачів лояльні і при цьому користуються додатковими послугами (міжнародний роумінг / голосова пошта).
Excel-спеціалісти, напевно, згадають про таку фічу, як зведені таблиці (pivot tables). У Pandas за зведені таблиці відповідає метод pivot_table, який приймає в якості параметрів:
* values – список змінних, за якими потрібно розрахувати потрібні статистики,
* index – список змінних, за якими потрібно згрупувати дані,
* aggfunc – те, що нам, власне й потрібно порахувати по групах – суму, середнє, максимум, мінімум або щось ще.
</span>

<p style="font-size: 16px">Давайте подивимося середнє число денних, вечірніх і нічних дзвінків для різних Area code.</p>

In [None]:
df.pivot_table(['total day calls', 'total eve calls', 'total night calls'], 
['area code'], aggfunc='mean').head()

<h2>Трансформація даних</h2>

<p style="font-size: 16px">Додавання стовпців в DataFrame може здійснюватися декількома способами.</p>
<p style="font-size: 16px;text-align: justify">Наприклад, ми хочемо порахувати загальну кількість дзвінків для всіх користувачів. Створимо об'єкт total_calls типу Series і вставимо його в датафрейм.</p>

In [None]:
total_calls = df['total day calls'] + df['total eve calls'] + \
                  df['total night calls'] + df['total intl calls']
df.insert(loc=len(df.columns), column='Total calls', value=total_calls) 
# loc - номер стовпця, після якого треба вставити даний Series
# ми вказали len(df.columns), щоб вставити його в кінець датафрейму
df.head()

<p style="font-size: 16px">Додати стовпчик із наявних даних можна і легше, не створюючи проміжний Series.</p>

In [None]:
df['Total charge'] = df['total day charge'] + df['total eve charge'] + \
df['total night charge'] + df['total intl charge']
df.head()

<p style="font-size: 16px;text-align: justify">Щоб видалити стовпці або рядки, скористаємось методом drop, передаючи в якості аргументу потрібні індекси і необхідне значення параметра axis (1, якщо видаляємо стовпці, і нічого або 0, якщо видаляємо рядки).</p>

In [None]:
# Видаляємо створені стовпці
df = df.drop(['Total charge', 'Total calls'], axis=1) 
# А так можна видалити рядки
# df.drop([1, 2]).head() 
df.columns

<h2>Перші спроби прогнозування відтоку клієнтів.</h2>

<p style="font-size: 16px;text-align: justify">Подивимося, як відтік клієнтів пов'язаний з ознакою "Підключення міжнародного роумінгу" (international plan). Для цього створимо таблицю спряженості crosstab.</p>

In [None]:
pd.crosstab(df['churn'], df['international plan'], margins=True)

<p style="font-size: 16px;text-align: justify">Очевидно, що коли роумінг підключений, частка відтоку набагато вище – цікаве спостереження! Можливо, великі і погано контрольовані витрати в роумінгу призводять до невдоволення клієнтів телефонного оператора і, відповідно, до їх відтоку.</p>
<p style="font-size: 16px;text-align: justify">Далі подивимося на ще одну важливу ознаку – "Число звернень до сервісного центру" (customer service calls). Для цього також побудуємо зведену таблицю:</p>


In [None]:
pd.crosstab(df['churn'], df['customer service calls'], margins=True)

<p style="font-size: 16px;text-align: justify">Очевидно, що доля відтоку сильно зростає починаючи з 4 дзвінка в сервісний центр. Це видно з того, що розрив між лояльними (0) та нелояльними клієнтами (1) стає менше.</p>
<p style="font-size: 16px;text-align: justify">Додамо в датафрейм ще одну бінарну ознаку – результат порівняння customer service calls > 3. І ще раз подивимось на зв'язок з відтоком:</p>

In [None]:
df['Many_service_calls'] = (df['customer service calls'] > 3).astype('int')
pd.crosstab(df['Many_service_calls'], df['churn'], margins=True)

<p style="font-size: 16px;text-align: justify">Об’єднаємо всі вищезгадані умови і подивимось на зведену табличку для цього об’єднання.</p>

In [None]:
pd.crosstab(df['Many_service_calls'] & df['international plan'] , df['churn'])

In [None]:
pd.crosstab(df['Many_service_calls'] & df['international plan'] , df['churn'], normalize = True)

<p style="font-size: 16px;text-align: justify">Прогнозуючи відтік клієнта в разі, коли число дзвінків в сервісний центр більше 3 і підключений роумінг (і прогнозуючи лояльність – в іншому випадку), можна очікувати близько 85.2% правильних влучень (помиляємося всього 464 + 9 разів). Ці 85.2%, які ми отримали за допомогою дуже простих міркувань – це непогана відправна точка (baseline) для подальших моделей машинного навчання, які ми будемо будувати.</p>
<p style="font-size: 16px;text-align: justify">В цілому до появи машинного навчання процес аналізу даних виглядав приблизно так.</p>
<p style="font-size: 16px;text-align: justify">Висновки:</p>
<p style="font-size: 16px;text-align: justify">Частка лояльних клієнтів в вибірці – 85.5% (df['churn'].value_counts (normalize = True)). Процент вгаданих значень для такої наївної моделі, де відповідь якої "клієнт завжди лояльний" на подібних даних буде приблизно в 85,5% випадків. Тобто частки правильних відповідей (accuracy) наступних моделей повинні бути як мінімум не менше, а краще, значно вище цієї цифри;</p>
<p style="font-size: 16px;text-align: justify">За допомогою простого прогнозу, який умовно можна виразити такою формулою: "International plan = True & Customer Service calls > 3 => Churn = 1, else Churn = 0", можна очікувати частку вірних результатів 85.2%. Згодом ми поговоримо про дерева рішень і розберемося, як знаходити подібні правила автоматично на основі тільки вхідних даних;</p>
<p style="font-size: 16px;text-align: justify">Результати ми отримали без застосування машинного навчання, і вони служать відправною точкою для наших подальших моделей. Якщо виявиться, що ми величезними зусиллями збільшимо частку правильних відповідей, скажімо, на 0.5%, то можливо, ми щось робимо не так, і досить обмежитися простою моделлю з двох умов;</p>
<p style="font-size: 16px;text-align: justify">Перед навчанням складних моделей рекомендується трохи покрутити дані і перевірити прості припущення. Більш того, в бізнес-додатках машинного навчання найчастіше починають саме з простих рішень, а потім експериментують з їх ускладненнями.</p>