# <center>Первичный анализ данных с Pandas</center>

In [None]:
import numpy as np
import pandas as pd
pd.set_option('display.max_columns', 100)
pd.set_option('display.max_rows', 100)
pd.set_option('precision', 2)

Основными структурами данных в Pandas являются классы `Series` и `DataFrame`. 

## Демонстрация основных методов Pandas 


### Чтение из файла и первичный анализ

Прочитаем данные (источник http://archive.ics.uci.edu/ml/datasets.html) и посмотрим на первые 5 строк с помощью метода `head`:

In [None]:
df = pd.read_csv('telecom_churn.csv')

In [None]:
df.head()

**Посмотрим на размер данных, названия признаков и их типы**

Найдите операцию describe в ноутбуке leson1_seaborn, примените к нашей таблице

In [None]:
#Ваш код здесь

In [None]:
print(df.shape)

In [None]:
df.info()

In [None]:
df['Churn'] = df['Churn'].astype(int)

In [None]:
df['Churn'].value_counts()

In [None]:
df['Churn'].value_counts(normalize=True)

Определите долю абонентов с 'Area code'= 408

In [None]:
#Ваш код здесь

### Сортировка


In [None]:
df.sort_values(by='Total day charge', ascending=False).head()

In [None]:
df.sort_values(by=['Churn', 'Total day charge'],ascending=[True, False]).head()

Определите наименьшее значение Account length в таблице с помощью сортировки

In [None]:
#Ваш код здесь

### Индексация и извлечение данных

In [None]:
df['Churn'].mean()

In [None]:
df['Total day minutes'].mean()

Логическая индексация

In [None]:
df[df['Churn'] == 0].mean()

Скомбинировав предыдущие два вида индексации, ответим на вопрос: Сколько в среднем в течение дня разговаривают по телефону ('Total day minutes') нелояльные пользователи?

In [None]:
#ваш код здесь

**Какова максимальная длина международных звонков среди лояльных пользователей (`Churn == 0`), не пользующихся услугой международного роуминга (`'International plan' == 'No'`)?**

In [None]:
#ваш код здесь,  воспользуйтесь конструкцией [() & ()] и методом .max()

Более подробная документация с описанием методов pandas https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html 

Датафреймы можно индексировать как по названию столбца или строки, так и по порядковому номеру. Для индексации **по названию** используется метод **`loc`**, **по номеру** — **`iloc`**.


In [None]:
df.loc[0:5, 'State':'Area code']

In [None]:
df.iloc[0:5, 0:3]

В первом случае мы говорим _«передай нам значения для id строк от 0 до 5 и для столбцов от State до Area code»_, а во втором — _«передай нам значения первых пяти строк в первых трёх столбцах»_. 

В случае `iloc` срез работает как обычно, однако в случае `loc` учитываются и начало, и конец среза. 

In [None]:
df.sort_values(by='Account length').iloc[0:5,0:3]

In [None]:
df.sort_values(by='Account length').loc[0:5,'State':'Area code']

Если нам нужна первая или последняя строчка датафрейма, пользуемся конструкцией `df[:1]` или `df[-1:]`:

In [None]:
df[-1:]

Сколько записей лежит между id=0 и id=2 в таблице tab?

In [None]:
tab=df.sort_values(by='Account length')
#Ваш код здесь

### Группировка данных

В общем случае группировка данных в Pandas выглядит следующим образом:

```
df.groupby(by=grouping_columns)[columns_to_show].function()
```

1. К датафрейму применяется метод **`groupby`**, который разделяет данные по `grouping_columns` – признаку или набору признаков.
3. Индексируем по нужным нам столбцам (`columns_to_show`). 
2. К полученным группам применяется функция или несколько функций.

**Группирование данных в зависимости от значения `Churn` и вывод статистик по трём столбцам.**

In [None]:
columns_to_show = ['Total day minutes', 'Total eve minutes', 'Total night minutes']

df.groupby(['Churn'])[columns_to_show].describe()

Сделаем то же самое, но немного по-другому, передав в `agg` список функций:

In [None]:
df.groupby(['Churn'])[columns_to_show].agg([np.mean, np.std, np.min, np.max])

In [None]:
df.groupby(['Churn'])[columns_to_show].sum()

In [None]:
df['Total charge'].describe()

Сколько в среднем платят за связь абоненты в зависимости от наличия международного тарифа?

In [None]:
#ваш код здесь

### Сводные таблицы

Допустим, мы хотим посмотреть, как наблюдения в нашей выборке распределены в контексте двух признаков — `Churn` и `Customer service calls`. Для этого мы можем построить **таблицу сопряженности**, воспользовавшись методом **`crosstab`**:

In [None]:
pd.crosstab(df['Churn'], df['International plan'])

In [None]:
pd.crosstab(df['Churn'], df['Voice mail plan'], normalize=True)

Продвинутые пользователи `Excel` наверняка вспомнят о такой фиче, как **сводные таблицы** (`pivot tables`). В `Pandas` за сводные таблицы отвечает метод **`pivot_table`**, который принимает в качестве параметров:

* `values` – список переменных, по которым требуется рассчитать нужные статистики,
* `index` – список переменных, по которым нужно сгруппировать данные,
* `aggfunc` — то, что нужно посчитать по группам — сумму, среднее, максимум, минимум или что-то ещё.

Давайте посмотрим среднее число дневных, вечерних и ночных звонков для разных `Area code`:

In [None]:
df.pivot_table(['Total day calls', 
                'Total eve calls', 
                'Total night calls'], ['Area code'], 
               aggfunc='mean').head(10)

Выведите долю абонентов ушедних в отток для каждого State, отсортировав результат с порядке убывания доли

In [None]:
#ваш код здесь

### Преобразование датафреймов


Например, мы хотим посчитать общее количество звонков для всех пользователей. 

In [None]:
df['Total charge'] = df['Total day charge'] + df['Total eve charge'] + \
                     df['Total night charge'] + df['Total intl charge']

df.head()

Чтобы удалить столбцы или строки, воспользуйтесь методом `drop`, передавая в качестве аргумента нужные индексы и требуемое значение параметра `axis` (`1`, если удаляете столбцы, и ничего или `0`, если удаляете строки):

In [None]:
df = df.drop(['Total charge'], axis=1) 

df.drop([1, 2]).head() 