In [1]:
import pandas as pd
import numpy as np

## Series

Она представляет из себя объект, похожий на одномерный массив, но отличительной чертой является наличие индексов. Индекс находится слева, а сам элемент справа.

### Синтаксис создания:

- pandas.Series(input_data, index, data_type)
- input_data: ввод в виде списка, константы, массива NumPy, Dict и т. д.
- index: значения индексов.
- data_type (опционально): тип данных.

In [None]:
a = pd.Series([4, 7, 6, 3, 9],
              index=['one', 'two', 'three', 'four', 'five'])
a

In [None]:
a = pd.Series([4, 7, 6, 3, 9])
a

In [None]:
a.index

In [None]:
a.values

In [None]:
a[0]

In [None]:
a[1]

## DataFrame

Объект DataFrame является табличной структурой данных. В любой таблице всегда присутствуют строки и столбцы. При этом в столбцах можно хранить данные разных типов данных. Столбцами в объекте DataFrame выступают объекты Series, строки которых являются их элементами.

## Синтаксис создания:

### pandas.DataFrame(input_data, index)

- input_data: ввод в виде Dict, 2D массива NumPy, Series и т. д.
- index: значения индексов.

In [None]:
df = pd.DataFrame({
    'Age': [46, 37, 44, 42, 42],
    'Country': ['Spain', 'Spain', 'Germany', 'Germany', 'France'],
    'Gender': ['Female', 'Female', 'Male', 'Male', 'Male']
})


In [None]:
df['Age']

In [None]:
df.Country

In [None]:
df[['Country', 'Age']]

In [None]:
df.columns

In [None]:
df.index

In [None]:
df = pd.DataFrame({
    'Age': [46, 37, 44, 42, 42],
    'Country': ['Spain', 'Spain', 'Germany', 'Germany', 'France'],
    'Gender': ['Female', 'Female', 'Male', 'Male', 'Male']
}, index=[5, 4, 6, 3, 2])

df

In [None]:
df.index = [101, 102, 103, 104, 105]
df

## Считывание данных

В целом, pandas поддерживает все самые популярные форматы хранения данных: csv, excel, sql, html и многое другое, но чаще всего приходится работать именно с csv файлами (comma separated values).

Будем работать с датасетом по оттоку клиентов из банка https://www.kaggle.com/datasets/shubh0799/churn-modelling.

#### Характеристики каждого клиента:

1. RowNumber - Номер строки
2. CustomerId - Уникальный идентификатор клиента
3. Surname - Фамилия клиента
4. CreditScore - Кредитная оценка клиента
5. Geography - Из какой страны клиент
6. Gender - Пол клиента
7. Age - Возраст клиента
8. Tenure - Сколько лет человек является клиентом банка
9. Balance - Баланс счета
10. NumOfProducts - Количество открытых продуктов
11. HasCrCard - Есть ли у клиента кредитная карта
12. IsActiveMember - Является ли клиент активные участником
13. EstimatedSalary - Предположительная зарплата клиента
14. Exited - Уйдет ли человек в отток

In [None]:
df = pd.read_csv('./Churn_Modelling.csv')
df

In [None]:
pd.read_csv('./Churn_Modelling.csv', header=1)

In [None]:
pd.read_csv('./Churn_Modelling.csv', sep=';')

In [None]:
df

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.sample()

In [None]:
df.sample(frac=1)

In [None]:
df.sample(frac=0.5)

In [None]:
df.shape

## Первичный анализ данных
#### Типы данных:

- int: целочисленные значения. Пример: 9, 56, 30
- float: вещественные значения (с плавающей точкой). Пример: 7.3, 9.0, 45.334
- object/str: строковые значения. Пример: ‘hello, world’, ‘50 000’

In [None]:
df.info()

#### Выводятся значения:

- Count - количество непропущенных объектов (там, где нет nan значений)
- mean - арифметическое среднее
- std - стандартное отклонение
- min - минимальное значение
- 25% - квантиль 25 процентов
- 50% - квантиль 50 процентов или же медиана
- 75% - квантиль 75 процентов
- max - максимальное значение

In [None]:
df.describe()

In [None]:
df['Age'].min()

In [None]:
df['Balance'].max()

In [None]:
df[['CreditScore', 'Age', 'Tenure']].mean()

#### Получаем 4 значения:

- count - количество непропущенных объектов
- unique - количество уникальных значений
- top - самое частотное значение (мода)
- freq - частота появления самого частотного значения

In [None]:
df.describe(include=['object'])

In [None]:
df.dtypes

In [None]:
df['Age'].dtype

In [None]:
df['HasCrCard'].astype('bool')

In [None]:
df['HasCrCard'] = df['HasCrCard'].astype('bool')

In [None]:
df['HasCrCard'].dtype

In [None]:
df['Geography'].unique()

In [None]:
df['Geography'].nunique()

In [None]:
df['Geography'].value_counts()

In [None]:
df['Geography'].value_counts(normalize=True)

### Фильтрация
#### Фильтрация в pandas основывается на булевых масках.

##### Булевая маска — бинарные данные, которые используются для выбора определенных объектов из структуры данных.

In [None]:
df['Gender'] == 'Male'

In [None]:
male = df[df['Gender'] == 'Male']
male

## Логические И
##### При операторе & нужно, чтобы выполнялось два условия одновременно:

In [None]:
df[(df['Gender'] == 'Female') & (df['NumOfProducts'] >= 3)]

## Логические ИЛИ
##### При операторе | нужно, чтобы выполнялось хотя бы одно условие:

In [None]:
df[(df['HasCrCard']) | (df['NumOfProducts'] >= 3)]

## Логические НЕ
#### При операторе ~ булевая маска обращается: True меняется на False и наоборот:

In [None]:
df[~(df['Geography'] == 'Spain')]

In [None]:
df[df['Geography'].isin(['France', 'Germany'])]

## Индексация

In [None]:
df_small = df[(df['Geography'] == 'Spain')][['Geography', 'Gender', 'Age']]
df_small.head()

## loc

In [None]:
df_small.loc[1]

In [None]:
df_small.loc[3]

In [None]:
df_small.loc[[1, 4, 5], ['Gender', 'Age']]

## iloc

In [None]:
df_small.head()

In [None]:
df_small.iloc[[0, 1, 2]]

In [None]:
df_small.iloc[2500]

In [None]:
df_small.iloc[0, [0, 2]]

## Сортировки

In [None]:
df.sort_values('Age')

In [None]:
df.sort_values('Age', ascending=False)

In [None]:
df.sort_values(['Age', 'CreditScore'])