In [None]:
import pandas as pd
import numpy as np

## Series

Она представляет из себя объект, похожий на одномерный массив, но отличительной чертой является наличие индексов. Индекс находится слева, а сам элемент справа.

### Синтаксис создания:

- pandas.Series(input_data, index, data_type)
- input_data: ввод в виде списка, константы, массива NumPy, Dict и т. д.
- index: значения индексов.
- data_type (опционально): тип данных.

In [None]:
a = pd.Series([4, 7, 6, 3, 9],
              index=['one', 'two', 'three', 'four', 'five'])
a

In [None]:
a = pd.Series([4, 7, 6, 3, 9])
a

In [None]:
a.index

In [None]:
a.values

In [None]:
a[0]

In [None]:
a[1]

In [None]:
a['one']

## DataFrame

Объект DataFrame является табличной структурой данных. В любой таблице всегда присутствуют строки и столбцы. При этом в столбцах можно хранить данные разных типов данных. Столбцами в объекте DataFrame выступают объекты Series, строки которых являются их элементами.

## Синтаксис создания:

### pandas.DataFrame(input_data, index)

- input_data: ввод в виде Dict, 2D массива NumPy, Series и т. д.
- index: значения индексов.

In [None]:
df = pd.DataFrame({
    'Age': [46, 37, 44, 42, 42],
    'Country': ['Spain', 'Spain', 'Germany', 'Germany', 'France'],
    'Gender': ['Female', 'Female', 'Male', 'Male', 'Male']
})
df

In [None]:
df['Age']

In [None]:
df.Country

In [None]:
df[['Country', 'Age']]

In [None]:
df.columns

In [None]:
df.index

In [None]:
df = pd.DataFrame({
    'Age': [46, 37, 44, 42, 42],
    'Country': ['Spain', 'Spain', 'Germany', 'Germany', 'France'],
    'Gender': ['Female', 'Female', 'Male', 'Male', 'Male']
}, index=[5, 4, 6, 3, 2])

df

In [None]:
df.index = [101, 102, 103, 104, 105]
df

## Считывание данных

В целом, pandas поддерживает все самые популярные форматы хранения данных: csv, excel, sql, html и многое другое, но чаще всего приходится работать именно с csv файлами (comma separated values).

Будем работать с датасетом по оттоку клиентов из банка https://www.kaggle.com/datasets/shubh0799/churn-modelling.

#### Характеристики каждого клиента:

1. RowNumber - Номер строки
2. CustomerId - Уникальный идентификатор клиента
3. Surname - Фамилия клиента
4. CreditScore - Кредитная оценка клиента
5. Geography - Из какой страны клиент
6. Gender - Пол клиента
7. Age - Возраст клиента
8. Tenure - Сколько лет человек является клиентом банка
9. Balance - Баланс счета
10. NumOfProducts - Количество открытых продуктов
11. HasCrCard - Есть ли у клиента кредитная карта
12. IsActiveMember - Является ли клиент активные участником
13. EstimatedSalary - Предположительная зарплата клиента
14. Exited - Уйдет ли человек в отток

In [4]:
df = pd.read_csv('./Churn_Modelling.csv')
df

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.00,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.80,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.00,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.10,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,1,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,1,1,101699.77,0
9997,9998,15584532,Liu,709,France,Female,36,7,0.00,1,0,1,42085.58,1
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,1,0,92888.52,1


In [None]:
pd.read_csv('./Churn_Modelling.csv', header=1)

In [None]:
pd.read_csv('./Churn_Modelling.csv', sep=',')

In [None]:
df

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.sample()

In [None]:
df.sample(frac=1)

In [None]:
df.sample(frac=0.5)

In [None]:
df.shape

## Первичный анализ данных
#### Типы данных:

- int: целочисленные значения. Пример: 9, 56, 30
- float: вещественные значения (с плавающей точкой). Пример: 7.3, 9.0, 45.334
- object/str: строковые значения. Пример: ‘hello, world’, ‘50 000’

In [None]:
df.info()

#### Выводятся значения:

- Count - количество непропущенных объектов (там, где нет nan значений)
- mean - арифметическое среднее
- std - стандартное отклонение
- min - минимальное значение
- 25% - квантиль 25 процентов
- 50% - квантиль 50 процентов или же медиана
- 75% - квантиль 75 процентов
- max - максимальное значение

In [None]:
df.describe()

In [None]:
df['Age'].min()

In [None]:
df['Balance'].max()

In [None]:
df[['CreditScore', 'Age', 'Tenure']].mean()

#### Получаем 4 значения:

- count - количество непропущенных объектов
- unique - количество уникальных значений
- top - самое частотное значение (мода)
- freq - частота появления самого частотного значения

In [None]:
df.describe(include=['object'])

In [None]:
df.dtypes

In [None]:
df['Age'].dtype

In [None]:
df['HasCrCard'].astype('bool')

In [None]:
df['HasCrCard'] = df['HasCrCard'].astype('bool')

In [None]:
df['HasCrCard'].dtype

In [None]:
df['Geography'].unique()

In [None]:
df['Geography'].nunique()

In [None]:
df['Geography'].value_counts()

In [None]:
df['Geography'].value_counts(normalize=True)

### Фильтрация
#### Фильтрация в pandas основывается на булевых масках.

##### Булевая маска — бинарные данные, которые используются для выбора определенных объектов из структуры данных.

In [None]:
df['Gender'] == 'Male'

In [None]:
male = df[df['Gender'] == 'Male']
male

## Логические И
##### При операторе & нужно, чтобы выполнялось два условия одновременно:

In [None]:
df[(df['Gender'] == 'Female') & (df['NumOfProducts'] >= 3)]

## Логические ИЛИ
##### При операторе | нужно, чтобы выполнялось хотя бы одно условие:

In [None]:
df[(df['HasCrCard']) | (df['NumOfProducts'] >= 3)]

## Логические НЕ
#### При операторе ~ булевая маска обращается: True меняется на False и наоборот:

In [None]:
df[~(df['Geography'] == 'Spain')]

In [None]:
df[df['Geography'].isin(['France', 'Germany'])]

## Индексация

In [None]:
df_small = df[(df['Geography'] == 'Spain')][['Geography', 'Gender', 'Age']]
df_small.head()

## loc

In [None]:
df_small.loc[1]

In [None]:
df_small.loc[3]

In [None]:
df_small.loc[[1, 4, 5], ['Gender', 'Age']]

## iloc

In [None]:
df_small.head()

In [None]:
df_small.iloc[[0, 1, 2]]

In [None]:
df_small.iloc[2500]

In [None]:
df_small.iloc[0, [0, 2]]

## Сортировки

In [None]:
df.sort_values('Age')

In [None]:
df.sort_values('Age', ascending=False)

In [None]:
df.sort_values(['Age', 'CreditScore'])

### Seminar

###  1. Скачать данные по ссылке https://www.kaggle.com/datasets/ionaskel/laptop-prices
     2. Считать данные с помощью pandas
     3. Вывести на экран первые 5 строк
     4. Посмотреть на описание признаков и на их содержани

In [1]:
import pandas as pd
import numpy as np

In [8]:
df = pd.read_csv('./laptop_price.csv',encoding='latin1')
df 

Unnamed: 0,laptop_ID,Company,Product,TypeName,Inches,ScreenResolution,Cpu,Ram,Memory,Gpu,OpSys,Weight,Price_euros
0,1,Apple,MacBook Pro,Ultrabook,13.3,IPS Panel Retina Display 2560x1600,Intel Core i5 2.3GHz,8GB,128GB SSD,Intel Iris Plus Graphics 640,macOS,1.37kg,1339.69
1,2,Apple,Macbook Air,Ultrabook,13.3,1440x900,Intel Core i5 1.8GHz,8GB,128GB Flash Storage,Intel HD Graphics 6000,macOS,1.34kg,898.94
2,3,HP,250 G6,Notebook,15.6,Full HD 1920x1080,Intel Core i5 7200U 2.5GHz,8GB,256GB SSD,Intel HD Graphics 620,No OS,1.86kg,575.00
3,4,Apple,MacBook Pro,Ultrabook,15.4,IPS Panel Retina Display 2880x1800,Intel Core i7 2.7GHz,16GB,512GB SSD,AMD Radeon Pro 455,macOS,1.83kg,2537.45
4,5,Apple,MacBook Pro,Ultrabook,13.3,IPS Panel Retina Display 2560x1600,Intel Core i5 3.1GHz,8GB,256GB SSD,Intel Iris Plus Graphics 650,macOS,1.37kg,1803.60
...,...,...,...,...,...,...,...,...,...,...,...,...,...
1298,1316,Lenovo,Yoga 500-14ISK,2 in 1 Convertible,14.0,IPS Panel Full HD / Touchscreen 1920x1080,Intel Core i7 6500U 2.5GHz,4GB,128GB SSD,Intel HD Graphics 520,Windows 10,1.8kg,638.00
1299,1317,Lenovo,Yoga 900-13ISK,2 in 1 Convertible,13.3,IPS Panel Quad HD+ / Touchscreen 3200x1800,Intel Core i7 6500U 2.5GHz,16GB,512GB SSD,Intel HD Graphics 520,Windows 10,1.3kg,1499.00
1300,1318,Lenovo,IdeaPad 100S-14IBR,Notebook,14.0,1366x768,Intel Celeron Dual Core N3050 1.6GHz,2GB,64GB Flash Storage,Intel HD Graphics,Windows 10,1.5kg,229.00
1301,1319,HP,15-AC110nv (i7-6500U/6GB/1TB/Radeon,Notebook,15.6,1366x768,Intel Core i7 6500U 2.5GHz,6GB,1TB HDD,AMD Radeon R5 M330,Windows 10,2.19kg,764.00
