In [None]:
import pandas as pd

### Чтение из csv

In [None]:
df = pd.read_csv('./datasets/titanic.csv') #загрузка данных из csv в DF

In [None]:
type(df)

In [None]:
df

In [None]:
df2 = pd.DataFrame.from_dict({'a':[1,2], 'b':[3,4], 'c':[5,6]})
df2 #создали DF из словаря

In [None]:
df.to_csv('tmp.csv') #перезапись нашего DF  вновый файл

<h1>Функции:</h1>

### df.info()

– показывает «паспорт» датафрейма:
* количество строк и столбцов;
* имена столбцов и их типы данных;
* сколько **ненулевых** значений в каждом столбце;
* сколько памяти занимает DataFrame.

In [None]:
df.info()

### df.shape

* размерность датафрейма

In [None]:
df.shape

### df.columns
* показывает какие колонки имеются в df

In [None]:
df.columns

### df.head() / df.tail()
* показ начала или конца дата фрейма

In [None]:
df.head(3)
df.tail(3)

### df.dtypes
* возвращает все типы данных в df

In [None]:
df.dtypes

### df['...']
* обращение к слобцу
* тип такого значения будет Series
* получается как массив с индексами
* можно передавать несколько стоблцов в списке - мини df

In [None]:
df["Name"]

In [None]:
df[['Name','Age','Sex']].head(3)

### df.loc[rows_selector, cols_selector]

Метод `df.loc[...]` позволяет выбирать **строки по меткам индексов или по булевой маске**, а также **конкретные столбцы по именам**.

**rows_selector** может быть:
1. списком индексов, например: `[1, 5, 10]`
2. срезом по индексу: `5:10`
3. булевой маской той же длины, например: `df["Age"].isna()`

**cols_selector** может быть:
1. одним именем столбца: `"Name"`
2. списком столбцов: `["Name", "Age"]`
3. срезом по именам столбцов

Пример:
`df.loc[df["Age"].isna(), "Name"]` — выбрать имена всех строк, где значение `Age` отсутствует.

In [None]:
df.loc[[1,29,69],['Name','Age','Sex']]
df.loc[:, ["Name", "Cabin"]]   # все строки, только эти столбцы
df.loc[[1, 5, 10], :]          # эти строки, все столбцы

### df.iloc[[...], [...]]
* выборка данных конкретным столбцам(передаем как индекс этой колонки) + индексы строк
* так же работает со срезами

In [None]:
df.iloc[[1,4,700], [0,5]]

In [None]:
df.iloc[5:8, :3]

### фильтрация через маску
* можно передать в df[df['Age'] > 10]
* полученный Series df['age']>18 будет состоять из True False
* фильтровать можно по любому условию (/ - + * %)

In [None]:
df[df['Age'] > 10]

In [None]:
df[df["Age"].isin([5,10,15])]

### Фильтрация по нескольким условиям
* можно передавать несколько значений
* pandas поддерживает булевы операции которые реализованы через | &
* каждая клауза должна быть обернута в () а между ними условия or, and

In [None]:
df[(df['Age'] % 5 ==0) | (df["Age"] == 12)]

### df[...].notna()
* возвращает df/series булевых значений показывающих наличие элемента в ячейке
* Проверка на Nan. не проверка на None
* Один из вариантов очистки данных о пропусков это передавать ее как условие фильтра

In [None]:
df["Cabin"].notna()

#### даёт новый DataFrame, в котором:
	•	сохранены только строки, где значение в столбце Cabin НЕ является NaN,
	•	все строки, где Cabin = NaN (пусто, отсутствует) — удалены.

In [None]:
df[df["Cabin"].notna()]

### df[...].isna()
* вернет наоборот notna()
* можно посчитать колличество пропусков в колонке age

In [None]:
df["Age"].isna().sum()

In [None]:
df.loc[df["Age"].isna(), "Name"] #вернет Series людей у который нет возраста

# Сортировка данных и Обьеденение df

### df.sort_values
* передаем два аргумента:
1. список или название сортируемых/мой колонки
2. списком или значением передаем флаги в каком порядке сортировать (True - по возрастанию)

In [None]:
df.sort_values(["Age", "Name"], ascending=[False, True]).head(10)
df2 = df.copy(deep=True)

### pd.concat([...])
1. Слияние по строкам или столбцам(передаем axis = 0 для построчного слияния, axis = 1 для по столбцового)

In [None]:
mdf = pd.concat([df, df2], axis=1)

In [None]:
mdf.shape

### Join like SQL
* первый аргумент к чему джоиним
* второй откуда джоиним
* логика такая же как в SQL

In [None]:
ddf = pd.DataFrame(index = df.index) #создали новый DF с индексами из старого
ddf.shape

In [None]:
ddf['PassengerId'] = df["PassengerId"]
ddf['TestBool'] = ddf['PassengerId'].apply(lambda x: x % 2 == 0) #применение функции к каждому полю в Series

In [None]:
ddf

In [None]:
pd.merge(df, ddf, how='left', on='PassengerId')

# Аналитические функции
* .count() - колличество не нулевых элементов
* .mean() - среднее
* .meadian() - медианное значение
* .describe() - вернет набор статистик по столбцу
* .groupby([...]) - группировка по значению
* .value_counts() - подсчет колличества значений в группе
* .corr() - показывает коэфиценты коррееляции от столбцов к солбцу

In [None]:
df.count()
df['PassengerId'].count

In [None]:
df['Age'].mean()
df['Age'].median()

In [None]:
df["Age"].describe()

* cгруппировали по двум стоблцам
* выбрали только столбец возраст
* применили по очереди mean(), median() с помощью agg()

In [None]:
df.groupby(['Sex','Survived'])['Age'].agg(['mean', 'median'])

In [None]:
df['Sex'].value_counts() ### --> df.groupby('Sex')['Sex'].count()

In [None]:
df.corr(numeric_only=True)

# График
* .plot(kind = '...')  - график, с конкретным типом. bins - колличество столбцов

In [None]:
df['Age'].plot(kind='hist', bins = 20)

In [None]:
df['Age'].plot(kind='kde', xlim = [0,100])


In [None]:
df.groupby('Sex')['Age'].plot(kind = 'kde', xlim = [0,100], legend = True)

# Изменение данных

In [None]:
rf = df.copy(deep=True)

In [None]:
rf['Pclass'] = 1 # все значения стали константой
rf['Pclass'].value_counts()

In [None]:
rf['IsAdult'] = df['Age'] >= 18 #изменение по булевой маске

In [None]:
rf.head(3)

In [None]:
rf['IsAdultSurv'] = rf['IsAdult']
rf.loc[df['Survived'] == 0, 'IsAdultSurv'] = False

In [None]:
rf.head(3)

In [None]:
rf.rename(columns={'IsAdultSurv':'AdultSurvived'})

In [None]:
rf.rename(columns = str.lower)