# Анализ данных с Pandas

In [None]:
import pandas as pd
import numpy as np

In [None]:
!wget https://raw.githubusercontent.com/anshu7vyas/naive-bayesian-census-income/refs/heads/master/Data/adult.data.csv

Данные соцопросов Census Income, с которым будем работать:

In [None]:
df = pd.read_csv('data/CensusIncome/adult.data.csv')

* __age__: continuous. 
* __workclass__: Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked. 
* __fnlwgt__: continuous. 
* __education__: Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool. 
* __education-num__: continuous. 
* __marital-status__: Married-civ-spouse, Divorced, Never-married, Separated, Widowed, Married-spouse-absent, Married-AF-spouse. 
* __occupation__: Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, Prof-specialty, Handlers-cleaners, Machine-op-inspct, Adm-clerical, Farming-fishing, Transport-moving, Priv-house-serv, Protective-serv, Armed-Forces. 
* __relationship__: Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried. 
* __race__: White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black. 
* __sex__: Female, Male. 
* __capital-gain__: continuous. 
* __capital-loss__: continuous. 
* __hours-per-week__: continuous. 
* __native-country__: United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand, Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands.

`head()` показывает первые 5 строк датафрейма. 

`tail()` - последние 5.

`head(N)` показывает первые N строк датафрейма. 

`tail(N)` - последние N.

In [None]:
df.head()

## Структура

In [None]:
q = pd.DataFrame(data={'a': ['abc', 'bcd', 'def'], 'b': [1,2,3], 'c': [100, 300, 200]}, index=[8,9,10])
q

In [None]:
q.index

In [None]:
q.columns

In [None]:
q.a

In [None]:
q['a']

In [None]:
type(q.a)

In [None]:
q[:2]

In [None]:
q[['a']]

In [None]:
q[['a', 'b']][:2]

## Общее

Размер:

In [None]:
df.shape

Столбцы:

In [None]:
df.columns

Информация содержит данные о типе колонок, степени их заполненности (в нашем случае пропусков в данных нет), типе данных каждой из колонок, а также потреблении памяти:

In [None]:
df.info()

Метод `describe` содержит основные статистики по числовым столбцам данных: 
* количество
* среднее
* среднеквадратичное отклонение
* минимум, максимум
* медиану
* первый и третий квартили

In [None]:
df.describe()

Если хочется посмотреть и на нечисловые признаки, то нужно указать их тип в параметре `include`. Всего есть совсем немного основных: 
* `bool` - логический
* `object` - общий нечисловой, в большинстве случаев это строки
* `numeric` - числовой, включающий как числа с плавающей запятой, так и целые

In [None]:
df.describe(include=['object', 'bool'])

Полезным методом является `value_counts()`, считающим распределение данных по категориям:

In [None]:
df.education.value_counts()

Для отображения в долях существует флажок `normalize`:

In [None]:
df.education.value_counts(normalize=True)

Недостаточно понятно? Построим!

In [None]:
df.education.value_counts().plot(kind='bar');

## Индексация

Весь датафрейм:

In [None]:
df;

Только те, чей возраст меньше 25 лет:

In [None]:
df[df.age < 25];

Часто того же результата можно добиться с помощью `query`:

In [None]:
df.query('age < 25');

Только те, кто получают больше 50 000$:

In [None]:
df[df.salary == '>50K'];

In [None]:
df[df.salary == '<=50K'].sex.value_counts(normalize=False)

In [None]:
df[df.salary == '>50K'].sex.value_counts(normalize=True)

## Сортировка

In [None]:
df.sort_values(by=['education']);

Отсортируем сначала по полу, внутри пола - по возрасту, но в обратном порядке

In [None]:
df.sort_values(by=['sex', 'age'], ascending=[True, False]).head()

## Применение функций

Применить функцию к каждому столбцу можно с помощью `apply`:

In [None]:
df.apply(np.max) # взяли максимум в каждом из столбцов

In [None]:
df['education-num'].apply(lambda x: x+10).head()

Применение функции к каждой __ячейке__ реализовывается с помощью `map`:

In [None]:
renaming = {'>50K': 1, '<=50K': 0}
df.salary = df.salary.map(renaming)

In [None]:
df.salary.value_counts()

In [None]:
renaming = {1:'> 50K', 0: '<= 50K'}
df.salary = df.salary.map(renaming)

In [None]:
df['sex'] = df['sex'].apply(lambda x: x.lower())
df['relationship'] = df['relationship'].apply(lambda x: x.lower())

In [None]:
# same as above:
cols = ['sex', 'relationship']
df[cols] = df[cols].applymap(lambda x: x.lower())

In [None]:
df.head()

## Дубликаты

In [None]:
q = pd.DataFrame(data={'a': [1,2,3,1,1], 'b': [1,2,3,2,1], 'c':[10,20,30,40,40]})
q

In [None]:
q.duplicated(['a'])

In [None]:
q.duplicated(['a', 'b'])

In [None]:
q.drop_duplicates(subset=['a'])

In [None]:
q.drop_duplicates(subset=['a', 'b'])

## Группировка

In [None]:
df.groupby(['salary']);

__Важно__: groupby-объекты - не копии частей датафрейма!

In [None]:
df.groupby(['salary']).describe(include=['object', 'bool'])

In [None]:
df.groupby('salary')

In [None]:
df.groupby('salary').sex.value_counts()

## Таблицы сопряженности и сводные таблицы

### Таблицы сопряженности

In [None]:
pd.crosstab(df.salary, df.sex)

In [None]:
pd.crosstab(df.salary, df.sex).plot(kind='bar');

In [None]:
pd.crosstab(df.salary, df.sex, normalize=True)

In [None]:
pd.crosstab(df.salary, df['marital-status'], normalize=True)

### Сводные таблицы

In [None]:
df.pivot_table(['salary'], ['education'], aggfunc='count').head(10)

## Изменение таблиц

In [None]:
df.head()

### Добавление нового столбца

In [None]:
df['working_days'] = df['hours-per-week'] / 8.0

In [None]:
df.head()

In [None]:
df['constant'] = 1

In [None]:
df = df.assign(anotherConstant = lambda dataframe: dataframe.constant*2)

In [None]:
df.head(1)

### Удаление строк и столбцов

In [None]:
df.drop(['constant', 'anotherConstant'], axis=1, inplace=True)

__NB__: У большинства операторов pandas есть флажок `inplace`. Если он выставлен в `False` (по умолчанию именно так), то изменения, например, как `drop` в примере выше, не будут изменять таблицу, а вернут измененную копию.

In [None]:
df.drop([1,2]).head(3) # => удаляет строки

### Переименование столбцов

In [None]:
df.columns = [c.lower() for c in df.columns]

In [None]:
df = df.rename(columns={'marital-status': 'marital_status'})
                        # словарь старое-новое значение

## Работа с пропущенными (NaN) значениями

In [None]:
test = pd.DataFrame(data={'name': ['John', 'Bill', 'Jennifer', 'Max'], 
                          'salary': [90, np.nan, 95, 130], 
                          'age': [27, 30, np.nan, np.nan],
                          'status': [np.nan, 'married', np.nan, 'married']
                         })
test = test[['name', 'age', 'salary', 'status']]
test

### Отображение

In [None]:
test[test['age'].isnull()]

In [None]:
test[test['age'].notnull()]

In [None]:
test[test.isnull().any(axis=1)]

In [None]:
test[~test.isnull().any(axis=1)]

### Заполнение

Прежде всего, можно заполнить некоторым константным значением:

In [None]:
dashtest = test.fillna('-')
dashtest

Важно заметить, что теперь слобцы возраста и зарплаты более не числовые:

In [None]:
print(test.dtypes, '\n\n', dashtest.dtypes)

In [None]:
test.fillna(method='ffill')

In [None]:
test.fillna(method='bfill')

In [None]:
test.fillna(method='ffill').fillna(method='bfill')

In [None]:
test['salary'] = test[['salary']].fillna(test.salary.mean())
test

In [None]:
test['age'] = test[['salary']].fillna(25)
test['status'] = test[['status']].fillna(test.status.mode()[0])
test

https://github.com/pandas-dev/pandas/blob/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf