### Анализ данных с pandas

In [1]:
import numpy as np
import pandas as pd

In [8]:
# загружаем данные из файла
adults = pd.read_csv('adults.csv')
adults.head()


Unnamed: 0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
0,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
1,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
2,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
3,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
4,37,Private,284582,Masters,14,Married-civ-spouse,Exec-managerial,Wife,White,Female,0,0,40,United-States,<=50K


In [None]:
# Размеры таблицы
adults.shape

In [None]:
# Доступ к столбцам по имени
len(adults["age"])
# также можно использовать такой вариант обращения к столбцу
adults.age.mean()

In [None]:
# Подсчитываем частоты уникальных значений показателя
adults["sex"].value_counts()

<h3>Формирование подвыборок/срезов</h3>

In [None]:
# получаем отдельные столбцы, используя [ [список_имен_показателей] ]

adults[["age", "education"]]
# далее, можно получить нужные строки
adults[["age", "education"]][0:10:2]

In [None]:
# условие для показателя
b = adults["sex"] == "Female"
b[1:5]

In [None]:
# используем условия для адресации\отбора строк 
women = adults[adults["sex"] == "Female"][ ["age", "education"] ]
women.head()

In [None]:
# другой способ формирования подвыборки: функции loc и iloc для набора данных 
# adults.iloc[0:10, 0:5]
adults.loc[adults["sex"] == "Female", ["age", "education"]]

In [None]:
# Сколько людей из Кубы?
(adults["native-country"] == "Cuba").sum()

In [None]:
# Комбинируем условия - сколько женщин из Кубы
((adults["sex"] == "Female") & (adults["native-country"] == "Cuba")).sum()

In [None]:
# Доля от общего числа
(adults["native-country"] == "Cuba").sum() / adults.shape[0]

## Описательная статистика
### Вычисляем агрегерующие характеристики для выборок

In [None]:
# Для столбца (или подвыборки) можно подсчитать какую-то агрег. х-ку (min, max, mean, std, ..) 
round(adults[adults["sex"] == "Female"]["age"].mean(), 2)

In [None]:
# Также можно вычислить набор характеристик через функцию agg
# аргумент - функция или список функций
adults[adults["sex"] == "Male"]["age"].agg([np.min, np.mean, np.max])


### Описательная статистика с функцией <i>describe</i>

In [None]:
# Получение 'описательной статистики' по показателю "age" 
adults["age"].describe()

In [None]:
# Подсчитываем агрег. х-ки для нескольких выборок
ages1 = adults[adults['salary'] == ">50K"]['age']
ages2 = adults[adults['salary'] == "<=50K"]['age']
print(
    "Средний возраст 'богатых': {0} +- {1} лет, 'бедных': {2} +- {3} лет.".format(
        round(ages1.mean()),
        round(ages1.std(), 1),
        round(ages2.mean()),
        round(ages2.std(), 1)
    )
)

### unique()

In [None]:
# У всех ли 'богатых' есть высшее образование?
adults[adults["salary"] == ">50K"]["education"].unique()

### value_counts()

In [None]:
# Подсчитаем распределение 'богатых' по уровню образования
adults[adults["salary"] == ">50K"]["education"].value_counts()

<h3>Группировка данных</h3>

In [None]:
# Группируем по 'race' и 'sex'
groups = adults.groupby('race')   #["race", "sex"])
print("Всего %d групп" % len(groups))
for race, g in groups:
    print(race)

Каждая группа содержит: ключ и отобранные объекты

In [None]:
# Отображаем описательную статистику по группам
groups = adults.groupby(['race', 'sex'])   #["race", "sex"])
for (race, sex), g in groups:
    print("Race: {0:20}  sex: {1:10} mean age: {2:5.2f}".format(race, sex, g["age"].mean()))
  #  print(g["age"].describe())

## Визуализация данных

In [None]:
import matplotlib.pyplot as plt
# при необходимости нужно загрузить пакет в terminal\cmd
# conda install -c conda-forge seaborn
import seaborn as sns

In [None]:
# найстройка для улучшения качества графики
# %config InlineBackend.figure_format = 'svg'

In [None]:
adults[["age", "hours-per-week"]].hist(figsize=(10,4))

In [None]:
sns.histplot(x = "hours-per-week", data = adults, bins = 10, hue = 'sex') 

In [None]:
adults["age"].describe()

In [None]:
# диаграмма "боксплот" = диаграмма размаха
sns.boxplot(x = "age",  data = adults)

In [None]:
# создаем диаграммы размаха показателя "age" по группам 
sns.boxplot(x = "age", y = "education", data = adults)

In [None]:
# диаграмма частот для категорийного показателя
fig = plt.figure(figsize = (15, 3))
sns.countplot(x="education", data = adults)


In [None]:
# отобразим две диаграммы на одном ряду
_, axes = plt.subplots(nrows=1, ncols=2, figsize=(12, 4))

sns.countplot(x="sex", data=adults, ax=axes[0])
sns.countplot(x="salary", data=adults, ax=axes[1]);

In [None]:
plt.figure(figsize = (10, 3))
sns.countplot(x = "workclass", data = adults)

In [None]:
plt.figure(figsize = (10, 4))
sns.scatterplot(x = "age", y = "hours-per-week", data = adults)

In [None]:
# диаграммы частот с группировкой
sns.countplot(x = "sex", hue = "salary", data = adults)

In [None]:
pd.crosstab(adults["sex"], adults["salary"])