## Pandas basics

In [None]:
# отключим предупреждения
import warnings
warnings.simplefilter("ignore")

import numpy as np
import pandas as pd

#%matplotlib inline
#import matplotlib.pyplot as plt

Основными структурами данных в Pandas являются классы Series и DataFrame. 

Первый из них представляет собой одномерный индексированный массив данных некоторого фиксированного типа. 

Второй - это двухмерная структура данных, представляющая собой таблицу, каждый столбец которой содержит данные одного типа. Можно представлять её как словарь объектов типа Series. Структура DataFrame отлично подходит для представления реальных данных: строки соответствуют признаковым описаниям отдельных объектов, а столбцы соответствуют признакам.

Для начала рассмотрим простые примеры создания таких объектов и возможных операций над ними.

### Series

**Создание объекта Series из 5 элементов, индексированных буквами:**

In [None]:
salaries = pd.Series([400, 300, 200, 250], index=["Andrew", "Bob", "Charles", "Ann"])
salaries

In [None]:
salaries.loc['Andrew']

In [None]:
salaries[salaries > 250]

**Индексирование возможно в виде series.Name или series['Name'].**

In [None]:
salaries.Ann == salaries["Andrew"]

**Series поддерживает пропуски в данных.**

In [None]:
salaries.Ann = None  # Series can contain missing values
salaries

In [None]:
salaries.mean()

**Объекты Series похожи на ndarray и могут быть переданы в качестве аргументов большинству функций из Numpy.**

In [None]:
print("Second element of salaries is", salaries[1], "\n")

# индексирование как для ndarray
print(salaries[:3], "\n")

print("There are", len(salaries[salaries > 0]), "positive elements in salaries\n")

print(np.exp(salaries))

### DataFrame

### Создание и изменение

DataFrame можно создать, например, из массива ndarray, указав дополнительно столбцов и индексы для строк.

In [None]:
df1 = pd.DataFrame(np.random.randn(5, 3),
                   index=['r1', 'r2', 'r3', 'r4', 'r5'],
                   columns=['c1', 'c2', 'c3'],
                  )
df1

Или из словаря numpy массивов или списков

In [None]:
df2 = pd.DataFrame({'A': np.random.random(5), 
                    'B': ["a", "b", "c", "d", "e"], 
                    'C': np.arange(5) > 2}
                  )

df2

Обращение к элементам фрейма:

In [None]:
print("Элемент на позиции 3, B это", df2.at[3, 'B'])

df2.loc[[1, 4], ['A', 'B']]


**Изменение элементов и добавление новых:**

In [None]:
df2.at[2, 'B'] = 'new'
df2

In [None]:
df2.loc[5] = [10000, 'new', False]
df2

In [None]:
df1.columns = ["A", "B", "C"]

df3 = df1.append(df2)

df3

#### Обработка пропущенных значений

In [None]:
df1.at["o2", "A"] = np.nan
df1.at["o4", "C"] = np.nan
df1

**Булева маска для пропущенных значений (True - там, где был пропуск, иначе - False):**

In [None]:
pd.isnull(df1)

**Можно удалить все строки, где есть хотя бы один пропуск.**

In [None]:
df1.dropna(how = "all")

**Пропуски можно заменить каким-то значением.**

In [None]:
df1.fillna(0)

**Чтение из файла**

In [None]:
df = pd.read_csv("beauty.csv", sep=";")

**Посмотрим на размер данных и названия признаков.**

In [None]:
print(df.shape)
print(df.columns.values)

In [None]:
df.head(5)

**При работе с большими объёмами данных бывает удобно посмотреть только на небольшие части фрейма (например, начало).**

In [None]:
df.head(4)

**DataFrame можно отсортировать по значению признаков**

In [None]:
df.sort_values(by="wage", ascending=False).head()

In [None]:
df.sort_values(by=["female", "wage"], ascending=[True, False]).head()

### Индексация и извлечение данных

In [None]:
df["goodhlth"].mean()

In [None]:
df[df["female"] == 1].head()

In [None]:
df[(df["goodhlth"] == 1) & (df["female"] == 1)].head()

In [None]:
df[(df["female"] == 0)]["wage"].mean() - df[(df["female"] == 1)]["wage"].mean()

**Применение функции к каждому столбцу:**

In [None]:
df.apply(np.sum)

**Группирование данных в зависимости от значения признака *looks* и подсчет среднего значения по каждому столбцу в каждой группе.**

In [None]:
g = df.groupby("looks")

for (i, sub_df) in g:
    
    print (i, len(sub_df))
    
    print(sub_df["wage"].mean(), sub_df["looks"].mean())

**Обращение к конкретной группе:**

In [None]:
d1 = g.get_group(5)
d1.head()