# pandas

\- библиотека для обработки и анализа данных, работа идет поверх numpy, которая работает на более низком уровне.


In [1]:
import pandas as pd


# Series

\- объект, представлящий собой одноомерный массив.

При этом в результате имеет поле индексов и выборки, становясь по сути двумерным массивом.

*Params*:

- iterable
- index задаю такой же итер. объект для названий полей, без них только индексы.

Можно индексироваться, в т.ч. и по ключам.

Выполнять *мат. операции и операции сравнения*, которая будет применена к каждой единице выборки. (Вместо map). Вернет новый объект Series.

*Поддерживает*: max, min, sorted, list, len


In [2]:
iterable_1 = [1, 2, 3, 4, 5, "six"]

chosen_data = pd.Series(iterable_1, ["n1", "n2", "n3", "n4", "n5", "n6"])

print(chosen_data)
print("Last one is", chosen_data[5])

n1      1
n2      2
n3      3
n4      4
n5      5
n6    six
dtype: object
Last one is six


#### indexing

In [3]:
iterable_2 = dict(name="Misha", age=20, nation="Russian")

chosen_data = pd.Series(iterable_2)

chosen_data[:2], chosen_data["age"], chosen_data[['name', 'age']]

(name    Misha
 age        20
 dtype: object,
 20,
 name    Misha
 age        20
 dtype: object)

#### math operations

In [4]:
from random import randint
iterable_3 = (randint(1, 100) for _ in range(10))
chosen_data_1 = pd.Series(iterable_3)
chosen_data_2 = chosen_data_1 // 2
print(any(chosen_data_1 == chosen_data_2))
print(len(chosen_data_1), max(chosen_data_1))

False
10 64


#### attr index, attr values

In [5]:
source = map(int, '1995 1996 1997 1998 1999 2000 2001 2002 2003'.split())
dataset = pd.Series(source, ['year']*9)
dataset.index, dataset.values, type(dataset.values)

(Index(['year', 'year', 'year', 'year', 'year', 'year', 'year', 'year', 'year'], dtype='object'),
 array([1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002, 2003], dtype=int64),
 numpy.ndarray)

#### assignment

In [6]:
dataset[-1] = 2010
dataset

year    1995
year    1996
year    1997
year    1998
year    1999
year    2000
year    2001
year    2002
year    2010
dtype: int64

При создании Series на основе ndarray единицысовокупности будут ссылаться, а не копироваться.

In [7]:
import numpy as np

arr = np.array([1, 2, 3, 4])
s1 = pd.Series(arr)
arr[-1] = 100
s1, type(arr)

(0      1
 1      2
 2      3
 3    100
 dtype: int32,
 numpy.ndarray)

Фильтрация данных. Воозвращается новый объект.

In [8]:
arr[arr % 2 == 0], s1[s1 > 2], s1 > 2

(array([  2, 100]),
 2      3
 3    100
 dtype: int32,
 0    False
 1    False
 2     True
 3     True
 dtype: bool)

m unique() вернет array с уникальными значениями

In [9]:
s = pd.Series((1, 1, 1, 2, 3, 2, 4, 5, 5, 6, 6))
s.unique()

array([1, 2, 3, 4, 5, 6], dtype=int64)

m value_counts вернет двумерный массив, содержащий знаечние и его частоту.
Также возвращает уникальные values.

In [10]:
s.value_counts()

1    3
2    2
5    2
6    2
3    1
4    1
Name: count, dtype: int64

m isin(iterable) вернет True для единицы выборки если она есть в iterable

In [11]:
cond = s.isin((2, 3, 10))
s[cond]

3    2
4    3
5    2
dtype: int64

#### numpy.NaN

от Not a Number как None, получается при различных ошибочных вычислениях.

m isnull, m notnull позволяют создать условия, в которых единица принимает или не принимает NaN значение.

In [12]:
s1 = pd.Series([1, 2, 3, np.NaN, 5])
s1[s1.isnull()], s1[s1.notnull()]

(3   NaN
 dtype: float64,
 0    1.0
 1    2.0
 2    3.0
 4    5.0
 dtype: float64)

Операции двуг с другом. Имеет значеие одинаковые индексы. Если они разные, создаст общий массив, но со значениями NaN.

Порядок сложения не важен.

m sort_values и sort_indexes

In [13]:
mydict1 = {'red':400,'yellow':1000,'black':700}
mydict2 = {'pink':400,'yellow':1000,'black':700, 'orange': 900}
s1, s2 = pd.Series(mydict1), pd.Series(mydict2)
s3 = s1 + s2
# s3[s3.notnull()]
s3.sort_values(ascending=False)

yellow    2000.0
black     1400.0
orange       NaN
pink         NaN
red          NaN
dtype: float64

# DataFrame

\- объект, представлющий собой многомерный массив, т.е. вложенный список.

Ключи яв-ся выборочной совокупностию, значения яв-ся единицами совокупности. Каждая выборка, т.е. столбец имеет один тип данных.

Аналогично Series есть поле с индексами, но не только для радов распределения (строк), но и для столбцов аналогично.

При создание экземпляра, он всегда будет хранить Series объекты.

In [14]:

# df = pd.DataFrame(({"name": "Alex", "age": "10"}, {"name": "Mark", "age": "12"}))
s1 = pd.Series([1, 2, 3, 4])
s2 = pd.Series({'name': 'Alex', 'weight': 100})
df1 = pd.DataFrame(s1)
df2 = pd.DataFrame(range(0, 21, 5))

Params: сolumns отвечает за названия столбцов, причем если больше полей в data можно таким образом ограницить. index за названия рядов.

In [15]:
data = {'name': ['misha', 'yana', 'roma'], 'mark': [2, 3, 4], 'status': ['done', 'done', 'done']}
df3 = pd.DataFrame(data, columns=['name', 'mark'], index=[1, 2, 3])
df3

Unnamed: 0,name,mark
1,misha,2
2,yana,3
3,roma,4


atrrs columns and index return Index type both

attr values retuns all data as array

In [16]:
df3.columns, df3.index
df3.values

array([['misha', 2],
       ['yana', 3],
       ['roma', 4]], dtype=object)

Получить колонку можно и по атрибуту

In [17]:
df3.name, df3['name']

(1    misha
 2     yana
 3     roma
 Name: name, dtype: object,
 1    misha
 2     yana
 3     roma
 Name: name, dtype: object)

Получить ряд модно через атрибу loc и название индекса

loc\[row, 'column'] как значение или loc\[row, ['column]\] как Series.

Рекомендуется всегда через loc или iloc делать всесто df\['name']

In [18]:
df3.loc[1]

name    misha
mark        2
Name: 1, dtype: object

Получить значение: индексирую сначала по столбцу, после по индексу ряда.

In [19]:
df2[0][4]

20

Срез для строк

In [20]:
df3[:1], df3.loc[[1,2]]

(    name  mark
 1  misha     2,
     name  mark
 1  misha     2
 2   yana     3)

#### изменение датасета

In [21]:
# сделать имя для для названия колонок
df3.columns.name = 'items'

# сделать ия для названия индексов
df3.index.name = 'id'
df3

items,name,mark
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,misha,2
2,yana,3
3,roma,4


новая колонка

In [22]:
df3['allow'] = False
df3

items,name,mark,allow
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,misha,2,False
2,yana,3,False
3,roma,4,False


len вернет кол-во радов расределения

In [23]:
df3['total'] = df3.mark * 100
len(df3)

3

условия также применяются аналогично Series, для каждого элемента массива

In [24]:
df3[df3.isin(i for i in range(10))]

items,name,mark,allow,total
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,,2,False,
2,,3,False,
3,,4,False,


Удаление столбца.

In [25]:
del df3['total']
df3

items,name,mark,allow
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,misha,2,False
2,yana,3,False
3,roma,4,False


DataFrame из влоденного словаря

In [26]:
nestdict = {
    'red': { 2012: 22, 2013: 33}, 
    'white': { 2011: 13, 2012: 22, 2013: 16}, 
    'blue': { 2011: 17, 2012: 27, 2013: 18}
}
df = pd.DataFrame(nestdict)
df

Unnamed: 0,red,white,blue
2012,22.0,22,27
2013,33.0,16,18
2011,,13,17


Transpose with alias or method

In [27]:
df.T

Unnamed: 0,2012,2013,2011
red,22.0,33.0,
white,22.0,16.0,13.0
blue,27.0,18.0,17.0


 ### Объект Index
 
 \- интегрированый в Series и Datafram неизменяемый объект.

In [28]:
import pandas as pd
import numpy as np

data = np.arange(1, 1.4, 0.1)
s1 = pd.Series(data,  index=('cars', 'stocks', 'builds', 'utilities'))
s2 = pd.Series(data)
s1.index, s2.index

(Index(['cars', 'stocks', 'builds', 'utilities'], dtype='object'),
 RangeIndex(start=0, stop=4, step=1))

m idxmax, idxmin вернут индекс наиб или наим значения

In [29]:
s1.idxmax(), s2.idxmin()

('utilities', 0)

Индексы в полне могут повторяться. При обращении вернут несколько значений. 
св-во index.is_unique проверяет уникальность индексов.

In [30]:
s3 = pd.DataFrame(s2.add(pd.Series([1, 2, 3, 4])))
s4 = pd.DataFrame(s3, index=['pink', 'yellow', 'white', 'white'])
s3.index.is_unique
s4.loc['white'].index.is_unique

False

#### мат. операции

add, sub, div, mul как у Series так и у DataFrame, заменют обычные операторы.

Если у объекта разные индексы, добавит новые элементы, если одинаковые - тогда толкьо произведет вычисление над существующими в выборке единицами.

In [31]:
s3.pow(2).T

Unnamed: 0,0,1,2,3
0,4.0,9.61,17.64,28.09


Вычитание Series с одинак индексами в виде названия полей датафрейма. Важно именно c columns а не индексами датафрейма, иначе nan.

In [32]:
data = np.arange(16).reshape([4, 4])
df1 = pd.DataFrame(data, 
                   columns=['скорость роста', 'темп роста', 'темп прироста', '1% прироста'],
                   index=['альфа', 'сбер', 'тинькоф', 'открытие'])
s1 = pd.Series(np.arange(4), index=['скорость роста', 'темп роста', 'темп прироста', 'среднее'])
df1 - s1

Unnamed: 0,1% прироста,скорость роста,среднее,темп прироста,темп роста
альфа,,0.0,,0.0,0.0
сбер,,4.0,,4.0,4.0
тинькоф,,8.0,,8.0,8.0
открытие,,12.0,,12.0,12.0


m describe - получить от объекта Series показатели описательной статистики.

Есще методы: mean, count

In [33]:
s3.describe()

Unnamed: 0,0
count,4.0
mean,3.65
std,1.420094
min,2.0
25%,2.825
50%,3.65
75%,4.475
max,5.3


получить нужные значения можно через метод iloc, по которому модно индексирваться \[ряд распределения по индексу, столбец по индексу]

In [42]:
df1['скорость роста'] == df1.iloc[:, 0]

альфа       True
сбер        True
тинькоф     True
открытие    True
Name: скорость роста, dtype: bool