# pandas

\- библиотека для обработки и анализа данных, работа идет поверх numpy, которая работает на более низком уровне.


In [1]:
import pandas as pd


# Series

\- объект, представлящий собой одноомерный массив.

При этом в результате имеет поле индексов и выборки, становясь по сути двумерным массивом.

*Params*:

- iterable
- index задаю такой же итер. объект для названий полей, без них только индексы.

Можно индексироваться, в т.ч. и по ключам.

Выполнять *мат. операции и операции сравнения*, которая будет применена к каждой единице выборки. (Вместо map). Вернет новый объект Series.

*Поддерживает*: max, min, sorted, list, len


In [2]:
iterable_1 = [1, 2, 3, 4, 5, "six"]

chosen_data = pd.Series(iterable_1, ["n1", "n2", "n3", "n4", "n5", "n6"])

print(chosen_data)
print("Last one is", chosen_data[5])

n1      1
n2      2
n3      3
n4      4
n5      5
n6    six
dtype: object
Last one is six


#### indexing

In [7]:
iterable_2 = dict(name="Misha", age=20, nation="Russian")

chosen_data = pd.Series(iterable_2)

chosen_data[:2], chosen_data["age"], chosen_data[['name', 'age']]

(name    Misha
 age        20
 dtype: object,
 20,
 name    Misha
 age        20
 dtype: object)

#### math operations

In [4]:
from random import randint
iterable_3 = (randint(1, 100) for _ in range(10))
chosen_data_1 = pd.Series(iterable_3)
chosen_data_2 = chosen_data_1 // 2
print(any(chosen_data_1 == chosen_data_2))
print(len(chosen_data_1), max(chosen_data_1))

False
10 90


#### attr index, attr values

In [6]:
source = map(int, '1995 1996 1997 1998 1999 2000 2001 2002 2003'.split())
dataset = pd.Series(source, ['year']*9)
dataset.index, dataset.values, type(dataset.values)

(Index(['year', 'year', 'year', 'year', 'year', 'year', 'year', 'year', 'year'], dtype='object'),
 array([1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002, 2003], dtype=int64),
 numpy.ndarray)

#### assignment

In [14]:
dataset[-1] = 2010
dataset

year    1995
year    1996
year    1997
year    1998
year    1999
year    2000
year    2001
year    2002
year    2010
dtype: int64

При создании Series на основе ndarray единицысовокупности будут ссылаться, а не копироваться.

In [35]:
import numpy as np

arr = np.array([1, 2, 3, 4])
s1 = pd.Series(arr)
arr[-1] = 100
s1, type(arr)

(0      1
 1      2
 2      3
 3    100
 dtype: int32,
 numpy.ndarray)

Фильтрация данных. Воозвращается новый объект.

In [40]:
arr[arr % 2 == 0], s1[s1 > 2], s1 > 2

(array([  2, 100]),
 2      3
 3    100
 dtype: int32,
 0    False
 1    False
 2     True
 3     True
 dtype: bool)

m unique() вернет array с уникальными значениями

In [41]:
s = pd.Series((1, 1, 1, 2, 3, 2, 4, 5, 5, 6, 6))
s.unique()

array([1, 2, 3, 4, 5, 6], dtype=int64)

m value_counts вернет двумерный массив, содержащий знаечние и его частоту.
Также возвращает уникальные values.

In [42]:
s.value_counts()

1    3
2    2
5    2
6    2
3    1
4    1
Name: count, dtype: int64

m isin(iterable) вернет True для единицы выборки если она есть в iterable

In [None]:
cond = s.isin((2, 3, 10))
s[cond]

#### numpy.NaN

от Not a Number как None, получается при различных ошибочных вычислениях.

m isnull, m notnull позволяют создать условия, в которых единица принимает или не принимает NaN значение.

In [54]:
s1 = pd.Series([1, 2, 3, np.NaN, 5])
s1[s1.isnull()], s1[s1.notnull()]

(3   NaN
 dtype: float64,
 0    1.0
 1    2.0
 2    3.0
 4    5.0
 dtype: float64)

Операции двуг с другом. Имеет значеие одинаковые индексы. Если они разные, создаст общий массив, но со значениями NaN.

m sort_values и sort_indexes

In [60]:
mydict1 = {'red':400,'yellow':1000,'black':700}
mydict2 = {'pink':400,'yellow':1000,'black':700, 'orange': 900}
s1, s2 = pd.Series(mydict1), pd.Series(mydict2)
s3 = s1 + s2
# s3[s3.notnull()]
s3.sort_values(ascending=False)

yellow    2000.0
black     1400.0
orange       NaN
pink         NaN
red          NaN
dtype: float64

# DataFrame

\- объект, представлющий собой многомерный массив, т.е. вложенный список.



In [5]:
df = pd.DataFrame(({"name": "Alex", "age": "10"}, {"name": "Alex", "age": "10"}))
df

Unnamed: 0,name,age
0,Alex,10
1,Alex,10
