# Модуль pandas
Библиотека для анализа и обработки данных.

Документация [здесь](https://pandas.pydata.org/docs/reference/index.html).

In [14]:
import numpy as np
import pandas as pd

## Series (ряд) - одномерный ndarray с именоваными данными (метки)
Документация [здесь](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html).

### Создание
pandas.Series(data=None, index=None, dtype=None, name=None, ...)

data - Словарь, список, массив или скалярное значение.

index - Список меток. Длина списка равна длине data.

dtype - Тип данных numpy.dtype.

name - Имя ряда.

#### из списка

In [15]:
sr = pd.Series([1, 2, 3, 4, 5])
print(sr)

0    1
1    2
2    3
3    4
4    5
dtype: int64


In [16]:
sr = pd.Series([1, 2, 3, 4, 5], dtype=np.float, name="Series")
print(sr)

AttributeError: module 'numpy' has no attribute 'float'.
`np.float` was a deprecated alias for the builtin `float`. To avoid this error in existing code, use `float` by itself. Doing this will not modify any behavior and is safe. If you specifically wanted the numpy scalar type, use `np.float64` here.
The aliases was originally deprecated in NumPy 1.20; for more details and guidance see the original release note at:
    https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations

In [19]:
sr = pd.Series([1, 2, 3, 4, 5], ['a', 'b', 'c', 'd', 'e'])
print(sr)

a    1
b    2
c    3
d    4
e    5
dtype: int64


#### из словаря

In [20]:
d = {'a':1, 'b':2, 'c':3, 'd':4, 'e':5}
sr = pd.Series(d)
print(sr)

a    1
b    2
c    3
d    4
e    5
dtype: int64


#### из массива ndarray

In [21]:
arr = np.array([1, 2, 3, 4, 5])
sr = pd.Series(arr)
print(sr)

0    1
1    2
2    3
3    4
4    5
dtype: int32


In [22]:
arr = np.array([1, 2, 3, 4, 5])
names = ["Index " + str(i) for i in range(len(arr))]
sr = pd.Series(arr, names)
print(sr)

Index 0    1
Index 1    2
Index 2    3
Index 3    4
Index 4    5
dtype: int32


#### из скалярной величины

In [None]:
names = ["Index " + str(i) for i in range(5)]
sr = pd.Series(33, names)
print(sr)

### Обращение к элементам

In [None]:
sr = pd.Series([1, 2, 3, 4, 5], ['a', 'b', 'c', 'd', 'e'])
print(sr)

#### по индексу

In [None]:
sr[0]

#### по метке

In [None]:
sr['b']

#### через срезы

In [None]:
sr[2:]

In [None]:
sr[:-3]

#### через условие

In [None]:
sr[sr > 2]

In [None]:
sr[sr == 2]

### Присваивание значений

In [None]:
sr[sr > 2] = 1
print(sr)

In [None]:
sr[:2] = 4
print(sr)

In [None]:
sr[:2] = [4, 3]
print(sr)

### Атрибуты

In [None]:
sr = pd.Series([1, 2, 3, 4, 5], ['a', 'b', 'c', 'd', 'e'], name='test')
print(sr)

#### obj.name - возвращает название ряда

In [None]:
sr.name

#### obj.axes - название осей

In [None]:
sr.axes

#### obj.dtype - тип элементов

In [None]:
sr.dtype

#### obj.at - доступ по метке к одному элементу

In [None]:
sr.at['a']

#### obj.iat - доступ по индексу к одному элементу

In [None]:
sr.iat[0]

#### obj.loc - доступ по меткам к группе элеменов

In [None]:
sr.loc[['a', 'b']]

In [None]:
sr.loc[np.array(['a', 'b'])]

#### obj.iloc - доступ по индексам к группе элеменов

In [None]:
sr.iloc[[0, 1]]

In [None]:
sr.iloc[np.array([0, 1])]

#### obj.index - индексы

In [None]:
sr.index

#### obj.values - значения

In [None]:
sr.values

#### obj.hasnans - истина, если есть  хоть один NaN

In [None]:
sr.hasnans

In [None]:
sr = pd.Series([1, 2, 3, 4, 5], ['a', 'b', 'c', 'd', 'e'], name='test')
print(sr)

#### obj.is_monotonic - истина, если значения монотонно возрастают

In [None]:
sr.is_monotonic

#### obj.is_monotonic_increasing - псевдоним для is_monotonic

In [None]:
sr.is_monotonic_increasing

#### obj.is_monotonic_decreasing - истина, если значения монотонно убывают

In [None]:
sr.is_monotonic_decreasing

#### obj.is_unique - истина, если значения уникальны

In [None]:
sr.is_unique

#### obj.nbytes - объем всех данных

In [None]:
sr.nbytes

#### obj.ndim - количество измерений (всегда 1)

In [None]:
sr.ndim

#### obj.shape - форма

In [None]:
sr.shape

#### obj.size - количество элементов

In [None]:
sr.size

In [None]:
len(sr)

## DataFrame - двумерный ndarray с именоваными данными (метки)
Документация [здесь](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html).

### Создание
DataFrame(data=None, index=None, columns=None, dtype=None, ...)

data - Словарь, список, массив.

index - Список меток строк. (0, 1, 2, ..., m) если не указано.

columns - Список меток колонок. (0, 1, 2, ..., n) если не указано.

dtype - Тип данных numpy.dtype.

#### из списка

In [23]:
df = pd.DataFrame([1, 2, 3, 4, 5])
print(df)

   0
0  1
1  2
2  3
3  4
4  5


In [24]:
df = pd.DataFrame([[1, 2], [3, 4], [5, 6]])
print(df)

   0  1
0  1  2
1  3  4
2  5  6


In [10]:
df = pd.DataFrame([[1, 2], [3, 4], [5, 6]], dtype=np.float)
print(df)

AttributeError: module 'numpy' has no attribute 'float'.
`np.float` was a deprecated alias for the builtin `float`. To avoid this error in existing code, use `float` by itself. Doing this will not modify any behavior and is safe. If you specifically wanted the numpy scalar type, use `np.float64` here.
The aliases was originally deprecated in NumPy 1.20; for more details and guidance see the original release note at:
    https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations

In [25]:
df = pd.DataFrame([[1, 2], [3, 4], [5, 6]], ['a', 'b', 'c'])
print(df)

   0  1
a  1  2
b  3  4
c  5  6


In [26]:
df = pd.DataFrame([[1, 2], [3, 4], [5, 6]], columns=['d', 'e'])
print(df)

   d  e
0  1  2
1  3  4
2  5  6


In [27]:
df = pd.DataFrame([[1, 2], [3, 4], [5, 6]], ['a', 'b', 'c'], ['d', 'e'])
print(df)

   d  e
a  1  2
b  3  4
c  5  6


#### из словаря

In [None]:
d = {'color' : ['red', 'green', 'blue'],
     'object' : ['hat', 'day', 'origin'],
     'price' : [1, 5, 9.7]}
df = pd.DataFrame(d)
print(df)

#### из массива ndarray

In [28]:
arr = np.arange(12).reshape((3, 4))
df = pd.DataFrame(arr, columns=list("abcd"), index=list("efg"))
print(df)

   a  b   c   d
e  0  1   2   3
f  4  5   6   7
g  8  9  10  11


In [None]:
arr = np.random.uniform(0, 1, 10).reshape(5, 2)
df = pd.DataFrame(arr, index=["Ind " + str(i) for i in range(5)], columns=["Col " + str(i) for i in range(2)])
print(df)

### Обращение к элементам

In [None]:
m = 6
n = 4
arr = np.array(np.random.randint(0, 100, size=m * n).reshape(m, n))
df = pd.DataFrame(arr, index=['r' + str(i) for i in range(m)], columns=[chr(i + 97) for i in range(n)])
print(df)

#### столбец по метке

In [None]:
df['a']

#### строки через срезы

In [None]:
df[2:]

In [None]:
df[:-3]

#### через условие

In [None]:
df

In [None]:
print(df)

In [None]:
df[df['a'] > 70]

In [None]:
df[(df['a'] > 70) & (df['b'] <= 50)]

### Атрибуты

#### obj.axes - название осей

In [None]:
df.axes

#### obj.index - индексы

In [None]:
df.index

#### obj.columns - колонки

In [None]:
df.columns

#### obj.values - значения

In [None]:
df.values

#### obj.at - доступ по меткам к одному элементу

In [None]:
df.at['r2', 'a']

#### obj.iat - доступ по индексу к одному элементу

In [None]:
df.iat[2, 0]

#### obj.loc - доступ по меткам к группе элеменов

In [None]:
df.loc['r1']

In [None]:
df.loc[np.array(['r1', 'r2'])]

#### obj.iloc - доступ по индексам к группе элеменов

In [None]:
sr.iloc[[0, 1]]

In [None]:
sr.iloc[np.array([0, 1])]

#### obj.dtypes - тип элементов

In [None]:
df.dtypes

#### obj.ndim - количество измерений

In [None]:
df.ndim

#### obj.shape - форма

In [None]:
df.shape

#### obj.size - количество элементов

In [None]:
df.size

In [None]:
len(df)

### С методами разберемся на примерах

#### загрузка из csv файла

In [32]:
df = pd.read_csv('titanic.csv', sep=',', index_col='PassengerId')

In [None]:
df

#### просмотр первых строк

In [None]:
df.head()

In [None]:
df.head(10)

#### просмотр последних строк

In [None]:
df.tail(10)

In [None]:
df.shape[0]

#### подсчет заполненных значений

In [None]:
df.count()

#### подсчет количества в разрезе значений (умерших/количество выживших)

In [37]:
df['Survived'].value_counts()

Survived
0    549
1    342
Name: count, dtype: int64

#### подсчет среднего/медианного (средний/медианный возраст)

In [None]:
df['Age'].mean()

In [None]:
df['Age'].median()

#### поиск максимума (максимальная стоимость билета)

In [None]:
df['Fare'].max()

In [None]:
df['Fare'].sum()

#### корреляция (братья и сестры (SibSp) / дети и родители (Parch))

In [None]:
df['SibSp'].corr(df['Parch']) * 100

#### удаление пропусков

In [33]:
df.head(10)

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [35]:
new_df = df.dropna()
new_df.head(10)

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
22,1,2,"Beesley, Mr. Lawrence",male,34.0,0,0,248698,13.0,D56,S
24,1,1,"Sloper, Mr. William Thompson",male,28.0,0,0,113788,35.5,A6,S
28,0,1,"Fortune, Mr. Charles Alexander",male,19.0,3,2,19950,263.0,C23 C25 C27,S
53,1,1,"Harper, Mrs. Henry Sleeper (Myna Haxtun)",female,49.0,1,0,PC 17572,76.7292,D33,C
55,0,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,113509,61.9792,B30,C


In [36]:
new_df.count()

Survived    183
Pclass      183
Name        183
Sex         183
Age         183
SibSp       183
Parch       183
Ticket      183
Fare        183
Cabin       183
Embarked    183
dtype: int64

#### исключить строки с NaN в определенном столбце (исключение пассажиров с неуказанной каютой)

In [None]:
new_df = df[df['Cabin'].notna()]
new_df.head(10)

#### запрос с помощью логического выражения (выжившие женщины)

In [38]:
new_df = df.query('Sex == "female" & Survived == 1') 
print(new_df["Age"].mean())
new_df.head()

28.84771573604061


Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [None]:
df["Name"].str.contains("Miss.")

#### почситаем средний возраст выживших и незамужних женщин

In [None]:
new_df = df.query('Sex == "female" & Survived == 1')
new_df = new_df[new_df["Name"].str.contains("Miss.")]
new_df.head()

In [None]:
new_df.count()

In [None]:
new_df["Age"].mean()