In [2]:
import pandas as pd
import numpy as np

## Data Frames 
- двухуровневые (или многоуровневые) структуры данных в pandas 

In [3]:
# pd.to_datetime - конвертация строк в даты

forum_users = {
    'User ID': np.array([1, 2, 3, 4, 5]),
    'Username': ['bogdan_s', 'jane_smith', 'alex123', 'bob56', 'mark_wilson'],
    'Age': [18, 35, 25, 38, None],
    'Joined Date': pd.to_datetime(['2032-01-01', '2032-02-15', '2032-04-25', '2032-06-21', '2032-09-15']),
    'Total Posts': [150, 230, 80, 420, 310],
    'Reputation': [500, 720, 200, 940, 500]
}

df = pd.DataFrame(forum_users)
df

Unnamed: 0,User ID,Username,Age,Joined Date,Total Posts,Reputation
0,1,bogdan_s,18.0,2032-01-01,150,500
1,2,jane_smith,35.0,2032-02-15,230,720
2,3,alex123,25.0,2032-04-25,80,200
3,4,bob56,38.0,2032-06-21,420,940
4,5,mark_wilson,,2032-09-15,310,500


In [4]:
df.shape

(5, 6)

In [5]:
type(df)

pandas.core.frame.DataFrame

In [6]:
df.columns

Index(['User ID', 'Username', 'Age', 'Joined Date', 'Total Posts',
       'Reputation'],
      dtype='object')

In [7]:
type(df.columns)

pandas.core.indexes.base.Index

In [8]:
df.columns.tolist() # метки колонок

['User ID', 'Username', 'Age', 'Joined Date', 'Total Posts', 'Reputation']

In [9]:
df.index.tolist() # метки рядов - могут быть как чисельные так и строчные

[0, 1, 2, 3, 4]

In [10]:
df.dtypes # типы данных для колонок

User ID                 int64
Username               object
Age                   float64
Joined Date    datetime64[ns]
Total Posts             int64
Reputation              int64
dtype: object

In [11]:
df.values # двумерный массив

array([[1, 'bogdan_s', 18.0, Timestamp('2032-01-01 00:00:00'), 150, 500],
       [2, 'jane_smith', 35.0, Timestamp('2032-02-15 00:00:00'), 230,
        720],
       [3, 'alex123', 25.0, Timestamp('2032-04-25 00:00:00'), 80, 200],
       [4, 'bob56', 38.0, Timestamp('2032-06-21 00:00:00'), 420, 940],
       [5, 'mark_wilson', nan, Timestamp('2032-09-15 00:00:00'), 310,
        500]], dtype=object)

In [12]:
type(df.values)

numpy.ndarray

In [13]:
df.values[1, 1] # обращение к двумерному массиву

'jane_smith'

In [14]:
df.head(3)

Unnamed: 0,User ID,Username,Age,Joined Date,Total Posts,Reputation
0,1,bogdan_s,18.0,2032-01-01,150,500
1,2,jane_smith,35.0,2032-02-15,230,720
2,3,alex123,25.0,2032-04-25,80,200


In [15]:
df.tail(2)

Unnamed: 0,User ID,Username,Age,Joined Date,Total Posts,Reputation
3,4,bob56,38.0,2032-06-21,420,940
4,5,mark_wilson,,2032-09-15,310,500


In [17]:
df.describe().round(2) 

Unnamed: 0,User ID,Age,Joined Date,Total Posts,Reputation
count,5.0,4.0,5,5.0,5.0
mean,3.0,29.0,2032-04-28 00:00:00,238.0,572.0
min,1.0,18.0,2032-01-01 00:00:00,80.0,200.0
25%,2.0,23.25,2032-02-15 00:00:00,150.0,500.0
50%,3.0,30.0,2032-04-25 00:00:00,230.0,500.0
75%,4.0,35.75,2032-06-21 00:00:00,310.0,720.0
max,5.0,38.0,2032-09-15 00:00:00,420.0,940.0
std,1.58,9.2,,133.3,276.62


**25-й, 50-й (медиана) и 75-й перцентили** - выявляют выбросы. 
25-й перцентиль (Q1) разделяет нижние 25% данных от остальных

- 25% age строго меньше чем 23.55, 75% больше 23.55
- 50% age строго меньше чем 30
- 75% age строго меньше чем 35.75

**std - стандартное отклонение** - измеряет степень разброса данных относительно среднего значения. Большое стандартное отклонение указывает на большой разброс данных, если он равен нулю - все значения одинаковы

In [18]:
# выбор колонок по типу данных

# выбор колонок c не обьектами, не int64
df.select_dtypes(exclude=['object', 'int64'])

Unnamed: 0,Age,Joined Date
0,18.0,2032-01-01
1,35.0,2032-02-15
2,25.0,2032-04-25
3,38.0,2032-06-21
4,,2032-09-15


In [135]:
df.select_dtypes(include='object').columns

Index(['Username'], dtype='object')

In [136]:
df.select_dtypes(include='int64')

Unnamed: 0,User ID,Total Posts,Reputation
0,1,150,500
1,2,230,720
2,3,80,200
3,4,420,940
4,5,310,500


In [137]:
# Отсутствующие значения 

df.isna()

Unnamed: 0,User ID,Username,Age,Joined Date,Total Posts,Reputation
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,True,False,False,False


In [19]:
# количество отсутствующих значений для каждой колонки

df.isna().sum()

User ID        0
Username       0
Age            1
Joined Date    0
Total Posts    0
Reputation     0
dtype: int64

## Series

- каждая колонка в датафрейме является серией, которая имеет значения, метки для каждого значения, название (совпадает с названием столбца), тип данных

- индекс слева, значение справа

In [146]:
username_series = df['Username']
username_series

0       bogdan_s
1     jane_smith
2        alex123
3          bob56
4    mark_wilson
Name: Username, dtype: object

In [147]:
type(username_series)

pandas.core.series.Series

In [148]:
# получение доступа к данным серии

username_series.values 

array(['bogdan_s', 'jane_smith', 'alex123', 'bob56', 'mark_wilson'],
      dtype=object)

In [149]:
type(username_series.values)

numpy.ndarray

In [150]:
username_series.index

RangeIndex(start=0, stop=5, step=1)

In [155]:
df['Reputation'].value_counts()

Reputation
500    2
720    1
200    1
940    1
Name: count, dtype: int64

In [156]:
df['Reputation'].value_counts(ascending=True)

Reputation
720    1
200    1
940    1
500    2
Name: count, dtype: int64

In [157]:
df['Reputation'].unique()

array([500, 720, 200, 940])

In [159]:
df['Username'].sort_values(ascending=False)

4    mark_wilson
1     jane_smith
0       bogdan_s
3          bob56
2        alex123
Name: Username, dtype: object

In [160]:
df['Username'].sort_values()

2        alex123
3          bob56
0       bogdan_s
1     jane_smith
4    mark_wilson
Name: Username, dtype: object