## Анализ и визуализация данных на языке Python

###  Библиотека pandas


In [20]:
import pandas as pd
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

In [21]:
import numpy as np

In [22]:
#
!pip install faker



In [23]:
from faker import Faker

## Объект DataFrame

DataFrame ("каркас для данных") - объект для представления табличных данных. Он состоит из упорядоченной коллекции столбцов, причем типы данных в разных столбцах могут различаться. Он содержит два индекса: по строкам и по столбцам. Можно сказать, что DataFrame - это словарь объектов Series, имеющий общий индекс.


![image.png](attachment:image.png)


В этом блоке мы рассмотрим базовые CRUD-операции с DataFrame:
 - добавление новых строк/столбцов
 - удаление строк/столбцов
 - доступ к столбцам и строкам.  


Перед тем, как приступить к знакомству с DataFrame, определим ряд терминов:
- "запись", "строка" - горизонтальный элемент DataFrame
- "поле", "признак", "столбец", "колонка" - вертикальный элемент DataFrame

Простой DataFrame можно создать из словаря:

In [24]:
data = {
    'apples': [3, 2, 0, 1],
    'oranges': [0, 3, 7, 2]
}
purchases = pd.DataFrame(data)
purchases

Unnamed: 0,apples,oranges
0,3,0
1,2,3
2,0,7
3,1,2


In [25]:
# Внешние ключи - это колонки, внутренние - индексы
df = pd.DataFrame(
    {
     'column_A': {'index_line1': 4, 'index_line2': 6},
     'column_B': {'index_line1': 7, 'index_line2': 9}
    }
)
df

Unnamed: 0,column_A,column_B
index_line1,4,7
index_line2,6,9


In [26]:
# Создаем датафрейм с помощью faker
fake = Faker('ru_RU')
data2 = fake.simple_profile()
data2

{'username': 'bshestakov',
 'name': 'Светозар Чеславович Калинин',
 'sex': 'M',
 'address': 'д. Якутск, ул. Нагорная, д. 5 стр. 5/6, 740796',
 'mail': 'rodion76@hotmail.com',
 'birthdate': datetime.date(1984, 4, 16)}

In [27]:
lst_data = [fake.simple_profile() for _ in range(5)]; lst_data

[{'username': 'firs_24',
  'name': 'Оксана Валентиновна Новикова',
  'sex': 'F',
  'address': 'к. Лазаревское, алл. Сахалинская, д. 5/4 к. 150, 407587',
  'mail': 'konovalovtimur@yahoo.com',
  'birthdate': datetime.date(1914, 2, 9)},
 {'username': 'kirillovafevronija',
  'name': 'Любовь Андреевна Антонова',
  'sex': 'F',
  'address': 'п. Пинега, наб. Майская, д. 50 стр. 1, 182442',
  'mail': 'gveselov@yandex.ru',
  'birthdate': datetime.date(1916, 4, 4)},
 {'username': 'pavlovharlampi',
  'name': 'Лидия Ждановна Пономарева',
  'sex': 'F',
  'address': 'г. Тырныауз, ул. Сельская, д. 208, 425021',
  'mail': 'koshelevmarian@hotmail.com',
  'birthdate': datetime.date(1918, 5, 6)},
 {'username': 'serafimmarkov',
  'name': 'Каллистрат Богданович Виноградов',
  'sex': 'M',
  'address': 'п. Звенигород, пр. Дорожный, д. 929 стр. 989, 024142',
  'mail': 'prov_57@mail.ru',
  'birthdate': datetime.date(1950, 12, 27)},
 {'username': 'efimfomichev',
  'name': 'Вера Николаевна Харитонова',
  'sex': '

In [28]:
# Чтобы ключи стали именами столбцов, нужно положить словари в список
df_data = pd.DataFrame(lst_data)
df_data

Unnamed: 0,username,name,sex,address,mail,birthdate
0,firs_24,Оксана Валентиновна Новикова,F,"к. Лазаревское, алл. Сахалинская, д. 5/4 к. 15...",konovalovtimur@yahoo.com,1914-02-09
1,kirillovafevronija,Любовь Андреевна Антонова,F,"п. Пинега, наб. Майская, д. 50 стр. 1, 182442",gveselov@yandex.ru,1916-04-04
2,pavlovharlampi,Лидия Ждановна Пономарева,F,"г. Тырныауз, ул. Сельская, д. 208, 425021",koshelevmarian@hotmail.com,1918-05-06
3,serafimmarkov,Каллистрат Богданович Виноградов,M,"п. Звенигород, пр. Дорожный, д. 929 стр. 989, ...",prov_57@mail.ru,1950-12-27
4,efimfomichev,Вера Николаевна Харитонова,F,"к. Ербогачен, алл. Лесозаводская, д. 1 к. 3/7,...",maksimiljan19@yahoo.com,2009-12-27


In [29]:
data2
s = pd.Series(data2)
s.name = 'Profile'
# Series -> DataFrame
s.to_frame()

{'username': 'bshestakov',
 'name': 'Светозар Чеславович Калинин',
 'sex': 'M',
 'address': 'д. Якутск, ул. Нагорная, д. 5 стр. 5/6, 740796',
 'mail': 'rodion76@hotmail.com',
 'birthdate': datetime.date(1984, 4, 16)}

Unnamed: 0,Profile
username,bshestakov
name,Светозар Чеславович Калинин
sex,M
address,"д. Якутск, ул. Нагорная, д. 5 стр. 5/6, 740796"
mail,rodion76@hotmail.com
birthdate,1984-04-16


In [30]:
data2
pd.DataFrame.from_dict(data2, orient='index')

{'username': 'bshestakov',
 'name': 'Светозар Чеславович Калинин',
 'sex': 'M',
 'address': 'д. Якутск, ул. Нагорная, д. 5 стр. 5/6, 740796',
 'mail': 'rodion76@hotmail.com',
 'birthdate': datetime.date(1984, 4, 16)}

Unnamed: 0,0
username,bshestakov
name,Светозар Чеславович Калинин
sex,M
address,"д. Якутск, ул. Нагорная, д. 5 стр. 5/6, 740796"
mail,rodion76@hotmail.com
birthdate,1984-04-16


In [31]:
# ключи -> колонки, обязательно в список, даже если один словарь!
pd.DataFrame([data2])

Unnamed: 0,username,name,sex,address,mail,birthdate
0,bshestakov,Светозар Чеславович Калинин,M,"д. Якутск, ул. Нагорная, д. 5 стр. 5/6, 740796",rodion76@hotmail.com,1984-04-16


Можно при создании сразу указать индекс (он указывается в этом случае отдельно), а можно и потом:

In [32]:
purchases
names = ['Carl', 'Julia', 'Alex', 'Leela']
purchases.index = names
purchases

Unnamed: 0,apples,oranges
0,3,0
1,2,3
2,0,7
3,1,2


Unnamed: 0,apples,oranges
Carl,3,0
Julia,2,3
Alex,0,7
Leela,1,2


In [33]:
data
# Не забываем о размерности
purchases = pd.DataFrame(data, index=names)
purchases

{'apples': [3, 2, 0, 1], 'oranges': [0, 3, 7, 2]}

Unnamed: 0,apples,oranges
Carl,3,0
Julia,2,3
Alex,0,7
Leela,1,2


In [34]:
type(purchases), type(purchases['apples']), type(purchases.apples)

(pandas.core.frame.DataFrame,
 pandas.core.series.Series,
 pandas.core.series.Series)

In [35]:
purchases.info()  # Сводная информация о колонках и их типах

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, Carl to Leela
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   apples   4 non-null      int64
 1   oranges  4 non-null      int64
dtypes: int64(2)
memory usage: 268.0+ bytes


In [36]:
# Первые N строк(по умолчанию 5). В данном случае 3
purchases.head(3)

Unnamed: 0,apples,oranges
Carl,3,0
Julia,2,3
Alex,0,7


In [37]:
# Последние N строк(по умолчанию 5). В данном случае 2
purchases.tail(2)

Unnamed: 0,apples,oranges
Alex,0,7
Leela,1,2


In [38]:
# Сводная описательная статистика по колонкам
purchases.describe()

Unnamed: 0,apples,oranges
count,4.0,4.0
mean,1.5,3.0
std,1.290994,2.94392
min,0.0,0.0
25%,0.75,1.5
50%,1.5,2.5
75%,2.25,4.0
max,3.0,7.0


In [39]:
purchases.dtypes

Unnamed: 0,0
apples,int64
oranges,int64


In [40]:
df = pd.DataFrame()
print(df)

Empty DataFrame
Columns: []
Index: []


In [41]:
# Используем свойство(атрибут) DataFrame.empty
# print(bool(df))  # Error
purchases.empty, df.empty

(False, True)

In [42]:
purchases.shape, purchases.ndim, purchases.size

((4, 2), 2, 8)

In [43]:
purchases

Unnamed: 0,apples,oranges
Carl,3,0
Julia,2,3
Alex,0,7
Leela,1,2


In [44]:
# Только значения без индекса. Результат - двумерный numpy массив
purchases.values

array([[3, 0],
       [2, 3],
       [0, 7],
       [1, 2]])

In [45]:
type(purchases.values)

numpy.ndarray