<a href="https://colab.research.google.com/github/kclassie/HSE_Open_Data_Cource/blob/main/%D0%9E%D1%81%D0%BD%D0%BE%D0%B2%D1%8B_Pandas_%D0%BE%D1%87%D0%B8%D1%81%D1%82%D0%BA%D0%B0_%D0%B8_%D0%BF%D1%80%D0%B5%D0%B4%D0%BE%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Pandas** — программная библиотека на языке Python для обработки и анализа данных. Название pandas образовано от термина panel data (панельные данные), применяемого в эконометрике для обозначения многомерных структурированных наборов данных, так и от фразы Python data analysis.

In [None]:
#установка библиотеки pandas (если еще не)

!pip install pandas

In [None]:
import pandas as pd

#Основы Pandas
**Документация**
https://pandas.pydata.org/


Библиотека pandas предоставляет две структуры: **Series и DataFrame**

**Series** - это маркированная одномерная структура данных, ее можно
представить, как таблицу с одной строкой (или столбцом). С Series
можно работать как с обычным массивом (обращаться по номеру
индекса), и как с ассоциированным массивом, в этом случае можно
использовать ключ для доступа к элементам данных. 

**DataFrame** - это двумерная маркированная структура. Идейно она очень
похожа на обычную таблицу, что выражается в способе ее создания и
работе с ее элементами. 

# Series

Создать структуру Series можно **на базе следующих типов данных**:
- словарь (dict) Python;
- список (list) Python;
- массив ndarray (из библиотеки numpy);
- скалярная величина (величина, которая описывается одним числом - не имеет направления, в отличие от вектора).

**Конструктор Series**

`Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)`

**data:** массив, скалярное значение, dict; значение по умолчанию: None
Структура, на базе которой будет построен Series.

**index:** одномерный массив; значение по умолчанию: None
Список меток, который будет использоваться для доступа к элементам Series. Длина списка должна быть равна длине data.

**dtype:** numpy.dtype; значение по умолчанию: None
Объект, определяющий тип данных.

**name** - имя структуры (может использоваться при добавлении в DataFrame).

**copy:** bool; значение по умолчанию: False Если параметр равен True, то будет создана копия массива данных

In [None]:
my_series = pd.Series(['a', 'a', 'a', 'a'])
my_series

In [None]:
#доступ к индексам series
my_series.index

In [None]:
#доступ к значениям series
my_series.values

In [None]:
#доступ к элементам
my_series[3]

In [None]:
#как задать свои индексы?
my_series2 = pd.Series([5, 6, 7, 8, 9, 10], index=['a', 'b', 'c', 'd', 'e', 'f'])
my_series2

In [None]:
#выборка по нескольким индексам
my_series2[['a', 'c', 'd']]

In [None]:
#групповое присваивание
my_series2[['a', 'b', 'f']] = 0
my_series2

In [None]:
#фильтрация по какому-то признаку
my_series2[my_series2 > 1]

In [None]:
#математические действия со значениями
my_series2[my_series2 > 0] * 2

In [None]:
#проверка наличия элемента
'd' in my_series2

In [None]:
#атрибут name, задает имя объекту и индексу
my_series2.name = 'numbers'
my_series2.index.name = 'letters'
my_series2

**Data Frame** - таблица, состоящая из series.

# DataFrame

**DataFrame** - это двумерная структура - полноценная таблица с множеством строк
и столбцов.

**Конструктор класса DataFrame выглядит так:**

`DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)`

**data:** ndarray, dict или DataFrame; значение по умолчанию: None
Данные, на базе которых будет создан DataFrame.

**index:** одномерный массив; значение по умолчанию: None
Список меток для записей (имена строк таблицы).

**columns:** одномерный массив; значение по умолчанию: None
Список меток для полей (имена столбцов таблицы).

**dtype:** numpy.dtype; значение по умолчанию: None
Объект, определяющий тип данных.

**copy:** bool; значение по умолчанию: False
Если параметр равен True, то будет создана копия массива данных

Структуру DataFrame можно создать на базе следующих типов данных:
- словарь (dict), в качестве элементов которого могут выступать:
одномерные ndarray, списки, другие словари, структуры Series;
- двумерный ndarray;
- структура Series;
- другой DataFrame.

In [None]:
df = pd.DataFrame({
    'sity': ['Moscow', 'SPb', 'Ekaterinburg', 'Sochi'],
    'population': [12.7, 5.4, 1.53, 0.444],
    'square': [2561.5, 1439.0, 468.0, 176.8]
    })
df

In [None]:
df['population']

In [None]:
columns = df.columns
columns

In [None]:
df.index

#Теперь попробуем на примере

In [None]:
#загрузим файл с данными о контрактах, который мы выгрузили на прошлом занятии

df = pd.read_csv('/content/drive/MyDrive/ВШЭ_бакалавры_2022/contracts.csv') 

#если нужно открыть файл с другим разделителем
#df = pd.read_csv('filename.csv', delimiter=";").

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
#Мы получили DataFrame из нашей таблицы.
#Оценим его размер

df.shape

In [None]:
#Теперь посмотрим, как он выглядит, чтобы понять, что в нем надо почистить
#первые 10 строк
df.head(20)

In [None]:
#последние 10 строк
df.tail(20)

In [None]:
#случайные 10 строк
df.sample(10)

In [None]:
#посмотрим на типы данных в нашей таблице.
#какие типы данных в питоне вы помните?

df.dtypes

In [None]:
#Pandas может показать нам сводную описательную статистику наших данных, включая медианное, среднее значение для каждого столбца.

df.describe()

#Параметры df.describe ()

**count**: количество значений в этом столбце

**unique**: количество уникальных значений в этом столбце

**top**: первое значение в этом столбце

**freq**: частота наиболее частого значения

**mean**: среднее

**std**: стандартное отклонение

**min**: минимальное значение, наименьшее значение в столбце

**25%**: первый процентиль

**50%**: второй процентиль, это то же самое, что и медиана

**75%**: третий процентиль

**max**: максимальное значение в столбце

Если столбец не содержит числового значения, возвращаются только те параметры, которые применимы. В этом случае Python дает NaN-значения.

In [None]:
#данные нужно почистить. Давайте начнем с даты. Уберем оттуда ненужное

In [None]:
df.tail(5)

In [None]:
#создадим новую колонку, куда поместим "чистую" дату
df['sign_dateClean'] = df['sign_date'].str.replace('T00:00:00', '')

In [None]:
#посмотрим, что получилось
df.head(20)

In [None]:
#Теперь уберем лишние символы в столбцах с текстом

df['suppliers_names'] = df['suppliers_names'].str.replace("[", '')
df['suppliers_names'] = df['suppliers_names'].str.replace("]", '')


In [None]:
#то же самое делаем с продуктами

df['products'] = df['products'].str.replace("]", '')
df['products'] = df['products'].str.replace("[", '')

In [None]:
df['suppliers_names'][900]

In [None]:
df['suppliers_names'] = df['suppliers_names'].str.replace("\'", '')
df['suppliers_names'] = df['suppliers_names'].str.replace("\'", '')

In [None]:
df['products'][1000]

In [None]:
df.head()

In [None]:
#разделим столбцы с поставщиками

new_supp = df['suppliers_names'].str.split('", ', expand=True)

In [None]:
new_supp.head(50)

In [None]:
#посмотрим на размер таблицы

new_supp.shape

In [None]:
#переименуем колонки
new_supp.columns=['supplier1','supplier2','supplier3']

new_supp

In [None]:
#объединим исходный датафрейм новый
#в Pandas строки имеют ось (asix) = 0, столбцы имеют ось (asix) = 1. При использовании некоторых функций нужно указывать этот параметр

df = pd.concat([df, new_supp], axis=1)

In [None]:
df.head()

In [None]:
#удалим лишнюю колонку, и переименуем колонку

df = df.drop('sign_date', 1)

In [None]:
df = df.rename(columns={'sign_dateClean': 'sign_date'})

In [None]:
df.head()

In [None]:
#посмотрим уникальные значения в столбце с заказчиками

df['supplier2'].unique()

In [None]:
#на всякий случай удалим лишние проблеы справа и слева
df['customer_name'] = df['customer_name'].map(str.strip) #rstrip #lstrip

In [None]:
#исправим дату
import datetime

In [None]:
df['sign_date'] = pd.to_datetime(df['sign_date'], format="%Y-%m-%d")

In [None]:
df.head()

In [None]:
df['sign_date']

In [None]:
#создадим отдельную колонку с годом
df['year'] = pd.DatetimeIndex(df['sign_date']).year

In [None]:
#создадим отдельную колонку с месяцем
df['month'] = pd.DatetimeIndex(df['sign_date']).month

In [None]:
#создадим отдельную колонку с датой
df['day'] = pd.DatetimeIndex(df['sign_date']).day

In [None]:
df.head()

In [None]:
#формат даты timestamp "временная метка"
#timestamp - POSIX-время, количество секунд прошедшее с 00:00:00 UTC 1 января 1970 года.

import datetime
from datetime import date

timestamp = "1322485986"

d1 = date.fromtimestamp(float(timestamp))
print(d1)
print(type(d1))

In [None]:
#Еще несколько полезностей

#преобразовать строки в числа
df['column-name'] = pd.to_numeric(df['column_name'])

#оставить только те колонки, которые вам нужны (если их очень много и вы используете не все)

dfMini = df[['column1', 'column3', 'column5', 'column10']]

**ДЗ №3**

Используя блокнот этой лекции очистите от лишнего данные в таблицах, полученных при выполнении ДЗ №1 и ДЗ №2.

Формат сдачи ДЗ: файл с кодом (ipynb, py) и 2 очищенные таблицы в формате csv.