<a href="https://colab.research.google.com/github/Bashashkin/data-analytics-tools/blob/main/pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **1.PANDAS**

**Введение**

Для того чтобы эффективно работать с этой библиотекой, нужно понять основные структуры данных.
**Series** – это структура данных принципиально похожая на список и словарь в Python. Используется в качестве столбцов в таблице.
**DataFrame** – если говорить простыми словами, то эта структура данных представляет из себя обычную таблицу. Иными словами табличная структура данных. Как и во всех таблицах она состоит из строк и столбцов. Столбцами выступают объекты **Series**, а строки его элементы.


In [None]:
import numpy as np

**Использование**

Чтобы показать библиотеку в работе, нам нужны какие нибудь статистические данные, для примера давайте возьмем [данные ВВП](https://ru.wikipedia.org/wiki/%D0%A1%D0%BF%D0%B8%D1%81%D0%BE%D0%BA_%D1%81%D1%82%D1%80%D0%B0%D0%BD_%D0%BF%D0%BE_%D0%92%D0%92%D0%9F_(%D0%BD%D0%BE%D0%BC%D0%B8%D0%BD%D0%B0%D0%BB)) 5 разных стран по версии всемирного банка и попробуем сформировать из них таблицу. Передавать данных в DataFrame мы будем используя знакомый синтаксис словаря Python.


In [None]:
import pandas as pd

df = pd.DataFrame({
    'Страна': ['США', 'Китай', 'Россия', 'Турция', 'ЮАР'],
    '2018 год': [20612, 13842, 1665, 780, 368],
    '2019 год': [21433, 14402, 1702, 761, 351],
})

df



Unnamed: 0,Страна,2018 год,2019 год
0,США,20612,21433
1,Китай,13842,14402
2,Россия,1665,1702
3,Турция,780,761
4,ЮАР,368,351


Объект **DataFrame** имеет два индекса по столбцам и строкам. Если индекс по строкам не указан вручную, то pandas задает его автоматически.

**Индексы**

Назначать индексы объекту **DataFrame** можно при его создании или в процессе работы с ним.


In [None]:
import pandas as pd

df = pd.DataFrame({
    'Страна': ['США', 'Китай', 'Россия', 'Турция', 'ЮАР'],
    '2018 год': [20612, 13842, 1665, 780, 368],
    '2019 год': [21433, 14402, 1702, 761, 351],
}, index=['US', 'CN', 'RU', 'TR', 'ZA']

)

df

Unnamed: 0,Страна,2018 год,2019 год
US,США,20612,21433
CN,Китай,13842,14402
RU,Россия,1665,1702
TR,Турция,780,761
ZA,ЮАР,368,351


Вызывая метод **DataFrame** мы передали ему аргумент **index** со списком именованных индексов.

# **Фильтрация данных**

Pandas позволяет производить фильтрацию вывода по индексам и столбцам. Так же можно комбинировать индексы и колонки, использовать слайсы и логические выражения.



**По столбцу**

Обращение к столбцам в pandas реализовано стандартным образом, так как будто вы обращаетесь к ключу словаря, или же к методу объекта. В моем случае обращение как к методу объекта невозможно, я выбрал кириллическое название столбца, а работает только с латиницей

In [None]:
df["Страна"]

US       США
CN     Китай
RU    Россия
TR    Турция
ZA       ЮАР
Name: Страна, dtype: object

**По строковому индексу**

Для обращения к строковым индекса существуют два метода
1.   **loc** – для доступа по именованному индексу
2.   **iloc** – для доступа по числовому индексу

In [None]:
df.loc["RU"]

Страна      Россия
2018 год      1665
2019 год      1702
Name: RU, dtype: object

Обращение к именованному индексу **RU**

In [None]:
df.iloc[0]

Страна        США
2018 год    20612
2019 год    21433
Name: US, dtype: object

Обращение к числовому индексу

**По срезами**

Объект **DataFrame** поддерживает использование срезов.


In [None]:
df[2:]

Unnamed: 0,Страна,2018 год,2019 год
RU,Россия,1665,1702
TR,Турция,780,761
ZA,ЮАР,368,351


Отобразим все строки начиная с 3.

**С использованием условий**

Мы так же можем использовать логику в фильтрации данных. Давайте отобразить странны, в которых ВВП на душу населения в 2019 году был больше 761$


In [None]:
df[df["2019 год"] > 761]['Страна']

US       США
CN     Китай
RU    Россия
Name: Страна, dtype: object

# **Работа с столбцами**

Вы можете создавать, удалять и переименовывать ваши столбцы в любой момент времени.


**Переименование**

Для переименования столбца существует метод rename
Давайте переименуем наши столбцы с указанием года.

In [None]:
df.rename(columns={'2018 год': '2018', '2019 год': '2019'})

Unnamed: 0,Страна,2018,2019
US,США,20612,21433
CN,Китай,13842,14402
RU,Россия,1665,1702
TR,Турция,780,761
ZA,ЮАР,368,351


Метод **rename** на вход принимает обычный словарь, ключ который является текущем названием столбца, а значение – новым. За один раз мы можем переименовать сколько угодно столбцов, главное не забывайте разделять элементы словаря запятой.

**Важно**: результат выполнение метода rename возвращает новый измененный объект **DataFrame**, поэтому переназначь основной экземпляр **DataFrame**.


**Создание**

Создадим новую колонку “Рост” и наполним ее значениями высчитанными из разницы 2019 к 2018 году.


In [None]:
dfr=df.rename(columns={'2018 год': '2018', '2019 год': '2019'})

In [None]:
dfr["Рост"] = dfr['2019'] - dfr['2018']
dfr

Unnamed: 0,Страна,2018,2019,Рост
US,США,20612,21433,821
CN,Китай,13842,14402,560
RU,Россия,1665,1702,37
TR,Турция,780,761,-19
ZA,ЮАР,368,351,-17


**Удаление**

Для удаления столбца существует метод **drop**, так же необходимо передать в аргумент **axis** значение **index** или **columns**.


In [None]:
dfr.drop(["Рост"], axis="columns")

Unnamed: 0,Страна,2018,2019
US,США,20612,21433
CN,Китай,13842,14402
RU,Россия,1665,1702
TR,Турция,780,761
ZA,ЮАР,368,351


**Важно:** результат выполнение метода **drop** возвращает новый измененный объект **DataFrame**, поэтому не забудьте переназначить **DataFrame**.

In [None]:
dfr

Unnamed: 0,Страна,2018,2019,Рост
US,США,20612,21433,821
CN,Китай,13842,14402,560
RU,Россия,1665,1702,37
TR,Турция,780,761,-19
ZA,ЮАР,368,351,-17


In [None]:
dfr2=dfr.drop(["Рост"], axis="columns")
dfr2

Unnamed: 0,Страна,2018,2019
US,США,20612,21433
CN,Китай,13842,14402
RU,Россия,1665,1702
TR,Турция,780,761
ZA,ЮАР,368,351


# **Загрузка данных**

**API** загрузки данных имеет поддержку множество структурированных форматов. Для примера возьмем информацию из [Реестра аккредитованных образовательных учреждений, расположенных на территории субъектов Российской Федерации](https://data.mos.ru/opendata/2021). На сайте есть ссылочка для скачивания таблиц в формате **CSV** и **MS Excel** эти два формата мы и рассмотрим.


**Из таблицы CSV**

Осуществить загрузку данных в таблицу можно используя метод **read_csv**


In [None]:
from google.colab import files
uploaded = files.upload()

Saving Data5.csv to Data5.csv


In [None]:
# Загрузим данные из csv документа
data_csv = pd.read_csv("Data5.csv")

In [None]:
data_csv

Unnamed: 0,ID,FullName,INN,OGRN,AccreditationAuthority,Education,CertificateNumber,CertificateIssueDate,Validity,CertificateFormSeries,CertificateFormNumber,global_id
0,Код,Полное официальное наименование,ИНН,ОГРН,Наименование аккредитационного органа,Образовательные программы,Номер свидетельства,Дата выдачи свидетельства,Срок действия,Серия бланка свидетельства об аккредитации,Номер бланка свидетельства об аккредитации,global_id
1,41,Государственное бюджетное общеобразовательное ...,7701375995,5137746011035,Департамент образования и науки города Москвы,Education:начальное общее образование\n\nEduca...,003991,11.12.2015,бессрочно,77А01,0003991,39801198
2,42,Государственное бюджетное общеобразовательное ...,7708071876,1027700388363,Департамент образования и науки города Москвы,Education:начальное общее образование\n\nEduca...,005069,31.03.2023,бессрочно,77А01,0005078,39801200
3,43,Государственное бюджетное общеобразовательное ...,7704118139,1027700587672,Департамент образования и науки города Москвы,Education:основное общее образование\n\nEducat...,004773,16.04.2018,бессрочно,77А01,0004773,39801201
4,44,Государственное бюджетное общеобразовательное ...,7720325492,5157746151921,Департамент образования и науки города Москвы,Education:начальное общее образование\n\nEduca...,004148,12.02.2016,бессрочно,77А01,0004148,39801202
...,...,...,...,...,...,...,...,...,...,...,...,...
906,1743,Общеобразовательная автономная некоммерческая ...,7736329213,1207700275628,Департамент образования и науки города Москвы,Education:начальное общее образование\n\n,005075,19.04.2023,бессрочно,77А01,0005084,2587699837
907,1744,Общеобразовательная автономная некоммерческая ...,7734442284,1217700192270,Департамент образования и науки города Москвы,Education:основное общее образование\n\n,005076,25.04.2023,бессрочно,77А01,0005085,2587699839
908,1745,Общеобразовательная автономная некоммерческая ...,9710048229,1187700002489,Департамент образования и науки города Москвы,Education:начальное общее образование\n\n,005077,10.05.2023,бессрочно,77А01,0005086,2591903817
909,1746,АВТОНОМНАЯ НЕКОММЕРЧЕСКАЯ ОБЩЕОБРАЗОВАТЕЛЬНАЯ ...,9715404872,1217700376772,Департамент образования и науки города Москвы,Education:начальное общее образование\n\n,005082,02.06.2023,бессрочно,77А01,0005091,2591903819


In [None]:
!rm data-6322-2022-10-06.xlsx

rm: cannot remove 'data-6322-2022-10-06.xlsx': No such file or directory


**Из таблицы MS Excel**

За загрузку данных из **excel** таблицы отвечает метод **read_excel**


In [None]:
from google.colab import files
uploaded = files.upload()

In [None]:
!ls

In [None]:
data_xlsx = pd.read_excel("data-6322-2022-10-06 — копия.xlsx")

In [None]:
data_xlsx

In [None]:
data_xlsx.to_excel("country.xlsx",encoding='cp1251')

# **Сохранение данных**

Так же как и в импорте API поддерживает множество форматов для экспорта данных. Воспользуемся данными о ВВП для демонстрации работы.


**В таблицу CSV**

За запись данных в таблицу **CSV** отвечает метод **to_csv**


In [None]:
import pandas as pd

df = pd.DataFrame({
    'Страна': ['США', 'Китай', 'Россия', 'Турция', 'ЮАР'],
    '2018 год': [20612, 13842, 1665, 780, 368],
    '2019 год': [21433, 14402, 1702, 761, 351],
}, index=['US', 'CN', 'RU', 'TR', 'ZA']

)

df.to_csv("country.csv",encoding='cp1251')

Скачивание файлов в локальную файловую систему
Метод **files.download **активирует скачивание файла из браузера на локальный компьютер.

In [None]:
from google.colab import files

files.download('country.csv')

**В таблицу MS Excel**

За запись данных в таблицу **MS Excel** отвечает метод **to_excel**


In [None]:
import pandas as pd

df = pd.DataFrame({
    'Страна': ['США', 'Китай', 'Россия', 'Турция', 'ЮАР'],
    '2018 год': [20612, 13842, 1665, 780, 368],
    '2019 год': [21433, 14402, 1702, 761, 351],
}, index=['US', 'CN', 'RU', 'TR', 'ZA']

)

df.to_excel("country.xlsx",encoding='cp1251')

In [None]:
from google.colab import files

files.download('country.xlsx')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# **Визуализация данных**
Визуализация это большая часть работы в анализе и обработке данных. Не будем сильно углубляться и рассмотрим простой пример визуализации наших данных.


Установка библиотеки **matplotlib**

Для рисования графиков нам понадобится эта библиотека


In [None]:
import matplotlib.pyplot as plt

**Создание графиков**

Самый просто способ сгенерировать график, это передать обработчику данные для одной из координат, для второй он возьмет информацию из индекса.


In [None]:
df.plot(kind='barh', y='2018 год', color='red')
plt.show()


In [None]:
df.plot(kind='barh', y='2019 год', color='blue')
plt.show()

**Объединение данных на одном графике**

У нас есть отдельный график для 2018 и 2019 года, но как их объединить в одной диаграмме? Очень просто, нужно использовать метод pivot из библиотеки **pandas**.


In [None]:
df.pivot(columns="Страна").plot(kind='bar')
plt.show()


# Автоматизация выбора данных (парсинг)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from unicodedata import normalize

**ИЗВЛЕЧЕНИЕ ТАБЛИЦ**

Вызовем функцию read_html, передав аргументом ссылку на страницу.

In [None]:
# Список стран по ВВП (номинал)
tables = pd.read_html(
    'https://ru.wikipedia.org/wiki/%D0%A1%D0%BF%D0%B8%D1%81%D0%BE%D0%BA_%D1%81%D1%82%D1%80%D0%B0%D0%BD_%D0%BF%D0%BE_%D0%92%D0%92%D0%9F_(%D0%BD%D0%BE%D0%BC%D0%B8%D0%BD%D0%B0%D0%BB)',
    match='Страна')

In [None]:
len(tables)

In [None]:
df = tables[1]
df

In [None]:
df1 = tables[0]
df1

**ОБРАБАТЫВАЕМ ТАБЛИЦЫ**

В первую очередь избавимся от лишнего столбца, вызвав метод drop.

In [None]:
df.drop(('№'), axis=1, inplace=True)

In [None]:
df

In [None]:
print(df.to_string())

Кроме того, следует убрать источники, заключённые в квадратные скобки. Для этого мы воспользуемся методом replace, указав регулярное выражение и **regex=True**. Теперь таблица выглядит более приемлемо.

In [None]:
df.replace({'\[[0-9]+\]': ''}, regex=True, inplace=True)

In [None]:
print(df.to_string())

In [None]:
df

Теперь отбросим нижний результирующий уровень

In [None]:
df.drop(df.index[len(df)-1])

In [None]:
df.to_excel("countryALL.xlsx",encoding='cp1251')

In [None]:
from google.colab import files

files.download('countryALL.xlsx')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# Импорт Фрейма в  MYsql

In [None]:
 !pip install PyMySQL
 !pip install mysql-connector-python

In [None]:
# Import dataframe into MySQL
import sqlalchemy
database_username = ''
database_password = '1'
database_ip       = '95.131.149.21'
database_name     = ''
database_connection = sqlalchemy.create_engine('mysql+mysqlconnector://{0}:{1}@{2}/{3}'.format(database_username, database_password, database_ip, database_name))
df.to_sql(con=database_connection, name='table_test', if_exists='replace')

После загрузки данных, отключить соединение с СУБД.

In [None]:
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker

In [None]:
Session = sessionmaker(database_connection)
session = Session()

In [None]:
session.close()