### Pandas

Pandas - panel datasets

In [3]:
import pandas as pd
import numpy as np

### Серия

In [3]:
a = pd.Series([1,2,3,4])

Атрибуты:
1) Индекс
2) Имя серии
3) Тип данных
4) Имя индекса
5) Форма
6) Количество элементов
7) Значения

In [4]:
a.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
a.name

In [6]:
a.dtype

dtype('int64')

In [7]:
a.index.name

In [8]:
a.shape

(4,)

In [9]:
a.size

4

In [10]:
a.values

array([1, 2, 3, 4])

In [11]:
b = pd.Series([1,2,3,4], index = ['a', 'b', 'c', 'd'])

In [16]:
b.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [17]:
c = pd.Series({'a': 1, 'b':2, 'c':3, 'd':4})

In [18]:
c.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [19]:
c.name = 'Number'

In [20]:
c

a    1
b    2
c    3
d    4
Name: Number, dtype: int64

In [21]:
prices = pd.Series({'Яблоки': 150, 'Бананы' : 120, 'Апельсины' : 200}, name = 'Цены')

In [22]:
prices

Яблоки       150
Бананы       120
Апельсины    200
Name: Цены, dtype: int64

In [23]:
prices.dtypes

dtype('int64')

In [24]:
prices.index.name = 'Фрукты'

In [25]:
prices

Фрукты
Яблоки       150
Бананы       120
Апельсины    200
Name: Цены, dtype: int64

In [26]:
type(prices)

pandas.core.series.Series

### DataFrame (датафрейм)

In [27]:
df1 = pd.DataFrame(np.array([[1,2,3], [4,5,6], [7,8,9]]))

In [28]:
df1

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


Атрибуты
1) Индекс
2) Названия столбцов
3) Имя индекса
4) Тип данных

In [29]:
df1.index

RangeIndex(start=0, stop=3, step=1)

In [30]:
df2 = pd.DataFrame(np.array([[1,2,3], [4,5,6], [7,8,9]]), index = ['a', 'b', 'c'], columns = ['x', 'y', 'z'])

In [31]:
df2.index

Index(['a', 'b', 'c'], dtype='object')

In [32]:
df2

Unnamed: 0,x,y,z
a,1,2,3
b,4,5,6
c,7,8,9


In [33]:
df2.columns

Index(['x', 'y', 'z'], dtype='object')

In [35]:
prices_df = pd.DataFrame(
    {
        'Яблоки': [150, 160, 140],
        'Бананы' : [120, 110, 100], 
        'Апельсины' : [200, 210, 220]
    }, 
    index = ['Январь', 'Февраль', 'Март']
)
prices_df

Unnamed: 0,Яблоки,Бананы,Апельсины
Январь,150,120,200
Февраль,160,110,210
Март,140,100,220


In [36]:
type(prices_df)

pandas.core.frame.DataFrame

### Основные приемы работы с датафреймами и сериями

#### Вызов столбцов

In [37]:
prices_df['Яблоки']

Январь     150
Февраль    160
Март       140
Name: Яблоки, dtype: int64

In [38]:
type(prices_df['Яблоки'])

pandas.core.series.Series

In [40]:
# Не рекомендуется! (легко спутать с методами и атрибутами)
df2.x

a    1
b    4
c    7
Name: x, dtype: int64

In [41]:
prices_df[['Яблоки', 'Апельсины']]

Unnamed: 0,Яблоки,Апельсины
Январь,150,200
Февраль,160,210
Март,140,220


In [42]:
cols = ['Яблоки', 'Апельсины']
prices_df[cols]

Unnamed: 0,Яблоки,Апельсины
Январь,150,200
Февраль,160,210
Март,140,220


####  Метод loc 

In [47]:
prices_df.loc['Январь', 'Яблоки']

np.int64(150)

In [48]:
prices_df.loc[:, 'Яблоки']

Январь     150
Февраль    160
Март       140
Name: Яблоки, dtype: int64

In [49]:
prices_df.loc[:, ['Яблоки', 'Апельсины']]

Unnamed: 0,Яблоки,Апельсины
Январь,150,200
Февраль,160,210
Март,140,220


In [50]:
prices_df.loc['Январь']

Яблоки       150
Бананы       120
Апельсины    200
Name: Январь, dtype: int64

In [51]:
prices_df.loc['Январь', :]

Яблоки       150
Бананы       120
Апельсины    200
Name: Январь, dtype: int64

In [52]:
prices_df.loc[['Январь', 'Март'], ['Яблоки', 'Апельсины']]

Unnamed: 0,Яблоки,Апельсины
Январь,150,200
Март,140,220


In [58]:
prices_df[['Яблоки', 'Апельсины']].loc[['Январь','Март']]

Unnamed: 0,Яблоки,Апельсины
Январь,150,200
Март,140,220


#### Метод iloc

In [59]:
prices_df.iloc[1,1]

np.int64(110)

In [60]:
prices_df.iloc[:,0]

Январь     150
Февраль    160
Март       140
Name: Яблоки, dtype: int64

In [62]:
prices_df.iloc[0, :]

Яблоки       150
Бананы       120
Апельсины    200
Name: Январь, dtype: int64

In [63]:
prices_df.iloc[[0,2], [0,2]]

Unnamed: 0,Яблоки,Апельсины
Январь,150,200
Март,140,220


In [64]:
prices_df.iloc[:-1]

Unnamed: 0,Яблоки,Бананы,Апельсины
Январь,150,120,200
Февраль,160,110,210


In [65]:
prices_df.iloc[:-1, :-1]

Unnamed: 0,Яблоки,Бананы
Январь,150,120
Февраль,160,110


#### Срезы по логическим условиям

In [66]:
prices_df[prices_df>150]

Unnamed: 0,Яблоки,Бананы,Апельсины
Январь,,,200
Февраль,160.0,,210
Март,,,220


In [68]:
prices_df[prices_df['Яблоки'] > 150]

Unnamed: 0,Яблоки,Бананы,Апельсины
Февраль,160,110,210


In [70]:
prices_df.loc[prices_df['Яблоки'] > 150]

Unnamed: 0,Яблоки,Бананы,Апельсины
Февраль,160,110,210


In [73]:
prices_df[(prices_df['Яблоки'] > 150)|(prices_df['Апельсины'] < 210)]

Unnamed: 0,Яблоки,Бананы,Апельсины
Январь,150,120,200
Февраль,160,110,210


### Загрузка данных из XLSX и CSV

In [3]:
file_path = r"C:\Courses\Innopolis\2024\ПИШ\Часть 2.1\Лекция 16\entry_russia.xlsx"
entry_df = pd.read_excel(file_path, header = 2)

In [4]:
entry_df

Unnamed: 0,Страна,Часть света,Год,Квартал,деловая,работа,туризм,частная,транзитный проезд,учеба,переезд на постоянное место жительства,обслуживающий персонал транспортных средств,итого
0,"АБХАЗИЯ , Республика Абхазия",Азия,2010,I квартал,41,,1,20256,13,,0,1,20312
1,"АБХАЗИЯ , Республика Абхазия",Азия,2010,II квартал,16,,3,20709,27,,0,8,20763
2,"АБХАЗИЯ , Республика Абхазия",Азия,2010,III квартал,6,,1,6227,8,,0,0,6242
3,"АБХАЗИЯ , Республика Абхазия",Азия,2010,IV квартал,0,,0,4970,1,,0,1,4972
4,"АБХАЗИЯ , Республика Абхазия",Азия,2011,I квартал,43,,0,37873,10,,0,15,37941
...,...,...,...,...,...,...,...,...,...,...,...,...,...
11099,ЛИЦА БЕЗ ГРАЖДАНСТВА,Не известно,2023,I квартал,131,45.0,258,17462,13,90.0,0,4317,22316
11100,ЛИЦА БЕЗ ГРАЖДАНСТВА,Не известно,2023,II квартал,124,45.0,545,21734,22,40.0,0,4275,26785
11101,ЛИЦА БЕЗ ГРАЖДАНСТВА,Не известно,2023,III квартал,132,83.0,1156,25368,35,120.0,0,4596,31490
11102,ЛИЦА БЕЗ ГРАЖДАНСТВА,Не известно,2023,IV квартал,98,52.0,936,26165,31,67.0,0,4389,31738


In [5]:
pd.read_excel?

In [6]:
countries_df = pd.read_excel(file_path, sheet_name = 'Страны')

In [8]:
countries_df = pd.read_excel(file_path, 'Страны')

In [10]:
countries_df

Unnamed: 0,Страна,Часть света
0,"АБХАЗИЯ , Республика Абхазия",Азия
1,АВСТРАЛИЯ,Австралия и Океания
2,"АВСТРИЯ, Австрийская Республика",Европа
3,"АЗЕРБАЙДЖАН, Республика Азербайджан",Азия
4,"АЛБАНИЯ, Республика Албания",Европа
...,...,...
221,"ЭФИОПИЯ, Федеративная Демократическая Республи...",Африка
222,"ЮЖНАЯ АФРИКА, Южно-Африканская Республика",Африка
223,"ЮЖНАЯ ОСЕТИЯ , Республика Южная Осетия",Азия
224,ЯМАЙКА,Америка


In [26]:
sql_df = pd.read_csv(
    r"C:\Courses\Innopolis\2024\ПИШ\Часть 2.1\Лекция 16\Sql_sample.csv", 
    sep = ',', 
    usecols = [0,2], 
    skiprows = 10
)

In [28]:
sql_df

Unnamed: 0,Agent Truman,Long
0,Airplane Sierra,Medium
1,Alabama Devil,Medium
2,Aladdin Calendar,Medium
3,Alamo Videotape,Long
4,Alaska Phantom,Long
...,...,...
985,Young Language,Long
986,Youth Kick,Long
987,Zhivago Core,Medium
988,Zoolander Fiction,Medium


### Загрузка из XML

In [29]:
xml_df = pd.read_xml(r"C:\Courses\Innopolis\2024\ПИШ\Часть 2.1\Лекция 16\cd_catalog.xml")

In [30]:
xml_df

Unnamed: 0,TITLE,ARTIST,COUNTRY,COMPANY,PRICE,YEAR
0,Empire Burlesque,Bob Dylan,USA,Columbia,10.9,1985
1,Hide your heart,Bonnie Tyler,UK,CBS Records,9.9,1988
2,Greatest Hits,Dolly Parton,USA,RCA,9.9,1982
3,Still got the blues,Gary Moore,UK,Virgin records,10.2,1990
4,Eros,Eros Ramazzotti,EU,BMG,9.9,1997
5,One night only,Bee Gees,UK,Polydor,10.9,1998
6,Sylvias Mother,Dr.Hook,UK,CBS,8.1,1973
7,Maggie May,Rod Stewart,UK,Pickwick,8.5,1990
8,Romanza,Andrea Bocelli,EU,Polydor,10.8,1996
9,When a man loves a woman,Percy Sledge,USA,Atlantic,8.7,1987


### Загрузка JSON

In [4]:
json_df = pd.read_json(r"C:\Courses\Innopolis\2024\ПИШ\Часть 2.1\Лекция 16\example_2.json")

In [5]:
json_df

Unnamed: 0,quiz
sport,{'q1': {'question': 'Which one is correct team...
maths,"{'q1': {'question': '5 + 7 = ?', 'options': ['..."


In [41]:
json_df.loc['sport', 'quiz']['q1']['question']

'Which one is correct team name in NBA?'

In [43]:
json_df.loc['sport', 'quiz']['q1']['options']

['New York Bulls',
 'Los Angeles Kings',
 'Golden State Warriros',
 'Huston Rocket']

### Запрос к SQL

In [6]:
import psycopg2
engine = psycopg2.connect("dbname='dvdrental' user='postgres' host='localhost' port='5432' password='123'")

In [7]:
df = pd.read_sql('select * from customer', con=engine)

  df = pd.read_sql('select * from customer', con=engine)


In [8]:
df

Unnamed: 0,customer_id,store_id,first_name,last_name,email,address_id,activebool,create_date,last_update,active
0,524,1,Jared,Ely,jared.ely@sakilacustomer.org,530,True,2006-02-14,2013-05-26 14:49:45.738,1
1,1,1,Mary,Smith,mary.smith@sakilacustomer.org,5,True,2006-02-14,2013-05-26 14:49:45.738,1
2,2,1,Patricia,Johnson,patricia.johnson@sakilacustomer.org,6,True,2006-02-14,2013-05-26 14:49:45.738,1
3,3,1,Linda,Williams,linda.williams@sakilacustomer.org,7,True,2006-02-14,2013-05-26 14:49:45.738,1
4,4,2,Barbara,Jones,barbara.jones@sakilacustomer.org,8,True,2006-02-14,2013-05-26 14:49:45.738,1
...,...,...,...,...,...,...,...,...,...,...
594,595,1,Terrence,Gunderson,terrence.gunderson@sakilacustomer.org,601,True,2006-02-14,2013-05-26 14:49:45.738,1
595,596,1,Enrique,Forsythe,enrique.forsythe@sakilacustomer.org,602,True,2006-02-14,2013-05-26 14:49:45.738,1
596,597,1,Freddie,Duggan,freddie.duggan@sakilacustomer.org,603,True,2006-02-14,2013-05-26 14:49:45.738,1
597,598,1,Wade,Delvalle,wade.delvalle@sakilacustomer.org,604,True,2006-02-14,2013-05-26 14:49:45.738,1


In [46]:
query = """
SELECT 
 f.title,
 f.length,
 CASE 
  WHEN f.length > 0 AND f.length <=50 THEN 'Short'
  WHEN f.length > 50 AND f.length < 120 THEN 'Medium'
  WHEN f.length > 120 THEN 'Long'
 END AS duration
FROM 
 film AS f
"""

In [48]:
df = pd.read_sql(query, con=engine)

  df = pd.read_sql(query, con=engine)


In [49]:
df

Unnamed: 0,title,length,duration
0,Chamber Italian,117,Medium
1,Grosse Wonderful,49,Short
2,Airport Pollock,54,Medium
3,Bright Encounters,73,Medium
4,Academy Dinosaur,86,Medium
...,...,...,...
995,Young Language,183,Long
996,Youth Kick,179,Long
997,Zhivago Core,105,Medium
998,Zoolander Fiction,101,Medium
