# Pandas


## Импорт библиотеки Pandas

In [1]:
import pandas as pd
pd.__version__

'2.1.4'

In [3]:
print(pd.__name__)

pandas


## pd.Series()

In [3]:
# Способ 1 — из списка с использованием параметров функции pd.Series():

countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
display(countries)

UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

In [None]:

# Способ 2 — из словаря, в котором ключами являются будущие метки, а значениями — будущие значения Series, 
# при этом использование параметра name также возможно:

countries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US' : 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'KZ': 'Казахстан'},
    name = 'countries'
)
display(countries)

UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

In [29]:
def create_medications(names, counts):
    medications = pd.Series(names, counts)
    return medications

In [40]:
names = ['chlorhexidine', 'cyntomycin', 'afobazol'] 
counts = [15, 18, 7]


In [31]:
display(create_medications(names,counts))

15    chlorhexidine
18       cyntomycin
7          afobazol
dtype: object

In [43]:
def create_medications(names, counts):
    medications = pd.Series(counts, index=names)
    return medications

In [44]:
display(create_medications(names,counts))

chlorhexidine    15
cyntomycin       18
afobazol          7
dtype: int64

In [36]:
def get_percent(medications, name):
    sum_prod = medications.sum()
    return (medications[name] / sum_prod) * 100

In [37]:
names = ['chlorhexidine', 'cyntomycin', 'afobazol']
counts = [15, 18, 7]
medications = create_medications(names, counts)

display(get_percent(medications, 'afobazol'))  
display(get_percent(medications, 'cyntomycin')) 

17.5

45.0

In [2]:
import pandas as pd

def create_medications(names, counts):
    medications = pd.Series(index=names, data=counts)
    return medications
def get_percent(medications, name):
    return(medications.loc[name]/sum(medications) * 100)


## pd.DataFrame().

In [48]:
# Способ 1

# Самый простой способ создания DataFrame — из словаря, ключами которого являются имена столбцов будущей таблицы, а значениями — списки,
# в которых хранится содержимое этих столбцов:

countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'area': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
display(countries_df)

Unnamed: 0,country,population,area
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


In [47]:

# Способ 2

# Также DataFrame можно создать из вложенного списка, внутренние списки которого будут являться строками новой таблицы:

countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'area'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)

Unnamed: 0,country,population,area
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


### Axis в DataFrame

In [51]:
# Считаем среднее по строкам (axis = 0) в каждом столбце:

countries_df.mean(axis=0, numeric_only=True) 

#  numeric_only в значение True (вести расчёт только по числовым столбцам).

population    9.070000e+01
area          5.800860e+06
dtype: float64

In [50]:
# Считаем среднее по столбцам (axis = 1) в каждой строке:

countries_df.mean(axis=1, numeric_only=True)

UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
KZ    1362459.520
dtype: float64

In [52]:
# Получим площадь Великобритании:

countries_df.loc['UK', 'area']

133396

In [53]:
# Получим население и площадь, соответствующие России:

countries_df.loc['RU', ['population', 'area']]

population      146.24
area          17125191
Name: RU, dtype: object

In [54]:
# Сделаем вырезку из таблицы и получим информацию о населении и площади, соответствующую Украине, Беларуси и Казахстану:

countries_df.loc[['UA', 'BY', 'KZ'],['population', 'area']]

Unnamed: 0,population,area
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


ИЛИ

In [55]:
countries_df.iloc[4:8, 1:3]

Unnamed: 0,population,area
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


In [91]:
def create_companyDF(income, expenses, years):
    dfunit = pd.DataFrame({
        'Income' : income,
        'Expenses' : expenses
    })
    dfunit.index = years
    return dfunit
def get_profit(df, year):
    if year not in df.index:
        return None
    listdf = df.loc[year]
    return listdf.iloc[0] - listdf.iloc[1]

In [92]:
income = [478, 512, 196]
expenses = [156, 130, 270]
years = [2018, 2019, 2020]
display(create_companyDF(income, expenses, years))
display(get_profit(create_companyDF(income, expenses, years), 2020))

Unnamed: 0,Income,Expenses
2018,478,156
2019,512,130
2020,196,270


-74

In [93]:
def create_companyDF(income, expenses, years):
    df = pd.DataFrame({
        'Income': income,
        'Expenses': expenses
        },
        index = years
    )
    return df

def get_profit(df, year):
    if year in df.index:
        profit = df.loc[year, 'Income'] - df.loc[year, 'Expenses']
    else:
        profit=None
    return profit

In [None]:
def create_companyDF(income, expenses, years):
    """
    Создает DataFrame из списков доходов, расходов и годов
    
    Параметры:
    income - список доходов
    expenses - список расходов
    years - список соответствующих годов
    
    Возвращает:
    DataFrame с колонками Income и Expenses и индексами-годами
    """
    data = {
        'Income': income,
        'Expenses': expenses
    }
    return pd.DataFrame(data, index=years)

def get_profit(df, year):
    """
    Вычисляет прибыль за указанный год
    
    Параметры:
    df - DataFrame с данными о доходах и расходах
    year - год для расчета прибыли
    
    Возвращает:
    Разницу между доходом и расходом за указанный год или None, если год отсутствует
    """
    if year not in df.index:
        return None
    return df.loc[year, 'Income'] - df.loc[year, 'Expenses']

## to_csv() , pd.read_csv()

In [5]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'area': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

countries_df.to_csv('countries.csv', index=False, sep=';')

In [6]:
countries_data = pd.read_csv('countries.csv', sep=';')
display(countries_data)

Unnamed: 0,country,population,area
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


In [33]:
data = pd.read_csv('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv')
#display(data)

In [34]:
melb_data = pd.read_csv('melb_data.csv', sep=',')
#display(melb_data)

In [35]:
pric_disp = melb_data.loc[90, 'Date']
display(pric_disp)

'10/09/2016'

In [36]:
perv = melb_data.loc[3521,'Landsize']
vtor = melb_data.loc[1690,'Landsize']
razn = round(perv / vtor)
display(razn)

3

In [11]:
display(melb_data.head())

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,202.0,126.0,1970.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1.0,94.0,126.0,1970.0,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0,"-37.8072, 144.9941"


In [12]:
melb_data.tail(7)

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
13573,13573,Werribee,5 Nuragi Ct,4,h,635000.0,S,hockingstuart,26/08/2017,14.7,...,1.0,662.0,172.0,1980.0,,-37.89327,144.64789,Western Metropolitan,16166.0,"-37.89327, 144.64789"
13574,13574,Westmeadows,9 Black St,3,h,582000.0,S,Red,26/08/2017,16.5,...,2.0,256.0,126.0,1970.0,,-37.67917,144.8939,Northern Metropolitan,2474.0,"-37.67917, 144.8939"
13575,13575,Wheelers Hill,12 Strada Cr,4,h,1245000.0,S,Barry,26/08/2017,16.7,...,2.0,652.0,126.0,1981.0,,-37.90562,145.16761,South-Eastern Metropolitan,7392.0,"-37.90562, 145.16761"
13576,13576,Williamstown,77 Merrett Dr,3,h,1031000.0,SP,Williams,26/08/2017,6.8,...,2.0,333.0,133.0,1995.0,,-37.85927,144.87904,Western Metropolitan,6380.0,"-37.85927, 144.87904"
13577,13577,Williamstown,83 Power St,3,h,1170000.0,S,Raine,26/08/2017,6.8,...,4.0,436.0,126.0,1997.0,,-37.85274,144.88738,Western Metropolitan,6380.0,"-37.85274, 144.88738"
13578,13578,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0,"-37.85908, 144.89299"
13579,13579,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,...,1.0,362.0,112.0,1920.0,,-37.81188,144.88449,Western Metropolitan,6543.0,"-37.81188, 144.88449"


In [13]:
melb_data.shape

(13580, 23)

In [14]:
melb_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  float64
 12  Bathroom       13580 non-null  float64
 13  Car            13580 non-null  float64
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  float64
 17  CouncilArea    12211 non-null  object 
 18  Lattit

In [15]:
melb_data['Car'] = melb_data['Car'].astype('int64')
melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
melb_data['Bathroom'] = melb_data['Bathroom'].astype('int64')
melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
melb_data['YearBuilt'] = melb_data['YearBuilt'].astype('int64')
melb_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  int64  
 12  Bathroom       13580 non-null  int64  
 13  Car            13580 non-null  int64  
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  int64  
 17  CouncilArea    12211 non-null  object 
 18  Lattit

In [16]:
melb_data.describe().loc[:, ['Distance', 'BuildingArea' , 'Price']]

Unnamed: 0,Distance,BuildingArea,Price
count,13580.0,13580.0,13580.0
mean,10.137776,139.633972,1075684.0
std,5.868725,392.217403,639310.7
min,0.0,0.0,85000.0
25%,6.1,122.0,650000.0
50%,9.2,126.0,903000.0
75%,13.0,129.94,1330000.0
max,48.1,44515.0,9000000.0


In [17]:
melb_data.describe(include=['object'])

Unnamed: 0,Suburb,Address,Type,Method,SellerG,Date,CouncilArea,Regionname,Coordinates
count,13580,13580,13580,13580,13580,13580,12211,13580,13580
unique,314,13378,3,5,268,58,33,8,13097
top,Reservoir,36 Aberfeldie St,h,S,Nelson,27/05/2017,Moreland,Southern Metropolitan,"-37.8361, 144.9966"
freq,359,3,9449,9022,1565,473,1163,4695,12


In [18]:
# Данный метод возвращает объект Series, в котором в качестве индексов выступают уникальные категории столбца, а значениями — соответствующая им частота.

# Рассмотрим работу value_counts() на примере столбца с названиями районов:

melb_data['Regionname'].value_counts()

Regionname
Southern Metropolitan         4695
Northern Metropolitan         3890
Western Metropolitan          2948
Eastern Metropolitan          1471
South-Eastern Metropolitan     450
Eastern Victoria                53
Northern Victoria               41
Western Victoria                32
Name: count, dtype: int64

In [19]:
# Чтобы сделать вывод более интерпретируемым и понятным, можно воспользоваться параметром normalize. 
# При установке значения этого параметра на True результат будет представляться в виде доли (относительной частоты):

melb_data['Regionname'].value_counts(normalize=True)

Regionname
Southern Metropolitan         0.345729
Northern Metropolitan         0.286451
Western Metropolitan          0.217084
Eastern Metropolitan          0.108321
South-Eastern Metropolitan    0.033137
Eastern Victoria              0.003903
Northern Victoria             0.003019
Western Victoria              0.002356
Name: proportion, dtype: float64

In [20]:
h = 9449
u = 3017
t = 1114
c = h + u + t
d = t / c
a = d * 100
display(a)
display(d)
display(c)

8.203240058910161

0.08203240058910162

13580

In [21]:
melb_data['Type'].value_counts()

Type
h    9449
u    3017
t    1114
Name: count, dtype: int64

In [22]:
# Разберём агрегирующие функции на примерах.

# Вычислим среднюю цену на объекты недвижимости:

print(melb_data['Price'].mean())

1075684.079455081


In [23]:
# Найдём максимальное количество парковочных мест:

print(melb_data['Car'].max())

10


In [24]:
# А теперь представим, что риэлторская ставка для всех компаний за продажу недвижимости составляет 12%. 
# Найдём общую прибыльность риэлторского бизнеса в Мельбурне. Результат округлим до сотых:

rate = 0.12
income = melb_data['Price'].sum() * rate
print('Total income of real estate agencies:', round(income, 2))

Total income of real estate agencies: 1752934775.88


In [137]:
# Найдём, насколько медианная площадь территории отличается от её среднего значения. 
# Вычислим модуль разницы между медианой и средним и разделим результат на среднее, чтобы получить отклонение в долях:

landsize_median = melb_data['Landsize'].median() 
landsize_mean =  melb_data['Landsize'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean)

0.21205713983546193


In [138]:
# Вычислим, какое число комнат чаще всего представлено на рынке недвижимости:

print(melb_data['Rooms'].mode())

0    3
Name: Rooms, dtype: int64


In [139]:
# Метод mode() может быть использован не только с числовыми столбцами, но и со столбцами типа object. 
# Так, например, с помощью следующего кода можно найти наиболее распространённое название района:

melb_data['Regionname'].mode()

0    Southern Metropolitan
Name: Regionname, dtype: object

In [140]:
print(melb_data['Propertycount'].max())

21650


In [141]:
score_std = melb_data['Distance'].std()
display(score_std)

5.868724943071692

In [148]:
ize_median = melb_data['BuildingArea'].median() 
ize_mean =  melb_data['BuildingArea'].mean()
print(abs((ize_median - ize_mean)/ize_mean)*100)

9.764079662364534


In [149]:
melb_data['Bedroom'].mode()

0    3
Name: Bedroom, dtype: int64

In [150]:
# Создадим маску и положим её в переменную с именем mask.

mask = melb_data['Price'] > 2000000
display(mask)

0        False
1        False
2        False
3        False
4        False
         ...  
13575    False
13576    False
13577    False
13578     True
13579    False
Name: Price, Length: 13580, dtype: bool

In [151]:
display(melb_data[mask].head())

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
80,80,Albert Park,112 Beaconsfield Pde,3,h,2850000.0,PI,Buxton,4/03/2017,3.3,...,0,211.0,198.0,1890,Port Phillip,-37.8481,144.9499,Southern Metropolitan,3280,"-37.8481, 144.9499"
85,85,Albert Park,104 Richardson St,4,h,2300000.0,S,Marshall,7/05/2016,3.3,...,1,153.0,180.0,1880,Port Phillip,-37.8447,144.9523,Southern Metropolitan,3280,"-37.8447, 144.9523"
88,88,Albert Park,29 Faussett St,2,h,2120000.0,S,Greg,10/09/2016,3.3,...,1,199.0,107.0,1900,Port Phillip,-37.8422,144.9554,Southern Metropolitan,3280,"-37.8422, 144.9554"
92,92,Albert Park,2 Dundas Pl,3,h,2615000.0,S,Cayzer,10/12/2016,3.3,...,1,177.0,181.0,1880,Port Phillip,-37.8415,144.9585,Southern Metropolitan,3280,"-37.8415, 144.9585"
93,93,Albert Park,23 Finlay St,5,h,2100000.0,S,Greg,10/12/2016,3.3,...,1,237.0,126.0,1970,Port Phillip,-37.8436,144.9557,Southern Metropolitan,3280,"-37.8436, 144.9557"


In [25]:
# Также вовсе не обязательно заносить маску в отдельную переменную — можно сразу вставлять условие в операцию индексации DataFrame, например:

melb_data[melb_data['Price'] > 2000000]

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
80,80,Albert Park,112 Beaconsfield Pde,3,h,2850000.0,PI,Buxton,4/03/2017,3.3,...,0,211.0,198.0,1890,Port Phillip,-37.84810,144.94990,Southern Metropolitan,3280,"-37.8481, 144.9499"
85,85,Albert Park,104 Richardson St,4,h,2300000.0,S,Marshall,7/05/2016,3.3,...,1,153.0,180.0,1880,Port Phillip,-37.84470,144.95230,Southern Metropolitan,3280,"-37.8447, 144.9523"
88,88,Albert Park,29 Faussett St,2,h,2120000.0,S,Greg,10/09/2016,3.3,...,1,199.0,107.0,1900,Port Phillip,-37.84220,144.95540,Southern Metropolitan,3280,"-37.8422, 144.9554"
92,92,Albert Park,2 Dundas Pl,3,h,2615000.0,S,Cayzer,10/12/2016,3.3,...,1,177.0,181.0,1880,Port Phillip,-37.84150,144.95850,Southern Metropolitan,3280,"-37.8415, 144.9585"
93,93,Albert Park,23 Finlay St,5,h,2100000.0,S,Greg,10/12/2016,3.3,...,1,237.0,126.0,1970,Port Phillip,-37.84360,144.95570,Southern Metropolitan,3280,"-37.8436, 144.9557"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13521,13521,Port Melbourne,44 Garton St,4,t,2455000.0,SP,Marshall,26/08/2017,3.5,...,2,123.0,0.0,2010,,-37.83349,144.94840,Southern Metropolitan,8648,"-37.83349, 144.9484"
13523,13523,Prahran,69 Greville St,4,h,2668000.0,S,Biggin,26/08/2017,4.6,...,2,383.0,126.0,1970,,-37.84879,144.98882,Southern Metropolitan,7717,"-37.84879, 144.98882"
13553,13553,Surrey Hills,20 Albert Cr,4,h,2720000.0,S,Kay,26/08/2017,10.2,...,2,1005.0,126.0,1920,,-37.82421,145.10352,Southern Metropolitan,5457,"-37.82421, 145.10352"
13555,13555,Surrey Hills,3 Oak St,4,h,3100000.0,VB,Marshall,26/08/2017,10.2,...,3,832.0,126.0,1970,,-37.83564,145.10919,Southern Metropolitan,5457,"-37.83564, 145.10919"


In [26]:
# Найдём количество зданий с тремя комнатами. Для этого отфильтруем таблицу по условию: 
# обратимся к результирующей таблице по столбцу Rooms и найдём число строк в ней с помощью атрибута shape:

melb_data[melb_data['Rooms'] == 3].shape[0]

5881

In [27]:
# Усложним прошлый пример и найдём число трёхкомнатных домов с ценой менее 300 тысяч:

melb_data[(melb_data['Rooms'] == 3) & (melb_data['Price'] < 300000)].shape[0]

3

In [28]:
# теперь нас будут интересовать дома с ценой менее 300 тысяч, у которых либо число комнат равно 3 либо площадь домов более 100 квадратных метров:

melb_data[((melb_data['Rooms'] == 3) | (melb_data['BuildingArea'] > 100)) & (melb_data['Price'] < 300000)].shape[0]

68

In [29]:
# Давайте найдём максимальное количество комнат в таунхаусах. 
# Так как в результате фильтрации получается DataFrame, то обратимся к нему по столбцу Rooms и найдём максимальное значение:

melb_data[melb_data['Type'] == 't']['Rooms'].max()

5

In [30]:
#  найдём медианную площадь здания у объектов, чья цена выше средней. 
# Для того чтобы оградить наш код от нагромождений, предварительно создадим переменную со средней ценой:

mean_price = melb_data['Price'].mean()
melb_data[melb_data['Price'] > mean_price]['BuildingArea'].median()

126.0

In [38]:
mask_van = (melb_data['Bathroom'] == 0).sum()
display(mask_van)

34

In [41]:
nucif = melb_data[(melb_data['SellerG'] == 'Nelson') & (melb_data['Price'] > 3000000)]
display(len(nucif)) 

5

In [42]:
zedom = melb_data.loc[melb_data['BuildingArea'] == 0, 'Price']
display(len(zedom))

17

In [43]:
melb_data[melb_data['BuildingArea'] == 0]['Price'].min()

412500.0

In [48]:
# Фильтрация данных по условиям:
filtered_data = melb_data[
    (melb_data['Price'] < 1_000_000) & 
    ((melb_data['Rooms'] > 5) | (melb_data['YearBuilt'] > 2015))
]

# Вычисление средней цены:
average_price = filtered_data['Price'].mean()
display(round(average_price))

769239

In [49]:
filtered_data = melb_data[
    (melb_data['Type'] == 'h') & 
    (melb_data['Price'] < 3_000_000)
]

# Группировка по району и подсчёт количества продаж:
district_counts = filtered_data['Regionname'].value_counts()

# Получение самого популярного района:
most_common_district = district_counts.idxmax()
count = district_counts.max()

print(f"Самый популярный район: {most_common_district} ({count} продаж)")

Самый популярный район: Northern Metropolitan (2737 продаж)


In [6]:
student_data = pd.read_csv('students_performance.csv')

In [7]:
student_data.shape

(1000, 8)

In [8]:
student_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   gender                       1000 non-null   object
 1   race/ethnicity               1000 non-null   object
 2   parental level of education  1000 non-null   object
 3   lunch                        1000 non-null   object
 4   test preparation course      1000 non-null   object
 5   math score                   1000 non-null   int64 
 6   reading score                1000 non-null   int64 
 7   writing score                1000 non-null   int64 
dtypes: int64(3), object(5)
memory usage: 62.6+ KB


gender — пол;

race/ethnicity — раса/этническая принадлежность;

parental level of education — уровень образования родителей;

lunch — какие обеды получал студент во время обучения (standard — платный, free/reduced — бесплатный);

test preparation course — посещал ли студент курсы подготовки к экзаменам (none — не посещал, completed — посещал);

math score — баллы по математике,

reading score — баллы по чтению,

writing score — баллы по письму по сто балльной шкале.

In [4]:
# gender — пол;

# race/ethnicity — раса/этническая принадлежность;

# parental level of education — уровень образования родителей;

# lunch — какие обеды получал студент во время обучения (standard — платный, free/reduced — бесплатный);

# test preparation course — посещал ли студент курсы подготовки к экзаменам (none — не посещал, completed — посещал);

# math score — баллы по математике,

# reading score — баллы по чтению,

# writing score — баллы по письму по сто балльной шкале.
import numpy as np

In [None]:
#  Каков балл по письму у студента под индексом 155?

student_155 = student_data.loc[155, 'writing score']
display(student_155)

88

In [None]:
#  Общее количество пропущенных значений в таблице:

total_missing = student_data.isna().sum().sum()
display(total_missing)

0

In [13]:
# Каков у студентов средний балл по математике?

mean_matem = student_data['math score'].mean()
display(mean_matem)

66.089

In [14]:
# Какая расовая группа является самой крупной в учебном заведении?
# В качестве ответа введите идентификатор группы (A, B, C, D, E).

max_race = student_data['race/ethnicity'].mode()
display(max_race)

0    group C
Name: race/ethnicity, dtype: object

In [22]:
# Каков средний балл по чтению у студентов, которые посещали курсы подготовки к экзаменам?
# Округлите ответ до целого числа.

ppse = student_data.loc[student_data['test preparation course'] == 'completed', 'reading score']
sredbalps = ppse.mean()
display(round(sredbalps))

74

In [24]:
# Сколько студентов получили 0 баллов по математике?

nulbalmat = (student_data['math score'] == 0).sum()
display(nulbalmat)

1

In [28]:
# Проверьте гипотезу: у студентов с оплачиваемым питанием средний балл по математике выше, чем у студентов с льготным питанием.
# В качестве ответа напишите наибольший средний балл по математике среди этих групп студентов.

ststsr = student_data.loc[student_data['lunch'] == 'standard', 'math score']
frstsr = student_data.loc[student_data['lunch'] == 'free/reduced', 'math score']
mest = ststsr.mean()
mefr = frstsr.mean()
if mest > mefr:
    print(f"платные {mest}")
else: 
    print(f"льготные {mefr}")

платные 70.03410852713178


In [33]:
# Каков процент студентов, родители которых имеют высшее образование уровня бакалавриата (bachelor's degree)?

svors = student_data['parental level of education'].value_counts(normalize=True)
display(svors)

parental level of education
some college          0.226
associate's degree    0.222
high school           0.196
some high school      0.179
bachelor's degree     0.118
master's degree       0.059
Name: proportion, dtype: float64

In [None]:
# Насколько медианный балл по письму у студентов в расовой группе А отличается от среднего балла по письму у студентов в расовой группе C?

rac_A = student_data.loc[student_data['race/ethnicity'] == 'group A']
rac_C = student_data.loc[student_data['race/ethnicity'] == 'group C']

pervmedian = rac_A.median() 
vtormean =  rac_C.mean()
print(abs(pervmedian - vtormean)/vtormean)

In [37]:
a_median = student_data[student_data['race/ethnicity'] == 'group A']['writing score'].median()
c_mean = student_data[student_data['race/ethnicity'] == 'group C']['writing score'].mean()
itog = abs(a_median - c_mean)
display(itog)

5.827586206896555