# МОДУЛЬ 35

## Pandas.Series
### class pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)

In [2]:
import pandas as pd
pd.__version__
print(pd.__name__)
print(pd.__version__)

pandas
1.2.4


In [6]:
# Способ 1: Создаём Series из списка с использованием параметров функции pd.Series()
countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
display(countries)

UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

In [19]:
# Способ 2: Создаём Series из словаря, в котором ключами являются будущие метки, 
# а значениями — будущие значения Series, при этом использование параметра name 
# также возможно.
countries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US' : 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'KZ': 'Казахстан'},
    name = 'countries'
)
display(countries)

UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

In [22]:
# ДОСТУП К ДАННЫМ В SERIES
# .loc вызывается с квадратными скобками, в которые передаются метки
print(countries.loc['US'])
print(countries.loc[['US', 'RU', 'UK']])
# .iloc также вызывается с квадратными скобками и принимает на вход 
# порядковые номера элементов Series (нумерация начинаются с 0). 
print(countries.iloc[6])
print(countries.iloc[1:4])

США
US       США
RU    Россия
UK    Англия
Name: countries, dtype: object
Казахстан
CA    Канада
US       США
RU    Россия
Name: countries, dtype: object


In [8]:
# Если оставить параметр index пустым, то метки будут присвоены 
# автоматически в виде порядковых номеров элементов:
countries = pd.Series(
    ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан']
)
display(countries)

0       Англия
1       Канада
2          США
3       Россия
4      Украина
5     Беларусь
6    Казахстан
dtype: object

In [5]:
# Построение рядов из словаря с указанным индексом
d = {'a': 1, 'b': 2, 'c': 3}
ser = pd.Series(data=d, index=['a', 'b', 'c'])
ser


a    1
b    2
c    3
dtype: int64

In [9]:
# Ключи словаря совпадают со значениями индекса, 
# поэтому значения индекса не имеют эффекта.
d = {'a': 1, 'b': 2, 'c': 3}
ser = pd.Series(data=d, index=['x', 'y', 'z'])
ser
# Index является первой сборкой с ключами из словаря. 
# После этого Series ределируется с заданными значениями Index, 
# поэтому мы получаем все NaN в результате.

x   NaN
y   NaN
z   NaN
dtype: float64

In [14]:
# Построение серии из списка с копированием=False.
r = [1, 2]
ser = pd.Series(r, copy=False)
ser.iloc[0] = 999
r
ser
# Из-за типа входных данных серия имеет копию оригинальных данных, 
# хотя copy=False, так что данные остаются неизменными

0    999
1      2
dtype: int64

In [15]:
# Построение ряда из 1d ndarray с копированием=False
import numpy as np
r = np.array([1, 2])
ser = pd.Series(r, copy=False)
ser.iloc[0] = 999
r
ser
# Из-за типа входных данных ряд имеет представление о исходных данных, 
# поэтому данные также меняются.

0    999
1      2
dtype: int32

In [23]:
# Задание 35.2.4

import pandas as pd

def create_medications(names, counts):
    """
    Напишите функцию create_mediactions(names, counts), которая  создает Series medications,
    индексами которой являются названия лекарств names, а значениями - их количество в поставке counts
    """
    medications = pd.Series(index=names, data=counts)
    return medications
   

def get_percent(medications, name):
    """
    А также напишите функцию get_percent(medications, name), которая возвращает долю количества товара
    с именем name от общего количества товаров в поставке в процентах.
    """
    return(medications.loc[name]/sum(medications) * 100)
    
if __name__ == '__main__':
    names=['chlorhexidine', 'cyntomycin', 'afobazol']
    counts=[15, 18, 7]
    medications = create_medications(names, counts)
    print(get_percent(medications, "chlorhexidine")) #37.5

37.5


## DATAFRAME

### СОЗДАНИЕ: pandas.DataFrame( data, index, columns, dtype, copy)

In [50]:
# Способ 1: Создание DataFrame — из словаря, ключами которого являются имена столбцов
# будущей таблицы, а значениями — списки, в которых хранится содержимое этих столбцов.
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


In [49]:
# Способ 2: DataFrame можно создать из вложенного списка, внутренние списки которого
# будут являться строками новой таблицы:
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


### AXIS

In [44]:
# mean() — вычисление среднего по таблице

# среднее было рассчитано по строкам для столбцов population и square
countries_df.mean(axis=0)

population    9.070000e+01
square        5.800860e+06
dtype: float64

In [43]:
# среднее было рассчитано по числовым столбцам для каждой строки в таблице
countries_df.mean(axis=1) 

UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
KZ    1362459.520
dtype: float64

### ДОСТУП К ДАННЫМ В DATAFRAME

#### Получаем доступ к столбцу

In [39]:
# способ_1: Можно обратиться к DataFrame по имени столбца через точку 
# (только если имя столбца указано без пробелов):
countries_df.population

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

In [40]:
# способ_2: Можно обратиться к DataFrame по индексу и указать имя столбца:
countries_df['population']

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

In [41]:
# проверка типа данных
type(countries_df.population)

pandas.core.series.Series

### Получаем доступ к ячейкам



In [None]:
"""Чтобы получить доступ к ячейкам таблицы, используются loc и iloc.
При этом, в соответствии с механизмом работы axis, при обращении к DataFrame по 
индексам с помощью loc (iloc) первым индексом указывается индекс (порядковый номер),
соответствующий строкам, а вторым — имя (порядковый номер) столбца """

In [45]:
# Получим площадь Великобритании.
countries_df.loc['UK', 'square']

133396

In [46]:
# Получим население и площадь, соответствующие России.
countries_df.loc['RU', ['population', 'square']]

population      146.24
square        17125191
Name: RU, dtype: object

In [47]:
# Сделаем вырезку из таблицы и получим информацию о населении и площади, соответствующую Украине, Беларуси и Казахстану.

# 1_способ:
countries_df.loc[['UA', 'BY', 'KZ'],['population', 'square']]

# 2_способ:
countries_df.iloc[4:8, 1:3]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


In [51]:
# Задание 35.3.5

import pandas as pd

def create_companyDF(income, expenses, years):
    """
    Создайте функцию create_companyDF(income, expenses, years), которая  возвращает DataFrame, 
    составленный из входных данных со столбцами “Income” и “Expenses” и индексами, соответствующим годам рассматриваемого периода.
    """
    df = pd.DataFrame({'Expenses': expenses, 'Income': income}, index = years)
    return df

def get_profit(df, year):
    
    """
    А также напишите функцию get_profit(df, year), которая возвращает разницу между доходом и расходом, записанных в таблице df, за год year.
    Учтите, что если информация за запрашиваемый год не указана в вашей таблице вам необходимо вернуть None. 
    """
    #ваш код здесь
    if year in df.index:
        profit = df.loc[year, 'Income'] - df.loc[year, 'Expenses']
    else:
        profit=None
    return profit

if __name__ == '__main__':
    expenses = [156, 130, 270]
    income = [478, 512, 196]
    years = [2018, 2019, 2020]
    
    scienceyou = create_companyDF(income, expenses, years)
    print(get_profit(scienceyou, 2020)) #-74

-74


#### ЗАПИСЬ В CSV-ФАЙЛ

In [3]:
"""Заранее создадим папку data в директории, где лежит наш ноутбук. Теперь сохраним 
наш DataFrame с информацией о странах в csv-файл countries.csv и положим файл в папку
data. При этом укажем, что разделителем в нашем файле будет являться символ ';', 
а также то, что нам не нужен дополнительный столбец с индексами строк."""

countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

countries_df.to_csv('data/countries.csv', index=False, sep=';')

#### ЧТЕНИЕ CSV-ФАЙЛА

In [1]:
"""Убедимся, что сохранённый ранее файл создался верно. Для этого прочитаем его 
в переменную countries_data и выведем её на экран. Не забудем также о том, что 
мы использовали в качестве разделителя ';':"""

countries_data = pd.read_csv('data/countries.csv', sep=';')
display(countries_data)

NameError: name 'pd' is not defined

In [2]:
"""Если файл находится в открытом доступе по ссылке (например, на Google Диске или 
GitHub), его можно прочитать и из интернета — для этого достаточно в функции 
read_csv() вместо пути до файла указать ссылку на файл."""

data = pd.read_csv('lms.skillfactory.ru/static/dst-md10-4-melb_data.csv')
#display(data)


NameError: name 'pd' is not defined

In [24]:
# Задание 35.5.3
melb_data = pd.read_csv('data/melb_data.csv', sep=',')
#display(melb_data)
res_1 = melb_data.loc[3521, 'Landsize']
res_2 = melb_data.loc[1690, 'Landsize']
display(round(res_1/res_2))


3

#### Исследование структуры DataFrame

In [None]:
display(melb_data.head()) # вывод первых n строк, по умолчанию n=5
display(melb_data.tail(1)) # вывод последних n строк, по умолчанию n=5
display(melb_data.shape) # возвращает кортеж с количеством строк и столбцов
display(melb_data.info()) # получить более детальную информацию о столбцах таблицы

In [None]:
# ИЗМЕНЕНИЕ ТИПА ДАННЫХ В СТОЛБЦЕ
melb_data['Postcode'] = melb_data['Postcode'].astype('int64')
melb_data['Car'] = melb_data['Car'].astype('int64')
melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
melb_data['Bathroom'] = melb_data['Bathroom'].astype('int64')
melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
melb_data['YearBuilt'] = melb_data['YearBuilt'].astype('int64')
melb_data.info()

In [None]:
# ПОЛУЧЕНИЕ ОПИСАТЕЛЬНОЙ СТАТИСТИКИ .describe()
display(melb_data.describe().loc[:, ['Distance', 'BuildingArea' , 'Price']]) # для конкретно указанных столбцев типа int
display(melb_data.describe(include=['object'])) # для всех столбцов типа объект

In [None]:
# ПОЛУЧЕНИЕ ЧАСТОТЫ УНИКАЛЬНЫХ ЗНАЧЕНИЙ В СТОЛБЦЕ
melb_data['Regionname'].value_counts() # кол-во уникальных значений
melb_data['Regionname'].value_counts(normalize=True) # доля уникальных значений (структура)

#### Статистические методы

In [None]:
# Вычислим среднюю цену на объекты недвижимости
print(melb_data['Price'].mean())

# Найдём максимальное количество парковочных мест.
print(melb_data['Car'].max())

# риэлторская ставка для всех компаний за продажу недвижимости составляет 12%. 
# Найдём общую прибыльность риэлторского бизнеса в Мельбурне. 
# Результат округлим до сотых.
rate = 0.12
income = melb_data['Price'].sum() * rate
print('Total income of real estate agencies:', round(income, 2))

# насколько медианная площадь территории отличается от её среднего значения. 
# Вычислим модуль разницы между медианой и средним и разделим результат на среднее, 
# чтобы получить отклонение в долях.
landsize_median = melb_data['Landsize'].median() 
landsize_mean =  melb_data['Landsize'].mean()
print(round(abs(landsize_median - landsize_mean)/landsize_mean,2))

# какое число комнат чаще всего представлено на рынке недвижимости.
print(melb_data['Rooms'].mode())

# наиболее распространённое название района
melb_data['Regionname'].mode()

In [None]:
print(melb_data['Propertycount'].max())

print(melb_data['Distance'].std())

buildingarea_median = melb_data['BuildingArea'].median() 
buildingarea_mean =  melb_data['BuildingArea'].mean()
print(round(abs(buildingarea_median - buildingarea_mean)/buildingarea_mean,2))

print(melb_data['Bedroom'].mode())


#### Фильтрация данных в DataFrame

In [None]:
"""Маска — Series, которая состоит из булевых значений, при этом значения True 
соответствуют тем индексам, для которых заданное условие выполняется, в противном 
случае ставится значение False"""
# или (5 строк)
mask = melb_data['Price'] > 2000000
melb_data[mask].head() 
# или
melb_data[melb_data['Price'] > 2000000]

In [80]:
# количество зданий с тремя комнатами
melb_data[melb_data['Rooms'] == 3].shape[0]

# число трёхкомнатных домов с ценой менее 300 тыс.
melb_data[(melb_data['Rooms'] == 3) & (melb_data['Price'] < 300000)].shape[0]

# дома с ценой менее 300 тыс., у которых либо число комнат равно 3 либо 
# площадь домов более 100 кв. метров
melb_data[((melb_data['Rooms'] == 3) | (melb_data['BuildingArea'] > 100)) & (melb_data['Price'] < 300000)].shape[0]

68

In [82]:
# максимальное количество комнат в таунхаусах
melb_data[melb_data['Type'] == 't']['Rooms'].max()

# медианная площадь здания у объектов, чья цена выше средней
mean_price = melb_data['Price'].mean()
melb_data[melb_data['Price'] > mean_price]['BuildingArea'].median()

126.0

In [91]:
# Проверка

#У скольких объектов недвижимости из таблицы melb_data отсутствуют ванные комнаты?
melb_data[melb_data['Bathroom'] == 0].shape[0]

# Сколько в таблице melb_data объектов недвижимости, которые были проданы риелтором 
# Nelson и стоимость которых составила больше 3 миллионов
melb_data[(melb_data['SellerG'] == 'Nelson') & (melb_data['Price'] > 3000000)].shape[0]

# минимальная стоимость участка без здания (площадь здания равна 0) в таблице melb_data
melb_data[melb_data['BuildingArea'] == 0]['Price'].min()

# Какова средняя цена объектов недвижимости в таблице melb_data с ценой менее 1 миллиона,
# в которых либо количество комнат больше 5, либо здание моложе 2015 года
melb_data[((melb_data['Rooms'] > 5) | (melb_data['YearBuilt'] > 2015)) & (melb_data['Price'] < 1000000)]['Price'].mean()

# В каком районе Мельбурна чаще всего продаются виллы и коттеджи (тип здания — h) 
# с ценой меньше 3 миллионов?
melb_data[(melb_data['Type'] == 'h') & (melb_data['Price'] < 3000000)]['Regionname'].mode()

0    Northern Metropolitan
dtype: object

#### 35.9 Закрепляем знания

In [None]:
student_data = pd.read_csv('data/students_performance.csv', sep=',')
student_data.head()
student_data.shape
student_data.info()
student_data.describe()
student_data.describe(include=['object'])

In [110]:
student_data.loc[155,'writing score']
student_data.describe(include=['object'])
student_data[student_data['test preparation course'] == 'completed']['reading score'].mean()
student_data[student_data['math score'] == 0].shape[0]
# Проверьте гипотезу: у студентов с оплачиваемым питанием средний балл по математике 
# выше, чем у студентов с льготным питанием. В качестве ответа напишите наибольший 
# средний балл по математике среди этих групп студентов
rez1 = student_data[student_data['lunch'] == 'standard']['math score'].mean()
rez2 = student_data[student_data['lunch'] == 'free/reduced']['math score'].mean()
print(rez1, rez2)

70.03410852713178 58.92112676056338


In [None]:
student_data['parental level of education'].value_counts(normalize=True) # доля уникальных значений (структура)
student_data['race/ethnicity'].value_counts() # доля уникальных значений (структура)

In [118]:
writingscore_median = student_data[student_data['race/ethnicity'] == 'group A']['writing score'].median() 
writingscore_mean =  student_data[student_data['race/ethnicity'] == 'group C']['writing score'].mean()
print(round(abs(writingscore_median - writingscore_mean)))

6
