# Pandas и присоединение таблиц

In [1]:
import pandas as pd
import os

In [6]:
df = pd.read_excel(os.path.join('data','medals.xlsx'), engine='openpyxl')

In [6]:
df.head()

Unnamed: 0,Rank,Team/NOC,Gold,Silver,Bronze,Total,Rank by Total
0,1,United States of America,39,41,33,113,1
1,2,People's Republic of China,38,32,18,88,2
2,3,Japan,27,14,17,58,5
3,4,Great Britain,22,21,22,65,4
4,5,ROC,20,28,23,71,3


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Rank           93 non-null     int64 
 1   Team/NOC       93 non-null     object
 2   Gold           93 non-null     int64 
 3   Silver         93 non-null     int64 
 4   Bronze         93 non-null     int64 
 5   Total          93 non-null     int64 
 6   Rank by Total  93 non-null     int64 
dtypes: int64(6), object(1)
memory usage: 5.2+ KB


In [8]:
df.columns

Index(['Rank', 'Team/NOC', 'Gold', 'Silver', 'Bronze', 'Total',
       'Rank by Total'],
      dtype='object')

In [9]:
cols = ['Team/NOC', 'Gold', 'Silver', 'Bronze',]
df[cols]

Unnamed: 0,Team/NOC,Gold,Silver,Bronze
0,United States of America,39,41,33
1,People's Republic of China,38,32,18
2,Japan,27,14,17
3,Great Britain,22,21,22
4,ROC,20,28,23
...,...,...,...,...
88,Ghana,0,0,1
89,Grenada,0,0,1
90,Kuwait,0,0,1
91,Republic of Moldova,0,0,1


In [12]:
medals_path = os.path.join('data_','medals')
# os.mkdir(medals_path)

In [14]:
if os.path.exists(medals_path):
    pass
else:
    os.mkdir('data_')
    os.mkdir(medals_path)

In [16]:
medals_path = os.path.join('data_','medals')
for medal in ['Gold', 'Silver', 'Bronze',]:
    file_path = os.path.join(medals_path, f'{medal}.xlsx')
    df[['Team/NOC', medal]].to_excel(file_path, index=False)


In [20]:
# ls data_/medals

In [21]:
# Прописываем пути к файлам
bronze_path = os.path.join('data_','medals','Bronze.xlsx')
silver_path = os.path.join('data_','medals','Silver.xlsx')
gold_path = os.path.join('data_','medals','Gold.xlsx')
# Подгружаем
bronze = pd.read_excel(bronze_path).head(5)
silver = pd.read_excel(silver_path).head(5)
gold = pd.read_excel(gold_path).head(5)
gold

Unnamed: 0,Team/NOC,Gold
0,United States of America,39
1,People's Republic of China,38
2,Japan,27
3,Great Britain,22
4,ROC,20


In [59]:
pd.concat([gold.set_index('Team/NOC'),silver.set_index('Team/NOC'),bronze.set_index('Team/NOC')], axis=1).reset_index()

Unnamed: 0,Team/NOC,Gold,Silver,Bronze
0,United States of America,39,41,33
1,People's Republic of China,38,32,18
2,Japan,27,14,17
3,Great Britain,22,21,22
4,ROC,20,28,23


In [56]:
gold.set_index('Team/NOC')

Unnamed: 0_level_0,Gold
Team/NOC,Unnamed: 1_level_1
United States of America,39
People's Republic of China,38
Japan,27
Great Britain,22
ROC,20


In [24]:
silver.set_index('Team/NOC')

Unnamed: 0,Team/NOC,Silver
0,United States of America,41
1,People's Republic of China,32
2,Japan,14
3,Great Britain,21
4,ROC,28


In [25]:
bronze

Unnamed: 0,Team/NOC,Bronze
0,United States of America,33
1,People's Republic of China,18
2,Japan,17
3,Great Britain,22
4,ROC,23


In [26]:
medals = gold.copy()

In [27]:
medals

Unnamed: 0,Team/NOC,Gold
0,United States of America,39
1,People's Republic of China,38
2,Japan,27
3,Great Britain,22
4,ROC,20


In [None]:
medals.head()

In [28]:
# Когда мы хотим слить несколько табиц с одинаковыми колонками в одну большую (по вертикали)
medals_dict = {'gold': gold_path, 'silver': silver_path,'bronze':bronze_path}

In [29]:
medals_dict

{'gold': 'data_/medals/Gold.xlsx',
 'silver': 'data_/medals/Silver.xlsx',
 'bronze': 'data_/medals/Bronze.xlsx'}

In [51]:
# Можно использовать метод df.append()
# !!! Важно, что он работает не так как append в списках, то есть не inplace
medals_df = pd.DataFrame()

In [52]:
for medal, fpth in medals_dict.items():
    df_temp = pd.read_excel(fpth)
    cols = df_temp.columns
    df_temp.columns = [cols[0], 'Total']
    df_temp['medal'] = medal
    medals_df = medals_df.append(df_temp)

In [53]:
medals_df

Unnamed: 0,Team/NOC,Total,medal
0,United States of America,39,gold
1,People's Republic of China,38,gold
2,Japan,27,gold
3,Great Britain,22,gold
4,ROC,20,gold
...,...,...,...
88,Ghana,1,bronze
89,Grenada,1,bronze
90,Kuwait,1,bronze
91,Republic of Moldova,1,bronze


# Практическая часть

In [None]:
# Даны 3 таблицы
medalists = pd.read_csv('data/Summer Olympic medalists 1896 to 2008 - ALL MEDALISTS.tsv',
                        sep='\t', skiprows=4)
editions = pd.read_csv('data/Summer Olympic medalists 1896 to 2008 - EDITIONS.tsv', sep='\t')
countries = pd.read_csv('data/Summer Olympic medalists 1896 to 2008 - IOC COUNTRY CODES.csv')

In [None]:
# countries.head(3)
# editions.head(3)
# medalists.head(3)

In [None]:
# Определите гендерное распределение (в процентах) медалистов по странам по годам 
# Выведите результаты в виде таблицы вместе с полем ISO code
#----- Ваш код здесь ----

# Немного про Pandas & Excel

In [None]:
# Сохраним medals_df в файл excel
medals_df.to_excel('medals.xlsx', index=False)

In [None]:
# Если в excel - файле только один лист, или нужен только первый
df = pd.read_excel('medals.xlsx')
df.head()

In [None]:
# Если нужно считать несколько листов из файла, то 
# можно использовать pd.read_excel c параметром sheet_name 
xls = pd.ExcelFile('medals.xlsx')
xls.sheet_names

In [None]:
medals_from_excel = pd.DataFrame()
for sheet_name in xls.sheet_names:
    temp_df = pd.read_excel('medals.xlsx', sheet_name=sheet_name)
    medals_from_excel= medals_from_excel.append(temp_df)

# medals_from_excel

### Как сохранить DataFrame в ексель на разных листах?


In [None]:
# Создаем файл
writer = pd.ExcelWriter('medal_on_sheets.xlsx', engine='xlsxwriter')
# Записываем на листы
gold.to_excel(writer, sheet_name='gold', index=False)
silver.to_excel(writer, sheet_name='silver', index=False)
bronze.to_excel(writer, sheet_name='bronze', index=False)
# Сохраняем и закрвыаем 
writer.save()

In [None]:
# Или так c помощью менеджера контекста with
with pd.ExcelWriter('medal_on_sheets.xlsx', engine='xlsxwriter') as writer:
    for i, tab in enumerate([gold,silver,bronze]):
        tab.to_excel(writer, sheet_name=str(i), index=False)


# Практическая часть 

In [None]:
# Сохраните DataFrame medalists в файл medalists.xlsx
# В этом файле данные по каждой строне должны быть на отдельном листе
#----- Ваш код здесь ----