# Setup and Context

### Introduction

Альфред Нобель 1895 онд гэрээслэлдээ:

“Хүн төрөлхтөнд хамгийн их ашиг тус хүргэсэн хүмүүсийг шагнахад хөрөнгөө ашиглана”
гэж бичсэн.

Тиймээс жил бүр дараах салбаруудаар Нобелийн шагнал олгодог:

Хими

Физик

Анагаах ухаан

Утга зохиол

Энх тайван

Эдийн засаг

➡ Бид энэ датагаар дамжуулж:
“Нобелийн шагналын түүхэнд ямар хандлага, хэв маяг байна вэ?” гэдгийг судална.

<img src=https://i.imgur.com/36pCx5Q.jpg>

In [None]:
!pip install --upgrade plotly
!pip install pandas
!pip install seaborn

: 

### Import Statements

In [None]:
import pandas as pd
import numpy as np
import plotly.express as px
import seaborn as sns
import matplotlib.pyplot as plt

### Notebook Presentation

In [None]:
pd.options.display.float_format = '{:,.2f}'.format

### Read the Data

In [None]:
df_data = pd.read_csv('nobel_prize_data.csv')

# Data Exploration & Cleaning

* Дараах асуултад дата ашиглан хариул:

* df_data хэдэн мөр, хэдэн баганатай вэ?

* Ямар ямар баганууд байна вэ?

* Нобелийн шагнал анх хэдэн онд олгогдсон бэ?

* Датанд байгаа хамгийн сүүлийн жил хэд вэ?

In [None]:
df_data.shape

In [None]:
df_data.head()

**Challange**:
* Өгөгдөлд давхардсан мөрүүд (ижил мэдээлэл) байгаа юу?
* Өгөгдөлд хоосон (NaN) утгууд байгаа юу?
* Аль баганууд ихэвчлэн хоосон (NaN) утгатай байна вэ?
* Багана бүрт хичнээн NaN (хоосон) утга байна вэ?
* Яагаад эдгээр баганууд хоосон утгатай байгаа вэ? (ямар шалтгаантай вэ?)

### Check for Duplicates

In [None]:
print(f'Any duplicates? {df_data.duplicated().values.any()}')

In [None]:
print(f'Any NaN values among the data? {df_data.isna().values.any()}')

### Check for NaN Values

In [None]:
df_data.isna().sum()

In [None]:
col_subset = ['year', 'category', 'laureate_type', 'birth_date', 'full_name', 'organization_name']
df_data.loc[df_data.birth_date.isna()][col_subset]

In [None]:
col_subset = ['year', 'category', 'laureate_type','full_name', 'organization_name']
df_data.loc[df_data.organization_name.isna()][col_subset]

### Өгөгдлийн төрлийг өөрчлөх

**Даалгавар**:
* birth_date баганыг огнооны формат (Datetime) болгон хөрвүүл.
* share_pct гэдэг шинэ багана нэмээд, лауреат авсан шагналын хувийг (жишээ: 1/2, 1/3 гэх мэт)-ийг бутархай тоо (float) хэлбэрээр хадгал.

#### Year болон Birth Date багануудыг огнооны (Datetime) формат руу хөрвүүл

In [None]:
df_data.birth_date = pd.to_datetime(df_data.birth_date)

#### Шагналын хувийг илэрхийлэх шинэ багана нэм

In [None]:
separated_values = df_data.prize_share.str.split('/', expand=True)
numerator = pd.to_numeric(separated_values[0])
denomenator = pd.to_numeric(separated_values[1])
df_data['share_pct'] = numerator / denomenator

In [None]:
df_data.info()

In [None]:
!pip install figure
!pip  install plotly
!pip install --upgrade nbformat

# Plotly ашиглан эрэгтэй ба эмэгтэй Нобелийн шагналтнуудын хувийг харуулах дугуй (donut) график зур

In [None]:
!pip install --upgrade nbformat

**Даалгавар**: Нобелийн бүх шагналын хэдэн хувь нь эмэгтэйчүүдэд очсон бэ?

In [None]:

biology = df_data.sex.value_counts()
fig = px.pie(labels=biology.index,
             values=biology.values,
             title="Percentage of Male vs. Female Winners",
             names=biology.index,
             hole=0.4,)

fig.update_traces(textposition='inside', textfont_size=15, textinfo='percent')

fig.show()

In [None]:
df_data[df_data.sex == 'Female'].sort_values('year', ascending=True)[:3]

# Нобелийн шагнал хүртсэн анхны 3 эмэгтэй хэн байсан бэ?

**Даалгавар**:
* Нобелийн шагнал хүртсэн анхны 3 эмэгтэйн нэр хэн бэ?
* Тэд ямар салбарт (ямар шагнал) Нобелийн шагнал авсан бэ?
* Тэдний birth_country (төрсөн улс) баганад юу гэж байна вэ?

In [None]:
df_data[df_data.sex == 'Female'].sort_values('year', ascending=True)[:3]

# Нобелийн шагналыг 2 ба түүнээс олон удаа авсан хүмүүсийг ол

**Даалгавар**: Зарим хүмүүс Нобелийн шагналыг нэгээс олон удаа авсан уу? Хэрэв тийм бол тэд хэн байсан бэ?

In [None]:
is_winner = df_data.duplicated(subset=['full_name'], keep=False)
multiple_winners = df_data[is_winner]
print(f'There are {multiple_winners.full_name.nunique()}' \
      ' winners who were awarded the prize more than once.')

In [None]:
col_subset = ['year', 'category', 'laureate_type', 'full_name']
multiple_winners[col_subset]

# Салбар бүрээр олгогдсон Нобелийн шагналын тоо

**Даалгавар**:
* Нобелийн шагнал хэдэн өөр салбарт олгогддог вэ?
* Салбар бүрт олгогдсон Нобелийн шагналын тоогоор Plotly бар график (bar chart) хий.
* Графикийг Aggrnyl гэдэг өнгөний шкал ашиглан будаарай,
гэхдээ өнгөний тэнхлэг (color axis) харуулах хэрэггүй.
* Аль салбар хамгийн олон Нобелийн шагналтай вэ?
* Аль салбар хамгийн цөөн Нобелийн шагналтай вэ?

In [None]:
df_data.category.nunique()

In [None]:
prizes_per_category = df_data.category.value_counts()
v_bar = px.bar(
        x = prizes_per_category.index,
        y = prizes_per_category.values,
        color = prizes_per_category.values,
        color_continuous_scale='Aggrnyl',
        title='Number of Prizes Awarded per Category')

v_bar.update_layout(xaxis_title='Nobel Prize Category',
                    coloraxis_showscale=False,
                    yaxis_title='Number of Prizes')
v_bar.show()

**Даалгавар**:
* Эдийн засгийн салбарын анхны Нобелийн шагнал хэзээ олгогдсон бэ?
* Тэр шагнал хэнд очсон бэ?

In [None]:
df_data[df_data.category == 'Economics'].sort_values('year')[:3]

# Male and Female Winners by Category

**Даалгавар**:
* Бар график дээр хулганаа (hover) аваач. Уран зохиол (Literature) болон Физик (Physics) салбарт эмэгтэйчүүдэд хэдэн Нобелийн шагнал очсон бэ?

In [None]:
cat_men_women = df_data.groupby(['category', 'sex'],
                               as_index=False).agg({'prize': pd.Series.count})
cat_men_women.sort_values('prize', ascending=False, inplace=True)

In [None]:
v_bar_split = px.bar(x = cat_men_women.category,
                     y = cat_men_women.prize,
                     color = cat_men_women.sex,
                     title='Number of Prizes Awarded per Category split by Men and Women')

v_bar_split.update_layout(xaxis_title='Nobel Prize Category',
                          yaxis_title='Number of Prizes')
v_bar_split.show()

# Цаг хугацааны явцад олгогдсон Нобелийн шагналын тоо

**Даалгавар**: Сүүлийн жилүүдэд Нобелийн шагнал анх бий болсон үеэсээ илүү олгогдож байна уу?
Энэ хандлагыг графикаар харуул.
* Жил бүр олгогдсон Нобелийн шагналын тоог тоол.
* 5 жилийн хөдөлгөөнт дундаж (rolling average) гарга.
* Using Matplotlib superimpose дээр нь давхарласан шугамаар
харуул..
* X тэнхлэг дээр 1900–2020 оны хооронд 5 жил тутамд tick (тэмдэглэгээ) харуул..

<img src=https://i.imgur.com/4jqYuWC.png width=650>


<img src=https://i.imgur.com/u3RlcJn.png width=350>

* Графикийг харахад Дэлхийн I болон II дайнууд Нобелийн шагнал олгогдох тоонд нөлөөлсөн үү?
* График дээр харагдаж буй энэ чиг хандлагын (өсөлт, бууралт) шалтгаан нь юу байж болох вэ?


In [None]:
prize_per_year = df_data.groupby(by='year').count().prize

In [None]:
moving_average = prize_per_year.rolling(window=5).mean()

In [None]:
plt.scatter(x=prize_per_year.index,
           y=prize_per_year.values,
           c='dodgerblue',
           alpha=0.7,
           s=100,)

plt.plot(prize_per_year.index,
        moving_average.values,
        c='crimson',
        linewidth=3,)

plt.show()

In [None]:
plt.figure(figsize=(16,8), dpi=200)
plt.title('Number of Nobel Prizes Awarded per Year', fontsize=18)
plt.yticks(fontsize=14)
plt.xticks(ticks=np.arange(1900, 2021, step=5),
           fontsize=14,
           rotation=45)

ax = plt.gca() # get current axis
ax.set_xlim(1900, 2020)

ax.scatter(x=prize_per_year.index,
           y=prize_per_year.values,
           c='dodgerblue',
           alpha=0.7,
           s=100,)

ax.plot(prize_per_year.index,
        moving_average.values,
        c='crimson',
        linewidth=3,)

plt.show()

# Are More Prizes Shared Than Before?

**Даалгавар**: # Нобелийн шагнал урьдаас илүү хуваагдаж олгогдож байна уу?

* Ялалт авсан хүмүүсийн шагналын дундаж хувийг жил бүрээр тооцоол.

* Шагналын хувь (%)-ийн 5 жилийн гулсах дундаж (rolling average)-ийг тооцоол.

* Дээр хийсэн графикийн code cell-ийг хуулж ашигла.

* Matplotlib графикт хоёрдогч тэнхлэг (secondary axis) нэмэхээр кодоо өөрчил.

* Энэ график дээр шагналын хувь-ийн rolling average-ийг зур.

* Хоёрдогч y-тэнхлэгийг урвуулах (invert) боломжтой эсэхийг шалга, ингэснээр харилцаа илүү ойлгомжтой харагдана.

In [None]:
yearly_avg_share = df_data.groupby(by='year').agg({'share_pct': pd.Series.mean})
share_moving_average = yearly_avg_share.rolling(window=5).mean()

In [None]:
plt.figure(figsize=(16,8), dpi=200)
plt.title('Number of Nobel Prizes Awarded per Year', fontsize=18)
plt.yticks(fontsize=14)
plt.xticks(ticks=np.arange(1900, 2021, step=5),
           fontsize=14,
           rotation=45)

ax1 = plt.gca()
ax2 = ax1.twinx() # create second y-axis
ax1.set_xlim(1900, 2020)

ax1.scatter(x=prize_per_year.index,
           y=prize_per_year.values,
           c='dodgerblue',
           alpha=0.7,
           s=100,)

ax1.plot(prize_per_year.index,
        moving_average.values,
        c='crimson',
        linewidth=3,)

# Adding prize share plot on second axis
ax2.plot(prize_per_year.index,
        share_moving_average.values,
        c='grey',
        linewidth=3,)

plt.show()

In [None]:
plt.figure(figsize=(16,8), dpi=200)
plt.title('Number of Nobel Prizes Awarded per Year', fontsize=18)
plt.yticks(fontsize=14)
plt.xticks(ticks=np.arange(1900, 2021, step=5),
           fontsize=14,
           rotation=45)

ax1 = plt.gca()
ax2 = ax1.twinx()
ax1.set_xlim(1900, 2020)

# Can invert axis
ax2.invert_yaxis()

ax1.scatter(x=prize_per_year.index,
           y=prize_per_year.values,
           c='dodgerblue',
           alpha=0.7,
           s=100,)

ax1.plot(prize_per_year.index,
        moving_average.values,
        c='crimson',
        linewidth=3,)

ax2.plot(prize_per_year.index,
        share_moving_average.values,
        c='grey',
        linewidth=3,)

plt.show()

# Хамгийн олон Нобелийн шагнал авсан улсууд

**Даалгавар**:
* top20_countries гэдэг нэртэй Pandas DataFrame үүсгэ. Энэ нь 2 баганатай байна. prize баганад тухайн улсын авсан нийт Нобелийн шагналын тоо байна.

<img src=https://i.imgur.com/6HM8rfB.png width=350>

* Аль баганыг ашиглах нь илүү зөв бэ:
birth_country, birth_country_current эсвэл organization_country?
* birth_country болон бусад багануудыг ашиглахад ямар боломжит асуудлууд гарч болох вэ? Аль багана нь хамгийн бага асуудалтай вэ?
* Дараа нь Plotly ашиглан улс бүрийн авсан Нобелийн шагналын тоог харуулсан хэвтээ bar chart зур. Дээрх зураг шиг харагдах ёстой.

<img src=https://i.imgur.com/agcJdRS.png width=750>

* Нобелийн шагналын тоогоор топ 20 улс ямар дараалалтай байна вэ?

In [None]:
top_countries = df_data.groupby(['birth_country_current'],
                                  as_index=False).agg({'prize': pd.Series.count})

top_countries.sort_values(by='prize', inplace=True)
top20_countries = top_countries[-20:]

In [None]:
h_bar = px.bar(x=top20_countries.prize,
               y=top20_countries.birth_country_current,
               orientation='h',
               color=top20_countries.prize,
               color_continuous_scale='Viridis',
               title='Top 20 Countries by Number of Prizes')

h_bar.update_layout(xaxis_title='Number of Prizes',
                    yaxis_title='Country',
                    coloraxis_showscale=False)
h_bar.show()

# Улс бүрийн авсан Нобелийн шагналын тоог Choropleth газрын зураг дээр харуул

* Plotly-ийн баримт бичгийг ашиглаад дараах choropleth map-ийг хий:
(доорх зурагтай адил)](https://plotly.com/python/choropleth-maps/):

<img src=https://i.imgur.com/s4lqYZH.png>

* Plotly-д байгаа өнгөний сонголтуудыг туршиж үз.](https://plotly.com/python/builtin-colorscales/). Энэ газрын зураг дээр matter гэдэг дараалсан (sequential) өнгөний загвар гоё харагддаг.

Hint: Чи улс бүрт 3 үсэгтэй улсын код (жишээ нь: USA, JPN, FRA гэх мэт) ашиглах хэрэгтэй.


In [None]:
df_countries = df_data.groupby(['birth_country_current', 'ISO'],
                               as_index=False).agg({'prize': pd.Series.count})
df_countries.sort_values('prize', ascending=False)

In [None]:
world_map = px.choropleth(df_countries,
                          locations='ISO',
                          color='prize',
                          hover_name='birth_country_current',
                          color_continuous_scale=px.colors.sequential.matter)

world_map.update_layout(coloraxis_showscale=True,)

world_map.show()

# Ямар улс аль төрлөөр Нобелийн шагнал авч байна вэ?

**Даалгавар**: Дээр үүсгэсэн Plotly bar chart-аа ашиглаад, аль төрлүүд (category) тухайн улсын нийт шагналын хэдийг бүрдүүлж байгааг харуулж чадна уу? Доорх зураг шиг харагдах ёстой:

<img src=https://i.imgur.com/iGaIKCL.png>

* Герман болон Япон нь АНУ-тай харьцуулахад ямар төрөлд хамгийн сул байна вэ?

* Герман нь Их Британиас илүү Нобелийн шагнал авсан ямар төрөлд байна вэ?

* Франц нь Германаас илүү шагнал авсан ямар төрлүүдэд байна вэ?

* Австралийн Нобелийн шагналын ихэнхийг ямар төрөл бүрдүүлж байна вэ?

* Нидерландын шагналын тал хувийг аль төрөл эзэлж байна вэ?

* АНУ нь Эдийн засаг (Economics)-т Францаас илүү шагналтай юу?
Физик (Physics) эсвэл Анагаах ухаан (Medicine)-д яах вэ?


Хамгийн хэцүү хэсэг нь өгөгдлийг энэ графикт тохируулж бэлтгэх явдал юм!



<img src=https://i.imgur.com/VKjzKa1.png width=450>


In [None]:
cat_country = df_data.groupby(['birth_country_current', 'category'],
                               as_index=False).agg({'prize': pd.Series.count})
cat_country.sort_values(by='prize', ascending=False, inplace=True)

In [None]:
merged_df = pd.merge(cat_country, top20_countries, on='birth_country_current')
# change column names
merged_df.columns = ['birth_country_current', 'category', 'cat_prize', 'total_prize']
merged_df.sort_values(by='total_prize', inplace=True)

In [None]:
cat_cntry_bar = px.bar(x=merged_df.cat_prize,
                       y=merged_df.birth_country_current,
                       color=merged_df.category,
                       orientation='h',
                       title='Top 20 Countries by Number of Prizes and Category')

cat_cntry_bar.update_layout(xaxis_title='Number of Prizes',
                            yaxis_title='Country')
cat_cntry_bar.show()

### Цаг хугацааны явцад улс бүрийн авсан Нобелийн шагналын тоо

* АНУ хэзээ бусад бүх улсыг гүйцэж, хамгийн олон Нобелийн шагналтай улс болсон бэ?
* Түүнээс өмнө аль улс эсвэл улсууд тэргүүлж байсан бэ?
* Улс бүрийн жил бүрийн хуримтлагдсан (cumulative) Нобелийн шагналын тоог тооцоол. Энэ үед ялагчийн birth_country_current баганыг ашигла.
* Улс бүрийг өөр өөр өнгөтэй шугамаар харуулсан Plotly line chart үүсгэ.

In [None]:
prize_by_year = df_data.groupby(by=['birth_country_current', 'year'], as_index=False).count()
prize_by_year = prize_by_year.sort_values('year')[['year', 'birth_country_current', 'prize']]

In [None]:
cumulative_prizes = prize_by_year.groupby(by=['birth_country_current',
                                              'year']).sum().groupby(level=[0]).cumsum()
cumulative_prizes.reset_index(inplace=True)

In [None]:
l_chart = px.line(cumulative_prizes,
                  x='year',
                  y='prize',
                  color='birth_country_current',
                  hover_name='birth_country_current')

l_chart.update_layout(xaxis_title='Year',
                      yaxis_title='Number of Prizes')

l_chart.show()


# Хамгийн шилдэг судалгааны байгууллагууд аль нь вэ?

**Даалгавар**: Нобелийн шагнал хүртсэн хүмүүсийн харьяалагддаг байгууллагуудыг харуулсан bar chart үүсгэ. Доорх зурагтай төстэй харагдах ёстой.

<img src=https://i.imgur.com/zZihj2p.png width=600>

* Топ 20 байгууллага аль аль нь вэ?

* Чикагогийн Их Сургууль (University of Chicago) болон Харвардын Их Сургууль (Harvard University)-тай холбоотой хэдэн Нобелийн шагналтан байна вэ?

In [None]:
top20_orgs = df_data.organization_name.value_counts()[:20]
top20_orgs.sort_values(ascending=True, inplace=True)

In [None]:
org_bar = px.bar(x = top20_orgs.values,
                 y = top20_orgs.index,
                 orientation='h',
                 color=top20_orgs.values,
                 color_continuous_scale=px.colors.sequential.haline,
                 title='Top 20 Research Institutions by Number of Prizes')

org_bar.update_layout(xaxis_title='Number of Prizes',
                      yaxis_title='Institution',
                      coloraxis_showscale=False)
org_bar.show()

# Хамгийн олон нээлт хийдэг хотууд аль нь вэ?

Томоохон нээлтүүд хаана хийгддэг вэ?

**Даалгавар**:
* Нобелийн шагналтнуудтай холбоотой судалгааны байгууллагууд байрладаг хотуудын топ 20-ийг харуулсан Plotly bar chart үүсгэ.

* Дэлхий дээрх хамгийн том нээлтийн төв (number one hotspot) аль хот вэ?

* Европт хамгийн олон нээлт хийгдсэн хот аль нь вэ?

In [None]:
op20_org_cities = df_data.organization_city.value_counts()[:20]
top20_org_cities.sort_values(ascending=True, inplace=True)
city_bar2 = px.bar(x = top20_org_cities.values,
                  y = top20_org_cities.index,
                  orientation='h',
                  color=top20_org_cities.values,
                  color_continuous_scale=px.colors.sequential.Plasma,
                  title='Which Cities Do the Most Research?')

city_bar2.update_layout(xaxis_title='Number of Prizes',
                       yaxis_title='City',
                       coloraxis_showscale=False)
city_bar2.show()

# Нобелийн шагналтнууд хаана төрсөн бэ? Төрсөн хотуудаар нь харуул

**Даалгавар**:
* Нобелийн шагналтнуудын төрсөн хотуудын топ 20-ийг харуулсан Plotly bar chart үүсгэ.

* Графикт Plasma гэдэг нэртэй өнгөний scale ашигла.

* АНУ-ын нийт Нобелийн шагналын хэдэн хувь нь Нью-Йорк хотод төрсөн шагналтнуудаас ирсэн бэ?

* Лондон, Парис, Вена хотод төрсөн хэдэн Нобелийн шагналтан байна вэ?

* Топ 5 хотын хэд нь АНУ-д байрладаг вэ?

In [None]:
top20_cities = df_data.birth_city.value_counts()[:20]
top20_cities.sort_values(ascending=True, inplace=True)
city_bar = px.bar(x=top20_cities.values,
                  y=top20_cities.index,
                  orientation='h',
                  color=top20_cities.values,
                  color_continuous_scale=px.colors.sequential.Plasma,
                  title='Where were the Nobel Laureates Born?')

city_bar.update_layout(xaxis_title='Number of Prizes',
                       yaxis_title='City of Birth',
                       coloraxis_showscale=False)
city_bar.show()

# Plotly Sunburst график: Улс, хот, байгууллагыг нэгтгэх

**Даалгавар**:

* Байгууллага (organisation)-аар Нобелийн шагналын тоог group хийсэн DataFrame үүсгэ.

* Дараа нь Plotly-ийн зааврыг ашиглаад Sunburst chart үүсгэ.(https://plotly.com/python/sunburst-charts/)
* График дээр дарж (click) үзэхэд, Герман ба Францын талаар чи юу анзаарч байна вэ?


Доорх зурагтай төстэй Sunburst график гаргах.

<img src=https://i.imgur.com/cemX4m5.png width=300>



In [None]:
country_city_org = df_data.groupby(by=['organization_country',
                                       'organization_city',
                                       'organization_name'], as_index=False).agg({'prize': pd.Series.count})

country_city_org = country_city_org.sort_values('prize', ascending=False)

In [None]:
burst = px.sunburst(country_city_org,
                    path=['organization_country', 'organization_city', 'organization_name'],
                    values='prize',
                    title='Where do Discoveries Take Place?',
                   )

burst.update_layout(xaxis_title='Number of Prizes',
                    yaxis_title='City',
                    coloraxis_showscale=False)

burst.show()

# Шагнал авах үеийн Нобелийн шагналтнуудын насны хандлага

How Old Are the Laureates When the Win the Prize?

**Даалгавар**: Нобелийн шагнал хүртсэн жилд нь тухайн хүний насыг тооцоолж, df_data DataFrame-д
winning_age гэдэг нэртэй шинэ багана нэм.
Hint: Үүнд Pandas-ийн Series.dt функцуудыг ашиглаж болно.(https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.dt.html)



In [None]:
birth_years = df_data.birth_date.dt.year

In [None]:
df_data['winning_age'] = df_data.year - birth_years

### Хамгийн ахмад болон хамгийн залуу шагналтнууд хэн бэ?

**Даалгавар**:
* Хамгийн залуу болон хамгийн ахмад Нобелийн шагналтны нэр хэн бэ?

* Тэд ямар төрлөөр шагнал авсан бэ?

* Нобелийн шагналтнуудын дундаж нас хэд вэ?

* Нобелийн шагнал авсан хүмүүсийн 75% нь хэдэн наснаас доош байх үедээ шагнал авсан бэ?
* Seaborn ашиглан насны тархалтыг харуулсан histogram үүсгэ. bins (хэсгийн тоо)-ийн утгыг өөрчилж график хэрхэн өөрчлөгдөж байгааг ажигла.

In [None]:
display(df_data.nlargest(n=1, columns='winning_age'))
display(df_data.nsmallest(n=1, columns='winning_age'))

### Шагнал авах үеийн Нобелийн шагналтнуудын насны тайлбарлах статистик

* Шагнал авах үеийн насны descriptive statistics (дундаж, медиан, min, max гэх мэт)-ийг тооцоол.

* Дараа нь Seaborn-ийн .histplot() функц ашиглан насны тархалтыг histogram хэлбэрээр харуул.

* bin (хэсгийн хэмжээ)-ийг өөрчилж турш. 10, 20, 30, 50 гэсэн утгуудыг ашигла.

In [None]:
df_data.winning_age.describe()

In [None]:
plt.figure(figsize=(8, 4), dpi=200)
sns.histplot(data=df_data,
             x=df_data.winning_age,
             bins=30)
plt.xlabel('Age')
plt.title('Distribution of Age on Receipt of Prize')
plt.show()

### Түүхийн туршид Нобелийн шагнал авах үеийн нас

Нобелийн шагналтнууд урьдынхаас илүү хожуу насандаа нэр дэвшиж байна уу?
Шагнал авах үеийн нас цаг хугацааны явцад өссөн үү эсвэл буурсан уу?

**Даалгавар**

* Seaborn ашиглан trendline-тай .regplot үүсгэ.

* lowess=True гэж тохируулж, шугаман таамаглалын гулсах дундаж-ийг харуул.

* Best-fit шугамын дагуу 1900–1940 оны хооронд шагнал авсан хүмүүсийн дундаж нас хэд байсан бэ?

* Best-fit шугамын дагуу 2020 онд Нобелийн шагнал авах хүний нас хэд байхыг таамаглаж байна вэ?


In [None]:
plt.figure(figsize=(8,4), dpi=200)
with sns.axes_style("whitegrid"):
    sns.regplot(data=df_data,
                x='year',
                y='winning_age',
                lowess=True,
                scatter_kws = {'alpha': 0.4},
                line_kws={'color': 'black'})

plt.show()

### Нобелийн шагналын төрлүүдээр шагнал авах нас хэрхэн ялгаатай вэ?

Шагналтнуудын нас төрөл бүрээрээ хэрхэн өөр өөр байна вэ?

* Seaborn-ийн .boxplot() ашиглан төрөл бүрээр
дундаж, квартиль, хамгийн их, хамгийн бага утгууд хэрхэн ялгаатай байгааг харуул.
Хамгийн урт “whisker” (хамрах хүрээ) аль төрөлд байна вэ?

* Дундаж нас нь хамгийн өндөр байдаг шагналын төрөл аль вэ?

* Дундаж нас нь хамгийн бага байдаг шагналын төрөл аль вэ?

In [None]:
plt.figure(figsize=(8,4), dpi=200)
with sns.axes_style("whitegrid"):
    sns.boxplot(data=df_data,
                x='category',
                y='winning_age')

plt.show()

**Даалгавар**
* Seaborn-ийн .lmplot() болон row параметрийг ашиглаад
Нобелийн шагналын 6 төрлөөр тус тусад нь 6 график үүсгэ.
Мөн lowess=True гэж тохируул.

* Төрөл бүрт шагнал авах насны хандлага ямар байна вэ?

* Аль төрөлд нас өсөх хандлагатай, аль төрөлд буурах хандлагатай байна вэ?

* Энэ .lmplot() нь .boxplot()-оос өөр түүх (өөр дүгнэлт) харуулж байна уу?

* Дахин нэг график үүсгэ. Энэ удаа .lmplot() ашиглан
hue параметрээр бүх 6 төрлийг нэг график дээр харуул.


In [None]:
with sns.axes_style('whitegrid'):
    sns.lmplot(data=df_data,
               x='year',
               y='winning_age',
               row = 'category',
               lowess=True,
               aspect=2,
               scatter_kws = {'alpha': 0.6},
               line_kws = {'color': 'black'},)

plt.show()

In [None]:
with sns.axes_style("whitegrid"):
    sns.lmplot(data=df_data,
               x='year',
               y='winning_age',
               hue='category',
               lowess=True,
               aspect=2,
               scatter_kws={'alpha': 0.5},
               line_kws={'linewidth': 5})

plt.show()