# 1. Подготовка

В этом модуле мы научимся работать с простыми библиотеками для языка Python, понимать документацию к этим библиотекам и решать с их помощью свои прикладные задачи.

## Словарь

*Библиотека* (или, как говорят относительно Python, модуль) -- некая часть программного кода (например, в виде отдельного файла), цель которой -- использоваться при разработке других программ. В языке Python различают пакеты (package) и модули (module). Под словом библиотека можно понимать и то, и другое. Модуль -- это файл .py с некоторым исходным кодом. Пакет -- набор этих файлов (<a href="https://softwareengineering.stackexchange.com/questions/111871/module-vs-package">подробнее</a>). Например, **math** -- модуль языка Python, который содержит математические функции. Библиотеки, по сравнению со включением всех нужных функций непосредственно в язые, нужны:
- Чтобы дать программистам возможность не писать сложный, но нужный код заново, а использовать готовый;
- Чтобы не перегружать язык программирования редко используемыми функциями;
- Чтобы дать разработчикам, не имеющим отношения к разработке какого-то языка программирования, возможность распространять свои наработки на этом языке.

*Менеджер пакетов* -- специальная программа для конкретного языка программирования, цель которой -- облегчить пользователям установку библиотек для этого языка и предотвратить конфликты библиотек между собой (подумайте, откуда такие конфликты могут взяться). Для языка Python мы будем использовать менеджер пакетов **pip**, который входит в стандартную поставку языка Python 3 и в пакет Anaconda.

*Документация* -- набор текстов, описывающих поведение библиотеки. Когда библиотека публикуется онлайн, к ней пишут тексты, поясняющие, как её использовать. Это обязательная часть разработки библиотеки, без документации пользоваться ей никто не будет. Документация бывает плохая и хорошая, под последней имеется в виду такая, которая лаконично, подробно и понятно описывает, как библиотекой пользоваться и не допускает двояких толкований.

## Вопросы для размышления
1. Зачем нужны библиотеки с точки зрения разработчиков прикладных продуктов, разработчиков алгоритмов и разработчиков языков программирования?
2. Что должен уметь хороший менеджер пакетов?


# 2. Семинар
## Установка библиотеки wikipedia
Мы воспользуемся pip, чтобы скачать и установить библиотеку <a href="https://pypi.org/project/wikipedia/">wikipedia</a>. Можно сделать это из командной строки:

    pip install wikipedia
    
А можно и прямо из ноутбука, потому что ячейки Jupyter Notebook поддерживают командную строку, если добавить в начало восклицательный знак. Запустите ячейку ниже.

In [None]:
!pip install wikipedia

Collecting wikipedia
  Downloading wikipedia-1.4.0.tar.gz (27 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: wikipedia
  Building wheel for wikipedia (setup.py) ... [?25l[?25hdone
  Created wheel for wikipedia: filename=wikipedia-1.4.0-py3-none-any.whl size=11678 sha256=06905683adaebcd5bed26b599f13b1f61e414435008dac7e03c26dc7bd9e3d20
  Stored in directory: /root/.cache/pip/wheels/5e/b6/c5/93f3dec388ae76edc830cb42901bb0232504dfc0df02fc50de
Successfully built wikipedia
Installing collected packages: wikipedia
Successfully installed wikipedia-1.4.0


## Исследование возможностей библиотеки

In [None]:
# подключим библиотеку
import wikipedia

<a href="https://pypi.org/project/wikipedia/#description">По этой ссылке</a> можно найти описание библиотеки на официальном сайте пакетов для Python. В описании есть ссылка на документацию библиотеки, найдите её самостоятельно. К этой библиотеке документация состоит из двух частей: непосредственно документация и так называемый Quickstart. Имеет смысл начать с Quickstart, а если какие-то функции работают не так, как вы от них интуитивно ожидаете, перейти к чтению непосредственно документации.

Посмотрим, что можно с библиотекой делать. Сначала установим русский язык для поиска статей по заголовкам:

In [None]:
wikipedia.set_lang("ru")

Теперь загрузим какую-нибудь статью.

In [None]:
gagarin_page = wikipedia.page("Юрий Гагарин")

Какого класса объект, который возвращает вызов метода page?

In [None]:
type(gagarin_page)

wikipedia.wikipedia.WikipediaPage

Как узнать, какие поля есть у этого класса?

In [None]:
dir(gagarin_page)

['_WikipediaPage__continued_query',
 '_WikipediaPage__load',
 '_WikipediaPage__title_query_param',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 'categories',
 'content',
 'coordinates',
 'html',
 'images',
 'links',
 'original_title',
 'pageid',
 'parent_id',
 'references',
 'revision_id',
 'section',
 'sections',
 'summary',
 'title',
 'url']

In [None]:
print(gagarin_page.title)

Гагарин, Юрий Алексеевич


Давайте попробуем вызвать несколько из этих полей и методов, подробное описание того, как они работают, есть в документации.

In [None]:
print(gagarin_page.url)

https://ru.wikipedia.org/wiki/%D0%93%D0%B0%D0%B3%D0%B0%D1%80%D0%B8%D0%BD,_%D0%AE%D1%80%D0%B8%D0%B9_%D0%90%D0%BB%D0%B5%D0%BA%D1%81%D0%B5%D0%B5%D0%B2%D0%B8%D1%87


In [None]:
print(gagarin_page.content[:1000]) # Что делает этот код?

Ю́рий Алексе́евич Гага́рин (9 марта 1934, Клушино, Гжатский (ныне Гагаринский) район, Западная область (ныне — Смоленская область) — 27 марта 1968, возле села Новосёлово, Киржачский район, Владимирская область) — лётчик-космонавт СССР, Герой Советского Союза, кавалер высших знаков отличия ряда государств, почётный гражданин многих российских и зарубежных городов.
Полковник ВВС СССР (1963), военный лётчик 1-го класса, заслуженный мастер спорта СССР (1961), член ЦК ВЛКСМ, депутат Верховного Совета СССР 7-го и 8-го созывов.
12 апреля 1961 года Юрий Гагарин стал первым человеком в мировой истории, совершившим полёт в космическое пространство. Ракета-носитель «Восток» с кораблём «Восток-1», на борту которого находился Гагарин, была запущена с космодрома Байконур, расположенного в Кызылординской области Казахской ССР. После 108 минут полёта Гагарин успешно приземлился в Саратовской области, неподалёку от Энгельса. 12 апреля 1961 года, день полёта Юрия Гагарина в космос, был объявлен праздник

# 3. Задания для самостоятельной работы

### Фамилия, имя:

Рыбакина Елизавета

### Дата отправки:

16.09.2023

Каждая из задач оценивается от 0 до 2 баллов, в зависимости от успешности выполнения и с произвольным шагом. Возможно начисление бонусных баллов за красивые и интересные решения.

Скачайте этот ноутбук, выполните задания. Впишите свои имя, фамилию и дату выполнения работы в блоке выше. Удалите все ячейки выше ячейки "Задания для самостоятельной работы". Сохраните получившийся ноутбук, а также конвертируйте его в pdf. Назовите оба файла так, чтобы из них было понятно, кто вы и что это за задание, и пошлите их вашему преподавателю таким образом, как он(а) сказал(а).

### 1. Мне сказали слово, я расплёл его в строку
Напечатайте заголовки 10 случайных статей из Википедии. Подсказка: сначала прочтите документацию, вам нужен метод random из библиотеки wikipedia.

In [None]:
 wikipedia.random(10)# ваш код здесь

['Орнитоптера крез',
 'Задеть за мёртвое',
 'Кеннеди, Брайан',
 'Гурьевка (Барыш)',
 'Клипова, Людмила',
 'Фиготин, Борис Семёнович',
 'Лёйнгрюн, Арнольд',
 'Дор, Штефан',
 'Ориньяк',
 'Сельское поселение Благовещенка']

### 2.  Ленинград -- Амстердам
Выведите самую красивую фотографию со страницы города, в котором вы хотите побывать. Вам поможет метод images, который возвращает список ссылок на все картинки на странице. Выберите любую ссылку и воспользуйтесь кодом ниже.

In [None]:

from IPython.display import Image# Эта строка и строка ниже позволят показывать картинки внутри ноутбука.
from IPython.core.display import HTML
 # Загрузите нужную страницу.
page=wikipedia.page(title="Москва", pageid=None, auto_suggest=True, redirect=True, preload=True)
print(page.url)
image_link='https://ru.wikipedia.org/wiki/%D0%9C%D0%BE%D1%81%D0%BA%D0%B2%D0%B0#/media/%D0%A4%D0%B0%D0%B9%D0%BB:Moscow_July_2011-16.jpg'
Image(url=image_link)


https://ru.wikipedia.org/wiki/%D0%9C%D0%BE%D1%81%D0%BA%D0%B2%D0%B0


### 3. Урок географии

С помощью wikipedia.geosearch выясните, как называется провинция в Чили, где находится остров Пасхи.

Подсказка: радиус равен 10, координаты десятичные.

In [None]:
page=wikipedia.page(title="остров Пасхи, Чили", pageid=None, auto_suggest=True, redirect=True, preload=True)# ваш код здесь
print(dir(page))
print(page.url)
print(page.coordinates)
(lan, lon)=page.coordinates
wikipedia.geosearch(lan, lon, results=10, radius=10)

['_WikipediaPage__continued_query', '_WikipediaPage__load', '_WikipediaPage__title_query_param', '__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_content', '_images', '_links', '_parent_id', '_references', '_revision_id', '_sections', '_summary', 'categories', 'content', 'coordinates', 'html', 'images', 'links', 'original_title', 'pageid', 'parent_id', 'references', 'revision_id', 'section', 'sections', 'summary', 'title', 'url']
https://ru.wikipedia.org/wiki/%D0%9E%D1%81%D1%82%D1%80%D0%BE%D0%B2_%D0%9F%D0%B0%D1%81%D1%85%D0%B8
(Decimal('-27.11670000000000158024704433046281337738037109375'), Decimal('-109.349999999999994315658113919198513031005859375'))


['Субтропический широколиственный лес острова Пасхи',
 'Остров Пасхи',
 'Исла-де-Паскуа (провинция)']

### 4. Англо-русский словарь
Сколько всего языков для Википедии поддерживает эта библиотека? Напечатайте первый с начала и первый с конца в их алфавитном порядке.

Подсказка: воспользуйтесь функцией sort для словарей. Прочитайте документацию к ней, если вы не знаете, как ей пользоваться.


In [None]:
dir(wikipedia)# ваш код здесь
sorted(wikipedia.languages().values())
d=sorted(wikipedia.languages().values())
print(len(d)+1)

518


### 5. Время, назад!
Страницы Википедии ссылаются друг на друга. Названия всех статей, на который ссылается данная, можно получить, обратившись к полю links. Найдите любой путь по ссылкам, который ведёт от Евклида к Юрию Гагарину (1 балл). Найдите кратчайший путь по ссылкам (1 балл).

Подсказка: обратите внимание, как выглядит ссылка на страницу Гагарина.

In [None]:
gagarin_page = wikipedia.page("Юрий Гагарин")# ваш код здесь
evklid_page = wikipedia.page("Евклид")# ваш код здесь
print(gagarin_page.url)
print(gagarin_page.links)
d1=gagarin_page.links
print(len(d1)+1)
d1=evklid_page.links
print(len(d1)+1)
rezult=(list(set(gagarin_page.links)&set(evklid_page.links)))
print(rezult)
print(len(rezult)+1)


https://ru.wikipedia.org/wiki/%D0%93%D0%B0%D0%B3%D0%B0%D1%80%D0%B8%D0%BD,_%D0%AE%D1%80%D0%B8%D0%B9_%D0%90%D0%BB%D0%B5%D0%BA%D1%81%D0%B5%D0%B5%D0%B2%D0%B8%D1%87
['(1772) Гагарин', '122-я истребительная авиационная дивизия', '12 апреля', '1934 год', '1961 год', '1968 год', '1976', '2023 год', '27 марта', '30 марта', '40-летие космического полёта Ю. А. Гагарина (монеты)', '769-й истребительный авиационный полк', '9 марта', 'CiNii', 'Foreign Broadcast Information Service', 'Gemeinsame Normdatei', 'Internet Movie Database', 'Joint Publications Research Service', 'NASA', 'NUKAT', 'RTVI', 'Rolls-Royce Silver Cloud', 'Sports.ru', 'Sukhoi Superjet 100', 'UTC', 'VIAF', 'Vice (журнал)', 'W. W. Norton & Company', 'Wayback Machine', 'WorldCat', 'YouTube', 'Абдель Хаким Амер', 'Абрамов, Анатолий Петрович (учёный)', 'Авангардная музыка', 'Авиамарш', 'Австрия', 'Автово (исторический район)', 'Агальцов, Филипп Александрович', 'Адъюнктура', 'Азербайджан', 'Азов', 'Аксёнов, Владимир Викторович', 'Алгорит

# Скачивание наборов данных Kaggle

Дополнительная информация по работе с [Kaggle API](https://github.com/Kaggle/kaggle-api)

1. **Создайте ключ `API` в `Kaggle`**.

Моя учетная запись -> Settings-> API -> Создать новые токены API.

На ваш компьютер будет загружен файл `kaggle.json`. Вы можете загрузить на `Google` Диск вручную или использовать для загрузки приведенный ниже скрипт.

Если вы хотите использовать скрипт для загрузки файла `kaggle.json`, используйте следующий фрагмент в ячейке кода:

In [None]:
from google.colab import files
files.upload()

Saving kaggle.json to kaggle.json


{'kaggle.json': b'{"username":"elisabethryb","key":"d1fa5ef283e2bfd60a198a8534677af0"}'}

Установите `Kaggle API`, используя

In [None]:
!pip install -q kaggle

Переместите файл `kaggle.json` в **~/.kaggle**, где клиент `API` ожидает расположения вашего токена:

In [None]:
!mkdir -p ~/.kaggle
!cp kaggle.json ~/.kaggle/

Предоставьте разрешения на изменение, чтобы избежать предупреждения при запуске инструмента `Kaggle`.

In [None]:
!chmod 600 ~/.kaggle/kaggle.json

Теперь вы можете получить доступ к наборам данных с помощью клиента

In [None]:
!kaggle datasets list

ref                                                        title                                           size  lastUpdated          downloadCount  voteCount  usabilityRating  
---------------------------------------------------------  ---------------------------------------------  -----  -------------------  -------------  ---------  ---------------  
nelgiriyewithana/top-spotify-songs-2023                    Most Streamed Spotify Songs 2023                47KB  2023-08-26 11:04:57           9009        296  1.0              
josephinelsy/spotify-top-hit-playlist-2010-2022            Spotify Top Hit Playlist (2010-2022)           210KB  2023-09-08 06:11:44           1603         50  1.0              
nelgiriyewithana/global-youtube-statistics-2023            Global YouTube Statistics 2023                  60KB  2023-07-28 15:36:38          18676        589  1.0              
muhammadtalhaawan/world-export-and-import-dataset          World Export & Import Dataset (1989 - 2023)    721K

In [None]:
import kaggle

# List of all datasets available on Kaggle
kaggle.api.dataset_list()

[nelgiriyewithana/top-spotify-songs-2023,
 josephinelsy/spotify-top-hit-playlist-2010-2022,
 nelgiriyewithana/global-youtube-statistics-2023,
 muhammadtalhaawan/world-export-and-import-dataset,
 joebeachcapital/students-performance,
 iamsouravbanerjee/airline-dataset,
 mohammadrizwansajjad/top-200-movies-of-2023,
 berkayeserr/phone-prices,
 lorentzyeung/all-japanese-anime-titles-in-imdb,
 joebeachcapital/restaurant-reviews,
 carlmcbrideellis/zzzs-lightweight-training-dataset-target,
 mjshri23/life-expectancy-and-socio-economic-world-bank,
 nelgiriyewithana/world-stock-prices-daily-updating,
 farahalarbeed/car-prices-jordan,
 akhiljethwa/global-electricity-statistics,
 sazidthe1/global-happiness-scores-and-factors,
 imtkaggleteam/renewable-energy-1960-2023,
 ahmedsayed564/amazon-sales-dataset,
 alitaqi000/world-university-rankings-2023,
 aemyjutt/salesdata]

In [None]:
# поиск наборов данных на Kaggle о ""ключевое слово"""
datasets = kaggle.api.datasets_list(search="education")

print(datasets)

[{'subtitleNullable': 'From World Bank Open Data', 'creatorNameNullable': 'Kaggle Team', 'creatorUrlNullable': 'kaggleteam', 'totalBytesNullable': 79282075, 'urlNullable': 'https://www.kaggle.com/datasets/theworldbank/education-statistics', 'licenseNameNullable': 'Unknown', 'descriptionNullable': None, 'ownerNameNullable': 'World Bank', 'ownerRefNullable': 'theworldbank', 'titleNullable': 'Education Statistics', 'currentVersionNumberNullable': 45, 'usabilityRatingNullable': 0.5882353, 'id': 398, 'ref': 'theworldbank/education-statistics', 'subtitle': 'From World Bank Open Data', 'hasSubtitle': True, 'creatorName': 'Kaggle Team', 'hasCreatorName': True, 'creatorUrl': 'kaggleteam', 'hasCreatorUrl': True, 'totalBytes': 79282075, 'hasTotalBytes': True, 'url': 'https://www.kaggle.com/datasets/theworldbank/education-statistics', 'hasUrl': True, 'lastUpdated': '2019-05-16T20:10:10.61Z', 'downloadCount': 26871, 'isPrivate': False, 'isFeatured': False, 'licenseName': 'Unknown', 'hasLicenseName'

In [None]:
!kaggle datasets list -s "education"

ref                                                                     title                                               size  lastUpdated          downloadCount  voteCount  usabilityRating  
----------------------------------------------------------------------  -------------------------------------------------  -----  -------------------  -------------  ---------  ---------------  
theworldbank/education-statistics                                       Education Statistics                                76MB  2019-05-16 20:10:10          26871        501  0.5882353        
rajanand/education-in-india                                             Education in India                                 880KB  2017-08-14 17:07:50          18966        228  0.8235294        
vidyapb/indian-school-education-statistics                              Indian School Education Statistics                  24KB  2020-07-23 17:26:11          12074        224  1.0              
noriuk/us-education-datas

In [None]:
!pip install pandas
import pandas as pd



In [None]:
datasets = kaggle.api.datasets_list(search="education")
df1=pd.DataFrame(datasets)
pd.DataFrame(datasets)

Unnamed: 0,subtitleNullable,creatorNameNullable,creatorUrlNullable,totalBytesNullable,urlNullable,licenseNameNullable,descriptionNullable,ownerNameNullable,ownerRefNullable,titleNullable,...,topicCount,viewCount,voteCount,currentVersionNumber,hasCurrentVersionNumber,usabilityRating,hasUsabilityRating,tags,files,versions
0,From World Bank Open Data,Kaggle Team,kaggleteam,79282075.0,https://www.kaggle.com/datasets/theworldbank/e...,Unknown,,World Bank,theworldbank,Education Statistics,...,0,259928,501,45,True,0.588235,True,"[{'nameNullable': 'global', 'descriptionNullab...",[],[]
1,District and state-wise primary & secondary sc...,Rajanand Ilangovan,rajanand,900997.0,https://www.kaggle.com/datasets/rajanand/educa...,CC BY-SA 4.0,,Rajanand Ilangovan,rajanand,Education in India,...,0,116292,228,1,True,0.823529,True,"[{'nameNullable': 'india', 'descriptionNullabl...",[],[]
2,"Statistics for Indian Schools, includes GER, W...",Vidya Pb,vidyapb,24085.0,https://www.kaggle.com/datasets/vidyapb/indian...,"Database: Open Database, Contents: © Original ...",,Vidya Pb,vidyapb,Indian School Education Statistics,...,0,82949,224,9,True,1.0,True,"[{'nameNullable': 'india', 'descriptionNullabl...",[],[]
3,"K-12 financial, enrollment, and achievement da...",Roy Garrard,noriuk,155201337.0,https://www.kaggle.com/datasets/noriuk/us-educ...,Other (specified in description),,Roy Garrard,noriuk,U.S. Education Datasets: Unification Project,...,0,158722,462,5,True,0.882353,True,"[{'nameNullable': 'united states', 'descriptio...",[],[]
4,World Bank: Education Data (BigQuery Dataset),Paul Mooney,paultimothymooney,,https://www.kaggle.com/datasets/theworldbank/w...,CC0: Public Domain,,World Bank,theworldbank,World Bank: Education Data,...,0,154667,387,3,True,0.647059,True,"[{'nameNullable': 'healthcare', 'descriptionNu...",[],[]
5,Effectiveness of online education,Md. Mahmudul Hasan Suzan,mdmahmudulhasansuzan,6587.0,https://www.kaggle.com/datasets/mdmahmudulhasa...,CC BY-SA 4.0,,Md. Mahmudul Hasan Suzan,mdmahmudulhasansuzan,Students Adaptability Level in Online Education,...,0,99872,310,1,True,1.0,True,"[{'nameNullable': 'universities and colleges',...",[],[]
6,Over 4000 internationally comparable education...,Larxel,andrewmvd,39427879.0,https://www.kaggle.com/datasets/andrewmvd/glob...,Attribution 4.0 International (CC BY 4.0),,Larxel,andrewmvd,Global Education Statistics,...,0,40770,111,1,True,0.941176,True,"[{'nameNullable': 'education', 'descriptionNul...",[],[]
7,Revenues and expenditures for U.S. grade schoo...,Roy Garrard,noriuk,89579493.0,https://www.kaggle.com/datasets/noriuk/us-educ...,CC0: Public Domain,,Roy Garrard,noriuk,U.S. Educational Finances,...,0,46690,130,6,True,0.764706,True,"[{'nameNullable': 'united states', 'descriptio...",[],[]
8,Raise the curtain on the true cost of higher e...,Rachael Tatman,rtatman,589617678.0,https://www.kaggle.com/datasets/kaggle/college...,CC0: Public Domain,,Kaggle,kaggle,US Dept of Education: College Scorecard,...,0,149096,225,3,True,0.764706,True,"[{'nameNullable': 'universities and colleges',...",[],[]
9,Pennsylvania's Employee Salaries,The Devastator,thedevastator,228512.0,https://www.kaggle.com/datasets/thedevastator/...,Other (specified in description),,The Devastator,thedevastator,Higher Education Wages,...,0,18212,65,2,True,1.0,True,"[{'nameNullable': 'gender', 'descriptionNullab...",[],[]






In [None]:
df1.to_excel("education.xlsx", sheet_name='education')

In [None]:
from google.colab import files
files.download('education.xlsx')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# Изучим датасет **The Times Higher Education World University Rankings**


Download Dataset.

In [None]:
!kaggle datasets download -d r1chardson/the-world-university-rankings-2011-2023

Downloading the-world-university-rankings-2011-2023.zip to /content
  0% 0.00/1.27M [00:00<?, ?B/s] 79% 1.00M/1.27M [00:00<00:00, 7.71MB/s]
100% 1.27M/1.27M [00:00<00:00, 8.06MB/s]


In [None]:
import zipfile

with zipfile.ZipFile("the-world-university-rankings-2011-2023.zip","r") as zip_ref:

    # extracting content in the zipfile
    zip_ref.extractall()



In [None]:
!ls

2011_rankings.csv  2020_rankings.csv
2012_rankings.csv  2021_rankings.csv
2013_rankings.csv  2022_rankings.csv
2014_rankings.csv  2023_rankings.csv
2015_rankings.csv  education.xlsx
2016_rankings.csv  kaggle.json
2017_rankings.csv  sample_data
2018_rankings.csv  the-world-university-rankings-2011-2023.zip
2019_rankings.csv


In [None]:
# reading the contents of the "NetFlix.csv"
df = pd.read_csv("2022_rankings.csv")

# printing first 6 raws of the dataframe
df.head(100)

Unnamed: 0,rank_order,rank,name,scores_overall,scores_overall_rank,scores_teaching,scores_teaching_rank,scores_research,scores_research_rank,scores_citations,...,scores_international_outlook_rank,location,stats_number_students,stats_student_staff_ratio,stats_pc_intl_students,stats_female_male_ratio,aliases,subjects_offered,closed,unaccredited
0,10,1,University of Oxford,95.7,10,91.0,5,99.6,1,98.0,...,26,United Kingdom,20835,10.7,42%,47 : 53,University of Oxford,"Accounting & Finance,General Engineering,Commu...",False,False
1,20,=2,California Institute of Technology,95.0,20,93.6,2,96.9,4,97.8,...,167,United States,2233,6.3,34%,36 : 64,California Institute of Technology caltech,"Languages, Literature & Linguistics,Economics ...",False,False
2,30,=2,Harvard University,95.0,30,94.5,1,98.9,3,99.2,...,209,United States,21574,9.5,24%,50 : 50,Harvard University,"Mathematics & Statistics,Civil Engineering,Lan...",False,False
3,40,4,Stanford University,94.9,40,92.3,3,96.8,5,99.9,...,211,United States,16319,7.3,23%,46 : 54,Stanford University,"Physics & Astronomy,Computer Science,Politics ...",False,False
4,50,=5,University of Cambridge,94.6,50,90.9,6,99.5,2,96.2,...,32,United Kingdom,19680,11.1,39%,47 : 53,University of Cambridge,"Business & Management,General Engineering,Art,...",False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,960,=96,University of Copenhagen,62.7,960,46.8,130,47.1,143,88.8,...,142,Denmark,30326,4.2,18%,61 : 39,University of Copenhagen,"Languages, Literature & Linguistics,Sociology,...",False,False
96,970,=96,Ghent University,62.7,970,48.9,111,58.4,87,79.2,...,419,Belgium,38984,35.7,11%,56 : 44,Ghent University,"Accounting & Finance,Education,Economics & Eco...",False,False
97,980,98,"University of California, Irvine",62.4,980,42.5,179,49.0,133,93.8,...,277,United States,35944,17.1,28%,51 : 49,"University of California, Irvine","Languages, Literature & Linguistics,Biological...",False,False
98,990,=99,Dartmouth College,62.3,990,60.1,58,40.2,216,93.6,...,845,United States,6378,7.6,15%,49 : 51,Dartmouth College,"Physics & Astronomy,Languages, Literature & Li...",False,False


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2345 entries, 0 to 2344
Data columns (total 24 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   rank_order                         2345 non-null   int64  
 1   rank                               2345 non-null   object 
 2   name                               2345 non-null   object 
 3   scores_overall                     1799 non-null   object 
 4   scores_overall_rank                2345 non-null   int64  
 5   scores_teaching                    1799 non-null   float64
 6   scores_teaching_rank               2345 non-null   int64  
 7   scores_research                    1799 non-null   float64
 8   scores_research_rank               2345 non-null   int64  
 9   scores_citations                   1799 non-null   float64
 10  scores_citations_rank              2345 non-null   int64  
 11  scores_industry_income             1799 non-null   float

In [None]:
my_df =df[['rank','name','scores_overall','scores_teaching','scores_research','location','stats_number_students']].copy()

In [None]:
my_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2112 entries, 0 to 2111
Data columns (total 7 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   rank                   2112 non-null   object 
 1   name                   2112 non-null   object 
 2   scores_overall         1662 non-null   object 
 3   scores_teaching        1662 non-null   float64
 4   scores_research        1662 non-null   float64
 5   location               2112 non-null   object 
 6   stats_number_students  2112 non-null   object 
dtypes: float64(2), object(5)
memory usage: 115.6+ KB


In [None]:
my_df

Unnamed: 0,rank,name,scores_overall,scores_teaching,scores_research,location,stats_number_students
0,1,University of Oxford,95.7,91.0,99.6,United Kingdom,20835
1,=2,California Institute of Technology,95.0,93.6,96.9,United States,2233
2,=2,Harvard University,95.0,94.5,98.9,United States,21574
3,4,Stanford University,94.9,92.3,96.8,United States,16319
4,=5,University of Cambridge,94.6,90.9,99.5,United Kingdom,19680
...,...,...,...,...,...,...,...
2107,Reporter,Yaşar University,,,,Turkey,6847
2108,Reporter,Yenepoya University,,,,India,3104
2109,Reporter,Yogyakarta State University,,,,Indonesia,24988
2110,Reporter,York St John University,,,,United Kingdom,6030


In [None]:
my_df.isnull().values.any()

True

In [None]:
my_df.isnull().sum()

rank                       0
name                       0
scores_overall           450
scores_teaching          450
scores_research          450
location                   0
stats_number_students      0
dtype: int64

In [None]:
df.isnull().sum().sum()

2779

In [None]:
my_df.isna().sum()/(len(df))*100

rank                      0.000000
name                      0.000000
scores_overall           21.306818
scores_teaching          21.306818
scores_research          21.306818
location                  0.000000
stats_number_students     0.000000
dtype: float64

In [None]:
my_df.isnull().sum()/(len(df))*100

rank                      0.000000
name                      0.000000
scores_overall           21.306818
scores_teaching          21.306818
scores_research          21.306818
location                  0.000000
stats_number_students     0.000000
dtype: float64

In [None]:
df2 = my_df.dropna()

In [None]:
df2

Unnamed: 0,rank,name,scores_overall,scores_teaching,scores_research,location,stats_number_students
0,1,University of Oxford,95.7,91.0,99.6,United Kingdom,20835
1,=2,California Institute of Technology,95.0,93.6,96.9,United States,2233
2,=2,Harvard University,95.0,94.5,98.9,United States,21574
3,4,Stanford University,94.9,92.3,96.8,United States,16319
4,=5,University of Cambridge,94.6,90.9,99.5,United Kingdom,19680
...,...,...,...,...,...,...,...
1657,1201+,Yokohama National University,10.6–22.3,22.6,17.6,Japan,9805
1658,1201+,Yuan Ze University,10.6–22.3,20.1,13.7,Taiwan,8017
1659,1201+,Yuri Gagarin State Technical University of Sar...,10.6–22.3,15.2,9.5,Russian Federation,11127
1660,1201+,Yuriy Fedkovych Chernivtsi National University,10.6–22.3,17.7,8.6,Ukraine,11981


In [None]:
df2.isnull().values.any()

False

    Только рф

In [None]:
rslt_df = df2[df2['location'] == 'Russian Federation']

In [None]:
rslt_df

Unnamed: 0,rank,name,scores_overall,scores_teaching,scores_research,location,stats_number_students
159,=158,Lomonosov Moscow State University,56.8,80.3,69.9,Russian Federation,29118
226,201–250,Moscow Institute of Physics and Technology (MIPT),50.4–53.9,51.6,44.5,Russian Federation,5920
316,301–350,HSE University,46.1–48.0,34.9,45.0,Russian Federation,28901
330,301–350,Peter the Great St Petersburg Polytechnic Univ...,46.1–48.0,27.8,18.4,Russian Federation,16550
453,401–500,National Research Nuclear University MEPhI,40.9–44.0,42.8,40.5,Russian Federation,5162
467,401–500,Saint-Petersburg Mining University,40.9–44.0,21.7,11.7,Russian Federation,7753
528,501–600,Don State Technical University,38.1–40.8,17.1,8.2,Russian Federation,26376
572,501–600,Plekhanov Russian University of Economics,38.1–40.8,23.3,11.0,Russian Federation,14450
675,601–800,ITMO University,32.0–37.9,30.7,32.5,Russian Federation,11089
715,601–800,Moscow State University of Civil Engineering,32.0–37.9,19.9,9.6,Russian Federation,9229


In [None]:
rslt_df.reset_index(drop=True, inplace=True)

In [None]:
rslt_df

Unnamed: 0,rank,name,scores_overall,scores_teaching,scores_research,location,stats_number_students
0,=158,Lomonosov Moscow State University,56.8,80.3,69.9,Russian Federation,29118
1,201–250,Moscow Institute of Physics and Technology (MIPT),50.4–53.9,51.6,44.5,Russian Federation,5920
2,301–350,HSE University,46.1–48.0,34.9,45.0,Russian Federation,28901
3,301–350,Peter the Great St Petersburg Polytechnic Univ...,46.1–48.0,27.8,18.4,Russian Federation,16550
4,401–500,National Research Nuclear University MEPhI,40.9–44.0,42.8,40.5,Russian Federation,5162
5,401–500,Saint-Petersburg Mining University,40.9–44.0,21.7,11.7,Russian Federation,7753
6,501–600,Don State Technical University,38.1–40.8,17.1,8.2,Russian Federation,26376
7,501–600,Plekhanov Russian University of Economics,38.1–40.8,23.3,11.0,Russian Federation,14450
8,601–800,ITMO University,32.0–37.9,30.7,32.5,Russian Federation,11089
9,601–800,Moscow State University of Civil Engineering,32.0–37.9,19.9,9.6,Russian Federation,9229


In [None]:
rslt_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 7 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   rank                   60 non-null     object 
 1   name                   60 non-null     object 
 2   scores_overall         60 non-null     object 
 3   scores_teaching        60 non-null     float64
 4   scores_research        60 non-null     float64
 5   location               60 non-null     object 
 6   stats_number_students  60 non-null     object 
dtypes: float64(2), object(5)
memory usage: 3.4+ KB


In [None]:
rslt_df['scores_overall']=rslt_df['scores_overall'].str[-4:]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rslt_df['scores_overall']=rslt_df['scores_overall'].str[-4:]


In [None]:
rslt_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 7 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   rank                   60 non-null     object 
 1   name                   60 non-null     object 
 2   scores_overall         60 non-null     object 
 3   scores_teaching        60 non-null     float64
 4   scores_research        60 non-null     float64
 5   location               60 non-null     object 
 6   stats_number_students  60 non-null     object 
dtypes: float64(2), object(5)
memory usage: 3.4+ KB


In [None]:
rslt_df

Unnamed: 0,rank,name,scores_overall,scores_teaching,scores_research,location,stats_number_students
0,=158,Lomonosov Moscow State University,56.8,80.3,69.9,Russian Federation,29118
1,201–250,Moscow Institute of Physics and Technology (MIPT),53.9,51.6,44.5,Russian Federation,5920
2,301–350,HSE University,48.0,34.9,45.0,Russian Federation,28901
3,301–350,Peter the Great St Petersburg Polytechnic Univ...,48.0,27.8,18.4,Russian Federation,16550
4,401–500,National Research Nuclear University MEPhI,44.0,42.8,40.5,Russian Federation,5162
5,401–500,Saint-Petersburg Mining University,44.0,21.7,11.7,Russian Federation,7753
6,501–600,Don State Technical University,40.8,17.1,8.2,Russian Federation,26376
7,501–600,Plekhanov Russian University of Economics,40.8,23.3,11.0,Russian Federation,14450
8,601–800,ITMO University,37.9,30.7,32.5,Russian Federation,11089
9,601–800,Moscow State University of Civil Engineering,37.9,19.9,9.6,Russian Federation,9229


In [None]:
rslt_df['scores_overall'] = rslt_df['scores_overall'].astype('float64')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rslt_df['scores_overall'] = rslt_df['scores_overall'].astype('float64')


In [None]:
rslt_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 7 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   rank                   60 non-null     object 
 1   name                   60 non-null     object 
 2   scores_overall         60 non-null     float64
 3   scores_teaching        60 non-null     float64
 4   scores_research        60 non-null     float64
 5   location               60 non-null     object 
 6   stats_number_students  60 non-null     object 
dtypes: float64(3), object(4)
memory usage: 3.4+ KB


In [None]:
dd=rslt_df

In [None]:
dd['stats_number_students'] = [x.replace(',', '.') for x in dd['stats_number_students']]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dd['stats_number_students'] = [x.replace(',', '.') for x in dd['stats_number_students']]


In [None]:
dd.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 7 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   rank                   60 non-null     object 
 1   name                   60 non-null     object 
 2   scores_overall         60 non-null     float64
 3   scores_teaching        60 non-null     float64
 4   scores_research        60 non-null     float64
 5   location               60 non-null     object 
 6   stats_number_students  60 non-null     object 
dtypes: float64(3), object(4)
memory usage: 3.4+ KB


In [None]:
dd['scores_overall'] = dd['scores_overall'].astype('float64')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dd['scores_overall'] = dd['scores_overall'].astype('float64')


In [None]:
dd.to_excel("education_ru.xlsx", sheet_name='education_ru')
from google.colab import files
files.download('education_ru.xlsx')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>