# Анализ Университетов Мира (2023)
Я всех приветствую в очередной работе, где мы будет на примере датасета, содержащим данные по многим университетам мира, рассматривать университеты России и мира в целом, чтобы понять, куда,
возможно, стоит пойти учиться, если вдруг вы захотите целенаправленно изучать что-то для себя новое в разных странах и сферах в целом.

Данные я взял уже из готовой таблицы, собранно во время анализа в 2023 году, с сайта Kaggle.com.
Посмотреть и скачать данныые можно по ссылке: https://www.kaggle.com/datasets/tariqbashir/world-university-ranking-2023

---
## Описание датасета
```
World University Rankings 2023 is based upon 1,799 universities across 104 countries and regions based on many (at least 13) performance indicators that measure teaching, research, knowledge transfer, and international outlook. Data was collected from over 2,500 institutions, including survey responses from 40,000 scholars and analysis of over 121 million citations in 15.5 million research publications. The US has the most institutions overall and in the top 200, but China has overtaken Australia for the fourth-highest number of institutions in the top 200. The University of Oxford is ranked first for this year, while the highest new entry is Italy's Humanitas University.
```

---
## Импорт необходимых библиотек Python


In [198]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [199]:
db=pd.read_csv('dataset.csv',encoding='ISO-8859-1') # Без данного encoding параметра вылезет ошибка чтения файла
db

Unnamed: 0,Rank,Name,No. of FTE Students,No. of students per staff,International Students,Female:Male Ratio
0,,Country/Region,,,,
1,Reporter,Zarqa University,5768,18.1,32%,47:53:00
2,,Jordan,,,,
3,Reporter,Ziauddin University,4906,8.8,1%,63:37:00
4,,Pakistan,,,,
...,...,...,...,...,...,...
4872,,United Kingdom,,,,
4873,2,Harvard University,21887,9.6,25%,50:50:00
4874,,United States,,,,
4875,1,University of Oxford,20965,10.6,42%,48:52:00


## Комментарий к датасету
Вы только посмотрите на это безумие! NaN Строки, в одном столбце находятся разные параметры, нужно срочно приводить всё к нормальному виду.

---
## Нормализация таблицы

In [200]:
db.drop(labels=0, inplace=True)
db.reset_index(inplace=True, drop=True)
def find_irregularity(db,full=False):
    ''' 
    Проверим, вся ли таблица имеет такой вид, или она неоднородна
    '''
    prev=-1
    sum=0
    for index, row in db.iterrows():
        # print(index,row['Rank'])
        if pd.isna(row['Rank']):
            if index-prev!=2:
                sum+=1
                if sum<3 or full==True: #Чтобы вывод не забивался поставил ограничение на вывод: sum<10
                    print('-------------------------')
                    print(f'Внимание, появилась неоднородность в данных')
                    for i in range(index-2,index+3):
                        print(i,db['Rank'].iloc[i],db['Name'].iloc[i], index-prev)
            prev=index
    print(f"---------------------\nКол-во неодноровностей:{sum}")
    if sum==0:
        print(f"Congrats, all clear!")
find_irregularity(db)

-------------------------
Внимание, появилась неоднородность в данных
38 Reporter Western Caspian University 1
39 nan Azerbaijan 1
40 nan Explore 1
41 Reporter ?Wellspring University 1
42 nan Nigeria 1
-------------------------
Внимание, появилась неоднородность в данных
67 Reporter National University of Uzbekistan named after Mirzo Ulugbek 1
68 nan Uzbekistan 1
69 nan Explore 1
70 Reporter University of Uyo 1
71 nan Nigeria 1
---------------------
Кол-во неодноровностей:186


## Вывод:
Как видите, тут есть неоднородность в данных. Помимо того, что в одном столбце находятся и название университетов, и их страны. Так еще есть некая строка Explore, которая меняет последовательность, не давая мне правильно и быстро переделать таблицу, не портя ее структуру.
Если внимательно изучить таблицу, то можно предположить, что строки Explore нам вообще не нужны, они ничего нам не дают от слова совсем. Уберем их отсюда.

In [201]:
db=db[db['Name']!='Explore']
db.reset_index(inplace=True, drop=True)
find_irregularity(db, full=True)

-------------------------
Внимание, появилась неоднородность в данных
2346 10011200 St Marianna University School of Medicine 1
2347 nan Japan 1
2348 nan Not accredited 1
2349 10011200 ?tefan cel Mare University of Suceava 1
2350 nan Romania 1
---------------------
Кол-во неодноровностей:1


Как видите, осталась только одна неоднородность, причем очень странная. Посмотрим на нее поближе

In [206]:
db.iloc[2340:2351]

Unnamed: 0,Rank,Name,No. of FTE Students,No. of students per staff,International Students,Female:Male Ratio
2340,10011200,University of Szeged,20023.0,12.5,22%,55:45:00
2341,,Hungary,,,,
2342,10011200,SWPS University of Social Sciences and Humanities,14522.0,37.6,8%,78:22:00
2343,,Poland,,,,
2344,10011200,University of Sunderland,12050.0,15.9,40%,60:40:00
2345,,United Kingdom,,,,
2346,10011200,St Marianna University School of Medicine,833.0,0.9,1%,39 : 61
2347,,Japan,,,,
2348,,Not accredited,,,,
2349,10011200,?tefan cel Mare University of Suceava,9239.0,24.8,14%,59:41:00


Как видно, есть по сути пустая строка с ненаписанными данными тк университет, скорее всего, Не аккредитован.
> Unaccredited Universities is a list of colleges, universities, and other institutions that do not have the equivalent of regional academic accreditation. Some of these institutions may have legal authority to enroll students and grant degrees, but do not have regional academic accreditation for various reasons.

Найти не аккредитованные университеты можно по ссылке: https://www.scholaro.com/unaccredited-universities/

В нашем случае, просто избавимся от всех таких строк, если они есть (вроде одна только)

In [None]:
db=db[db['Name']!='Not accredited']
db.reset_index(inplace=True, drop=True)
find_irregularity(db, full=True)