## Условие

Для выполнения работы будет использован csv файл “IQ_countries”, содержащий данные о среднем значении IQ по странам мира. Каждое из наблюдений в файле имеет следующие характеристики:

* Rank – место в рейтинге
* Country – название страны
* Average IQ – средний показатель IQ
* Continent – название континента
* Literacy Rate – коэффициент грамотности
* Nobel Prices – количество нобелевских премий
* Human Development Index – индекс человеческого развития
* Mean years of schooling – среднее количество лет школы
* Gross National Income – показатель “валовой национальный доход”
* Population – численность населения.

### Задание

Проведи разведочный анализ данных, выяви необычные взаимосвязи между значениями столбцов таблицы, выполни визуализацию, сделай выводы.

## Решение

### Подготовка данных

In [None]:
# Импорт необходимых библиотек
import numpy as np
import pandas as pd
# import plotly.graph_objects as go
import random

In [None]:
import plotly.express as px
def make_plot(df, x_col, y_col, title=None):
    # Список доступных цветовых схем plotly express
    colorscales = [
    'aggrnyl', 'agsunset', 'algae', 'amp', 'armyrose', 'balance',
    'blackbody', 'bluered', 'blues', 'blugrn', 'bluyl', 'brbg',
    'brwnyl', 'bugn', 'bupu', 'burg', 'burgyl', 'cividis', 'curl',
    'darkmint', 'deep', 'delta', 'dense', 'earth', 'edge', 'electric',
    'emrld', 'fall', 'geyser', 'gnbu', 'gray', 'greens', 'greys',
    'haline', 'hot', 'hsv', 'ice', 'icefire', 'inferno', 'jet',
    'magenta', 'magma', 'matter', 'mint', 'mrybm', 'mygbm', 'oranges',
    'orrd', 'oryel', 'oxy', 'peach', 'phase', 'picnic', 'pinkyl',
    'piyg', 'plasma', 'plotly3', 'portland', 'prgn', 'pubu', 'pubugn',
    'puor', 'purd', 'purp', 'purples', 'purpor', 'rainbow', 'rdbu',
    'rdgy', 'rdpu', 'rdylbu', 'rdylgn', 'redor', 'reds', 'solar',
    'spectral', 'speed', 'sunset', 'sunsetdark', 'teal', 'tealgrn',
    'tealrose', 'tempo', 'temps', 'thermal', 'tropic', 'turbid',
    'turbo', 'twilight', 'viridis', 'ylgn', 'ylgnbu', 'ylorbr',
    'ylorrd'
    ]
    random_colorscale = random.choice(colorscales)
    if title is None:
        title = f'{x_col} и {y_col}'

    fig = px.scatter(
        df,
        x=x_col,
        y=y_col,
        color="Continent",
        hover_name="Country",
        color_continuous_scale=random_colorscale,
        title=title
    )
    # Линии 5% и 95% по X и Y
    x5, x95 = np.nanpercentile(df[x_col], 5), np.nanpercentile(df[x_col], 95)
    y5, y95 = np.nanpercentile(df[y_col], 5), np.nanpercentile(df[y_col], 95)
    fig.add_vline(x=x5, line_dash='dash', line_color='red', annotation_text='5%', annotation_position='top left')
    fig.add_vline(x=x95, line_dash='dash', line_color='blue', annotation_text='95%', annotation_position='top right')
    fig.add_hline(y=y5, line_dash='dash', line_color='red', annotation_text='5%', annotation_position='top right')
    fig.add_hline(y=y95, line_dash='dash', line_color='blue', annotation_text='95%', annotation_position='bottom right')
    #fig.update_layout(template='plotly_white')
    fig.update_layout(
    width=900,
    height=600,
    title_x=0.5
)
    fig.show()

In [None]:
# Скачиваем датасет
!wget --no-check-certificate "https://docs.google.com/uc?export=download&id=1d3kt9flMqa7SLzVHXZ6zYIS-OEFrK8TF" -O "IQ_countries.csv"

--2025-07-06 20:23:58--  https://docs.google.com/uc?export=download&id=1d3kt9flMqa7SLzVHXZ6zYIS-OEFrK8TF
Resolving docs.google.com (docs.google.com)... 172.253.122.102, 172.253.122.113, 172.253.122.100, ...
Connecting to docs.google.com (docs.google.com)|172.253.122.102|:443... connected.
HTTP request sent, awaiting response... 303 See Other
Location: https://drive.usercontent.google.com/download?id=1d3kt9flMqa7SLzVHXZ6zYIS-OEFrK8TF&export=download [following]
--2025-07-06 20:23:58--  https://drive.usercontent.google.com/download?id=1d3kt9flMqa7SLzVHXZ6zYIS-OEFrK8TF&export=download
Resolving drive.usercontent.google.com (drive.usercontent.google.com)... 142.251.179.132, 2607:f8b0:4004:c1f::84
Connecting to drive.usercontent.google.com (drive.usercontent.google.com)|142.251.179.132|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 11865 (12K) [application/octet-stream]
Saving to: ‘IQ_countries.csv’


2025-07-06 20:23:59 (73.8 MB/s) - ‘IQ_countries.csv’ saved [118

In [None]:
# Загрузка данных
df = pd.read_csv('IQ_countries.csv', quotechar="'")
df.at[8, 'Rank'] = str(df.iloc[8]['Population']).replace('"', '').strip()
df.at[8, 'Population'] = str(df.iloc[8]['Population']).replace('\t', '').replace('"', '').strip()
df['Rank'] = df['Rank'].astype('Int64')
df['Population'] = df['Population'].astype('float')

In [None]:
# Первичный просмотр, изучение
print("\n Info \n")
print(df.info())
print("\n\nHead \n")
print(df.head(10))
print("\n Describe \n")
print(df.describe())
print("\nIsnull sum\n")
print(df.isnull().sum())
print("\n Isnull \n")
print(df[df['Country'].isnull()].values)


 Info 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 193 entries, 0 to 192
Data columns (total 10 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Rank                     193 non-null    Int64  
 1   Country                  193 non-null    object 
 2   Average IQ               193 non-null    float64
 3   Continent                193 non-null    object 
 4   Literacy Rate            193 non-null    float64
 5   Nobel Prices             193 non-null    int64  
 6   Human Development Index  179 non-null    float64
 7   Mean years of schooling  179 non-null    float64
 8   Gross National Income    179 non-null    float64
 9   Population               193 non-null    float64
dtypes: Int64(1), float64(6), int64(1), object(2)
memory usage: 15.4+ KB
None


Head 

    Rank        Country  Average IQ Continent  Literacy Rate  Nobel Prices  \
0      1          Japan      106.48      Asia           0.99            2

In [None]:
def paint_heat_map(corr):
    fig = px.imshow(
        corr,
        text_auto=True,
        color_continuous_scale='RdBu_r',
        title='Тепловая карта корреляций между числовыми переменными'
    )
    fig.update_layout(
        width=900,
        height=600,
        title_x=0.5
    )
    fig.show()

In [None]:
# Ищем обычные взаимосвязи
numeric_cols = [
    'Average IQ', 'Literacy Rate', 'Nobel Prices',
    'Human Development Index', 'Mean years of schooling',
    'Gross National Income', 'Population'
]
corr = df[numeric_cols].corr()
paint_heat_map(corr)

Есть сильная корелляция (>0.7 по модулю) между следующими параметрами:

* Human Development Index - IQ
* Mean years of schooling - IQ
* Mean years of schooling - Literacy Rate
* Human Development Index - Literacy Rate
* Human Development Index - Gross National Income
* Human Development Index - Mean years of schooling

, где
* IQ – средний показатель IQ
* Literacy Rate – коэффициент грамотности
* Human Development Index – индекс человеческого развития
* Mean years of schooling – среднее количество лет школы
* Gross National Income – показатель “валовой национальный доход”

In [None]:
make_plot(df, 'Human Development Index', 'Average IQ', 'Связь между индексом человеческого развития и средним IQ')
make_plot(df, 'Mean years of schooling', 'Average IQ', 'Средние годы обучения и средний IQ')
make_plot(df, 'Mean years of schooling', 'Literacy Rate', 'Связь между средними годами обучения и коэффициентом грамотности')
make_plot(df, 'Human Development Index', 'Literacy Rate', 'Индекс человеческого развития и коэффициент грамотности')
make_plot(df, 'Human Development Index', 'Gross National Income', 'Связь между индексом человеского развития и валовым национальным доходом')
make_plot(df, 'Human Development Index', 'Mean years of schooling', 'Индекс человеческого развития и средние годы обучения')

### Проверка параметров без корелляции

In [None]:
make_plot(df, 'Population', 'Average IQ', 'Связь между средним IQ и населением')
make_plot(df, 'Population', 'Literacy Rate', 'Связь между коэффициентом грамотности и населением')
make_plot(df, 'Population', 'Human Development Index', 'Связь между индексом человеческого развития и населением')
make_plot(df, 'Population', 'Mean years of schooling', 'Связь между средними годами обучения и населением')
make_plot(df, 'Population', 'Gross National Income', 'Связь между валовым национальным доходом и населением')
make_plot(df, 'Human Development Index', 'Average IQ', 'Связь между индексом человеческого развития и средним IQ')
make_plot(df, 'Mean years of schooling', 'Average IQ', 'Связь между средними годами обучения и средним IQ')
make_plot(df, 'Gross National Income', 'Average IQ', 'Связь между валовым национальным доходом и средним IQ')

In [None]:
for continent, group in df.groupby('Continent'):
    print(f"\n=== {continent} ===")
    print(f"Количество стран: {len(group)}")
    corr = group[numeric_cols].corr()
    paint_heat_map(corr)


=== Africa ===
Количество стран: 52



=== Asia ===
Количество стран: 48



=== Central America ===
Количество стран: 23



=== Europe ===
Количество стран: 41



=== Europe/Asia ===
Количество стран: 3



=== North America ===
Количество стран: 4



=== Oceania ===
Количество стран: 10



=== South America ===
Количество стран: 12


## Выводы

Взаимосвязи, которые кажутся обычными для всего датасета, пропадают, когда происходит группировка по континентам:

1. Исчезновение основных связей
IQ и образование/развитие — главные взаимосвязи, найденные для всего мира, практически отсутствуют на уровне континентов:

IQ — Индекс человеческого развития: сохраняется только в 3 из 8 регионов

IQ — Средние годы обучения: сохраняется только в 1 из 8 регионов (Северная Америка)

2. Региональные особенности
Северная Америка: единственный регион, где все глобальные связи сохраняются и даже усиливаются

Южная Америка: почти полное отсутствие сильных корреляций (только 1 связь)

Африка и Азия: образовательные показатели связаны между собой, но не с IQ

Europe/Asia: отрицательные корреляции - возможно, из-за малой выборки (3 страны)

3. Мы встретились с парадоксом Симпсона: глобальные связи не подтвердились для групп