# Анализ и визуализация данных

## Лабораторная работа 1.  Основы работы с датафреймами pandas

###  Загрузка данных.

Импортируем модуль `pandas` с сокращённым названием:

In [1]:
import pandas as pd

Читаем файл из рабочей папки (относительный путь) нашего проекта:

In [2]:
dat = pd.read_csv("Salaries.csv")

Так же можно использовать путь к файлу (абсолютный путь):

In [3]:
# dat = pd.read_csv(r"C:\Users\Boris Kondratenko\!2025\Т.2\Salaries.csv") 

### Работа с данными.

В переменной `dat` находится файл `Salaries.csv` с такими полями:

* `rank`: должность;
* `discipline`: тип преподаваемой дисциплины (A – теоретическая, B – практическая);
* `yrs.since.phd`: число лет с момента получения степени PhD;
* `yrs.service`: число лет опыта работы;
* `sex`: пол;
* `salary`: заработная плата за 9 месяцев, в долларах.

Если нам необходимо ознакомиться с датафреймом, но он слишком большой, то можно взять несколько первых или последних записей: 

In [4]:
# первые 5
dat.head(4)

Unnamed: 0.1,Unnamed: 0,rank,discipline,yrs.since.phd,yrs.service,sex,salary
0,1,Prof,B,19,18,Male,139750
1,2,Prof,B,20,16,Male,173200
2,3,AsstProf,B,4,3,Male,79750
3,4,Prof,B,45,39,Male,115000


In [5]:
# последние 5
dat.tail(7)

Unnamed: 0.1,Unnamed: 0,rank,discipline,yrs.since.phd,yrs.service,sex,salary
390,391,Prof,A,40,19,Male,166605
391,392,Prof,A,30,19,Male,151292
392,393,Prof,A,33,30,Male,103106
393,394,Prof,A,31,19,Male,150564
394,395,Prof,A,42,25,Male,101738
395,396,Prof,A,25,15,Male,95329
396,397,AsstProf,A,8,4,Male,81035


Для получения технического описания по датафрейму, нужно использовать `.info() `.
Здесь мы получим описание каждого столбца, т.е. тип данных, число строк, столбцов,

In [6]:
dat.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 397 entries, 0 to 396
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Unnamed: 0     397 non-null    int64 
 1   rank           397 non-null    object
 2   discipline     397 non-null    object
 3   yrs.since.phd  397 non-null    int64 
 4   yrs.service    397 non-null    int64 
 5   sex            397 non-null    object
 6   salary         397 non-null    int64 
dtypes: int64(4), object(3)
memory usage: 21.8+ KB


Сводную статистическую информацию можно получить с помощью метода `.describe()`.

In [7]:
dat.describe()

Unnamed: 0.1,Unnamed: 0,yrs.since.phd,yrs.service,salary
count,397.0,397.0,397.0,397.0
mean,199.0,22.314861,17.61461,113706.458438
std,114.748275,12.887003,13.006024,30289.038695
min,1.0,1.0,0.0,57800.0
25%,100.0,12.0,7.0,91000.0
50%,199.0,21.0,16.0,107300.0
75%,298.0,32.0,27.0,134185.0
max,397.0,56.0,60.0,231545.0


По умолчанию этот метод выбирает только числовые столбцы и выводит для них 
описательные статистики:
* `count` – число заполненных значений;
* `mean` – среднее арифметическое;
* `std` – стандартное отклонение (показатель разброса данных относительно среднего 
значения);
* `min` – минимальное значение;
* `max` – максимальное значение;
* `25%` – нижний квартиль (значение, которое 25% значений не превышают);
* `50%` – медиана (значение, которое 50% значений не превышают);* 75% – верхний квартиль (значение, которое 75% значений не превышают).
Если мы хотим описать только текстовые столбцы, нужно указать соответствующий тип 
внутри аргумента include.

###  Переименование столбцов.

Меняем неудобное и трудночитаемое название, на понятное:

In [8]:
dat.rename(columns = {"yrs.since.phd" : "phd",  "yrs.service" : "service"})

Unnamed: 0.1,Unnamed: 0,rank,discipline,phd,service,sex,salary
0,1,Prof,B,19,18,Male,139750
1,2,Prof,B,20,16,Male,173200
2,3,AsstProf,B,4,3,Male,79750
3,4,Prof,B,45,39,Male,115000
4,5,Prof,B,40,41,Male,141500
...,...,...,...,...,...,...,...
392,393,Prof,A,33,30,Male,103106
393,394,Prof,A,31,19,Male,150564
394,395,Prof,A,42,25,Male,101738
395,396,Prof,A,25,15,Male,95329


Данный способ делает копию датафрейма не внося изменений в исходную переменннную. Для того чтобы перезаписать исходную переменную, необходимо переписать датафрейм:

In [9]:
dat = dat.rename(columns = {"yrs.since.phd" : "phd", "yrs.service" : "service"})

### Выбор одного столбца и работа с ним.

Можем выбрать столбец как `["имястолбца"]` так и `.имястолбца`, только вот более надёжным является первый вариант, так как второй может вызвать ошибки, тк как в названии столбцов могут быть пробелы или другие недопустимые символы. Теперь можем сразу получить статистические данные по этому датафрейму:

In [10]:
dat["salary"].describe()

count       397.000000
mean     113706.458438
std       30289.038695
min       57800.000000
25%       91000.000000
50%      107300.000000
75%      134185.000000
max      231545.000000
Name: salary, dtype: float64

### Выбор нескольких столбцов (и строк)

Для выбора нескольких столбоцов можно перечислить их по типу `dat[["col1", "col2", "col3"]]`, либо выбрать срез используя `dat.loc["от":"до строк", "от" : "до столбца включительно"]`.
Для получения столбцов когда нет возможности обратиться по имени но известен индекс то `.iloc["от":"до строк", "от" : "до столбца включительно"]`

In [11]:
dat[["sex", "rank", "salary"]]

Unnamed: 0,sex,rank,salary
0,Male,Prof,139750
1,Male,Prof,173200
2,Male,AsstProf,79750
3,Male,Prof,115000
4,Male,Prof,141500
...,...,...,...
392,Male,Prof,103106
393,Male,Prof,150564
394,Male,Prof,101738
395,Male,Prof,95329


### Фильтрация строк

Как пример, для выбора данных исходя из условий можно использовать `dat[dat["services"] > 10]`. Тут мы указываем что из датафрейма `dat` нам надо выбрать все записи подходящие под условие `...[dat["services"]>10]...`, то есть сотрудники с опытом работы более 10 лет. 
Но если мы решим написать "попроще", по типу  `dat["service"] > 10`, то получим датафрейм в котором говорится какая строка подошла под условие: 
`...
1       True
...`


In [12]:
dat[dat["service"] > 10] 

Unnamed: 0.1,Unnamed: 0,rank,discipline,phd,service,sex,salary
0,1,Prof,B,19,18,Male,139750
1,2,Prof,B,20,16,Male,173200
3,4,Prof,B,45,39,Male,115000
4,5,Prof,B,40,41,Male,141500
6,7,Prof,B,30,23,Male,175000
...,...,...,...,...,...,...,...
391,392,Prof,A,30,19,Male,151292
392,393,Prof,A,33,30,Male,103106
393,394,Prof,A,31,19,Male,150564
394,395,Prof,A,42,25,Male,101738


Так же используются операторы для объединения условий, по типу:

In [13]:
dat[(dat["service"] > 10) & (dat["sex"] == "Female")] 

Unnamed: 0.1,Unnamed: 0,rank,discipline,phd,service,sex,salary
9,10,Prof,B,18,18,Female,129000
19,20,Prof,A,39,36,Female,137000
47,48,Prof,B,23,19,Female,151768
48,49,Prof,B,25,25,Female,140096
63,64,AssocProf,B,11,11,Female,103613
68,69,Prof,B,17,17,Female,111512
84,85,Prof,B,17,18,Female,122960
103,104,Prof,B,20,14,Female,127512
123,124,AssocProf,A,25,22,Female,62884
148,149,Prof,B,36,26,Female,144651


Где выбираются сотрудники женского пола И со стажем более 10 лет.

###  Добавление новых столбцов


Для добавления столбца в наш датафрем достаточно написать `dat["Имя_которого_нет"] = данные`.
Мы хотим добавить столбец с зарплатами сотрудников, но указанную в тысячах:

In [14]:
dat['salary_th'] = dat['salary'] / 1000
dat

Unnamed: 0.1,Unnamed: 0,rank,discipline,phd,service,sex,salary,salary_th
0,1,Prof,B,19,18,Male,139750,139.750
1,2,Prof,B,20,16,Male,173200,173.200
2,3,AsstProf,B,4,3,Male,79750,79.750
3,4,Prof,B,45,39,Male,115000,115.000
4,5,Prof,B,40,41,Male,141500,141.500
...,...,...,...,...,...,...,...,...
392,393,Prof,A,33,30,Male,103106,103.106
393,394,Prof,A,31,19,Male,150564,150.564
394,395,Prof,A,42,25,Male,101738,101.738
395,396,Prof,A,25,15,Male,95329,95.329


### Группировка и агрегирование

Группировка осуществляется с помощью метода `.groupby()`, а уже дальше наслаивать другие методы и условия.

In [15]:
#Группируем по полу и выбираем только числовые значения
dat.groupby(['sex']).mean(numeric_only=True)

Unnamed: 0_level_0,Unnamed: 0,phd,service,salary,salary_th
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Female,171.0,16.512821,11.564103,101002.410256,101.00241
Male,202.050279,22.946927,18.273743,115090.418994,115.090419


Следющему чему мы научились, это агрегирующие функции .agg(). Внутрь него можно поместить сразу несколько функций (питоновские функии указываются в ковычках, а самописные - имя функции без кавычек), оформив их в виде списка:

In [16]:
#ГРуппируем по полу и достаём только "salary", и пременяем две агрегирующие функции, среднее значение и медиана
dat.groupby('sex')['salary'].agg(['mean', 'median']) 

Unnamed: 0_level_0,mean,median
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,101002.410256,103750.0
Male,115090.418994,108043.0


## Краткое введение в массивы NumPy и датафреймы Pandas

###   Массивы NumPy

Для начала импортируем NumPy:

In [17]:
import numpy as np

По изученной методичке, делаем вывод что с массивами рабоать легче, нежели чем со списками.
Основными преимуществами можно выделить простоту работы, скорость, занимаемое место в памяти.
Для примера, чтобы изменить значения в списке, нам мы подребовалось использовать цикл и прогонять всё отдельно, вроде быстро, а вроде и нет.
Но используя массив мы можем просто применить необходимую операцию к массиву:

In [18]:
money_k = [210, 265, 570, 120, 180, 194]
money_s = [i/29 for i in money_k] 
money_s
Money_k = np.array([210, 265, 570, 120, 180, 194])
Money_k
Money_s = Money_k / 29
Money_s

array([ 7.24137931,  9.13793103, 19.65517241,  4.13793103,  6.20689655,
        6.68965517])

Ещё мы можем работать так с несколькими массивами, главное помнить что операии происходят поэлементно.

### Фильтрация значений по условиям и булевы массивы

Начнём с атрбитута `.size`. Данный атрибут выводит кол-во элементов в массиве.

In [19]:
points = np.array([150, 0, 20, 0, 30, 20, 0])
points.size

7

Теперь попробуем с фильтрацией данных. Можно получить как новый массив, в котором вместо наших значений будут булевые, так и массив с элементами которые выполнили условие.

In [20]:
#Массив выполнивший условия
points[points > 10]

array([150,  20,  30,  20])

In [21]:
#Булевый массив
points > 0


array([ True, False,  True, False,  True,  True, False])

Так как в одном из вариантов мы получили массив только с булевыми значениями, с помощью метода `.sum()` мы можем легко и быстро посчитать кол-во игроков которые заработали больше 0 очков:


In [22]:
(points > 10).sum()

np.int64(4)

###  Последовательности pandas Series


Тут надо импортировать пандас, но в начале мы его уже импортнули.

Теперь рассмотрим объект, структуру данных, которая называется Series или 
последовательность pandas. 

In [23]:
# Создание Series
Points = pd.Series([150, 0, 20, 0, 30, 20, 0], 
                   index=["Harry", "Fred", "Alicia", "George", "Katie", "Angelina", "Oliver"])
Points

Harry       150
Fred          0
Alicia       20
George        0
Katie        30
Angelina     20
Oliver        0
dtype: int64

Теперь попробуем создать датаферйм ипользуя словарик и схораним его в таблицу

In [25]:
# Данные об игроках квиддича
data_dict = {
    "Name": ["Harry", "Fred", "Alicia", "George", "Katie", "Angelina", "Oliver"],
    "Score": [150, 0, 20, 0, 30, 20, 0],
    "Status": ["seeker", "beater", "chaser", "beater", "chaser", "chaser", "keeper"]
}
df = pd.DataFrame(data_dict)
df.to_excel("scores_test.xlsx")

df


Unnamed: 0,Name,Score,Status
0,Harry,150,seeker
1,Fred,0,beater
2,Alicia,20,chaser
3,George,0,beater
4,Katie,30,chaser
5,Angelina,20,chaser
6,Oliver,0,keeper
