# 1. ВВЕДЕНИЕ В NUMPY

In [1]:
# Официальная документация NumPy: https://numpy.org/doc/
# Приятный туториал: https://habr.com/ru/articles/352678/

#!pip install numpy
import numpy as np

Главной особенностью numpy является объект array. Массивы схожи со списками в python, исключая тот факт, что элементы массива должны иметь одинаковый тип данных, как float и int. <br> С массивами можно проводить числовые операции с большим объемом информации в разы быстрее и, главное, намного эффективнее чем со списками. <br>
* Почему скорость работы функций в numpy выше, чем у написанных на чистом Python?

## Создание массивов

In [None]:
my_list = [1, 2, 3, 4, 5]
my_array = np.array(my_list)
print("Массив из списка:", my_array)

In [None]:
zeros_array = np.zeros(5)
print("Массив нулей:", zeros_array)

ones_array = np.ones((3, 2, 6))
print("Массив единиц:\n", ones_array)

In [None]:
full_array = np.full((3, 2), 7) #Создаем 2D массив (матрицу)
print("Массив с заданным значением:\n", full_array)

In [None]:
arange_array = np.arange(0, 10, 2) # от 0 до 10 с шагом 2
print("Массив arange:", arange_array)

linspace_array = np.linspace(0, 1, 5)  # от 0 до 1 (включительно) с 5 элементами
print("Массив linspace:", linspace_array)

In [None]:
rand_array = np.random.rand(2) # от 0 до 1
print("Массив случайных чисел от 0 до 1:\n", rand_array)

randint_array = np.random.randint(1, 10, size = (3,3))  # от 1 до 10 (не включая)
print("Массив случайных целых чисел от 1 до 10:\n", randint_array)

Задание 1:
* 1. Создайте массив из 10 случайных чисел от 0 до 100.
* 2. Создайте массив 2x2 из нулей, а затем замените второй элемент (по индексу 1) первой строки на 5.

In [None]:
# YOUR CODE HERE

## Срезы и индексация

In [None]:
my_array = np.array([[1, 2, 3], [4, 5, 6]])
print("Исходный массив:\n", my_array)
print("Размерность (ndim):", my_array.ndim)
print("Форма (shape):", my_array.shape)

In [None]:
# одномерный случай

my_array = np.arange(10) # Создание массива от 0 до 9
print("Исходный массив:", my_array)

print("Первый элемент:", my_array[0])
print("Последний элемент:", my_array[-1])
print("Срез с 2-го по 5-й элементы:", my_array[2:6])
print("Срез с начала до 4-го элемента:", my_array[:4])
print("Срез с 5-го элемента до конца:", my_array[5:])
print("Срез каждого 2-го элемента:", my_array[::2])
print("Срез в обратном порядке:", my_array[::-1])

In [None]:
# многомерный случай

my_array = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("Исходный массив:\n", my_array)

print("Элемент в строке 1, столбце 2:", my_array[1, 2])
print("Первая строка:", my_array[0, :])
print("Второй столбец:", my_array[:, 1])

Задание 2:
* 1. Создайте массив 5x5 из случайных чисел от 0 до 20.
* 2. Выберите первую строку и выведите её.
* 3. Выберите последний столбец и выведите его.
* 4. Выберите центральный элемент массива (если он есть).

In [None]:
# YOUR CODE HERE

## Базовые операции над массивами

In [None]:
# классические операции

my_array1 = np.array([1, 2, 3])
my_array2 = np.array([4, 5, 6])

print("Сумма:", my_array1 + my_array2)
print("Разность:", my_array1 - my_array2)
print("Произведение:", my_array1 * my_array2)
print("Деление:", my_array1 / my_array2)
print("Возведение в степень:", my_array1 ** 2)

In [None]:
# агрегатные фунцкии

my_array = np.arange(1, 11) #Массив от 1 до 10
print("Исходный массив:", my_array)

print("Сумма элементов:", np.sum(my_array))
print("Среднее значение:", np.mean(my_array))
print("Максимальное значение:", np.max(my_array))
print("Минимальное значение:", np.min(my_array))
print("Индекс максимального значения:", np.argmax(my_array))
print("Индекс минимального значения:", np.argmin(my_array))
print("Стандартное отклонение:", np.std(my_array))

Задание 3:
* 1. Создайте два массива 3x3 из случайных целых чисел от 1 до 10.
* 2. Поэлементно перемножьте эти массивы.
* 3. Найдите сумму элементов результирующего массива.
* 4. Вычислите среднее значение элементов для каждого столбца.

In [None]:
# YOUR CODE HERE

# 2. ВВЕДЕНИЕ В PANDAS

In [None]:
# Официальная документация Pandas: https://pandas.pydata.org/docs/

In [33]:
#!pip install pandas
import pandas as pd

## Создание pd.Series

In [None]:
# Из списка
my_list = [10, 20, 30, 40, 50]
my_series = pd.Series(my_list)
print("Series из списка:\n", my_series)


# Из NumPy массива:
my_array = np.array([1, 2, 3, 4, 5])
my_series = pd.Series(my_array)
print("Series из NumPy массива:\n", my_series)

# С явными индексами:
my_series = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
print("Series с явными индексами:\n", my_series)

## Создание pd.DataFrame

In [None]:
# Из словаря:
my_dict = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 28],
    'city': ['New York', 'London', 'Paris']
}
my_df = pd.DataFrame(my_dict)
print("DataFrame из словаря:\n", my_df)

#  Из NumPy массива (с заданием столбцов):
my_array = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
my_df = pd.DataFrame(my_array, columns=['col1', 'col2', 'col3'])
print("DataFrame из NumPy массива:\n", my_df)

In [None]:
# Из Excel
my_df = pd.read_excel("C:/Users/ipoly/OneDrive/Рабочий стол/Data_RLMS.xlsx")
my_df

## Основная информация о датафрейме

In [None]:
#  Вывод первых и последних строк:**
print("Первые 2 строки:\n", my_df.head(2))
print("Последние 2 строки:\n", my_df.tail(2))

#  Информация о DataFrame:**
print("Общая информация о DataFrame:")
my_df.info()

# Статистика по DataFrame:**
print("Статистическое описание DataFrame:\n", my_df.describe())

# Форма, названия столбцов и индексы:**
print("Форма DataFrame:", my_df.shape)
print("Названия столбцов:", my_df.columns)
print("Индексы:", my_df.index)

## Индексация и выбор данных

In [None]:
# Выбор столбцов

print("Столбец 'industry':\n", my_df['industry'])  # По названию
print("Столбец 'age':\n", my_df.age)  # Альтернативный способ (если название столбца валидное)

In [None]:
# Выбор строк

print("Строки с индексами от 1 до 2:\n", my_df[1:3])  # Срезы
print("Строка с индексом 0:\n", my_df.loc[0]) # выбор по индексу с помощью .loc

In [None]:
# Выбор строк по условию (фильтрация)

print("Строки, где возраст больше 28:\n", my_df[my_df['age'] > 28]) 
print("Строки, где отрасль равна ОБРАЗОВАНИЕ:\n", my_df.loc[my_df['industry'] == 'ОБРАЗОВАНИЕ'])

In [None]:
# loc` используется для выбора по меткам строк и столбцов
# iloc` используется для выбора по числовым индексам строк и столбцов

print("Выбор строк и столбцов по индексам с помощью iloc:\n", my_df.iloc[0:2, 0:2]) # iloc
print("Выбор строк и столбцов по меткам с помощью loc:\n", my_df.loc[0:2, ['idind','psu']]) # loc

## Базовые операции

In [None]:
# Агрегатные функции

print("Средний возраст в выборке:\n", my_df['age'].mean())
print("Наибольший  возраст в выборке:\n", my_df['age'].max())
print("Наименьший возраст в выборке:\n", my_df['age'].min() )

In [None]:
# Группировка

grouped_df = my_df.groupby('industry')['lnwage'].mean() #средняя зарплата по отраслям
print("Средняя зарплата по отраслям:\n", grouped_df)

In [None]:
# Cоздание столбцов

my_df['random_col'] = np.random.rand(my_df.shape[0]) # добавим колонку с рандомными числами от 0 до 1 нужного размера
my_df

In [None]:
# Удаление столбцов

my_df = my_df.drop('random_col', axis=1) # удалим созданный рандомный столбец
my_df

Задание для практики 
* 1. Cделайте фильтр по возрасту: от 18 до 25 лет, от 26 до 50 и 50+, какова средняя, минимальная и максимальная зарплата в этих категориях?
* 2. Сделайте сводную таблицу, где покажете среднюю зарплату для каждого региона и отрасли (например, Московская области + ОБРАЗОВАНИЕ)
* 3. Удалите столбцы id1-id75
* 4. Выведите строки с максимальной и минимальной зарплатой в выборке
* 5. Придумайте гипотезу и проверьте ее на данных, используя инструменты pandas и numpy

In [None]:
# YOUR CODE HERE