## Предисловие

Ученик Алексей по факту программист-аналитик, но в душе художник. И считает, что мало проанализировать, необходимо еще и представить это так, чтобы результаты анализа были наглядными и понятними всем.

Помоги Алексею создать идеальную комбинацию аналитики экономических данных и визуализации результатов. Двигайся по шагам в файле, внимательно изучай теорию, последовательно запускай код и решай задания, дописывая недостающий фрагменты.





<a id="chapter1"></a>

# Генерация данных

Сложно создать идеальный пример аналитики данных без данных :\)
Алексей решил создать свою собственную выборку экономических данных для 1000 фирм.

Для этого Алексею понадобится (1) работать с форматом данных **csv** и (2) генератор случайных чисел и соответствуюзие библиотеки (1) **`csv`** и (2) **`random`**.

Подключи их с помощью ключевого слова `import`.

In [39]:
import csv
import random

Далее нам нужен запуск генератора случайных чисел для создания выборки. Не забудь предварительно настроить функцию `random.seed()`.

**Python random.seed()**:

<blockquote>Функция `random.seed()` предназначена для инициализации случайных чисел. Если передать генератору случайных чисел некое начальное число, то при запуске программы ты каждый раз будешь получать один и тот же результат. Т.е. создашь предсказуемый генератор случайных чисел.</blockquote>

<blockquote>Для того, чтобы в этом задании все получилось как надо, перед генерацией запусти функцию с начальным значением 42 - `random.seed(42)`. </blockquote>

<blockquote> *ВАЖНО: Обрати внимание на начальное значение, если у тебя оно будут другим, то результаты анализа данных в будущем могут не сойтись.*</blockquote>

In [40]:
# Не меняйте код в этой ячейке!
# Задаем seed для воспроизводимости результатов
random.seed(42)

В нашей экономической выборке Алексей хочет хранить следующие сведения:

- Год основания фирмы (от 1990 до 2020).
- Годовая выручка фирмы (в диапазоне от 100,000 до 10,000,000).
- Количество сотрудников в фирме (от 10 до 500).

Данные удобно хранить в списках, которые могут быть созданы заранее. Подробнее о списках - [почитать тут](https://pythonworld.ru/tipy-dannyx-v-python/spiski-list-funkcii-i-metody-spiskov.html)

Заведи под эти сведения пустые списки.

In [41]:
# Создаем пустые списки для данных
# здесь ваш код
years = []
earnings = []
workers = []

Итак, генерируем случайные данные для 1000 фирм. Генерация данных осуществляется с помощью библиотеки `random` и метода `randint()`. Для добавления параметров в списки используй метод `.append()`.

<a id='task1'></a>

### Задача №1 

Допиши фрагмент кода для генерации данных годовой выручки фирмы и количества сотрудников по образцу списка `year` (год основания фирмы).

*ВАЖНО: Обрати внимание на указанные диапазоны, если у тебя они будут другие, то результаты анализа данных в будущем могут не сойтись.*

<hr style="border:1px solid red;">
<a id='solve1'></a>

###  Решение 

In [42]:
# Генерируем случайные данные для 1000 фирм

for _ in range(1000):
    # Год основания фирмы (от 1990 до 2020)
    year = random.randint(1990, 2020)
    years.append(year)
    earning = random.randint(100000, 10000000)
    earnings.append(earning)
    work = random.randint(10, 500)
    workers.append(work)
    # Допиши фрагмент кода для генерации данных по образцу выше
    # Годовая выручка фирмы (в диапазоне от 100000 до 10000000)


    # Количество сотрудников в фирме (от 10 до 500)

<hr style="border:1px solid red;">

Далее данные необходимо разместить в файле формата csv.

___CSV___ (от англ. Comma-Separated Values — значения, разделённые запятыми) - это текстовый файл с "таблицей" внутри.

Каждая строчка файла - это как строчка таблицы. А значения строки по столбцам разделены запятой (или точкой с запятой для некоторых версий).

Пример CSV-файла:

```
Номер, Год, Страна
1, 2023, Россия
```

После открытия csv-файла в табличных редакторах, или после импорта его содержания в структуру данных мы увидим следующую картину:

| Номер    | Год      | Страна   |
|----------|----------|----------|
| 1        | 2023     | Россия   |


В коде ниже посмотрите, как необходимо указать названия столбцов и передать их для записи в файл.
Выполните код и оцените результат.

*В случае возникновения ошибки из-за несовпадений кодировок, можно заменить первую строку блока на <br>`with open('economic_data.csv', 'w', newline='', encoding="utf-8") as csvfile:`*

<a id="task2"></a>

### Задача №2: сгенерированные экономический данные для 1000 фирм, сохранить в файле __csv__ 

<a id="solve2"></a>
<hr style="border:1px solid red;">

###  Решение 

In [43]:
with open('economic_data.csv', 'w', newline='', encoding="utf-8") as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['Год основания', 'Годовая выручка', 'Количество сотрудников'])
    for i in range(1000):
        writer.writerow([years[i], earnings[i], workers[i]])


<hr style="border:1px solid red;">

Для более удобной работы, после сохранения данных формате .csv следует преобразовать их в датафрейм используя бибилиотеку `pandas`.

___Библиотека Pandas и датафреймы___

___Pandas___ — это Python-библиотека, созданная специально для отображения, анализа и обработки структурированных данных.

Название библиотеки расшифровывается как «panel data» или «панельные данные». Панельные данные - это как раз данные, представленные в виде таблиц и имеющие четкую структуру (структурированные).

У библиотеки есть официальный сайт, на котором описано, как можно начать работу с этой библиотекой - [почитать тут](https://pandas.pydata.org/getting_started.html).

___Датафреймы___ (тип данных ___DataFrame___ из библиотеки Pandas) — это таблица со строками и столбцами, которая похожий на таблицу из приложения Excel. В это типе данных мы сможем разместить данные их нашего csv-файла и потом их обрабатывать: сортировать, группировать, производить вычисления.

Начнем работу с этой библиотекой с ее импорта в файл проекта ` import pandas `.

Для более краткого обращения к библиотеке из кода проекта указываем короткое имя `pd` - ` import pandas as pd `.

Прочитаем содержимое датафрейма в переменную `df`, используя функцию `pd.read_csv('economic_data.csv')`.

Обратите внимание, что для доступа к функции `pd.read_csv()` мы сначала указываем краткое имя библиотеки, а в качестве аргумента - имя csv-файла, в котором размещен датафрейм.

In [44]:
import pandas as pd
df = pd.read_csv('economic_data.csv')

Проверим, что все загрузилось правильно, и выведем первые 5 записей датафрейма.

In [45]:
df.head()

Unnamed: 0,Год основания,Годовая выручка,Количество сотрудников
0,2010,1967825,22
1,2013,4714226,135
2,1997,2441057,387
3,1993,9249732,54
4,2008,7178673,26


Теперь давайте выведем описание прочтенных данных.

Функции, которые могут пригодиться при решении: `.describe()`

In [46]:
df.describe()

Unnamed: 0,Год основания,Годовая выручка,Количество сотрудников
count,1000.0,1000.0,1000.0
mean,2005.195,5163602.0,255.978
std,8.837708,2886140.0,139.048402
min,1990.0,106810.0,11.0
25%,1998.0,2664074.0,139.0
50%,2005.0,5221975.0,252.5
75%,2013.0,7709056.0,371.0
max,2020.0,9995027.0,500.0


Рекомендуем вам так же изучить другие описательные функции для датафреймов - [почитать тут.](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html#computations-descriptive-stats)

<a id="chapter2"></a>

# Статистический анализ

Теперь у тебя есть данные - можно приступать к их анализу.

Ученик Андрей спланировал

- Рассчитайте средние значения и медианы для каждой переменной.
- Постройте гистограммы и оценки плотности для годовой выручки и количества сотрудников.
- Вычислите корреляции между годом основания и годовой выручкой фирмы.
- Выявите фирмы, которые считаются стартапами (фирмы, основанные после 2010 года, с выручкой менее 1,000,000 и менее чем 50 сотрудниками) и определите их процентное соотношение от общего числа фирм.

### Cредние значения и медианы

Как считается среднее значение

<center><img src="https://github.com/sunnysubmarines/nto/blob/main/images/fig_1.png?raw=1" alt="Description of the image" width="300" height="300"/></center>

<center><img src="https://github.com/sunnysubmarines/nto/blob/main/images/fig_2.png?raw=1" alt="Description of the image" width="300" height="300"/></center>

Как считается медиана

<center><img src="https://github.com/sunnysubmarines/nto/blob/main/images/fig_3.png?raw=1" alt="Description of the image" width="400" height="300"/></center>

<blockquote>Медиана — это значение, которое разделяет упорядоченный набор данных на две равные половины. Для расчета медианы в упорядоченном наборе данных, количество элементов которого нечетное, медиана - это значение, которое находится в середине упорядоченного списка. Если количество элементов четное, медиана - это среднее арифметическое двух центральных значений.

Для набора данных X длиной n, где  n - нечетное число, медиана  M рассчитывается следующим образом: </blockquote>

Если  n нечетное:

$$
M = X * (n+1)/2
$$

Если n четное:

$$
M = (X * n/2 + X(n/2 +1))/2
$$

Здесь  X(i) представляет собой  i-е значение в упорядоченном наборе данных  X.

**Пожалуйста, обратите внимание, что перед вычислением медианы набор данных обычно сортируется по возрастанию или убыванию.**

<a id="task3"></a>

### Задача №3: Расчитайте среднее значение и медианное для всех колонок

<a id="solve3"></a>
<hr style="border:1px solid red;">

###  Решение 

In [47]:
years_mean, earnings_mean, workers_mean = df.mean()
years_med, earnings_med, workers_med = df.median()
print(f'Средний год основания: {years_mean}\nСредний доход: {earnings_mean}\nСреднее количество сотрудников: {workers_mean}\n\n'
f'Медиана годов основания: {years_med}\nМедиана дохода: {earnings_med}\nМедиана количества сотрудников: {workers_med}')

Средний год основания: 2005.195
Средний доход: 5163601.686
Среднее количество сотрудников: 255.978

Медиана годов основания: 2005.0
Медиана дохода: 5221975.0
Медиана количества сотрудников: 252.5


<hr style="border:1px solid red;">