# Вводное занятие

Подключаем библиотеки pandas, matplotlib.pyplot, numpy, stats:

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as stats

Подключение стандартной библиотеки

In [None]:
#pd - сокращение от pandas
import pandas as pd

#Данные в Pandas представлены в двух видах: Series и DataFrame

**Series** - объект, который похож на одномерный массив и может содержать любые типы данных. Отображается в виде таблицы с индексами элементов в первом столбце и значениями во втором.

Создадим простой Series и выводим на экран:



In [None]:
series_example = pd.Series([4, 7, -5, 3])
series_example

0    4
1    7
2   -5
3    3
dtype: int64

**DataFrame** — представляется в виде обычной таблицы с любым количеством столбцов и строк. Внутри ячеек могут быть данные самого разного типа: числовые, булевы, строковые и тд

Создадим простой DataFrame с помощью словаря и посмотрим на его отображение:

In [None]:
# Создаём словарь с нужной информацией о городах
city = {'Город': ['Москва', 'Санкт-Петербург', 'Новосибирск', 'Екатеринбург'],
        'Год основания': [1147, 1703, 1893, 1723],
        'Население': [11.9, 4.9, 1.5, 1.4]}

# Превращаем словарь в DataFrame, используя стандартный метод библиотеки
df = pd.DataFrame(city)

# Выводим DataFrame на экран
df

Unnamed: 0,Город,Год основания,Население
0,Москва,1147,11.9
1,Санкт-Петербург,1703,4.9
2,Новосибирск,1893,1.5
3,Екатеринбург,1723,1.4


#Импорт данных

In [None]:
#Импортируем датасет
df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Internet Speed 2022.csv')
#Показываем его
df

Unnamed: 0,country,broadband,mobile
0,Monaco,261.82,
1,Singapore,255.83,105.01
2,Hong Kong,254.70,83.58
3,Romania,232.17,59.67
4,Switzerland,229.96,135.70
...,...,...,...
172,Equatorial Guinea,7.95,
173,Sudan,7.92,14.51
174,Yemen,7.59,
175,Turkmenistan,4.11,


In [None]:
# Показать первые 5 строк
df.head()

Unnamed: 0,country,broadband,mobile
0,Monaco,261.82,
1,Singapore,255.83,105.01
2,Hong Kong,254.7,83.58
3,Romania,232.17,59.67
4,Switzerland,229.96,135.7


In [None]:
#Показать последние 5 строчек
df.tail()

Unnamed: 0,country,broadband,mobile
172,Equatorial Guinea,7.95,
173,Sudan,7.92,14.51
174,Yemen,7.59,
175,Turkmenistan,4.11,
176,Cuba,4.01,25.02


In [None]:
#Проверяем тип данных в таблице'
df.dtypes

country       object
broadband    float64
mobile       float64
dtype: object

*object* - тип данных для строковых и смешанных значений


In [None]:
#Показать статистические данные (только для чисел)
df.describe()

Unnamed: 0,broadband,mobile
count,177.0,136.0
mean,72.672825,53.788235
std,66.461751,43.327121
min,4.01,7.27
25%,22.5,24.4025
50%,43.48,35.825
75%,109.41,69.205
max,261.82,238.06


std   - стандартное отклонение

25%   - нижний квантиль

50%   - медиана

75%   - верхний квантиль

min   - минимальное значение

max   - максимальное значение

mean  - среднее значение
count - количество значений (отличных от NaN)

In [None]:
#Сортировка данных
df_1 = df.sort_values('mobile', ascending=False)
df_1

Unnamed: 0,country,broadband,mobile
15,United Arab Emirates,189.07,238.06
9,South Korea,212.57,202.61
23,Norway,168.25,177.72
42,Qatar,113.88,172.18
14,China,196.57,165.38
...,...,...,...
166,Burundi,11.18,
170,Guinea,8.84,
172,Equatorial Guinea,7.95,
174,Yemen,7.59,


Параметры sort_values :
- Название столбца, по которому происходит сортировка (заключено в одинарные или двойные кавычки)
- "ascending=" указывает на тип сортировки.

    1.   False -от большего к меньшему
    2.   True - от меньшего к большему


In [None]:
#Фильтрация данных
df_without_nan = df_1.dropna()

dropna() - позволяет удалять все строки с пропусками ( значениями NaN)

df_without_nan - новый датафрейм без нулевых значений

In [None]:
df_without_nan.sort_values('mobile', ascending=True)

Unnamed: 0,country,broadband,mobile
171,Afghanistan,8.26,7.27
110,Palestine,29.46,7.57
128,Venezuela,23.92,7.68
82,Ghana,52.10,12.90
140,Tanzania,19.77,13.23
...,...,...,...
14,China,196.57,165.38
42,Qatar,113.88,172.18
23,Norway,168.25,177.72
9,South Korea,212.57,202.61


#Редактирование датафрейма

##1.Добавление новой строки

- Создаём словарь, который будет содержать значения
- В конструкторе pd.DataFrame конвертируем словарь в датафрейм.
- С помощью **метода concat** объединяем изначальный датафрейм с новым

Указание "**ignore_index**=True" нужно чтобы новая строка появилась первой.





In [None]:
new_country = {'country': 'Галактическая Республика', 'broadband': 1342, 'mobile': 295.45}
df1 = pd.DataFrame([new_country])
new_list1 = pd.concat([df1,df], ignore_index=True)
new_list1

Unnamed: 0,country,broadband,mobile
0,Галактическая Республика,1342.00,295.45
1,Monaco,261.82,
2,Singapore,255.83,105.01
3,Hong Kong,254.70,83.58
4,Romania,232.17,59.67
...,...,...,...
173,Equatorial Guinea,7.95,
174,Sudan,7.92,14.51
175,Yemen,7.59,
176,Turkmenistan,4.11,


##2.Удаление строк

В **метод drop** передаётся два параметра:

- Индекс строк, которые необходимо удалить.
 Чтобы удалить несколько строк, нужно передать индексы списком ([0, 1]).
- **inplace**=True — обнуляет индексы, чтобы у первой строки после удаления он стал равен 0.

In [None]:
new_list1.drop(0, inplace=True)
new_list1

Unnamed: 0,country,broadband,mobile
1,Monaco,261.82,
2,Singapore,255.83,105.01
3,Hong Kong,254.70,83.58
4,Romania,232.17,59.67
5,Switzerland,229.96,135.70
...,...,...,...
173,Equatorial Guinea,7.95,
174,Sudan,7.92,14.51
175,Yemen,7.59,
176,Turkmenistan,4.11,


##3.Фильтрация строк

Способы найти определённую строку:
- по индексному значению
- по индексу

###Фильтрация по индексному значению

Cответствует первому столбцу в датафрейме.

**метод loc**

In [None]:
new_list1.loc[[10,11,12]]

Unnamed: 0,country,broadband,mobile
10,South Korea,212.57,202.61
11,Hungary,210.55,60.16
12,Liechtenstein,204.78,


###Фильтрация по индексу

**Метод iloc** - можно получить срез данных


In [None]:
new_list1.iloc[10:12]

Unnamed: 0,country,broadband,mobile
11,Hungary,210.55,60.16
12,Liechtenstein,204.78,


#Фильтрация датафрейма по значениям

При использовании этого метода сохраняются индексные значения анализируемого датафрейма.

In [None]:
new_list1[new_list1['mobile'] > 100]

Unnamed: 0,country,broadband,mobile
2,Singapore,255.83,105.01
5,Switzerland,229.96,135.7
6,Denmark,227.91,112.03
10,South Korea,212.57,202.61
13,United States,203.81,110.07
15,China,196.57,165.38
16,United Arab Emirates,189.07,238.06
20,Sweden,174.9,103.08
21,Luxembourg,172.05,116.76
24,Norway,168.25,177.72


#Агрегирование данных
- **функция agg** которая принимает несколько отдельных значений и возвращает сводные данные

In [None]:
new_list1['broadband'].agg(['mean'])

mean    72.672825
Name: broadband, dtype: float64

In [None]:
new_list1['mobile'].agg(['std'])

std    43.327121
Name: mobile, dtype: float64

Сохранение датафрейма:

In [None]:
new_list1.to_csv ('/content/drive/MyDrive/Colab Notebooks/ex_0_OK.csv')