### 4.1 Подробное изучение Series и DataFrame
- Создание Series и DataFrame из различных структур данных
- Основные методы и атрибуты Series и DataFrame

**Задача**: Создать Series и DataFrame из списка, словаря и numpy массива. Применить основные методы и атрибуты.

In [9]:
import pandas as pd
import numpy as np
# Загрузка CSV файла в DataFrame.
# Используем сохраненный в предыдущем примере датасет, указываем, что первый столбец является индексом
df = pd.read_csv('countries_dataset/train_dataset.csv', encoding = 'utf-8', sep = ',', index_col=0)

#### Создание Series

**Series** - это одномерный массив, который может содержать любой тип данных (целые числа, строки, числа с плавающей точкой, объекты Python и т.д.). Он подобен столбцу в таблице. У него есть индексы и значения.

python

In [2]:
# Создание Series из столбца 'Численность'
series = df['Численность']
print(series.head())  # вывод первых 5 строк


0    31056997
1     3581655
2    32930091
3       57794
4       71201
Name: Численность, dtype: int64


Методы и атрибуты **Series:**

In [7]:
s = pd.Series([1, 2, 3, np.nan, 5, 6])
print(s.values)  # вывод значений серии
print(s.index)  # вывод индекса серии
print(s.dtypes)  # вывод типа данных серии
print(s.size)  # вывод размера серии
print(s.shape)  # вывод формы серии
print(s.count())  # подсчет количества ненулевых значений
print(s.unique())  # вывод уникальных значений серии
print(s.value_counts())  # подсчет каждого уникального значения


[ 1.  2.  3. nan  5.  6.]
RangeIndex(start=0, stop=6, step=1)
float64
6
(6,)
5
[ 1.  2.  3. nan  5.  6.]
1.0    1
2.0    1
3.0    1
5.0    1
6.0    1
Name: count, dtype: int64


In [3]:
# Создание Series из столбца 'ВВП на душу населения'
gdp_series = df['ВВП на душу населения']

# Выводим базовую статистическую информацию
print(gdp_series.describe())

# Выводим страны с самым высоким ВВП на душу населения
top_gdp_countries = df[df['ВВП на душу населения'] == gdp_series.max()]['Страна']
print("Страны с самым высоким ВВП на душу населения:")
print(top_gdp_countries)

# Выводим страны с самым низким ВВП на душу населения
bottom_gdp_countries = df[df['ВВП на душу населения'] == gdp_series.min()]['Страна']
print("Страны с самым низким ВВП на душу населения:")
print(bottom_gdp_countries)

count      226.000000
mean      9689.823009
std      10049.138513
min        500.000000
25%       1900.000000
50%       5550.000000
75%      15700.000000
max      55100.000000
Name: ВВП на душу населения, dtype: float64
Страны с самым высоким ВВП на душу населения:
121    Luxembourg
Name: Страна, dtype: object
Страны с самым низким ВВП на душу населения:
58       East Timor
183    Sierra Leone
188         Somalia
Name: Страна, dtype: object


#### Создание DataFrame

**DataFrame** - это двухмерный размер изменяемого размера табличной структуры с возможно разнотипными столбцами.

In [6]:
# Создание DataFrame из списка
list_df = pd.DataFrame([1, 2, 3, 4, 5])
print(list_df)

# Создание DataFrame из словаря
dict_df = pd.DataFrame({1: 'a', 2: 'b', 3: 'c'}, index=[1])
print(dict_df)

# Создание DataFrame из numpy массива
numpy_df = pd.DataFrame(np.array([[10, 20, 30], [40, 50, 60]]))
print(numpy_df)


   0
0  1
1  2
2  3
3  4
4  5
   1  2  3
1  a  b  c
    0   1   2
0  10  20  30
1  40  50  60


Методы и атрибуты **DataFrame:**

In [8]:
df = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]), columns=['a', 'b', 'c'])

print(df.columns)  # вывод имен столбцов
print(df.index)  # вывод индексов
print(df.values)  # вывод значений dataframe
print(df.dtypes)  # вывод типов данных столбцов
print(df.shape)  # вывод формы dataframe
print(df.size)  # вывод общего количества элементов
print(df.head())  # вывод первых n строк
print(df.tail())  # вывод последних n строк
print(df.info())  # вывод информации о dataframe
print(df.describe())  # вывод статистики


Index(['a', 'b', 'c'], dtype='object')
RangeIndex(start=0, stop=3, step=1)
[[1 2 3]
 [4 5 6]
 [7 8 9]]
a    int64
b    int64
c    int64
dtype: object
(3, 3)
9
   a  b  c
0  1  2  3
1  4  5  6
2  7  8  9
   a  b  c
0  1  2  3
1  4  5  6
2  7  8  9
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   a       3 non-null      int64
 1   b       3 non-null      int64
 2   c       3 non-null      int64
dtypes: int64(3)
memory usage: 200.0 bytes
None
         a    b    c
count  3.0  3.0  3.0
mean   4.0  5.0  6.0
std    3.0  3.0  3.0
min    1.0  2.0  3.0
25%    2.5  3.5  4.5
50%    4.0  5.0  6.0
75%    5.5  6.5  7.5
max    7.0  8.0  9.0
