**Объект DataFrame и его создание**
=
DataFrame - это одна из основных структур данных в Python, используемых для работы с табличными данными. Он представляет собой таблицу, состоящую из строк и столбцов, где каждый столбец может иметь разные типы данных. DataFrame очень похож на SQL-таблицу или электронную таблицу Excel.

Основные характеристики DataFrame:

1. Он содержит две оси, ось строк и ось столбцов, которые могут быть маркированы именами или целочисленными индексами.
2. Каждый столбец может содержать данные различных типов, таких как числа, строки, булевы значения и т. д.
3. DataFrame поддерживает множество операций с данными, включая выборку, фильтрацию, группировку, агрегацию, слияние и т. д.
4. Он может быть создан из различных источников данных, таких как CSV, Excel, SQL-запросы, массивы NumPy и т. д.
5. DataFrame предоставляет множество методов для работы с данными, включая сортировку, замену значений, преобразование данных и т. д.
6. Он имеет много параметров, которые могут быть использованы для настройки поведения и функциональности.
7. DataFrame может содержать отсутствующие значения (NaN или None), которые могут быть обработаны с помощью специальных методов.
8. Он может быть сохранен в различных форматах, таких как CSV, Excel, JSON, SQL-таблицы и т. д.

In [None]:
#cоздание DataFrame из списка списков
import pandas as pd

data = [['John', 28, 'New York'],
        ['Kate', 23, 'Chicago'],
        ['Mike', 32, 'San Francisco']]

df = pd.DataFrame(data, columns=['Name', 'Age', 'City'])

print(df)

#   Name  Age           City
#0  John   28       New York
#1  Kate   23        Chicago
#2  Mike   32  San Francisco

In [None]:
#создание DataFrame из словаря

import pandas as pd

data = {'Name': ['John', 'Kate', 'Mike'],
        'Age': [28, 23, 32],
        'City': ['New York', 'Chicago', 'San Francisco']}

df = pd.DataFrame(data)

print(df)

#вывод тот же, что и в примере выше

In [None]:
#создание DataFrame из списка словарей

import pandas as pd

data = [{'Name': 'John', 'Age': 28, 'City': 'New York'},
        {'Name': 'Kate', 'Age': 23, 'City': 'Chicago'},
        {'Name': 'Mike', 'Age': 32, 'City': 'San Francisco'}]

df = pd.DataFrame(data)

print(df)

#вывод тот же, что и в примере выше

In [None]:
#создание DataFrame из массива numpy
import pandas as pd
import numpy as np

data = np.array([['John', 28, 'New York'],
                 ['Kate', 23, 'Chicago'],
                 ['Mike', 32, 'San Francisco']])

df = pd.DataFrame(data, columns=['Name', 'Age', 'City'])

print(df)

#вывод тот же, что и в примере выше

In [None]:
#создание пустого DataFrame
import pandas as pd

df = pd.DataFrame(columns=['Name', 'Age', 'City'])

print(df)

#Empty DataFrame
#Columns: [Name, Age, City]
#Index: []

Параметр columns используется для указания имен столбцов DataFrame при его создании. В примерах выше мы передавали имена столбцов в параметре columns, чтобы DataFrame знал, как называются столбцы. Если не указывать этот параметр, то DataFrame автоматически назначит имена столбцам в порядке их появления в данных (0, 1, 2…).

Имена столбцов можно изменить после создания DataFrame с помощью атрибута columns. Это может быть полезно, если мы заметили ошибку в именах столбцов или просто хотим изменить их в процессе работы с DataFrame.

In [None]:
#для изменения имен столбцов нужно просто присвоить новые имена списку, который передается в атрибут columns
import pandas as pd

data = [['John', 28, 'New York'],
        ['Kate', 23, 'Chicago'],
        ['Mike', 32, 'San Francisco']]

df = pd.DataFrame(data, columns=['Name', 'Age', 'City'])

print(df)

#   Name  Age           City
#0  John   28       New York
#1  Kate   23        Chicago
#2  Mike   32  San Francisco

df.columns = ['Full Name', 'Age', 'Location'] #переименовываем

print(df)

#  Full Name  Age       Location
#0      John   28       New York
#1      Kate   23        Chicago
#2      Mike   32  San Francisco

**Основы работы со столбцами DataFrame**
=
**Методы head и tail**

Например, если есть DataFrame с именем df, можно использовать метод head для просмотра первых 5 строк следующим образом:

df.head()

Также можно указать количество строк, которые нужно отобразить, используя параметр n:

df.head(n=10)

Метод tail работает аналогично, только выводит последние строки DataFrame.

In [None]:
#пример работы df.head() и df.tail()
import pandas as pd

data = [[27, 82],
        [16, 24],
        [50, 71],
        [45, 12],
        [60, 13],
        [81, 94],
        [23, 15],
        [32, 71],
        [11, 21],
        [53, 76],
        [23, 52],
        [32, 23]]

df = pd.DataFrame(data, columns=['Age1', 'Age2'])

print(df.head())

#   Age1  Age2
#0    27    82
#1    16    24
#2    50    71
#3    45    12
#4    60    13

print(df.head(3))

#   Age1  Age2
#0    27    82
#1    16    24
#2    50    71

print(df.tail())

#    Age1  Age2
#7     32    71
#8     11    21
#9     53    76
#10    23    52
#11    32    23

**Извлечение столбцов DataFrame**

Например, если есть DataFrame с именем df нужно извлечь столбец с именем 'column1', можно использовать следующий код:

column1 = df['column1']

В Pandas DataFrame каждый столбец представлен объектом Series, который имеет имя, соответствующее названию столбца. Имя столбца является ключом для доступа к объекту Series внутри DataFrame.

Существует также альтернативный способ обращения к колонкам в pandas: df.column1,  где column1 - имя колонки в DataFrame df.


In [None]:
#пример извлечения колонки из датасета
import pandas as pd

data = [[27, 82],
        [16, 24],
        [50, 71],
        [45, 12]]

df = pd.DataFrame(data, columns=['Age1', 'Age2'])

print(df['Age1']) #выведет первую колонку в формате Series
print(df.Age2) # выведет вторую колонку в формате Series

**Создание нового столбца в DataFrame**

Иногда может потребоваться создать новый столбец в DataFrame на основе данных из других столбцов. Для этого можно использовать синтаксис: 

DataFrame['new_column'] = value

В этой строчке "value" – это значения для нового столбца, которые могут быть скалярами или массивами (или столбцами из уже существующего DataFrame).

In [None]:
#пример создания нового столбца - суммы двух предыдущих
import pandas as pd

data = [[27, 82],
        [16, 24],
        [50, 71],
        [45, 12]]

df = pd.DataFrame(data, columns=['Age1', 'Age2'])
df['Total_age'] = df['Age1'] + df['Age2']

print(df)

#   Age1  Age2  Total_age
#0    27    82        109
#1    16    24         40
#2    50    71        121
#3    45    12         57

Если есть DataFrame с именем df и нужно изменить значения столбца с именем 'column1', можно использовать следующий код:

df['column1'] = [1, 2, 3, 4, 5]


In [None]:
#пример изменения значений в колонке
import pandas as pd

data = [[27, 82],
        [16, 24],
        [50, 71],
        [45, 12]]

df = pd.DataFrame(data, columns=['Age1', 'Age2'])

print(df)

#   Age1  Age2
#0    27    82
#1    16    24
#2    50    71
#3    45    12

df['Age1'] = [7, 12, 31, 21]

print(df)

#   Age1  Age2
#0     7    82
#1    12    24
#2    31    71
#3    21    12

**Изменение имени столбца DataFrame**

Иногда может потребоваться изменить имя столбца DataFrame. Для этого можно использовать метод rename(), который позволяет изменить имя одного или нескольких столбцов DataFrame.

Например, если  есть DataFrame с именем df и нужно изменить имя столбца 'column1' на 'new_column1', можно использовать следующий код:

df.rename(columns={'column1': 'new_column1'}, inplace=True)

Если установить inplace=False при использовании метода df.rename(), то изменения не будут сохранены в исходном DataFrame, а возвращаемый новый DataFrame будет содержать переименованные столбцы. По умолчанию параметр inplace установлен именно в это значение.

Вот пример кода, который переименовывает столбец 'column1' в 'new_column1' и возвращает новый DataFrame, не изменяя исходный DataFrame:

new_df = df.rename(columns={'column1': 'new_column1'}, inplace=False)

Этот код создаст новый DataFrame new_df с тем же набором данных, что и df, но с измененным именем столбца 'column1' на 'new_column1'.


In [None]:
#пример изменения значений в колонке
import pandas as pd

data = [[27, 82],
        [16, 24],
        [50, 71],
        [45, 12]]

df = pd.DataFrame(data, columns=['Age1', 'Age2'])

print(df)

#   Age1  Age2
#0    27    82
#1    16    24
#2    50    71
#3    45    12

df = df.rename(columns={'Age1' : 'Age2', 'Age2' : 'Age1'})
#или df.rename(columns={'Age1' : 'Age2', 'Age2' : 'Age1'}, inplace=True)
#лучше перезаписывать df - разработчики Pandas советуют отказываться от inplace

print(df)

#   Age2  Age1
#0    27    82
#1    16    24
#2    50    71
#3    45    12

**Удаление столбца DataFrame**

Чтобы удалить столбец DataFrame, вы можете использовать метод drop(), указав имя столбца и параметр axis=1. Это удалит указанный столбец из DataFrame.

Например, если у вас есть DataFrame с именем df и вы хотите удалить столбец с именем 'column1', вы можете использовать следующий код:

df.drop('column1', axis=1, inplace=True)

либо

df = df.drop('column1', axis=1)


In [None]:
#пример удаления колонок
import pandas as pd

data = [[27, 82],
        [16, 24],
        [50, 71],
        [45, 12]]

df = pd.DataFrame(data, columns=['Age1', 'Age2'])

print(df)

#   Age1  Age2
#0    27    82
#1    16    24
#2    50    71
#3    45    12

df = df.drop('Age1', axis=1)
#или df.drop('Age1', axis=1, inplace=True)

print(df)

#   Age2
#0    82
#1    24
#2    71
#3    12

**Изменение имен столбцов DataFrame с помощью атрибута columns**

Для изменения имен столбцов в Pandas DataFrame можно использовать атрибут columns. Для этого следует переопределить этот атрибут, передав в качестве нового значения список имен столбцов с желаемыми именами.

Пусть имеется DataFrame df с колонками 'column1', 'column2', нам нужно переименовать колонки на 'new_column1', 'new_column2'. Вот пример кода, который делает это:

df.columns = ['new_column2', 'new_column1']

Этот код переопределит имена столбцов DataFrame df на новые.


In [None]:
#пример переименования колонок с помощью атрибута columns
import pandas as pd

data = [[27, 82],
        [16, 24],
        [50, 71],
        [45, 12]]

df = pd.DataFrame(data, columns=['Age1', 'Age2'])

print(df)

#   Age1  Age2
#0    27    82
#1    16    24
#2    50    71
#3    45    12

df.columns = ['Wins', 'Losses']

print(df)

#   Wins  Losses
#0    27      82
#1    16      24
#2    50      71
#3    45      12

**Перестановка порядка следования колонок в DataFrame**

Иногда вам может потребоваться переставить колонки в существующем DataFrame. Предположим, у вас есть DataFrame с колонками 'column1', 'column2' и вы хотите поменять их местами, так чтобы сначала шла колонка 'column2', а потом 'column1'. Это можно сделать так:

df = df[['column2', 'column1']]


In [None]:
#пример перестановки колонок местами
import pandas as pd

data = [[27, 82],
        [16, 24],
        [50, 71],
        [45, 12]]

df = pd.DataFrame(data, columns=['Age1', 'Age2'])

print(df)

#   Age1  Age2
#0    27    82
#1    16    24
#2    50    71
#3    45    12

df = df[['Age2', 'Age1']]

print(df)

#   Age2  Age1
#0    82    27
#1    24    16
#2    71    50
#3    12    45

**Изменение типа данных в колонке в DataFrame**

Атрибут astype позволяет задавать отдельным колонкам конкретный тип данных. Пусть есть DataFrame с колонками 'column1' и 'column2', которым нужно задать тип данных int. Это можно сделать следующим образом:

df = df.astype({'column1':'int64', 'column2': 'int64'})

In [None]:
#пример смены типа данных c int на float
import pandas as pd

data = [[27, 82],
        [16, 24],
        [50, 71],
        [45, 12]]

df = pd.DataFrame(data, columns=['Age1', 'Age2'])
df = df.astype({'Age1' : 'float64', 'Age2' : 'float64'})

print(df)

#   Age1  Age2
#0  27.0  82.0
#1  16.0  24.0
#2  50.0  71.0
#3  45.0  12.0

**Атрибуты index, values, name DataFrame, извлечение строк**
=
**Извлечение строк**

В DataFrame есть несколько способов извлечения строк. Один из самых распространенных – это использование метода loc или iloc.
loc позволяет извлекать строки по их меткам, а iloc - по их индексам.

Методы loc и iloc возвращают объект DataFrame или объект Series, в зависимости от того, сколько строк было выбрано. Если используется loc для выбора одной строки, то он вернет объект Series.

In [None]:
#пример извлечения строк с помощью методов loc и iloc
import pandas as pd

data = {'name': ['John', 'Jane', 'Bill'], 
        'age': [25, 30, 35],
        'country': ['USA', 'Canada', 'UK']}

df = pd.DataFrame(data, index=['a', 'b', 'c']) #присваиваем метки для дальнейшего использования loc

print(df)

#   name  age country
#a  John   25     USA
#b  Jane   30  Canada
#c  Bill   35      UK

print(df.loc['a']) #извлечение одной строки по её метке

#name       John
#age          25
#country     USA
#Name: a, dtype: object

print(df.loc[['a', 'c']]) #извлечение нескольких строк по их меткам

#   name  age country
#a  John   25     USA
#c  Bill   35      UK

print(df.iloc[1]) #извлечение одной строки по её индексу

#name         Jane
#age            30
#country    Canada
#Name: b, dtype: object

print(df.iloc[[0, 2]]) #извлечение нескольких строк по их меткам

#   name  age country
#a  John   25     USA
#c  Bill   35      UK