1. Создание DataFrame разными способами

1. Создание DataFrame из словаря списков

In [2]:
import pandas as pd
import numpy as np

# Данные о сотрудниках
data_dict = {
    'Имя': ['Иван', 'Марина', 'Алексей', 'Ольга', 'Сергей'],
    'Возраст': [30, 28, 35, 40, 32],
    'Отдел': ['IT', 'HR', 'Sales', 'Marketing', 'Finance']
}

df_from_dict = pd.DataFrame(data_dict)
print("DataFrame из словаря списков:")
print(df_from_dict)

DataFrame из словаря списков:
       Имя  Возраст      Отдел
0     Иван       30         IT
1   Марина       28         HR
2  Алексей       35      Sales
3    Ольга       40  Marketing
4   Сергей       32    Finance


2. Создание DataFrame из списка словарей

In [3]:
list_of_dicts = [
    {'Имя': 'Иван', 'Возраст': 30, 'Отдел': 'IT'},
    {'Имя': 'Марина', 'Возраст': 28, 'Отдел': 'HR'},
    {'Имя': 'Алексей', 'Возраст': 35, 'Отдел': 'Sales'},
    {'Имя': 'Ольга', 'Возраст': 40, 'Отдел': 'Marketing'},
    {'Имя': 'Сергей', 'Возраст': 32, 'Отдел': 'Finance'}
]

df_from_list = pd.DataFrame(list_of_dicts)
print("\nDataFrame из списка словарей:")
print(df_from_list)


DataFrame из списка словарей:
       Имя  Возраст      Отдел
0     Иван       30         IT
1   Марина       28         HR
2  Алексей       35      Sales
3    Ольга       40  Marketing
4   Сергей       32    Finance


3. Создание DataFrame из массива NumPy

In [4]:
np.random.seed(42) # Зафиксируем seed для воспроизводимости результата
random_ages = np.random.randint(low=20, high=61, size=(5,))
names = data_dict['Имя'][:len(random_ages)]
departments = data_dict['Отдел'][:len(random_ages)]

numpy_df_data = {
    'Имя': names,
    'Возраст': random_ages,
    'Отдел': departments
}

df_from_numpy = pd.DataFrame(numpy_df_data)
print("\nDataFrame из массива NumPy:")
print(df_from_numpy)


DataFrame из массива NumPy:
       Имя  Возраст      Отдел
0     Иван       58         IT
1   Марина       48         HR
2  Алексей       34      Sales
3    Ольга       27  Marketing
4   Сергей       40    Finance


4. Проверка типов данных во всех DataFrames

In [5]:
print("\nТипы данных в df_from_dict:")
print(df_from_dict.info())

print("\nТипы данных в df_from_list:")
print(df_from_list.info())

print("\nТипы данных в df_from_numpy:")
print(df_from_numpy.info())


Типы данных в df_from_dict:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Имя      5 non-null      object
 1   Возраст  5 non-null      int64 
 2   Отдел    5 non-null      object
dtypes: int64(1), object(2)
memory usage: 252.0+ bytes
None

Типы данных в df_from_list:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Имя      5 non-null      object
 1   Возраст  5 non-null      int64 
 2   Отдел    5 non-null      object
dtypes: int64(1), object(2)
memory usage: 252.0+ bytes
None

Типы данных в df_from_numpy:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Имя      5 non-null      object
 1   Возрас

2. Чтение данных из файлов ( CSV , Excel , JSON )

In [6]:
import pandas as pd

# Таблица 1
data_table1 = {
    'Имя': ['Иванов', 'Петров', 'Сидоров'],
    'Возраст': [30, 35, 40]
}

# Таблица 2
data_table2 = {
    'Клиент': ['ООО Рога и Копыта', 'ИП Семенов', 'ЗАО Технолог'],
    'Город': ['Москва', 'Петербург', 'Новосибирск']
}

# Преобразуем в DataFrame
df_table1 = pd.DataFrame(data_table1)
df_table2 = pd.DataFrame(data_table2)

# Шаг 1: Сохранение и чтение CSV
df_table1.to_csv('table1.csv', index=False)
loaded_df_table1 = pd.read_csv('table1.csv')

# Шаг 2: Сохранение и чтение Excel
with pd.ExcelWriter('data.xlsx') as writer:
    df_table2.to_excel(writer, sheet_name='Клиенты', index=False)
loaded_df_table2 = pd.read_excel('data.xlsx', sheet_name='Клиенты')

# Шаг 3: Сохранение и чтение JSON
df_table1.to_json('table1.json', orient='records')
loaded_df_table1_json = pd.read_json('table1.json')

# Вывести первые строки каждой таблицы
print("Первые 5 строк таблицы 1 (CSV):")
print(loaded_df_table1.head())

print("\nПервые 5 строк таблицы 2 (Excel):")
print(loaded_df_table2.head())

print("\nПервые 5 строк таблицы 1 (JSON):")
print(loaded_df_table1_json.head())

Первые 5 строк таблицы 1 (CSV):
       Имя  Возраст
0   Иванов       30
1   Петров       35
2  Сидоров       40

Первые 5 строк таблицы 2 (Excel):
              Клиент        Город
0  ООО Рога и Копыта       Москва
1         ИП Семенов    Петербург
2       ЗАО Технолог  Новосибирск

Первые 5 строк таблицы 1 (JSON):
       Имя  Возраст
0   Иванов       30
1   Петров       35
2  Сидоров       40


3. Доступ к данным ( .loc , .iloc , .at , .iat )

In [8]:
import pandas as pd

# Пример таблицы
data = {
    'ID': [1, 2, 3, 4, 5],
    'Имена': ['Иван', 'Петр', 'Павел', 'Анна', 'Мария'],
    'Возраст': [30, 35, 40, 32, 28],
    'Отдел': ['IT', 'HR', 'Sales', 'Marketing', 'Finance'],
    'Зарплата': [50000, 45000, 60000, 55000, 52000]
}

# Преобразуем словарь в DataFrame
df = pd.DataFrame(data)

   ID  Имена  Возраст    Отдел  Зарплата
4   5  Мария       28  Finance     52000
40
Finance
Finance
55000


Получите информацию о сотруднике с ID = 5 с помощью .loc[]

In [13]:
employee_id_5 = df.loc[df['ID'] == 5]
print(employee_id_5)

   ID  Имена  Возраст    Отдел  Зарплата
4   5  Мария       28  Finance     52000


Выведите возраст третьего сотрудника в таблице с .iloc[]

In [12]:
third_employee_age = df.iloc[2]['Возраст']
print(third_employee_age)

40


Выведите название отдела для сотрудника "Мария" с .at[]

In [11]:
department_maria = df.at[df.index[df['Имена'] == 'Мария'][0], 'Отдел']
print(department_maria)

Finance


In [None]:
Выведите зарплату сотрудника, находящегося в четвертой строке и пятом столбце, используя .iat[]

In [9]:
salary_fourth_row_fifth_column = df.iat[3, 4]
print(salary_fourth_row_fifth_column)

55000


4. Добавление новых столбцов и строк

In [17]:
import pandas as pd

# Таблица 1 (пример структуры)
data = {
    'Имя': ['Иван', 'Петр', 'Олег', 'Алина', 'Евгений'],
    'Возраст': [30, 35, 40, 32, 28],
    'Должность': ['Менеджер', 'Продавец', 'Кассир', 'Программист', 'Бухгалтер'],
    'Отдел': ['IT', 'Sales', 'Retail', 'IT', 'Finance'],
    'Зарплата': [50000, 45000, 60000, 55000, 52000]
}

# Создаем DataFrame
df = pd.DataFrame(data)

In [22]:
def salary_category(salary):
    if salary < 60000:
        return "Низкая"
    elif 60000 <= salary < 100000:
        return "Средняя"
    else:
        return "Высокая"

# Добавляем нового сотрудника
df.loc[len(df)] = ["Антон", 32, "Разработчик", "IT", 85000, None]

# Перерассчитываем весь столбец "Категория зарплаты"
df['Категория зарплаты'] = df['Зарплата'].apply(salary_category)

new_employees = pd.DataFrame({
    'Имя': ['Максим', 'Светлана'],
    'Возраст': [33, 29],
    'Должность': ['Инженер', 'Администратор'],
    'Отдел': ['Engineering', 'Administration'],
    'Зарплата': [70000, 58000]
})

# Объединяем основной DataFrame с новым DataFrame
df = pd.concat([df, new_employees], ignore_index=True)

# Обновляем категорию зарплаты
df['Категория зарплаты'] = df['Зарплата'].apply(salary_category)

print(df)

        Имя  Возраст      Должность           Отдел  Зарплата  \
0      Иван       30       Менеджер              IT     50000   
1      Петр       35       Продавец           Sales     45000   
2      Олег       40         Кассир          Retail     60000   
3     Алина       32    Программист              IT     55000   
4   Евгений       28      Бухгалтер         Finance     52000   
5     Антон       32    Разработчик              IT     85000   
6     Антон       32    Разработчик              IT     85000   
7     Антон       32    Разработчик              IT     85000   
8    Максим       33        Инженер     Engineering     70000   
9  Светлана       29  Администратор  Administration     58000   

  Категория зарплаты  
0             Низкая  
1             Низкая  
2            Средняя  
3             Низкая  
4             Низкая  
5            Средняя  
6            Средняя  
7            Средняя  
8            Средняя  
9             Низкая  


5. Удаление строк и столбцов

In [25]:
import pandas as pd

data = {
    'ID': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'Имя': ['Иван', 'Петр', 'Михаил', 'Елена', 'Александр', 'Дмитрий', 'Виктория', 'Алексей', 'Алёна', 'Артем'],
    'Должность': ['Менеджер', 'Директор', 'Руководитель', 'Специалист', 'Разработчик', 'Аналитик', 'Юрист', 'Архитектор', 'Графический дизайнер', 'Ассистент'],
    'Отдел': ['IT', 'Management', 'HR', 'IT', 'Development', 'Analytics', 'Legal', 'Architecture', 'Design', 'Support'],
    'Зарплата': [50000, 70000, 60000, 55000, 65000, 62000, 58000, 75000, 52000, 45000],
    'Стаж работы': [5, 10, 3, 4, 6, 2, 8, 7, 1, 12],
    'Категория зарплаты': ['Средняя', 'Высокая', 'Средняя', 'Средняя', 'Средняя', 'Средняя', 'Средняя', 'Высокая', 'Низкая', 'Низкая']
}

# Создаем DataFrame
df = pd.DataFrame(data)

# 1. Удаляем столбец "Категория зарплаты"
df.drop(columns=['Категория зарплаты'], inplace=True)

# 2. Удаляем строку с ID = 10
df = df.drop(df[df['ID'] == 10].index)

# 3. Удаляем строки, где стаж работы меньше 3 лет
df = df[df['Стаж работы'] >= 3]

# 4. Оставляем только столбцы "Имя", "Должность", "Зарплата"
df = df[['Имя', 'Должность', 'Зарплата']]

# Окончательный DataFrame
print(df)

         Имя     Должность  Зарплата
0       Иван      Менеджер     50000
1       Петр      Директор     70000
2     Михаил  Руководитель     60000
3      Елена    Специалист     55000
4  Александр   Разработчик     65000
6   Виктория         Юрист     58000
7    Алексей    Архитектор     75000


6. Фильтрация данных ( query , isin , between 

In [26]:
import pandas as pd

# Пример таблицы 2
data = {
    'Имя клиента': ['Игорь', 'Анна', 'Семён', 'Дарья', 'Владимир', 'Екатерина', 'Кирилл', 'Галина'],
    'Город': ['Москва', 'Санкт-Петербург', 'Ростов-на-Дону', 'Москва', 'Самара', 'Санкт-Петербург', 'Казань', 'Москва'],
    'Баланс на счете': [120000, 200000, 80000, 150000, 180000, 100000, 250000, 90000],
    'Кредитная история': ['Хорошая', 'Хорошая', 'Плохая', 'Хорошая', 'Средняя', 'Хорошая', 'Хорошая', 'Плохая']
}

# Создаем DataFrame
df = pd.DataFrame(data)

print("Исходный DataFrame:")
print(df)

# Задача 1: Выбор клиентов из Москвы или Санкт-Петербурга
clients_in_cities = df[df['Город'].isin(['Москва', 'Санкт-Петербург'])]

print("\nКлиенты из Москвы или Санкт-Петербурга:")
print(clients_in_cities)

# Задача 2: Выбор клиентов с балансом от 100000 до 250000
balance_between_clients = df[df['Баланс на счете'].between(100000, 250000)]

print("\nКлиенты с балансом от 100000 до 250000:")
print(balance_between_clients)

# Задача 3: Выбор клиентов с хорошей кредитной историей и балансом > 150000
good_credit_and_balance = df.query("`Кредитная история` == 'Хорошая' and `Баланс на счете` > 150000")

print("\nКлиенты с хорошей кредитной историей и балансом > 150000:")
print(good_credit_and_balance)

Исходный DataFrame:
  Имя клиента            Город  Баланс на счете Кредитная история
0       Игорь           Москва           120000           Хорошая
1        Анна  Санкт-Петербург           200000           Хорошая
2       Семён   Ростов-на-Дону            80000            Плохая
3       Дарья           Москва           150000           Хорошая
4    Владимир           Самара           180000           Средняя
5   Екатерина  Санкт-Петербург           100000           Хорошая
6      Кирилл           Казань           250000           Хорошая
7      Галина           Москва            90000            Плохая

Клиенты из Москвы или Санкт-Петербурга:
  Имя клиента            Город  Баланс на счете Кредитная история
0       Игорь           Москва           120000           Хорошая
1        Анна  Санкт-Петербург           200000           Хорошая
3       Дарья           Москва           150000           Хорошая
5   Екатерина  Санкт-Петербург           100000           Хорошая
7      Галина  

7. Подсчет значений ( count , value_counts , nunique )

In [27]:
import pandas as pd

# Пример таблицы 2
data = {
    'Имя клиента': ['Игорь', 'Анна', 'Семён', 'Дарья', 'Владимир', 'Екатерина', 'Кирилл', 'Галина'],
    'Город': ['Москва', 'Санкт-Петербург', 'Ростов-на-Дону', 'Москва', 'Самара', 'Санкт-Петербург', 'Казань', 'Москва'],
    'Возраст': [30, 35, 40, 32, 28, 33, 45, 30],
    'Баланс на счете': [120000, 200000, 80000, 150000, 180000, 100000, 250000, 90000]
}

# Создаем DataFrame
df = pd.DataFrame(data)

print("Исходный DataFrame:")
print(df)

# Этап 1: Количество непустых значений в каждом столбце
non_empty_values_count = df.count()

print("\nКоличество непустых значений в каждом столбце:")
print(non_empty_values_count)

# Этап 2: Частота встречаемости городов
city_value_counts = df['Город'].value_counts()

print("\nЧастота встречаемости городов:")
print(city_value_counts)

# Этап 3: Количество уникальных значений в каждом столбце
unique_values_count = df.nunique()

print("\nКоличество уникальных значений в каждом столбце:")
print(unique_values_count)

Исходный DataFrame:
  Имя клиента            Город  Возраст  Баланс на счете
0       Игорь           Москва       30           120000
1        Анна  Санкт-Петербург       35           200000
2       Семён   Ростов-на-Дону       40            80000
3       Дарья           Москва       32           150000
4    Владимир           Самара       28           180000
5   Екатерина  Санкт-Петербург       33           100000
6      Кирилл           Казань       45           250000
7      Галина           Москва       30            90000

Количество непустых значений в каждом столбце:
Имя клиента        8
Город              8
Возраст            8
Баланс на счете    8
dtype: int64

Частота встречаемости городов:
Город
Москва             3
Санкт-Петербург    2
Ростов-на-Дону     1
Самара             1
Казань             1
Name: count, dtype: int64

Количество уникальных значений в каждом столбце:
Имя клиента        8
Город              5
Возраст            7
Баланс на счете    8
dtype: int64


8. Обнаружение пропусков ( isna , notna )

In [28]:
import pandas as pd
import numpy as np

# Пример таблицы 3 с NaN-значениями
data = {
    'Имя': ['Иван', 'Петр', 'Олег', 'Елена', 'Василий'],
    'Возраст': [30, np.nan, 40, 35, 28],
    'Отдел': ['IT', 'HR', np.nan, 'Sales', 'Finance'],
    'Зарплата': [50000, 60000, np.nan, 55000, 45000]
}

# Создаем DataFrame
df = pd.DataFrame(data)

# 1. Подсчет количества NaN в каждом столбце
nan_counts = df.isna().sum()

# 2. Подсчет количества заполненных значений в каждом столбце
filled_counts = df.notna().sum()

# 3. Оставляем только строки без пропущенных значений
no_nan_rows = df.dropna()

# Вывод результатов
print("Количество NaN в каждом столбце:\n", nan_counts)
print("\nКоличество заполненных значений в каждом столбце:\n", filled_counts)
print("\nСтроки без пропущенных значений:\n", no_nan_rows)

Количество NaN в каждом столбце:
 Имя         0
Возраст     1
Отдел       1
Зарплата    1
dtype: int64

Количество заполненных значений в каждом столбце:
 Имя         5
Возраст     4
Отдел       4
Зарплата    4
dtype: int64

Строки без пропущенных значений:
        Имя  Возраст    Отдел  Зарплата
0     Иван     30.0       IT   50000.0
3    Елена     35.0    Sales   55000.0
4  Василий     28.0  Finance   45000.0


Индивидуальное задание
Вариант 3

In [29]:
import pandas as pd

# Определяем начальную пустую структуру DataFrame
columns = ['Фамилия и инициалы', 'Номер группы', 'Русский язык', 'Математика', 'История']
students_df = pd.DataFrame(columns=columns)

while True:
    print("\nВыберите действие:")
    print("1. Добавить запись о студенте.")
    print("2. Посмотреть записи.")
    print("3. Поиск студентов с оценкой 2.")
    print("4. Выход.")
    
    choice = input("Ваш выбор: ")
    
    if choice == '1':
        surname_initial = input("Введите фамилию и инициалы студента: ")
        group_number = input("Введите номер группы: ")
        
        grades = []
        for subject in columns[2:]:
            grade = int(input(f"Введите оценку по {subject}: "))
            grades.append(grade)
            
        # Добавляем новую строку в DataFrame
        students_df = pd.concat([students_df, pd.DataFrame([[surname_initial, group_number] + grades], columns=columns)], ignore_index=True)
        print("Запись добавлена!")
        
    elif choice == '2':
        # Сортируем записи по алфавиту по фамилии
        sorted_students = students_df.sort_values(by="Фамилия и инициалы")
        print(sorted_students)
        
    elif choice == '3':
        # Поиск студентов с оценкой 2
        failing_students = students_df[(students_df.iloc[:, 2:] == 2).any(axis=1)]
        
        if len(failing_students) > 0:
            print("\nСтуденты, имеющие хотя бы одну оценку 2:")
            print(failing_students[["Фамилия и инициалы", "Номер группы"]])
        else:
            print("\nНет студентов с оценкой 2.")
            
    elif choice == '4':
        break
    else:
        print("Некорректный выбор. Повторите ввод.")

print("Программа завершена.")


Выберите действие:
1. Добавить запись о студенте.
2. Посмотреть записи.
3. Поиск студентов с оценкой 2.
4. Выход.


Ваш выбор:  2


Empty DataFrame
Columns: [Фамилия и инициалы, Номер группы, Русский язык, Математика, История]
Index: []

Выберите действие:
1. Добавить запись о студенте.
2. Посмотреть записи.
3. Поиск студентов с оценкой 2.
4. Выход.


Ваш выбор:  4


Программа завершена.
