<a href="https://colab.research.google.com/github/MaryBakatova/-/blob/main/2_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Создание DataFrame**

In [None]:
import pandas as pd
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [24, 27, 22, 32],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']
}
df = pd.DataFrame(data)

print('Исходный DataFrame:')
print(df)

Исходный DataFrame:
      Name  Age         City
0    Alice   24     New York
1      Bob   27  Los Angeles
2  Charlie   22      Chicago
3    David   32      Houston


# **Фильтрация**

In [None]:
filtred_df = df[df['Age'] > 25]  #фильтрация по столбцу
print('\nПользователи старше 25 лет:')
print(filtred_df)


Пользователи старше 25 лет:
    Name  Age         City
1    Bob   27  Los Angeles
3  David   32      Houston


# **сохранение файла в CSV формат**

In [None]:
# сохранение файла в CSV  формат

df.to_csv('output.csv', index = False)
print('\nDataFrame сохранен в файл "output.csv".')


DataFrame сохранен в файл "output.csv".


# **Группировка**

In [None]:
import pandas as pd
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Age': [24, 27, 22, 32, 24],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'New York'],
    'Salary': [70000, 80000, 50000, 90000, 75000]
}
df = pd.DataFrame(data)

#группировка по городу и вычисление ср зп (agg - агрегация по salary and age)
grouped = df.groupby('City').agg({'Salary': 'mean', 'Age': 'mean'}).reset_index()

print('Средняя зп и возраст по городам:')
print(grouped)

Средняя зп и возраст по городам:
          City   Salary   Age
0      Chicago  50000.0  22.0
1      Houston  90000.0  32.0
2  Los Angeles  80000.0  27.0
3     New York  72500.0  24.0


# **Обработка пропусков данных с библиотекой Numpy**

In [None]:
import pandas as pd
import numpy as np

data = {
    'Name': ['Alice', 'Bob', np.nan, 'David', 'Eve'],
    'Age': [24, np.nan, 22, 32, 24],
    'City': ['New York', 'Los Angeles', 'Chicago', np.nan, 'New York'],
}
df = pd.DataFrame(data)
print(df)

    Name   Age         City
0  Alice  24.0     New York
1    Bob   NaN  Los Angeles
2    NaN  22.0      Chicago
3  David  32.0          NaN
4    Eve  24.0     New York


In [None]:
df['Name'].fillna('Unknown', inplace =True)
#inplace =True означение перезаписать содержимое
#если inplace = False, то значение не перезапишется, а выйдет также NaN

df['Age'].fillna(df['Age'].mean(), inplace=True)
#в данном случае заполнили пропуски в столбце Age  средними значениеями (mean)

print('DataFrame после заполнения пропусков:')
print(df)

DataFrame после заполнения пропусков:
      Name   Age         City
0    Alice  24.0     New York
1      Bob  25.5  Los Angeles
2  Unknown  22.0      Chicago
3    David  32.0          NaN
4      Eve  24.0     New York


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Name'].fillna('Unknown', inplace =True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Age'].fillna(df['Age'].mean(), inplace=True)


# **Чтение и запись данных**

In [None]:
import pandas as pd

#чтение данных из csv
df = pd.read_csv('/content/output.csv')
#своя ссылка на файл (важно, после read может быть другой формат xml  и тд, в заивисимости от формата файла)
print(df)

      Name  Age         City
0    Alice   24     New York
1      Bob   27  Los Angeles
2  Charlie   22      Chicago
3    David   32      Houston


# **Запись CSV в формат xlsx**

In [None]:
df.to_excel('output.xlsx', index=False)
print('\nDataFrame сохранен в output.xlsx')


DataFrame сохранен в output.xlsx


# **Сортировка данных**

In [None]:
import pandas as pd
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [24, 27, 22, 32],
}
df = pd.DataFrame(data)

sorted_df = df.sort_values(by='Age')
#values обозначение сортировки по возрастанию
print('Отсортированный dataframe  по возрасту:')
print(sorted_df)

Отсортированный dataframe  по возрасту:
      Name  Age
2  Charlie   22
0    Alice   24
1      Bob   27
3    David   32


# **Удаление столбцов**

In [None]:
import pandas as pd
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [24, 27, 22, 32],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']
}
df = pd.DataFrame(data)

#удаление столбца City (после сити можно поставить , и перечислить все колонки, которые надо удалить)
df.drop(columns=['City'], inplace=True)
#inplase = True означет, что удаление надо также сделать в исходном DataFrame
#inplace = False означает, что операция разовая, если вернуться к df, то удаленная колонка будет на месте
print(' DataFrame после удаления столбца "City":')
print(df)

 DataFrame после удаления столбца "City":
      Name  Age
0    Alice   24
1      Bob   27
2  Charlie   22
3    David   32


# **Применение функций к столбцам**

In [None]:
import pandas as pd
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [24, 27, 22, 32],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']
}
df = pd.DataFrame(data)

#apply  означает применить ко всем значениям из выделенной колонки
df['Age'] = df['Age'].apply(lambda x: x + 1) #увеличение возраста на 1
#слева - направо (сначала сработает функция +1, потом применится к df, после применится к столбцу, и новый стобец перезапишется в исходный df )
#это вместо inplace=True
print(' DataFrame после увеличения возраста')
print(df)

 DataFrame после увеличения возраста
      Name  Age         City
0    Alice   25     New York
1      Bob   28  Los Angeles
2  Charlie   23      Chicago
3    David   33      Houston


# **Объединение DataFrame**

In [None]:
import pandas as pd
df1 = pd.DataFrame({'Name': ['Alice', 'Bob'], 'Age': [24, 27]})
df2 = pd.DataFrame({'Name': ['Charlie', 'David'], 'Age': [22, 32]})

combined_df = pd.concat([df1, df2], ignore_index=True)
print('Объединенный DataFrame:')
print(combined_df)

#если система не найдет по каким критериям объединить, то запишет датафреймы друг под другом
#после concat в скобках прописан df1 а потом df2, поэтому идут сначала значения из df1
#ignore_index = True значит игнорируем порядковые номера и перезаписываем заново

Объединенный DataFrame:
      Name  Age
0    Alice   24
1      Bob   27
2  Charlie   22
3    David   32


# **Использование pivot_table**

In [None]:
import pandas as pd
data = {
    'Date': ['2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02'],
    'Product': ['A', 'B', 'A', 'B'],
    'Sales': [100, 200, 150, 250]
}

df = pd.DataFrame(data)

#создание сводной таблицы
pivot_table = df.pivot_table(values='Sales', index='Date', columns='Product', aggfunc = 'sum', fill_value=0)
print('Сводная таблица')
print(pivot_table)


Сводная таблица
Product       A    B
Date                
2021-01-01  100  200
2021-01-02  150  250


# **Слияние DataFrame**

In [None]:
import pandas as pd
df1 = pd.DataFrame({'Name': ['Alice', 'Bob'], 'City': ['New York', 'Los Angeles']})
df2 = pd.DataFrame({'Name': ['Charlie', 'David'], 'City': ['Chicago', 'Houston']})

#слияние по имени
#вместо outer (берет вообще все что есть) можеть быть left, right, inner
merged_df = pd.merge(df1, df2, on = 'Name', how = 'outer')
print('Слияние DataFrame')
print(merged_df)


Слияние DataFrame
      Name       City_x   City_y
0    Alice     New York      NaN
1      Bob  Los Angeles      NaN
2  Charlie          NaN  Chicago
3    David          NaN  Houston


# **Numpy**

In [None]:
import numpy as np

#создаем массив
array = np.array([1, 2, 3, 4, 5])

#выполнение операций
mean_value = np.mean(array) #среднее значение по всему списку
sum_value = np.sum(array) #сумма всех значений
max_value = np.max(array)
min_value = np.min(array)

print(f'Массив: {array}')
print(f'Среднее значение: {mean_value}')
print(f'Сумма: {sum_value}')
print(f'Максимальное значение: {max_value}')
print(f'Минимальное значение: {min_value}')


Массив: [1 2 3 4 5]
Среднее значение: 3.0
Сумма: 15
Максимальное значение: 5
Минимальное значение: 1


# **Numpy - мат операции с массивами**

In [None]:
import numpy as np

#создаем массив
array1 = np.array([1, 2, 3, 4])
array2 = np.array([5, 6, 7, 8])

#выполнение разл операций
addition = array1 + array2
multiplication = array1 * array2

#векторное умножение матриц
dot_product = np.dot(array1, array2)
print(f'Первый массив: {array1}')
print(f'Второй массив: {array2}')
print(f'Сумма массивов: {addition}')
print(f'Произведение массивов: {multiplication}')
print(f'Скалярное произведение массивов: {dot_product}')

Первый массив: [1 2 3 4]
Второй массив: [5 6 7 8]
Сумма массивов: [ 6  8 10 12]
Произведение массивов: [ 5 12 21 32]
Скалярное произведение массивов: 70


# **Numpy - - генерация случайных чисел**

In [None]:
import numpy as np

random_array = np.random.rand(5) #5 случайных чисел от 0 до 1
random_int_array = np.random.randint(1, 10, size=5) # 5 случайных чисел от 1 до 10

print(f'Массив случайных чисел: {random_array}')
print(f'Массив случайных целых чисел: {random_int_array}')

Массив случайных чисел: [0.09265999 0.43463816 0.21075732 0.49866623 0.40879788]
Массив случайных целых чисел: [2 8 4 4 1]


# **Изменение формы массивов**

In [None]:
import numpy as np

#создание одномерного массива
array = np.array([1, 2, 3, 4, 5, 6])

#изменение формы массива 2строки х 3столбца
reshaped_array = array.reshape(2,3)
print('Измененный массив')
print(reshaped_array)

Измененный массив
[[1 2 3]
 [4 5 6]]


# **Копирование массивов**

In [None]:
import numpy as np

#создание одномерного массива
array = np.array([1, 2, 3, 4])

#копирование массива (при этом исходный массив сохранился)
array_copy = array.copy()
array_copy[0] = -10 # в квадратных скобках идет обращение к первому элементу.  отсчет идет от 0

print(f'Оригинальный массив: {array}')
print(f'Копия массива: {array_copy}')


Оригинальный массив: [1 2 3 4]
Копия массива: [-10   2   3   4]


# **Фильтрация массивов**

In [2]:
import numpy as np

#создание одномерного массива
array = np.array([1, 2, 3, 4, 5, 6])

#фильтрация: набор четных чисел
even_numbers = array[array % 2 == 0]
print(f'четные числа из массива:')
print(even_numbers)


четные числа из массива:
[2 4 6]


# **Статистические функции**

In [3]:
import numpy as np

#создание одномерного массива
array = np.array([1, 2, 3, 4, 5])

#вычисление статистики
mean_value = np.mean(array)
std_value = np.std(array) #стандартное отклонение
var_value = np.var(array) #дисперсия

print(f'Среднее значение: {mean_value}')
print(f'Стандартное отклонение: {std_value}')
print(f'Дисперсия: {var_value}')

Среднее значение: 3.0
Стандартное отклонение: 1.4142135623730951
Дисперсия: 2.0


# **Сложение массивов**

In [4]:
import numpy as np

#создаем массив
array1 = np.array([1, 2, 3, 4])
array2 = np.array([5, 6, 7, 8])

#выполнение разл операций
addition = array1 + array2

print(f'Сумма массивов: {addition}')

Сумма массивов: [ 6  8 10 12]


# **Индексация и срезы**

In [5]:
import numpy as np

#создание одномерного массива
array = np.array([1, 2, 3, 4, 5])

#Индексация и срезы (указываем с какого по какой значения)
slice_array = array[1:4] #срез с 1 по 3 индекс
print(f'Срез массива:{array}')
print(slice_array)

Срез массива:[1 2 3 4 5]
[2 3 4]


# **Матричные операции**

In [6]:
import numpy as np

#создание одномерного массива
matrix1 = np.array([[1, 2], [3, 4]])
matrix2 = np.array([[3, 7], [4, 8]])

#матричное умножение
result = np.dot(matrix1, matrix2)
print('Результат матричного умножения')
print(result)

Результат матричного умножения
[[11 23]
 [25 53]]
