# 📊 Анализ данных: Pandas и NumPy
## Учебный конспект для начинающих

---

### 📚 Содержание
1. [Базовые функции Python](#1-базовые-функции-python-для-анализа-данных)
2. [Знакомство с NumPy](#2-знакомство-с-numpy)
3. [Работа с Pandas: загрузка и анализ](#3-работа-с-pandas-загрузка-и-первичный-анализ)
4. [Предобработка данных](#4-предобработка-данных-пропуски-дубликаты-фильтрация)
5. [Группировка и агрегация](#5-группировка-агрегация-и-сводные-таблицы)

## 1. Базовые функции Python для анализа данных

> **Цель**: Понять основы Python до использования библиотек.

In [21]:
# Переменные и типы
age = 25
price = 99.99
name = "Alice"
is_student = True

print(type(age))      # int
print(type(price))    # float

<class 'int'>
<class 'float'>


In [22]:
# Списки и циклы
heights = [170, 165, 180, 175, 160]

# Среднее вручную
total = 0
for h in heights:
    total += h
average = total / len(heights)
print(f"Средний рост: {average:.1f} см")

Средний рост: 170.0 см


In [23]:
# Словари
person = {
    "name": "Bob",
    "age": 30,
    "city": "Moscow"
}
print(person["name"])

Bob


In [24]:
# Функции
def calculate_bmi(weight, height):
    """Расчёт BMI"""
    height_m = height / 100
    return weight / (height_m ** 2)

bmi = calculate_bmi(70, 175)
print(f"BMI: {bmi:.2f}")

BMI: 22.86


## 2. Знакомство с NumPy

> **NumPy** — библиотека для быстрых математических операций.

In [25]:
import numpy as np

In [26]:
# Создание массива
arr = np.array([1, 2, 3, 4, 5])
print("Массив:", arr)
print("Тип:", type(arr))

Массив: [1 2 3 4 5]
Тип: <class 'numpy.ndarray'>


In [27]:
# Специальные массивы
zeros = np.zeros(3)
ones = np.ones((2, 2))
range_arr = np.arange(0, 10, 2)
linspace = np.linspace(0, 1, 5)

print("Zeros:", zeros)
print("Ones:\n", ones)
print("Arange:", range_arr)
print("Linspace:", linspace)

Zeros: [0. 0. 0.]
Ones:
 [[1. 1.]
 [1. 1.]]
Arange: [0 2 4 6 8]
Linspace: [0.   0.25 0.5  0.75 1.  ]


In [28]:
# Атрибуты массива
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])
print("Размерность:", arr_2d.ndim)
print("Форма:", arr_2d.shape)
print("Число элементов:", arr_2d.size)
print("Тип данных:", arr_2d.dtype)

Размерность: 2
Форма: (2, 3)
Число элементов: 6
Тип данных: int64


In [29]:
# Математические операции
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

print("Сумма:", a + b)
print("Умножение:", a * b)
print("Корень:", np.sqrt(a))
print("Среднее:", a.mean())
print("Сумма:", a.sum())

Сумма: [5 7 9]
Умножение: [ 4 10 18]
Корень: [1.         1.41421356 1.73205081]
Среднее: 2.0
Сумма: 6


## 3. Работа с Pandas: загрузка и первичный анализ

> **Pandas** — главный инструмент для анализа табличных данных.

In [30]:
import pandas as pd

In [31]:
# Загрузка датасета Iris
url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv"
df = pd.read_csv(url)

In [32]:
# Первичный осмотр
df.head()  # первые 5 строк

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [33]:
df.tail(3)  # последние 3 строки

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


In [34]:
df.info()  # информация о типах и пропусках

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [35]:
df.describe()  # статистика по числовым столбцам

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [36]:
print(f"Размер: {df.shape}")  # (строки, столбцы)
print("Типы:\n", df.dtypes)
print("Пропуски:\n", df.isnull().sum())

Размер: (150, 5)
Типы:
 sepal_length    float64
sepal_width     float64
petal_length    float64
petal_width     float64
species          object
dtype: object
Пропуски:
 sepal_length    0
sepal_width     0
petal_length    0
petal_width     0
species         0
dtype: int64


## 4. Предобработка данных: пропуски, дубликаты, фильтрация

In [37]:
# Создадим копию и добавим пропуски
df_copy = df.copy()
df_copy.loc[0:5, 'sepal_length'] = np.nan
print("Пропуски в sepal_length:", df_copy['sepal_length'].isnull().sum())

Пропуски в sepal_length: 6


In [38]:
# Заполнение средним
mean_val = df_copy['sepal_length'].mean()
df_copy['sepal_length'].fillna(mean_val, inplace=True)
print("Пропуски после fillna:", df_copy['sepal_length'].isnull().sum())

Пропуски после fillna: 0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_copy['sepal_length'].fillna(mean_val, inplace=True)


In [39]:
# Удаление дубликатов (пример)
df_dup = pd.concat([df_copy, df_copy.iloc[[0]]], ignore_index=True)
print("До удаления дубликатов:", df_dup.duplicated().sum())

df_clean = df_dup.drop_duplicates()
print("После удаления:", df_clean.duplicated().sum())

До удаления дубликатов: 2
После удаления: 0


In [40]:
# Фильтрация
versicolor = df[df['species'] == 'versicolor']
long_sepals = df[df['sepal_length'] > 5.5]
filtered = df[(df['sepal_length'] > 5.5) & (df['species'] == 'virginica')]

filtered.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
100,6.3,3.3,6.0,2.5,virginica
101,5.8,2.7,5.1,1.9,virginica
102,7.1,3.0,5.9,2.1,virginica
103,6.3,2.9,5.6,1.8,virginica
104,6.5,3.0,5.8,2.2,virginica


In [41]:
# Новые столбцы
df['petal_ratio'] = df['petal_length'] / df['petal_width']
df['wide_petal'] = (df['petal_width'] > 1.0).astype(int)

df[['petal_length', 'petal_width', 'petal_ratio', 'wide_petal']].head()

Unnamed: 0,petal_length,petal_width,petal_ratio,wide_petal
0,1.4,0.2,7.0,0
1,1.4,0.2,7.0,0
2,1.3,0.2,6.5,0
3,1.5,0.2,7.5,0
4,1.4,0.2,7.0,0


## 5. Группировка, агрегация и сводные таблицы

In [42]:
# Группировка по виду
grouped = df.groupby('species').mean()
grouped

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width,petal_ratio,wide_petal
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
setosa,5.006,3.428,1.462,0.246,6.908,0.0
versicolor,5.936,2.77,4.26,1.326,3.242837,0.86
virginica,6.588,2.974,5.552,2.026,2.780662,1.0


In [43]:
# Агрегация с несколькими функциями
stats = df.groupby('species')['sepal_length'].agg(['mean', 'std', 'min', 'max'])
stats

Unnamed: 0_level_0,mean,std,min,max
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.006,0.35249,4.3,5.8
versicolor,5.936,0.516171,4.9,7.0
virginica,6.588,0.63588,4.9,7.9


In [44]:
# Сводная таблица
pivot = pd.pivot_table(
    df,
    values='sepal_length',
    index='species',
    columns='wide_petal',
    aggfunc='mean',
    fill_value=0
)
pivot

wide_petal,0,1
species,Unnamed: 1_level_1,Unnamed: 2_level_1
setosa,5.006,0.0
versicolor,5.414286,6.02093
virginica,0.0,6.588


In [45]:
# Применение своей функции
def size_label(x):
    return 'Large' if x > 6.0 else 'Small'

df['size_category'] = df['sepal_length'].apply(size_label)
df[['sepal_length', 'size_category']].head()

Unnamed: 0,sepal_length,size_category
0,5.1,Small
1,4.9,Small
2,4.7,Small
3,4.6,Small
4,5.0,Small


## 🧠 Заключение

### 🔹 NumPy
- `np.array()` — создание массива
- `np.zeros()`, `np.ones()` — шаблоны
- `mean()`, `sum()`, `sqrt()` — математика

### 🔹 Pandas
- `pd.read_csv()` — загрузка
- `head()`, `info()`, `describe()` — осмотр
- `fillna()`, `drop_duplicates()` — очистка
- `groupby()`, `pivot_table()` — анализ

✅ **Совет**: Всегда начинай с `.head()` и `.info()`!