# Введение в Python для анализа данных

---

## 1. Что можно делать в Python для анализа данных

Python — универсальный язык программирования, который отлично подходит для обработки, анализа и визуализации данных. Вот несколько основных задач, которые можно решать с помощью Python:

- Загрузка данных из разных источников (файлы, базы данных, API)
- Очистка и подготовка данных к анализу
- Исследовательский анализ данных (EDA)
- Визуализация данных (графики, диаграммы)
- Статистический анализ и построение моделей
- Машинное обучение и прогнозирование

Python имеет богатую экосистему библиотек, которые облегчают все эти задачи. В этом модуле познакомимся с двумя основными — **NumPy** и **Pandas**.


## 2. Основные типы данных и преобразования

В Python для аналитики часто используются следующие типы данных:

| Тип данных | Описание                              | Пример                  |
|------------|-------------------------------------|-------------------------|
| `int`      | Целое число                         | `10`, `-5`              |
| `float`    | Число с плавающей точкой (десятичное) | `3.14`, `-0.001`         |
| `string`   | Строка текста                       | `"Максим"`, `"data"`    |
| `datetime` | Дата и время                       | `2023-08-10 12:00:00`   |

### Пример создания и преобразования типов


In [1]:
# Создание переменных разных типов
a = 10                  # int
b = 3.14                # float
c = "123"               # string
d = "2023-08-10"        # string, представляющая дату

# Преобразование string в int
c_int = int(c)          # 123

# Преобразование int в float
a_float = float(a)      # 10.0

# Работа с датами
import pandas as pd
d_datetime = pd.to_datetime(d)  # Преобразование строки в datetime

print(type(c_int), c_int)
print(type(a_float), a_float)
print(type(d_datetime), d_datetime)

<class 'int'> 123
<class 'float'> 10.0
<class 'pandas._libs.tslibs.timestamps.Timestamp'> 2023-08-10 00:00:00


> **Как это работает:**  
> Мы используем встроенные функции `int()`, `float()`, чтобы конвертировать данные между типами. Для преобразования строки с датой в формат `datetime` используем функцию `pd.to_datetime()` из библиотеки Pandas, которая понимает много форматов даты.

## 3. Введение в NumPy и Pandas

### NumPy

NumPy — библиотека для работы с числовыми массивами. Основной объект — `ndarray` (массив).


In [2]:
import numpy as np

# Создаем массив из списка
arr = np.array([1, 2, 3, 4, 5])

print(arr)
print(type(arr))

[1 2 3 4 5]
<class 'numpy.ndarray'>


> **Как это работает:**  
> `np.array()` преобразует обычный список Python в эффективный массив NumPy, который позволяет быстро выполнять математические операции над большими объёмами чисел.

### Pandas

Pandas — библиотека для работы с табличными данными. Основные структуры — `Series` (одномерный массив) и `DataFrame` (таблица).


In [3]:
import pandas as pd

# Создаем Series из списка
s = pd.Series([10, 20, 30, 40])

# Создаем DataFrame из словаря
data = {
    'Имя': ['Аня', 'Борис', 'Вера'],
    'Возраст': [25, 30, 22]
}
df = pd.DataFrame(data)

print(s)
print(df)

0    10
1    20
2    30
3    40
dtype: int64
     Имя  Возраст
0    Аня       25
1  Борис       30
2   Вера       22


> **Как это работает:**  
> `Series` похож на столбец в таблице, а `DataFrame` — на всю таблицу. Они поддерживают индексацию, фильтрацию, агрегацию и многое другое.

## 4. Чтение данных — все основные способы

### Чтение CSV файла


In [4]:
df_csv = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv')
print(df_csv.head())

   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   

     who  adult_male deck  embark_town alive  alone  
0    man        True  NaN  Southampton    no  False  
1  woman       False    C    Cherbourg   yes  False  
2  woman       False  NaN  Southampton   yes   True  
3  woman       False    C  Southampton   yes  False  
4    man        True  NaN  Southampton    no   True  


### Чтение Excel файла


In [16]:
# Для чтения Excel нужно установить пакет openpyxl: pip install openpyxl
df_dict = pd.read_excel('online_retail_II.xlsx', sheet_name=['Year 2009-2010', 'Year 2010-2011'])
print(df_dict.head())

AttributeError: 'dict' object has no attribute 'head'

### Чтение JSON файла


In [18]:
df_json = pd.read_json('https://jsonplaceholder.typicode.com/posts')
print(df_dict['Year 2009-2010'].head())
print(df_dict['Year 2010-2011'].head())

  Invoice StockCode                          Description  Quantity  \
0  489434     85048  15CM CHRISTMAS GLASS BALL 20 LIGHTS        12   
1  489434    79323P                   PINK CHERRY LIGHTS        12   
2  489434    79323W                  WHITE CHERRY LIGHTS        12   
3  489434     22041         RECORD FRAME 7" SINGLE SIZE         48   
4  489434     21232       STRAWBERRY CERAMIC TRINKET BOX        24   

          InvoiceDate  Price  Customer ID         Country  
0 2009-12-01 07:45:00   6.95      13085.0  United Kingdom  
1 2009-12-01 07:45:00   6.75      13085.0  United Kingdom  
2 2009-12-01 07:45:00   6.75      13085.0  United Kingdom  
3 2009-12-01 07:45:00   2.10      13085.0  United Kingdom  
4 2009-12-01 07:45:00   1.25      13085.0  United Kingdom  
  Invoice StockCode                          Description  Quantity  \
0  536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1  536365     71053                  WHITE METAL LANTERN         6   
2  536365

In [19]:
df1 = df_dict['Year 2009-2010']
df2 = df_dict['Year 2010-2011']

df_all = pd.concat([df1, df2], ignore_index=True)

### Чтение из SQL


In [17]:
import sqlite3
import pandas as pd

# Создаем соединение с временной базой в памяти
conn = sqlite3.connect(':memory:')

# Создаем курсор для выполнения SQL-команд
cursor = conn.cursor()

# Создаем таблицу
cursor.execute('''
CREATE TABLE table_name (
    id INTEGER PRIMARY KEY,
    name TEXT,
    age INTEGER
)
''')

# Вставляем данные
cursor.executemany('INSERT INTO table_name (name, age) VALUES (?, ?)', [
    ('Аня', 25),
    ('Борис', 30),
    ('Вера', 22),
])

# Фиксируем изменения
conn.commit()

# Считываем данные в DataFrame через Pandas
df_sql = pd.read_sql_query('SELECT * FROM table_name', conn)

print(df_sql)

# Закрываем соединение
conn.close()


   id   name  age
0   1    Аня   25
1   2  Борис   30
2   3   Вера   22


In [None]:
import sqlite3

conn = sqlite3.connect(':memory:')  # создаём временную базу в памяти
# Для демонстрации нужно создать таблицу и вставить данные, но здесь пример базового запроса
df_sql = pd.read_sql_query('SELECT * FROM table_name', conn)


### Чтение Parquet и Pickle


In [23]:
import pandas as pd
import pyarrow

print("pandas:", pd.__version__)
print("pyarrow:", pyarrow.__version__)

pandas: 2.3.1
pyarrow: 21.0.0


In [None]:
chunk_size = 100000  # количество строк за раз
chunks = []

for chunk in pd.read_csv('yellow_tripdata_2015-01.csv', chunksize=chunk_size):
    # тут можно делать обработку по частям, например фильтрацию
    chunks.append(chunk)

df = pd.concat(chunks, ignore_index=True)

In [None]:
import pandas as pd

# Скачай CSV файл, например 'yellow_tripdata_2023-01.csv'
df = pd.read_csv('yellow_tripdata_2015-01.csv')

# Сохрани в Parquet (бинарный и быстрый формат)
df.to_parquet('yellow_tripdata_2015-01.parquet', engine='pyarrow')

# Теперь можешь читать Parquet-файл
df_parquet = pd.read_parquet('yellow_tripdata_2015-01.parquet')
print(df_parquet.head())


In [None]:
# Parquet
df_parquet = pd.read_parquet('data.parquet')

# Pickle
df_pickle = pd.read_pickle('data.pkl')

## 5. Первичный просмотр данных

Основные методы для быстрого осмотра датасета:


In [10]:
print(df_csv.head())       # первые 5 строк
print(df_csv.tail(3))      # последние 3 строки
print(df_csv.shape)        # размер (строки, столбцы)
print(df_csv.info())       # информация о типах и пропусках
print(df_csv.describe())   # статистика по числовым колонкам
print(df_csv.dtypes)       # типы данных по колонкам

   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   

     who  adult_male deck  embark_town alive  alone  
0    man        True  NaN  Southampton    no  False  
1  woman       False    C    Cherbourg   yes  False  
2  woman       False  NaN  Southampton   yes   True  
3  woman       False    C  Southampton   yes  False  
4    man        True  NaN  Southampton    no   True  
     survived  pclass     sex   age  sibsp  parch   fare embarked  class  \
888         0       3  female   NaN      1      2  23.45        S  Third   
889         1       1    male  26.0      0      0  30.00        C  

> **Как это работает:**  
> Эти методы позволяют быстро оценить структуру данных, проверить наличие пропущенных значений и типы столбцов.

## 6. Подготовка данных до EDA

### Переименование столбцов


In [11]:
df_csv.rename(columns={'survived': 'Выжил', 'age': 'Возраст'}, inplace=True)

### Изменение типов данных


In [12]:
df_csv['Возраст'] = df_csv['Возраст'].astype('float')

### Работа с пропусками


In [15]:
# Проверяем пропуски
print(df_csv.isnull().sum())

# Заполнение пропусков средним значением
df_csv['Возраст'] = df_csv['Возраст'].fillna(df_csv['Возраст'].mean())

# Удаление строк с пропусками
df_csv.dropna(subset=['Возраст'], inplace=True)

Выжил            0
pclass           0
sex              0
Возраст          0
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64


---

## Мини-задания для закрепления

1. Загрузите датасет Titanic с помощью `pd.read_csv()`. Просмотрите первые 10 строк.
2. Определите типы данных в таблице и преобразуйте столбец с возрастом к типу float.
3. Переименуйте столбцы `survived` и `age` на русский язык.
4. Найдите и заполните пропуски в столбце с возрастом средним значением.
5. Сохраните полученный DataFrame в файл формата CSV с именем `titanic_clean.csv`.
