# Используем Pandas для работы с файлами в разных форматах

<a target="_blank" href="https://colab.research.google.com/github/sozykin/middle_python/blob/main/04/04_pandas.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

In [None]:
# Подключаем библиотеку Pandas
import pandas as pd

## Работа с CSV в Pandas

In [61]:
# Читаем csv файл в Pandas
df = pd.read_csv('sales.csv')

In [62]:
df

Unnamed: 0,id,date,store_nbr,family,sales,onpromotion
0,298919,2013-06-17,46,BREAD/BAKERY,566.253,0
1,298920,2013-06-17,46,CELEBRATION,0.0,0
2,298921,2013-06-17,46,CLEANING,1707.0,0
3,298922,2013-06-17,46,DAIRY,711.0,0
4,298923,2013-06-17,46,DELI,709.268,0
5,298924,2013-06-17,46,EGGS,203.0,0
6,298925,2013-06-17,46,FROZEN FOODS,249.0,0
7,298926,2013-06-17,46,GROCERY I,5715.0,0
8,298927,2013-06-17,46,GROCERY II,42.0,0


In [63]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   id           9 non-null      int64  
 1   date         9 non-null      object 
 2   store_nbr    9 non-null      int64  
 3   family       9 non-null      object 
 4   sales        9 non-null      float64
 5   onpromotion  9 non-null      int64  
dtypes: float64(1), int64(3), object(2)
memory usage: 560.0+ bytes


## Работа с JSON

In [64]:
names = pd.read_json("names_m.json",
                     encoding="Windows-1251")

In [65]:
names

Unnamed: 0,ID,Name,NumberOfPersons,global_id,Year,Month
0,1,Александр,253,37750243,2015,январь
1,2,Михаил,247,37750244,2015,январь
2,3,Иван,226,37750245,2015,январь
3,4,Максим,208,37750246,2015,январь
4,5,Артём,190,37750247,2015,январь
...,...,...,...,...,...,...
9896,11092,Тамерлан,8,2587775282,2023,Апрель
9897,11093,Даниэль,8,2587775283,2023,Апрель
9898,11094,Абдулла,8,2587775284,2023,Апрель
9899,11095,Олег,8,2587775285,2023,Апрель


In [66]:
names.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9901 entries, 0 to 9900
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   ID               9901 non-null   int64 
 1   Name             9901 non-null   object
 2   NumberOfPersons  9901 non-null   int64 
 3   global_id        9901 non-null   int64 
 4   Year             9901 non-null   int64 
 5   Month            9901 non-null   object
dtypes: int64(4), object(2)
memory usage: 464.2+ KB


Указываем типы данных для столбцов

In [67]:
names = pd.read_json("names_m.json",
                     dtype={'ID':int,
                            'Name': str,
                            'NumberOfPersons': float,
                            'global_id': int,
                            'Year': int,
                            'Month': str},
                     encoding="Windows-1251")

In [68]:
names.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9901 entries, 0 to 9900
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   ID               9901 non-null   int32  
 1   Name             9901 non-null   object 
 2   NumberOfPersons  9901 non-null   float64
 3   global_id        9901 non-null   int32  
 4   Year             9901 non-null   int32  
 5   Month            9901 non-null   object 
dtypes: float64(1), int32(3), object(2)
memory usage: 348.2+ KB


Записываем данные в JSON файл 

In [69]:
df = pd.read_csv('sales.csv')

In [70]:
df.to_json('sales.json')

In [71]:
df.to_json('sales_records.json',
           orient='records')

[Документация по методу Pandas to_json](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_sql.html).

In [None]:
df.to_json('sales_records.json',
           orient='records',
           lines=True)

## Чтение файла по частям

In [77]:
sales = pd.read_csv('sales.csv',
                    chunksize=2)

In [78]:
sales

<pandas.io.parsers.readers.TextFileReader at 0x28ac6f94c10>

In [79]:
from collections.abc import Iterator 

In [80]:
isinstance(sales, Iterator)

True

In [81]:
data = next(sales)

In [82]:
data

Unnamed: 0,id,date,store_nbr,family,sales,onpromotion
0,298919,2013-06-17,46,BREAD/BAKERY,566.253,0
1,298920,2013-06-17,46,CELEBRATION,0.0,0


In [83]:
data2 = next(sales)

In [84]:
data2

Unnamed: 0,id,date,store_nbr,family,sales,onpromotion
2,298921,2013-06-17,46,CLEANING,1707.0,0
3,298922,2013-06-17,46,DAIRY,711.0,0


In [85]:
sales = pd.read_csv('sales.csv',
                    chunksize=2)

In [86]:
for i, data in enumerate(sales):
    print(f"Итерация {i}")
    print(data)

Итерация 0
       id        date  store_nbr        family    sales  onpromotion
0  298919  2013-06-17         46  BREAD/BAKERY  566.253            0
1  298920  2013-06-17         46   CELEBRATION    0.000            0
Итерация 1
       id        date  store_nbr    family   sales  onpromotion
2  298921  2013-06-17         46  CLEANING  1707.0            0
3  298922  2013-06-17         46     DAIRY   711.0            0
Итерация 2
       id        date  store_nbr family    sales  onpromotion
4  298923  2013-06-17         46   DELI  709.268            0
5  298924  2013-06-17         46   EGGS  203.000            0
Итерация 3
       id        date  store_nbr        family   sales  onpromotion
6  298925  2013-06-17         46  FROZEN FOODS   249.0            0
7  298926  2013-06-17         46     GROCERY I  5715.0            0
Итерация 4
       id        date  store_nbr      family  sales  onpromotion
8  298927  2013-06-17         46  GROCERY II   42.0            0


In [89]:
sales = pd.read_json('sales_records.json',
                     lines=True,
                    chunksize=2)

In [90]:
for i, data in enumerate(sales):
    print(f"Итерация {i}")
    print(data)

Итерация 0
                                                  id   
0  {'0': 298919, '1': 298920, '2': 298921, '3': 2...  \

                                                date   
0  {'0': '2013-06-17', '1': '2013-06-17', '2': '2...  \

                                           store_nbr   
0  {'0': 46, '1': 46, '2': 46, '3': 46, '4': 46, ...  \

                                              family   
0  {'0': 'BREAD/BAKERY', '1': 'CELEBRATION', '2':...  \

                                               sales   
0  {'0': 566.253, '1': 0.0, '2': 1707.0, '3': 711...  \

                                         onpromotion  
0  {'0': 0, '1': 0, '2': 0, '3': 0, '4': 0, '5': ...  


## Загрузка файла pickle

In [91]:
df_pickle = pd.read_pickle("names_m.pickle")

In [92]:
df_pickle

[{'ID': 1,
  'Name': 'Александр',
  'NumberOfPersons': 253,
  'global_id': 37750243,
  'Year': 2015,
  'Month': 'январь'},
 {'ID': 2,
  'Name': 'Михаил',
  'NumberOfPersons': 247,
  'global_id': 37750244,
  'Year': 2015,
  'Month': 'январь'},
 {'ID': 3,
  'Name': 'Иван',
  'NumberOfPersons': 226,
  'global_id': 37750245,
  'Year': 2015,
  'Month': 'январь'},
 {'ID': 4,
  'Name': 'Максим',
  'NumberOfPersons': 208,
  'global_id': 37750246,
  'Year': 2015,
  'Month': 'январь'},
 {'ID': 5,
  'Name': 'Артём',
  'NumberOfPersons': 190,
  'global_id': 37750247,
  'Year': 2015,
  'Month': 'январь'},
 {'ID': 6,
  'Name': 'Даниил',
  'NumberOfPersons': 171,
  'global_id': 62361364,
  'Year': 2015,
  'Month': 'январь'},
 {'ID': 7,
  'Name': 'Дмитрий',
  'NumberOfPersons': 164,
  'global_id': 62361365,
  'Year': 2015,
  'Month': 'январь'},
 {'ID': 8,
  'Name': 'Кирилл',
  'NumberOfPersons': 151,
  'global_id': 62361366,
  'Year': 2015,
  'Month': 'январь'},
 {'ID': 9,
  'Name': 'Андрей',
  'Numbe

In [93]:
type(df_pickle)

list

## Сохранение данных в бинарном формате parquet

In [94]:
names = pd.read_json("names_m.json", 
                     encoding="Windows-1251")

In [95]:
names

Unnamed: 0,ID,Name,NumberOfPersons,global_id,Year,Month
0,1,Александр,253,37750243,2015,январь
1,2,Михаил,247,37750244,2015,январь
2,3,Иван,226,37750245,2015,январь
3,4,Максим,208,37750246,2015,январь
4,5,Артём,190,37750247,2015,январь
...,...,...,...,...,...,...
9896,11092,Тамерлан,8,2587775282,2023,Апрель
9897,11093,Даниэль,8,2587775283,2023,Апрель
9898,11094,Абдулла,8,2587775284,2023,Апрель
9899,11095,Олег,8,2587775285,2023,Апрель


Записываем данные в файл parquet

In [96]:
names.to_parquet('names.parquet')

Загружаем данные из parquet

In [97]:
new_names = pd.read_parquet('names.parquet')

In [98]:
new_names

Unnamed: 0,ID,Name,NumberOfPersons,global_id,Year,Month
0,1,Александр,253,37750243,2015,январь
1,2,Михаил,247,37750244,2015,январь
2,3,Иван,226,37750245,2015,январь
3,4,Максим,208,37750246,2015,январь
4,5,Артём,190,37750247,2015,январь
...,...,...,...,...,...,...
9896,11092,Тамерлан,8,2587775282,2023,Апрель
9897,11093,Даниэль,8,2587775283,2023,Апрель
9898,11094,Абдулла,8,2587775284,2023,Апрель
9899,11095,Олег,8,2587775285,2023,Апрель


## Запись данных в базу

In [99]:
from sqlalchemy import create_engine
from sqlalchemy import text

Создаем базу данных sqlite в памяти

In [100]:
engine = create_engine('sqlite://', echo=False)

In [101]:
names = pd.read_json("names_m.json", 
                     encoding="Windows-1251")

Записываем данные в базу средствами Pandas

In [102]:
names[['Name', 'NumberOfPersons', 'Year', 'Month']].to_sql("names", 
                                                           engine,
                                                           if_exists='append')

9901

Проверяем, что данные сохранились в базе

In [103]:
with engine.connect() as conn:
    data = conn.execute(text("SELECT * FROM names LIMIT 10")).fetchall() 

In [104]:
data

[(0, 'Александр', 253, 2015, 'январь'),
 (1, 'Михаил', 247, 2015, 'январь'),
 (2, 'Иван', 226, 2015, 'январь'),
 (3, 'Максим', 208, 2015, 'январь'),
 (4, 'Артём', 190, 2015, 'январь'),
 (5, 'Даниил', 171, 2015, 'январь'),
 (6, 'Дмитрий', 164, 2015, 'январь'),
 (7, 'Кирилл', 151, 2015, 'январь'),
 (8, 'Андрей', 130, 2015, 'январь'),
 (9, 'Егор', 126, 2015, 'январь')]