# Используем Pandas для работы с файлами в разных форматах

<a target="_blank" href="https://colab.research.google.com/github/sozykin/middle_python/blob/main/04/04_pandas.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

In [None]:
# Подключаем библиотеку Pandas
import pandas as pd

## Работа с CSV в Pandas

In [None]:
# Читаем csv файл в Pandas
df = pd.read_csv('sales.csv')

In [None]:
df

In [None]:
df.info()

## Работа с JSON

In [None]:
names = pd.read_json("names_m.json",
                     encoding="Windows-1251")

In [None]:
names

In [None]:
names.info()

Указываем типы данных для столбцов

In [None]:
names = pd.read_json("names_m.json",
                     dtype={'ID':int,
                            'Name': str,
                            'NumberOfPersons': float,
                            'global_id': int,
                            'Year': int,
                            'Month': str},
                     encoding="Windows-1251")

In [None]:
names.info()

Записываем данные в JSON файл 

In [None]:
df = pd.read_csv('sales.csv')

In [None]:
df.to_json('sales.json')

In [None]:
df.to_json('sales_records.json',
           orient='records')

[Документация по методу Pandas to_json](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_json.html).

In [None]:
df.to_json('sales_records.json',
           orient='records',
           lines=True)

## Чтение файла по частям

In [None]:
sales = pd.read_csv('sales.csv',
                    chunksize=2)

In [None]:
sales

In [None]:
from collections.abc import Iterator 

In [None]:
isinstance(sales, Iterator)

In [None]:
data = next(sales)

In [None]:
data

In [None]:
data2 = next(sales)

In [None]:
data2

In [None]:
sales = pd.read_csv('sales.csv',
                    chunksize=2)

In [None]:
for i, data in enumerate(sales):
    print(f"Итерация {i}")
    print(data)

In [None]:
sales = pd.read_json('sales_records.json',
                     lines=True,
                    chunksize=2)

In [None]:
for i, data in enumerate(sales):
    print(f"Итерация {i}")
    print(data)

## Загрузка файла pickle

In [None]:
df_pickle = pd.read_pickle("names_m.pickle")

In [None]:
df_pickle

In [None]:
type(df_pickle)

Создаем DataFrame из списка

In [None]:
df = pd.DataFrame(df_pickle)

In [None]:
df

## Сохранение данных в [бинарном формате parquet](https://parquet.apache.org/)

In [None]:
names = pd.read_json("names_m.json", 
                     encoding="Windows-1251")

In [None]:
names

Записываем данные в файл parquet

In [None]:
names.to_parquet('names.parquet')

Загружаем данные из parquet

In [None]:
new_names = pd.read_parquet('names.parquet')

In [None]:
new_names

## Запись данных в базу

In [None]:
from sqlalchemy import create_engine
from sqlalchemy import text

Создаем базу данных sqlite в памяти

In [None]:
engine = create_engine('sqlite://', echo=False)

In [None]:
names = pd.read_json("names_m.json", 
                     encoding="Windows-1251")

Записываем данные в базу средствами Pandas

In [None]:
names[['Name', 'NumberOfPersons', 'Year', 'Month']].to_sql("names", 
                                                           engine,
                                                           if_exists='append')

Проверяем, что данные сохранились в базе

In [None]:
with engine.connect() as conn:
    data = conn.execute(text("SELECT * FROM names LIMIT 10")).fetchall() 

In [None]:
data