# Pandas 2.1 and PyArrow Backend


## Pandas 2.1 
> `Pandas` เป็นไลบรารีภาษา Python ที่ถูกสร้างขึ้นมาเพื่อการจัดการและวิเคราะห์ข้อมูลตาราง (tabular data) อย่างง่ายดายและมีประสิทธิภาพสูงโดยใช้โครงสร้างข้อมูลที่เรียกว่า “DataFrame” เพื่อเก็บข้อมูลและปฏิบัติการทางตารางได้อย่างมีประสิทธิภาพ  ปัจจุบัน pandas เป็น open source ให้ทุกคนสามารถใช้ได้แบบฟรี ๆ
> 
เอกสารเพิ่มเติม:  
- [pandas api reference](https://pandas.pydata.org/docs/reference/index.html)

## PyArrow 14.0

> `PyArrow` is an open-source library that provides a set of data structures and tools for working with large datasets efficiently. It is designed to work seamlessly with Pandas, allowing you to take advantage of Pyarrow’s speed and efficiency without having to make any significant changes to your code

Python Package Requirements:
- [pandas](https://pypi.org/project/pandas/) - 2.1.x
- [sqlalchemy](https://pypi.org/project/sqlalchemy/) - 2.0.x
- [sqlalchemy-vertica-python@latest ](https://github.com/attapon-th/sqlalchemy-vertica-python.git)

Install With `pip`
```bash
pip install pandas pyarrow sqlalchemy
pip install git+https://github.com/attapon-th/sqlalchemy-vertica-python.git@latest
```



## Import Packages

In [None]:
import os

# pandas
import pandas as pd
from pandas import DataFrame, Series

# pyarrow
import pyarrow as pa

# connection database mysql, postgres, sqlserver, oracle, mssql, vertica or etc..
import sqlalchemy as sa
from sqlalchemy import create_engine, make_url, Engine, URL

# defind typing
from typing import List, Dict, Any, Union, Tuple

## สร้าง vertica connection ด้วย SQLAlchemy.Engine

[เอกสารเพิ่มเติม https://docs.sqlalchemy.org/en/20/core/engines.html](https://docs.sqlalchemy.org/en/20/core/engines.html)

Connect with `Database URLs`

> The create_engine() function produces an Engine object based on a URL
>

Database URL Template:
```
dialect+driver://username:password@host:port/database
```

ตัวอย่าง Vertica URL:
```
vertica+vertica_python://scott:tiger@localhost:5433/mydatabase
```

ถ้า Password มีอักขระพิเศษสามารถ paser ด้วย  `urllib.parse.quote_plus`


## Create Database URL

In [None]:
import urllib.parse

# vertica connection info
hostname: str = "localhost"
port: int = 5433
username:str = "attapon"
password:str = urllib.parse.quote_plus("kx@jj5/g")
dbname: str = "mydatabase"

vertica_db_url: str = f"vertica+vertica_python://{username}:{password}@{hostname}:{port}/{dbname}"
print(vertica_db_url)

## Create `SQLAlchemy.Engine`

In [None]:
from sqlalchemy.engine import create_engine, Engine

vertica_db_url = "vertica+vertica_python://attapon:kx%40jj5%2Fg@localhost:5433/mydatabase"
engine: Engine = create_engine(vertica_db_url)

# test connection
try:
    with engine.connect() as conn:
        print(conn.info)
        print("Connection success!")
except Exception as err:
    print(err)
    print("Connection failed!")

## Read config file `.ini`

requirements:
- [dacutil](https://pypi.org/project/dacutil/)

In [None]:
from dacutil import get_config, Addict

# get config
conf: Addict = get_config("config.ini")
if "vertica" in conf.keys():
    print("get config vertica success!")

vertica_db_url = conf.vertica.dsn
engine: Engine = create_engine(vertica_db_url)

## Use Query SQL Select With Pandas
 `dtype_backend="pyarrow"`

In [None]:
from sqlalchemy import create_engine, Engine
import pandas as pd
from pandas import DataFrame, Series


df: DataFrame = pd.read_sql("SELECT * FROM customer_dimension LIMIT 1000;", engine, dtype_backend="pyarrow")


print("จำนวน Record Count:", df.shape[0])
print("จำนวน Column Count:", df.shape[1])

print("Show Table Info")
display(df.info())