주피터 SQL 엔진 설정

2023년 4월에 Google Colab의 SQLAlchemy 버전이 2.0.10으로 업그레이드되면서 이게 다른 모듈들과 충돌을 내기 시작했습니다. 이 문제 때문에 1.4.47로 다운그레이드하고 Google Colab Runtime을 재시작해주어야 합니다. 2023년 10월에 Google Colab 버전이 또 바뀌면서 다른 문제가 생겨서 ipython-sql 버전도 바꾸어야 합니다.

재설치가 끝나면 하단에 Restart runtime 버튼이 나올텐데 그걸 클릭하고 뒤부터 이어서 실행해주면 됩니다.

In [None]:
!pip install ipython-sql==0.4.1
!pip install SQLAlchemy==1.4.49

In [None]:
%load_ext sql

다양한 SELECT 실행해보기

In [None]:
%%sql

SELECT count(*)
FROM raw_data.user_session_channel;

In [None]:
%%sql

SELECT userId, sessionId, channel
FROM raw_data.user_session_channel

In [None]:
%%sql

SELECT *
FROM raw_data.user_session_channel
LIMIT 10;

In [None]:
%%sql

SELECT DISTINCT channel                      -- 유일한 채널 이름을 알고 싶은 경우
FROM raw_data.user_session_channel;

In [None]:
%%sql

SELECT channel, COUNT(1)                    -- 채널별 카운트를 하고 싶은 경우. COUNT 함수!!
FROM raw_data.user_session_channel
GROUP BY channel
ORDER BY channel;

In [None]:
%%sql

SELECT COUNT(1)                    -- 테이블의 모든 레코드 수 카운트. COUNT(*). 하나의 레코드
FROM raw_data.user_session_channel;

In [None]:
%%sql

SELECT COUNT(1)
FROM raw_data.user_session_channel
WHERE channel = 'Facebook';

In [None]:
%%sql

SELECT
  channel,
  CASE
    WHEN channel in ('Facebook', 'Instagram') THEN 'Social-Media'
    WHEN channel in ('Google', 'Naver') THEN 'Search-Engine'
    ELSE 'Something-Else'
END channel_type
FROM raw_data.user_session_channel
LIMIT 100;

In [None]:
%%sql

SELECT COUNT(1)
FROM raw_data.user_session_channel
WHERE channel in ('Google','Facebook');

In [None]:
%%sql

SELECT DISTINCT channel
FROM raw_data.user_session_channel
WHERE channel ILIKE '%o%';

In [None]:
%%sql

SELECT
    DISTINCT
    LEN(channel),
    UPPER(channel),
    LOWER(channel),
    LEFT(channel, 4)
FROM raw_data.user_session_channel
LIMIT 100;

CREATE TABLE raw_data.count_test (
    value int
);

INSERT INTO raw_data.count_test VALUES (NULL), (1), (1), (0), (0), (4), (3);

In [None]:
%%sql

SELECT
    COUNT(1) as count_1,
    COUNT(0) as count_0,
    COUNT(NULL) as count_null,
    COUNT(value) as count_value,
    COUNT(DISTINCT value) as count_distinct_value
FROM raw_data.count_test;

In [None]:
%%sql

SELECT 0 + NULL, 0 - NULL, 0 * NULL, 0/NULL

In [None]:
%%sql

select pg_timezone_names();  -- Asia/Seoul

In [None]:
%%sql

SELECT
    GETDATE() as current_time,
    CONVERT_TIMEZONE('America/Los_Angeles', GETDATE()) california_time;

In [None]:
%%sql

SELECT 1/2, 1/2::float;

판다스와 연동하는 방법

In [None]:
result = %sql SELECT * FROM raw_data.user_session_channel
df = result.DataFrame()

In [None]:
df.head()

In [None]:
df.groupby(["channel"]).size()

In [None]:
df.groupby(["channel"])["sessionid"].count()