#### 사용할 라이브러리 로딩

In [1]:
import sys, os, time
import pandas as pd
import numpy as np
import seaborn as sns

import ibis
import ibis.selectors as s
from ibis.interactive import * 
from ibis import _

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
ibis.options.interactive = True

#### DB 생성 (또는 연결), 테이블 확인, 데이터 업로드

In [2]:
con = ibis.duckdb.connect("mydb.duckdb")
con.list_tables()

table = con.read_csv("penguins.csv")
con.create_table("t", table)

[]

#### 원하는 테이블 포인터 정의

In [None]:
con.list_tables()
t = con.table("t")

['ibis_read_csv_oi2fm5vdlvdozdzqeducpswuem', 't']

In [55]:
con.list_tables()
gap = con.read_csv("gapminder.csv")

gap = con.create_table("gap", gap)

['ibis_read_csv_oi2fm5vdlvdozdzqeducpswuem', 't']

In [56]:
gap = con.table("gap")

gap.head(2)

In [None]:
# 데이터 탐색 : 시각화 없이 데이터 전처리 만으로 다음 사항을 확인하는 것은 조금 어려운 과제

# 0.1 변수 정의 : 나라, 대륙, 연도, 기대수명, 인구, 1인당 gdp -----
# gap.info()

# gap.group_by("continent").count()
# gap.group_by("continent", "country").count()\
#    .order_by("continent", "country")

# 0.2 중복치, 결측치, 이상치 확인 -----
# gap.count()
# gap.nunique()

# gap.agg(s.across(s.all(), _.isnull().sum()))
# gap.describe()

# 0.3 데이터 유형 확인 : 굳이 실수 타입이 필요할까? -----
# gap.head(2)
# gap2 = gap.mutate(s.across(s.numeric(), _.round(0)))
# gap2


## 데이터 탐색 -----
# 1. 몇 개 대륙?, 대륙별 몇 나라?
# gap2.group_by("continent").count()
# gap2.group_by("continent", "country").count()\
#    .order_by("continent", "country")

# gap2.group_by("continent").agg(number_country = _.country.nunique())

# 2. 몇 년 동안 조사한 자료인가?
# gap2.group_by("year").agg(_.year.count())
# gap2["year"].max() - gap2["year"].min() + 1

# 3.1 대륙별 기대수명 비교
# gap2.head(2)

# gap2.group_by("continent")\
#     .agg(mean_lifeexp = _.lifeExp.mean())\
#     .order_by(ibis.desc(_.mean_lifeexp))

# # 3.2 아프리카 대륙에는 무슨 일이 있었는가?
# gap2.filter(_.continent == "Africa")\
#     .group_by("country")\
#     .agg(africa_lifeexp = _.lifeExp.mean())\
#     .mutate(scaled = (_.africa_lifeexp  - _.africa_lifeexp.mean()) / _.africa_lifeexp.std())\
#     .filter(_.scaled < -1.5)

# # 3.3 Sierra Leone에는 무슨 일이 있었을까?
# gap2.filter(_.country == "Sierra Leone")\
#     .group_by("year")\
#     .agg(angola_lifeexp_year = _.lifeExp.mean())\
#     .order_by("year")\
#     .execute()


# # 4.1 나라별 기대수명 비교
# gap2.filter(_.continent == "Africa")\
#     .group_by("country")\
#     .agg(africa_lifeexp = _.lifeExp.mean())\
#     .execute()

# # 4.2 아프리카의 나라별 기대수명의 편차는 다른 대륙과 비교할 때 어떨까? -> 아프리카에는 확실히 무슨 일이 있었다.
# gap2.group_by("continent")\
#     .agg(mean_life = _.lifeExp.mean(), std_life = _.lifeExp.std())

# 4.2 기대수명이 높은 나라 top10, 대륙과 상관 없이  
# gap2.filter(_.year == 2007)\
#     .group_by("country")\
#     .agg(mean_lifeexp_country = _.lifeExp.mean())\
#     .order_by(ibis.desc(_.mean_lifeexp_country))\
#     .head(10)

# 4.3 기대 수명 높은 나라 탑 3, 대륙별

# chaining method 1
# gap2.filter(_.year == 2007)\
#     .group_by("continent", "country")\
#     .agg(mean_lifeexp_country = _.lifeExp.mean())\
#     .mutate(rank = ibis.row_number().over(group_by="continent", order_by=ibis.desc("mean_lifeexp_country")))\
#     .filter(_.rank < 3)\
#     .order_by("continent", "rank")\
#     .execute()

# chaining method 2
# (gap2
#  .filter(_.year == 2007)
#  .group_by("continent", "country")
#  .agg(mean_lifeexp_country = _.lifeExp.mean())
#  .mutate(
#      rank = ibis.row_number().over(
#          group_by="continent",
#          order_by=ibis.desc("mean_lifeexp_country")
#      )
#  )
#  .filter(_.rank < 3)
#  .order_by("continent", "rank")
#  .execute()
# )


# 5.1 기대 수명과 관련성 높은 변수는?
# gap2.select(["lifeExp", "pop", "gdpPercap"]).execute().corr()

# 5.2 연도 변수도 넣어야 할 것 같음, 시간이 흐름에 따라 소득이 증가 -> 복지, 의료 기술 발전
# gap2.select(["lifeExp", "pop", "gdpPercap", "year"]).execute().corr()


# 6. 이 데이터를 가지고 어떤 모형을 작성할 수 있을까? -> 내게 관심가는 변수는 어떤 것인가?

# 7. 일부 코드가 어려운 경우, 시각화로 우회할 수 있으니 스트레스 받지 마세요!!!

Unnamed: 0,lifeExp,pop,gdpPercap,year
lifeExp,1.0,0.065394,0.583548,0.436347
pop,0.065394,1.0,-0.0256,0.082308
gdpPercap,0.583548,-0.0256,1.0,0.227317
year,0.436347,0.082308,0.227317,1.0
