In [0]:
!pip install --upgrade -q gspread

In [0]:
import pandas as pd

from google.colab import auth

auth.authenticate_user()

import gspread
from oauth2client.client import GoogleCredentials


def get_sheet(title, sheet_name):
  gc = gspread.authorize(GoogleCredentials.get_application_default())
  return gc.open(title).worksheet(sheet_name)

# 자료의 요약 시트 불러오기

In [0]:
# 자료의 요약에 있는 특정 시트를 불러옵니다.
# 1번 row를 0번 인덱스로 읽어오는 데, 0번 인덱스를 컬럼으로 지정해 주도록 했습니다.
# 그러면 스프레드시트에서 봤던 것 처럼 데이터프레임이 생성됩니다.
def get_df(sheet_name):
  sheet = get_sheet('자료의 요약', sheet_name)

  # Create dataframe from the sheet
  rows = sheet.get_all_values()
  df = pd.DataFrame.from_records(rows)

  df.columns = df.iloc[0]
  df = df.reindex(df.index.drop(0))
  return df

In [0]:
# 한글폰트 깨짐방지
from matplotlib import font_manager, rc
font_name = font_manager.FontProperties(fname="C:Users\USER\Desktop/NanumSquareB.ttf").get_name()
rc('font', family=font_name)

In [0]:
  sheet = get_sheet('자료의 요약', '혈액형')

  # Create dataframe from the sheet
  rows = sheet.get_all_values()
  df = pd.DataFrame.from_records(rows)

  df.columns = df.iloc[0]
  df = df.reindex(df.index.drop(0))
  print(df)
  

In [0]:
from google.colab import auth
auth.authenticate_user()

In [0]:
from google.cloud import bigquery

# https://cloud.google.com/resource-manager/docs/creating-managing-projects
project_id = '[your Cloud Platform project ID]'
client = bigquery.Client(project=project_id)

for dataset in client.list_datasets():
  print(dataset.dataset_id)

In [0]:
from google.colab import auth
auth.authenticate_user()

# 혈액형

In [0]:
df_blood = get_df('혈액형')
# 상위 5개의 데이터를 가져옵니다.
print(df_blood.shape)
df_blood.head(10)

In [0]:
df_blood

# 조선왕

In [0]:
df_king = get_df('조선왕')
# 상위 5개의 데이터를 가져옵니다.
dir(df_king)

In [0]:
# 어떤 컬럼이 있고 데이터의 row, column 수, 데이터 타입을 볼 수 있다.
df_king.info()

In [0]:
df_king.describe()

In [0]:
# 데이터 타입을 int로 변경해 준다.
df_king['life'] = df_king['life'].astype(int)
df_king['period'] = df_king['period'].astype(int)
# 위와 describe() 했을 때의 정보가 다르다. 
# 수치형 데이터 일 때 count, mean, std, min/max, 사분위수를 보여준다.
df_king.describe()

In [0]:
# 결측치를 보고 싶을 때 널값을 구해 본다.
df_king.isnull().sum()

In [0]:
# 가장 오래 집권한 왕순으로 정렬해 보고 상위 5개의 데이터만 본다.
df_king.sort_values(by='period', ascending=False).head(5)

In [0]:
# 평균값만 본다.
df_king.mean()

In [0]:
# 표준편차만 본다.
df_king.std()

In [0]:
# 최대값만 본다. 효종이 나온 이유는 한글 중에 가장 뒤에 있기 때문
# life, period도 각 컬럼에서 최대값
df_king.max()

In [0]:
df_king['period'].max()

In [0]:
df_king.plot(x='name', y='life',kind="bar")

In [0]:
df_king['life'].hist()

In [0]:
df_king['life'].hist(stacked=True)

# 타이타닉

In [0]:
df_titanic = get_df('타이타닉')
print(df_titanic.shape)
# 상위 5개의 데이터를 가져옵니다.
df_titanic.head()

In [0]:
# 어떤 컬럼이 있는지 보여줍니다.
df_titanic.columns

In [0]:
# 컬럼 정보를 보여줍니다.
df_titanic.info()

In [0]:
# 자료의 요약을 보여줍니다.
df_titanic.describe()

In [0]:
df_titanic['Class'].value_counts()

In [0]:
df_titanic['생존여부'].value_counts()

# 주택 가격

In [0]:
house = get_df('집 값')

In [0]:
house.describe()

In [0]:
house_io = house['도심&외각']
house_io.describe()

house['주택가격'] = house['주택가격'].astype(float)
house.describe()

In [0]:
house.groupby('도심&외각').describe()