In [5]:
!pip install --upgrade -q gspread

import pandas as pd

from google.colab import auth

auth.authenticate_user()

import gspread
from oauth2client.client import GoogleCredentials


def get_sheet(title, sheet_name):
  gc = gspread.authorize(GoogleCredentials.get_application_default())
  return gc.open(title).worksheet(sheet_name)

ModuleNotFoundError: No module named 'google'

# 자료의 요약 시트 불러오기

In [2]:
# 자료의 요약에 있는 특정 시트를 불러옵니다.
# 1번 row를 0번 인덱스로 읽어오는 데, 0번 인덱스를 컬럼으로 지정해 주도록 했습니다.
# 그러면 스프레드시트에서 봤던 것 처럼 데이터프레임이 생성됩니다.
def get_df(sheet_name):
  sheet = get_sheet('자료의 요약', sheet_name)

  # Create dataframe from the sheet
  rows = sheet.get_all_values()
  df = pd.DataFrame.from_records(rows)

  df.columns = df.iloc[0]                # default 인덱스는 삭제하고
  df = df.reindex(df.index.drop(0))      # 시트의 1번 row를 인덱스로 대체하는 코드
  return df

# 혈액형

In [3]:
df_blood = get_df('혈액형')
# 상위 5개의 데이터를 가져옵니다.
print(df_blood.shape)
df_blood.head()         # 참조 : df_blood.tail(3) → 뒤에서 3개만 불러옴

NameError: name 'get_sheet' is not defined

In [None]:
df_blood.info()

In [None]:
df_blood

# 조선왕

In [None]:
df_king = get_df('조선왕')
# 상위 5개의 데이터를 가져옵니다.
print(df_king.shape)
df_king.head()

In [None]:
# 어떤 컬럼이 있고 데이터의 row, column 수, 데이터 타입을 볼 수 있다.
df_king.info()

In [None]:
df_king.describe()

In [None]:
# 데이터 타입을 int로 변경해 준다.
df_king['life'] = df_king['life'].astype(int)
df_king['period'] = df_king['period'].astype(int)
# 위와 describe() 했을 때의 정보가 다르다. 
# 수치형 데이터 일 때 count, mean, std, min/max, 사분위수를 보여준다.
df_king.describe()

In [None]:
# 결측치를 보고 싶을 때 널값을 구해 본다.
df_king.isnull().sum()

In [None]:
# 가장 오래 집권한 왕순으로 정렬해 보고 상위 5개의 데이터만 본다.
df_king.sort_values(by='period', ascending=False).head(5)

In [None]:
# 평균값만 본다.
df_king.mean()

In [None]:
# 표준편차만 본다.
df_king.std()

In [None]:
# 최대값만 본다. 효종이 나온 이유는 한글 중에 가장 뒤에 있기 때문
# life, period도 각 컬럼에서 최대값
df_king.max()

In [None]:
df_king['period'].max()

In [None]:
df_king['life'].plot()

In [None]:
df_king['life'].hist()

In [None]:
df_king['period'].hist(stacked=True, bins=10)

# 타이타닉

In [None]:
df_titanic = get_df('타이타닉')
print(df_titanic.shape)
# 상위 5개의 데이터를 가져옵니다.
df_titanic.head()

In [None]:
# 어떤 컬럼이 있는지 보여줍니다.
df_titanic.columns

In [None]:
# 컬럼 정보를 보여줍니다.
df_titanic.info()

In [None]:
# 자료의 요약을 보여줍니다.
df_titanic.describe()

In [None]:
df_titanic['Class'].value_counts()

In [None]:
df_titanic['생존여부'].value_counts()

# 집 값 (추가)

In [None]:
df_houseprice = get_df('집 값')
# 상위 5개의 데이터를 가져옵니다.
print(df_houseprice.shape)
df_houseprice.head()

In [None]:
df_houseprice.describe()

In [None]:
# 데이터 타입을 float로 변경해 준다.
df_houseprice['주택가격'] = df_houseprice['주택가격'].astype(float)
# 위와 describe() 했을 때의 정보가 다르다. 
# 수치형 데이터 일 때 count, mean, std, min/max, 사분위수를 보여준다.
df_houseprice.describe()

In [None]:
# 평균은?

df_houseprice.mean()

In [None]:
# 도심/외곽을 나눠서 각 그룹별 평균을 구하려면?

df_houseprice.groupby('도심&외각').mean()

In [None]:
# 가장 집값이 비싼 순서로 정렬해 보고 상위 5개의 데이터만 본다.
df_houseprice.sort_values(by='주택가격', ascending=False).head(5)

In [None]:
df_houseprice['주택가격'].plot()

In [None]:
df_houseprice['주택가격'].hist()

In [None]:
# stacked = True (데이터를 쌓아 올림)
# bins = 15 (데이터를 상자 15개에 나눠 담아서 그림)

df_houseprice['주택가격'].hist(stacked = True, bins = 15)

# 포유류 (추가)

In [None]:
# 데이터 가져오기
df_mammals = get_df('포유류')

In [None]:
# 데이터 형 변환(type conversion)
df_mammals['몸무게'] = df_mammals['몸무게'].astype(float)
df_mammals['뇌무게'] = df_mammals['뇌무게'].astype(float)

In [None]:
# 데이터 요약
df_mammals.describe()

In [None]:
# 몸무게 / 뇌무게 각각의 평균은?
df_mammals[['몸무게', '뇌무게']].mean()

In [None]:
df_mammals['몸무게'].plot()

In [None]:
df_mammals['뇌무게'].hist()

In [None]:
df_mammals['뇌무게'].hist(stacked = False, bins = 10)