In [None]:
import pandas as pd

In [None]:
data = {
    '이름': ['아이유', '김연아', '홍길동', '장범준', '강감찬'],
    '학과': ['국문학', '수학', '컴퓨터', '철학', '경영학'],
    '성적': [3.0, 1.0, 3.5, 2.7, 4.0]
}

df = pd.DataFrame(data)

# 원하는 행번호와 열의 이름 정확히 입력
df.loc[0:, '이름']
# 원하는 행과, 열의 번호 입력
df.iloc[0:, 1]

In [None]:
# to_csv(저장경로와 파일이름 지정, 콤마로 구분, 저장시 인덱스 저장 유무)
df.to_csv('./student.csv', sep=',', index=False)

In [None]:
# csv 데이터 로딩
df = pd.read_csv('./student.csv')
display(df)

In [None]:
print(df[1:5]); print()
print(df[0:3]); print()
print(df[0:]); print()

In [None]:
# print(df[1]) <- 에러 발생

df['이름']
df['성적']
df['학과']

In [None]:
df[['학과', '이름']]

In [None]:
print(df[['학과', '이름']][1:4]); print()
print(df[1:4][['이름', '학과']])
# 필드 순서 상관 없음, 인덱싱 순서 상관 없음

In [None]:
df[ df['학과'] == '수학' ]

In [None]:
print(df.loc[3]); print()
print(df.loc[[1, 2, 3]]); print()
print(df.loc[[1, 2, 3], :]); print()
# print(df.loc[[1, 2, 3], [0:1]]) <-- 불가능 열은 문자열로 주어야함
print(df.loc[[1, 2, 4], ['이름', '성적']]) # <-- [[행번호]. [열이름]]

In [None]:
print(df.iloc[[1, 3, 4], 0:2]); print() # df.iloc[[행번호], 열인덱스]
print(df.iloc[[1, 3, 4], 0:3]) 

In [None]:
df.loc[ df['성적'] % 2 != 0, ['이름', '학과', '성적']]

In [None]:
import numpy as np
import pandas as pd

In [None]:
import os
os.getcwd()

# 데이터 변경

### 지난 시간 저장한 csv 로딩

In [None]:
df = pd.read_csv('./student.csv')
display(df)

In [None]:
df['등급'] = 'A' # 일괄 값 적용됨
df

### 컬럼과 값을 추가하는 방법 (numpy, pandas)
##### - 값을 넣을 때의 인덱스가 같아야하며, 길이도 같아야함!

In [None]:
# numpy 1d array 로 할당하는 방법
grade = np.array(['B', 'D', 'B', 'C', 'A'])
df['등급'] = grade
display(df)

# pandas의 Series 로 할당하는 방법 
age = pd.Series([21, 20, 24, 23, 28])
df['나이'] = age
display(df)

### 컬럼과 값 추가

In [None]:
df.index

In [None]:
# 데이터 프레임의 인덱스 변경
df.index = ['one', 'two', 'three', 'four', 'five']
display(df)

In [None]:
sex = pd.Series(['여자', '여자', '남자', '남자', '남자'])
df['성별'] = sex
display(df)

# 인덱스가 다르기 때문에 NaN으로 출력

In [None]:
# sex 의 인덱스 확인
sex.index

In [None]:
# df 의 인덱스 확인
df.index

In [None]:
# sex와 df 인덱스 일치시키기
sex.index = df.index 

# 필드와 값 삽입
df['성별'] = sex
display(df)

### 인덱스 리셋, 교체

In [None]:
# df.reset_index(drop=True, inplace=True) inplace=True 설정은 원본에 바로 적용됨
display(df.reset_index()) # 일시적인 적용

# 특정 필드를 인덱스로 사용
display(df.set_index('이름'))

### 컬럼 삭제

In [None]:
# df.drop(컬럼명, axis=1은 컬럼을 기준으로 삭제, inplace=True 인수를 주면 원본데이터에 반영)
df.drop('성별', axis=1, inplace=False) 

In [None]:
df.drop('나이', axis='columns') # axis=1 대신 columns로도 가능

### dataframe은 다른 변수에 할당해줘도 데이터 참조가 일어나지 않는다.

In [None]:
# 행 삭제 df.drop(인덱스값, 행축)
df.drop('one', axis=0)

### JSON 데이터 받아오기

In [None]:
from dotenv import load_dotenv # https://blog.gilbok.com/how-to-use-dot-env-in-python/
import requests
import json
import os

load_dotenv()

store_endpoint = os.environ.get('store_endpoint')
store_key = os.environ.get('store_key')
store_divide_id = 'indsLclsCd'
store_numOfRows = 100
store_pageNo = 0

url = f'{store_endpoint}/storeListInUpjong?divId={store_divide_id}&key=Q&numOfRows={store_numOfRows}&pageNo={store_pageNo}&type=json&serviceKey={store_key}'

response = requests.get(url) # API GET 요청

response.encoding = 'utf-8' # 인코딩 방식 설정

print(response.text[0:400]) # reponse 객체의 text 출력

In [None]:
# json -> dict 
resulting_dict = json.loads(response.text)

resulting_dict.keys()

In [None]:
resulting_dict['body'].keys()

In [None]:
resulting_dict['body']['items'][0]

### dict 데이터를 컬럼별 리스트에 담기

In [None]:
# 각 키의 값마다 리스트에 담을 변수 초기화
store_name_list = []
store_kind_list = []
address_list = []
latitude_list = []
longitude_list = []

# dictionary 속 데이터 정보 입력
for tmp in resulting_dict['body']['items']:
    store_name_list.append(tmp['bizesNm'])
    store_kind_list.append(tmp['indsMclsNm'])
    address_list.append(tmp['lnoAdr'])
    latitude_list.append(tmp['lat'])
    longitude_list.append(tmp['lon'])
    
print(store_name_list[:10])
print(store_kind_list[:10])
print(address_list[:10])
print(latitude_list[:10])
print(longitude_list[:10])

### dataframe 으로 변환

In [None]:
df = pd.DataFrame(
    {
        'name':store_name_list,
        'kind':store_kind_list,
        'address':address_list,
        'latitude':latitude_list,
        'longitude':longitude_list,
    }
)

display(df)

# 데이터 합치기

### DataFrame 병합 구현 방법 (조인)

In [None]:
data1 = {
    '학번': [1, 2, 3, 4],
    '이름': ['아이유', '김연아', '홍길동', '강감찬'],
    '학과': ['철학', '경영학', '컴퓨터', '물리학']
}

data2 = {
    '학번': [1, 2, 4, 5],
    '학년': [2, 4, 3, 1],
    '학점': [1.5, 2.0, 4.1, 3.8]
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

display(df1)
display(df2)

In [None]:
# inner join 사용
inner_df = pd.merge(df1, df2, on='학번', how='inner')
display(inner_df)

In [None]:
# outer join 사용
outer_df = pd.merge(df1, df2, on='학번', how='outer')
display(outer_df)

In [None]:
# left and right join
left_df = pd.merge(df1, df2, on='학번', how='left')
display(left_df) # df1 의 학번을 기준으로 merge

right_df = pd.merge(df1, df2, on='학번', how='right')
display(right_df) # df2 의 학번을 기준으로 merge

## 현실에서 일어날 법한 merge의 응용

#### 같은 의미의 값이지만 다른 컬럼명인 경우

In [None]:
data1 = {
    '학번': [1, 2, 3, 4],
    '이름': ['아이유', '김연아', '홍길동', '강감찬'],
    '학과': ['철학', '경영학', '컴퓨터', '물리학']
}

data2 = {
    '학생고유번호': [1, 2, 4, 5], 
    '학년': [2, 4, 3, 1],
    '학점': [1.5, 2.0, 4.1, 3.8]
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

In [None]:
display(df1)

In [None]:
display(df2)

In [None]:
# left_on 과 right_on 을 통해 임의로 특정 컬럼을 기준으로 병합하도록 함
merged_df = pd.merge(df1, df2, left_on='학번', right_on='학생고유번호', how='inner')
display(merged_df)

In [None]:
# 불필요한 컬럼 임시 제거
merged_df.drop('학생고유번호', axis=1) # 원본 수정은 inplace=True 인자 넣기

#### 공유하는 컬럼이 없는 경우

In [None]:
data1 = {
    '학번': [1, 2, 3, 4],
    '이름': ['아이유', '김연아', '홍길동', '강감찬'],
    '학과': ['철학', '경영학', '컴퓨터', '물리학']
}

data2 = {
    '학년': [2, 4, 3, 1],
    '학점': [1.5, 2.0, 4.1, 3.8]
}


df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2, index=[1, 2, 4, 5])

In [None]:
display(df1)

In [None]:
display(df2)

In [None]:
# left_index 과 right_index 왼쪽, 오른쪽 df의 인덱스를 기준으로 병합
merged_df = pd.merge(df1, df2, left_index=True, right_index=True, how='inner')
display(merged_df)

In [None]:
# 왼쪽은 학번을 기준으로, 오른쪽은 인덱스를 기준으로 병합
merged_df = pd.merge(df1, df2, left_on='학번', right_index=True, how='inner')
display(merged_df)

In [None]:
# 인덱스로 조인하는 방식은 join 메소드를 사용하는 것 편함
df1.join(df2, how='inner')

#### 데이터 연결 pandas.concat

In [None]:
import numpy as np
import pandas as pd

np.random.seed(1) # 고정 난수 설정

In [None]:
df1 = pd.DataFrame(np.random.randint(0, 9, (3,2)), # 3x2 난수값 행렬
                    index=['a', 'b', 'c'], # 인덱스 값 설정
                    columns=['one', 'two']) # 컬럼 값 설정

display(df1)

In [None]:
df2 = pd.DataFrame(np.random.randint(0, 9, (2,2)), # 3x2 난수값 행렬
                    index=['a', 'b'], # 인덱스 값 설정
                    columns=['three', 'four']) # 컬럼 값 설정

display(df2)

In [None]:
# df1 & df2 concat으로 연결
concat_dict1 = pd.concat([df1, df2], axis=1) # axis=1은 오른쪽 옆으로 붙이기 axis=0은 밑으로 붙이기
display(concat_dict1)

In [None]:
# df1 & df2 concat으로 연결
concat_dict2 = pd.concat([df1, df2], axis=0) # axis=1은 오른쪽 옆으로 붙이기 axis=0은 밑으로 붙이기
display(concat_dict2) # 컬럼명을 공유하고 있지 않아서 컬럼이 새로 추가됨

# 데이터 그룹핑

#### Groupby 메소드, apply(함수)

#### 집계 함수
- count
- sum
- mean, median
- min, max
- var, std
- first, last
- Describe
- aggregate or agg
- apply

#### Groupby 객체

- Groupby 객체는 반복문 이용 가능
- Groupby 객체는 **그룹 이름, 그룹별 데이터**를 **튜플 형태**로 갖고 있음
- 각 그룹별 데이터는 원래의 인덱스 값을 가지고 있음

#### 정렬 함수 sort_values(by='사용자 수', ascending=False)
ex) sort_values(by=['강좌 개수', '개발년도'], ascending=False)

In [None]:
import numpy as np
import pandas as pd

In [None]:
df = pd.DataFrame({
    '학과': ['수학', '화학', '수학', '화학', '수학'],
    '이름': ['로버트', '앤드류', '유진', '제이슨', '제이크'],
    '학년': [1, 2, 3, 2, 3],
    '학점': [1.5, 2.7, 3.5, 1.9, 4.0],
})

display(df)

#### 1 단계 그룹핑

In [None]:
df_dept = df.groupby('학과') # dataframe의 특정 컬럼을 기준으로 그룹화

In [None]:
display(df_dept)
# <pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001748DC740A0> 객체 주소 출력됨

In [None]:
# 학과별 기술통계 출력
df_dept.describe()

In [None]:
# 학과별 원소 개수 출력
df_dept.count()

In [None]:
# Series 그룹화
dept = df['학점'].groupby(df['학과']) # 학과별 학점으로 그룹화
print(dept)

In [None]:
dept.mean()

In [None]:
dept.std()

In [None]:
dept.size()

In [None]:
# 수학과 인원 학점 데이터만 따로 반환
math = dept.get_group('수학')

math

#### 2 단계 그룹핑

In [None]:
dept = df.groupby([df['학과'], df['학년']]) # 학과별 학년별 그룹화 진행
dept

In [None]:
# 그룹별 기술통계 도출
dept.describe()

In [None]:
display(dept.mean())

In [None]:
# 데이터 추가
df2 = pd.DataFrame({
    '학과': ['화학', '수학', '화학', '수학'],
    '이름': ['앤디', '제니', '엘리스', '멜리샤'],
    '학년': [1, 2, 3, 2],
    '학점': [3, 4.2, 3.1, 4.5]
})

concat_df = pd.concat([df, df2], axis=0)
concat_df.reset_index(inplace=True, drop=True)
display(concat_df)

In [None]:
dept_and_year = concat_df.groupby([concat_df['학과'], concat_df['학년']])

In [None]:
dept_and_year.describe()

In [None]:
dept_and_year.mean().index

#### apply(인덱싱하는 함수) 메소드 사용

In [None]:
def top3_dept_scorer(df):
    return df.sort_values(by='학점', ascending=False)[:3] 

In [None]:
# 학과별 그룹화 
dept = concat_df.groupby('학과')

In [None]:
dept.apply(top3_dept_scorer)

In [None]:
display(dept.apply(top3_dept_scorer)['이름']) # 멀티 인덱스이기 때문에 이상하게 출력되는 모습

#### groupby, apply, 람다 함수 한번에 사용

In [None]:
# 위아래 똑같은 결과 나옴
# concat_df.groupby(concat_df['학년']).apply(lambda x: x.sort_values(by='학점'))
concat_df.groupby('학년').apply(lambda x: x.sort_values(by='학점'))

#### groupby는 시퀸스 객체라서 for loop 가능

In [None]:
for dept, group in concat_df.groupby('학과'):
    print(f'학과: {dept}')
    display(group)

#### 2차 그룹핑 for loop

In [None]:
for (dept, year), group in concat_df.groupby(['학과', '학년']):
    print('-' * 25)
    print('학과: ', dept, '/ 학년: ', year)
    display(group)

# 시계열데이터기초

- DatetimeIndex 자료형 사용
- pd.to_datetime()
- Down-sampling 을 자주 하게됨 (일 단위 -> 월 단위 -> 년 단위)
- Up-sampling: 실제로 존재하지 않는 데이터를 만듬 (Forward filling, Backword filling)
  - 처음 데이터를 기준으로, 마지막 데이터를 기준으로 하느냐에 따라 Forward, Backword라고 함

#### Time Plot 시간그래프 pd.DataFrame.plot()
- 패턴, 이상치, 시간에 따른 변화, 계절성 등을 시각적으로 파악하기 용이

In [None]:
date1 = ['2022 01 01', '2022 02 01', '2022 03 01', '2022 04 01']
date_idx1 = pd.to_datetime(date1)


# 위와 같이 다양한 방식으로 날짜를 넣어주면 처리를 해주는 to_datetime 메소드

In [None]:
date3 = ['2022/01/01', '2022/02/01', '2022/03/01', '2022/04/01']
date_idx3 = pd.to_datetime(date3)

In [None]:
date4 = ['2022,01,01', '2022,02,01', '2022,03,01', '2022,04,01']
date_idx4 = pd.to_datetime(date4)

In [None]:
series = pd.Series(np.random.randint(3, 10, size=4), index=date_idx1)
series

#### pd.date_range

In [None]:
pd.date_range('2020-1-1', '2020-05-31', freq='MS')

#### freq 인수
- D: 일별 (기본값)
- W: 주별 (일요일 기준)
- W-MON: 주별 (월요일 기준)
- M: 월별 (월 마지막일 기준)
- MS: 월별 (월 시작일 기준)
- B: 주말을 제외한 평일 인덱스