<a href="https://colab.research.google.com/github/seewol/DataAnalysis/blob/main/%EC%98%A4%ED%94%88%EC%86%8C%EC%8A%A4_%EB%8D%B0%EC%9D%B4%ED%84%B0_%EB%B6%84%EC%84%9D_6%EA%B0%95.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 오픈소스 기반 데이터 분석 6강 - 데이터 전처리 1

### 6-1 데이터 훑어보기

In [21]:
import pandas as pd
import numpy as np
# pandas 안의 자료들은 numpy 라이브러리를 통해서 numpy array로 저장되어 있음.

data = {
    'name': ['김민수', '이지영', '박준호', '최서연', '정도윤'],
    'age': [25, 30, 28, 22, 35],
    'city': ['서울', '부산', '인천', '서울', '대전'],
    'score': [90, 85, 95, 80, np.nan] # np.nan = null값
}
df = pd.DataFrame(data)

## 데이터 측정
df.describe()

# describe()는 내부적으로 '어떤 자료형(dtype)의 열들을 요약할지
# 리스트 형태로 받도록 설계되어 있다.
# [ ] 감싸는 이유 : 여러 dtype을 동시에 넣기 위함.

# 'object', 'category', 'all', 'number' 등은 파이썬 자료형이 아닌
# pandas 내부에서 열의 데이터 타입을 구분하는 레이블(label)이다.
# 즉, pandas dtype의 이름이기 때문에 문자열로 지정

# np.number는 실제 NumPy 클래스(자료형 그룹)이기 때문에
# 문자열이 아니라 객체 자체를 직접 전달

## 모든 데이터 타입 측정
df.describe(include = 'all')

## 수치형 데이터 측정
df.describe(include = [np.number]) # 모든 숫자형(dtype 그룹)

## 범주형 데이터 측정
df.describe(include = ['object']) # 문자/범주형 dtype (일반적인 문자열 : 이름, 도시 등)

# df.describe(include = ['category']) # 범주형 dtype (성별, 등급 등)

## 여러 자료형 데이터 동시에 측정
df.describe(include = ['object', 'number'])
# └ 데이터 프레임 전체 열 중, 자료형이 object 또는 number인 열 찾기
#    이때, [ ]는 여러 dtype을 받게 하려는 설계 구조

## 특정 열 분석
df['name'].describe()
df[['name', 'city']].describe() # 여러 열을 고를 떈 하나의 리스트로 묶기
# └ 여기서 [ ]는 파이썬의 인덱싱 문법으로 위 include 옵션의 인자와 다름
#    DataFrame 인덱싱으로 특정 열 이름을 직접 선택하기 위한 파이썬 문법


Unnamed: 0,name,city
count,5,5
unique,5,4
top,김민수,서울
freq,1,2


### 6-2 DataFrame 열 선택 및 **조작**

In [30]:
import pandas as pd

data = {
    "이름": ["김철수", "이영희", "박민수", "최지훈", "정소희"],
    "학년": [1, 2, 3, 4, 2],
    "학점": [4.2, 3.8, 4.5, 3.9, 3.5],
    "학과": ["컴퓨터공학", "경영학", "전자공학", "의학", "심리학"],
    "동아리": ["프로그래밍", "독서토론", "로봇공학", "봉사활동", "음악감상"]
}
df = pd.DataFrame(data)

## 특정 열 선택
selected_col = df[['이름', '학년', '동아리']]
selected_col
# └ 열 이름을 나열한 뒤, 리스트로 묶기
#    여러 열은 하나의 리스트로 묶어서 넘겨야 함

## DataFrame 열순서 변경
reordered_cols = df[['학과', '이름', '학년', '학점', '동아리']]
reordered_cols

reordered_cols2 = df[['이름', '학년', '동아리']]
reordered_cols2

## DataFrame 열이름 변경 (columns 옵션 안에 딕셔너리 활용)
df_renamed = df.rename(columns = {'이름' : '학생명', '학점' : '평점', '동아리' : '과외활동'})
df_renamed

## 변경한 DataFrame JSON과 CSV로 저장
df_renamed.to_json('df_renamed_file.json', orient = 'records', force_ascii = False)
df_renamed.to_csv('df_renamde_file.csv', index = False, encoding = 'utf-8')


### 6-3 DataFrame 행 선택

In [123]:
import pandas as pd

data = {
    "이름": ["김철수", "이영희", "박민수", "최지훈", "정소희"],
    "학년": [1, 2, 3, 4, 2],
    "학점": [4.2, 3.8, 4.5, 3.9, 3.5],
    "학과": ["컴퓨터공학", "경영학", "전자공학", "의학", "심리학"],
    "동아리": ["프로그래밍", "독서토론", "로봇공학", "봉사활동", "음악감상"]
}

## DataFrame 인덱스 지정
df = pd.DataFrame(data)
df = df.set_index('이름')
df

## DataFrame 행 선택
df.loc['김철수'] # set_index가 없으면 인덱스가 숫자
df.loc[['김철수', '이영희']] # 배열로 여러 개 인덱스 지정 가능
df.loc['김철수':'박민수'] # 파이썬 슬라이싱

## DataFrame 위치 기반 행 선택
df.iloc[1] # 인덱스 기준 위치 (0부터 시작)
df.iloc[[2, 3]]
df.iloc[1:3] # 1~2까지

# ★ 행 추출 시, 여러 행을 가져오려면 (1, 3, 5번째 처럼 연속되지 않은)
# 인덱스를 그냥 나열하는 것이 아닌, 리스트로 만들어 전달해야 함.

## DataFrame 조건 기반 선택
df.loc[[True, False, True, False, False]] # Boolean 인덱싱
# 레코드 개수와 동일해야 함.

print(df[['학년', '학점']])
df['학점'] >= 4.0 # Boolean 형식으로 반환
df.loc[df['학점'] >= 4.0]

df[df['학년'] == 2]
df[(df['학년'] == 2) & (df['학점'] >= 3.7)]

# df['학년'] == 1
# df[df['학년'] == 1]


     학년   학점
이름          
김철수   1  4.2
이영희   2  3.8
박민수   3  4.5
최지훈   4  3.9
정소희   2  3.5


Unnamed: 0_level_0,학년,학점,학과,동아리
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
이영희,2,3.8,경영학,독서토론


### 6-4 DataFrame 정렬

In [81]:
import pandas as pd

data = {
    "이름": ["김철수", "이영희", "박민수", "최지훈", "정소희"],
    "학년": [1, 2, 3, 4, 2],
    "학점": [4.2, 3.8, 4.5, 3.9, 3.5],
    "학과": ["컴퓨터공학", "경영학", "전자공학", "의학", "심리학"],
    "동아리": ["프로그래밍", "독서토론", "로봇공학", "봉사활동", "음악감상"]
}

## DataFrame 인덱스 지정
df = pd.DataFrame(data).set_index('이름')
df


## -- 컬럼 정렬

## DataFrame 단일 열 오름차순, 내림차순 정렬
df.sort_values(by = '학점') # 기본값은 ascending = True : 오름차순
df.sort_values(by = '학점', ascending = False)

## DataFrame 복수 열 오름차순, 내림차순 정렬
df.sort_values(by = ['학년', '학점'], ascending = [True, False])
# 배열 형태로 넘겨주고, 열마다 ascending 지정 가능


## -- 인덱스 정렬 (현재 '이름')

## DataFrame 인덱스 기준 오른차순, 내림차순 정렬
df.sort_index(ascending = False)


Unnamed: 0_level_0,학년,학점,학과,동아리
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
최지훈,4,3.9,의학,봉사활동
정소희,2,3.5,심리학,음악감상
이영희,2,3.8,경영학,독서토론
박민수,3,4.5,전자공학,로봇공학
김철수,1,4.2,컴퓨터공학,프로그래밍


## 6-5 실습 시나리오 - Kaggle을 활용한 데이터 수집 및 측정

- Kaggle([https://www.kaggle.com](https://www.kaggle.com)) 회원 가입
- Kaggle 접근 토큰 생성(API 키)


### Kaggle API 키 업로드

In [83]:
from google.colab import files
files.upload()

Saving kaggle.json to kaggle.json


{'kaggle.json': b'{"username":"jeeeunpark","key":"b9af29ad4b313a88d61e819bc4ce1500"}'}

### Kaggle API 키 사용을 위한 Colab 환경 설정

In [85]:
!mkdir -p ~/.kaggle
!cp kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json

### Kaggle 데이터셋 다운로드

In [88]:
!kaggle competitions download -c store-sales-time-series-forecasting

!unzip store-sales-time-series-forecasting.zip

Downloading store-sales-time-series-forecasting.zip to /content
  0% 0.00/21.4M [00:00<?, ?B/s]
100% 21.4M/21.4M [00:00<00:00, 939MB/s]
Archive:  store-sales-time-series-forecasting.zip
  inflating: holidays_events.csv     
  inflating: oil.csv                 
  inflating: sample_submission.csv   
  inflating: stores.csv              
  inflating: test.csv                
  inflating: train.csv               
  inflating: transactions.csv        


### Kaggle 데이터셋 DataFrame 로드 및 살펴보기

In [None]:
import pandas as pd

# Grocery Sales 데이터 DataFrame 로드
train = pd.read_csv('train.csv')
stores = pd.read_csv('stores.csv')
transactions = pd.read_csv('transactions.csv')
oil = pd.read_csv('oil.csv')
holidays_events = pd.read_csv('holidays_events.csv')

# 판매 데이터 살펴보기
train.info()
stores.info()
transactions.info()
oil.info()
holidays_events.info()

### Kaggle 데이터셋 측정

In [102]:
# 판매 데이터 기본 통계량
train.describe()

# 매장 데이터 기본 정보
stores.head()

# 원유 가격 데이터 기본 정보
oil.head()

Unnamed: 0,date,dcoilwtico
0,2013-01-01,
1,2013-01-02,93.14
2,2013-01-03,92.97
3,2013-01-04,93.12
4,2013-01-07,93.2
