# 데이터 분석을 위한 전처리와 시각화 with 파이썬

![Alt text](https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcTKPePf0eI9lrP20Ym-P0v-_B2yB6IHRoQiWw&s)

# 5장. 데이터 처리가 쉬운 판다스

## 학습 목표

* 판다스 개념 및 특징을 이해한다.
* 판다스 객체 생성하는 방법을 익힌다.
* 데이터를 확인하는 다양한 방법을 익힌다.
* 데이터를 가공하고 그룹핑 하는 방법을 익힌다.
* 결측데이터를 처리하는 방법을 익힌다.
* 데이터를 병합하는 방법을 익힌다.

## 1. 판다스 개념 및 특징

### [판다스(Pandas)란?]
* 고수준의 자료구조와 빠르고 쉬운 데이터 분석 도구를 제공하는 파이썬 라이브러리
* 넘파이 기반에서 개발되어 넘파이를 사용하는 애플리케이션에서 쉽게 사용 가능하고 여러 형태의 데이터들을 분석하고 정리할 때 유용하게 사용 가능

### [판다스의 특징]
* Numpy를 내부적으로 활용 (Numpy의 특징을 그대로 가짐)
* 데이터분석에 특화된 데이터 구조 제공
* 다양한 데이터 분석 함수 제공
* 다양한 데이터소스로의 입출력 기능 제공

### [Cheat Sheet]
* 판다스를 두 장에 정리해 둔 시트
* 강좌를 통해서 어떠한 기능을 하는 함수들이 있다는 것만 학습한 뒤 해당 기능이 필요할 때 치트시트를 참조해가면서 판다스를 사용
* [판다스 치트시트](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf "Pandas Cheat Sheet")

### [판다스 사용을 위한 준비]
* 설치 명령어 : pip intall pandas* 
아나콘다 패키지, 구글 코랩은 이미 설치가 되어 있

### [판다스 라이브러리 사용 선언]음

## 2. 판다스 객체 생성

### [판다스의 기본 객체]
* **시리즈(Series)** : 레이블을 갖는 1차원 배열
* **데이터프레임(DataFrame)** : 레이블을 갖는 행과 열로 이루어진 2차원 배열

![image.png](attachment:9b28c86c-32e2-4b30-813f-f141eaf76d47.png)

### 2.1 Series와 DataFrame

![image.png](attachment:a1c0203d-205a-410a-ab15-8a643e3ea75e.png)

### 2.2 Series 만들기

* 동일한 유형의 데이터를 저장하는 1차원 배열
* Series() 함수에 리스트, 딕셔너리를 입력해서 Series 데이터 생성

#### 실습 코드 5-1. 정수형 Series 만들기

* **type()** 함수를 사용하여 Series 데이터 타입 확인

#### 실습 코드 5-2. 실수형 Series 만들기

#### 실습 코드 5-3. 인덱스 지정

#### [인덱스 구조]
* 인덱스는 자기와 짝을 이루는 원소의 순서와 주소를 저장
* 데이터 값의 탐색, 정렬, 선택, 결합 등 데이터 조작에 편리
* **인덱스의 종류**
  - 정수형 위치 인덱스(integer position)
  - 인덱스 이름(index name) 또는 인덱스 라벨(index label)
 ![image.png](attachment:31b3d2b7-42b8-4ad5-a8c9-a12a4943abe0.png)

In [None]:
# index 속성에 값을 설정하여 인덱스 이름(인덱스 라벨) 생성


In [None]:
# index 속성 : 인덱스 배열


In [None]:
# values 속성 : 데이터 값의 배열


#### 실습 코드 5-3-1. 파이썬의 딕셔너리를 시리즈로 변환
![image.png](attachment:51387856-350d-45f4-8afa-93cd0bf71b31.png)

In [None]:
# k:v 구조를 갖는 딕셔너리를 만들고, 변수 dict_data에 저장


# Series() 함수로 딕셔너리 데이터를 시리즈 데이터로 변환


### 2.3 DataFrame 만들기

* 2차원 데이터 구조
* 일반적으로 df로 이름 붙임
* 엑셀 스프레드시트, 데이터베이스 등과 동일한 2차원 구조
* 가장 많이 활용하게 될 구조
* Series가 합쳐진 형태

#### 실습 코드 5-4. 넘파이로 배열 생성

In [None]:
import numpy as np
import pandas as pd
arr = np.arange(12).reshape(4,3)
print(arr)
print()
df = pd.DataFrame(arr)
print(df)

#### 실습 코드 5-5. 딕셔너리로 배열 생성

![image.png](attachment:ef1b8830-7335-4d27-9918-07f66e053235.png)

In [None]:
# 열이름을 key로 하고, 리스트를 value로 갖는 딕셔너리 정의(2차원 배열)
# DataFrame() 함수로 딕셔너리 데이터를 데이터프레임으로 변환
df = pd.DataFrame({'name':['장은실','오경선','양숙희'],
                    'score':[90,80,95],
                    'dept':['com','eng','math']})
df

* **type()** 함수를 사용하여 Dataframe 데이터 타입 확인

### 2.4 csv 활용

#### 실습 코드 5-6. csv 파일 불러오기

In [None]:
filename='mobile.csv'
df = pd.read_csv(filename)
df

#### 실습 코드 5-7. csv 파일 불러오기 : 인덱스 지정

* read_csv() 함수의 매개변수로 index_col 사용

In [None]:
# mobile.csv 파일에 있는 내용 중 첫 번째 열을 인덱스로 지정한 후 데이터프레임 df 생성


## 3. 판다스 데이터 확인

* 판다스에는 **데이터프레임의 크기, 데이터 구성 항목, 자료형, 통계수치** 등 정보를 확인할 수 있는 다양한 속성과 함수(메소드)를 제공

### [DataFrame 만들기]

#### 실습 코드 5-8. csv 파일 불러오기

In [None]:
filename='weather.csv'
df = pd.read_csv(filename)
df

### [df.shape]

* 행과 열의 개수를 튜플 형태로 저장하고 있는 속성값

#### 실습 코드 5-9. (행, 열) 크기 확인

### [df.info()]

* 데이터에 대한 전반적인 정보를 출력
* 클래스의 유형, 행 인덱스의 구성, 열 이름의 종류와 개수, 각 열의 자료형과 개수, 결측치 정보, 메모리 할당량 출력

#### 실습 코드 5-10. 데이터의 전체적인 구조 출력

### [df.head() / df.tail()]

* **df.head(n = 5)** : 앞부분 미리보기 (기본 5개)
* **df.tail(n = 5)** : 뒷부분 미리보기 (기본 5개)

#### 실습 코드 5-11. 상위 N행 살펴보기

In [None]:
# 앞부분 미리보기 (기본 5개)


In [None]:
# 뒷부분 미리보기 (매개변수 3 설정 -> 3개 미리보기)


### [df.index / df.columns]

* 인덱스(행 이름)와 열의 레이블(컬럼 이름) 출력
* 인덱스와 열의 레이블을 변경할 때도 사용 가능
  - 인덱스 변경 : df.index = 새로운 인덱스 배열
  - 열 레이블 : df.columns = 새로울 열 레이블 배열

#### 실습 코드 5-13. 인덱스 출력

In [None]:
# df의 인덱스를 따로 지정하지 않았기 대문에 자동으로 0부터 시작하는 인덱스 부여


#### 실습 코드 5-14. 컬럼 출력

### [df.describe()
* 산술(숫자) 데이터를 갖는 컬럼에 대한 주요 기술통계정보를 요약하여 출력

#### 실습 코드 5-15. 요약 통계량 확인

* 산술 데이터가 아닌 열에 대한 정보까지 모두 포함하여 출력하려면?
  - **df.describe(include = 'all')**
  - count, unique, top, freq 정보 표시, 나머지는 NaN

#### 실습 코드 5-16. 기온(temp) 컬럼의 평균 출력

* mean(), max(), median() 등 개별 함수를 사용하여 통계량 출력 가능

* 모든 열의 데이터 개수 반환하려면?

### df.sort_values()

* 데이터 크기순으로 정렬
* **df.sort_values(by=['정렬변수1', '정렬변수2', ...], ascending=True, inplace=False)**
  - **by=[]** : 정렬 대상으로 사용할 변수 리스트
  - **inplace=False** : 정렬 결과의 동일 데이터프레임으로 저장 여부
    * True : 결과를 덮어씀, False : 덮어쓰지 않음
  - **ascending=True** : 오름차순/내림차순 선택
    * True : 오름차순, False : 내림차순

#### 실습 코드 5-17. 최대풍속(max_wind) 컬럼의 값 크기에 따라 오름차순으로 정렬

In [None]:
df.sort_values(by = 'max_wind')

#### 실습 코드 5-18. 최대풍속(max_wind) 컬럼의 값 크기에 따라 내림차순으로 정렬

### [df.value_counts()]

* 범주형 변수의 빈도분석 결과를 출력 (컬럼의 unique value들의 개수 계산)
  - **dropna = True** : NaN을 제외하고 개수를 계산
  - **ascending = True** : 정렬기준 (True : 오름차순, False : 내림차순)

#### 실습 코드 5-19. 빈도 분석 출력

In [None]:
filename='bank.csv'
bank=pd.read_csv(filename)
bank['job'].value_counts() # 오름차순

In [None]:
# 내림차순

### [df.unique()]

* 해당 열의 고유값 출력 (데이터의 구성을 확인하기 위해 사용)

#### 실습 코드 5-20. column의 고유값 출력

## 4. 판다스 데이터 선택

### [열 선택하기]

1. 1개의 열 선택
   * df['열이름'] 또는 df.열이름
2. n개의 열 선택 (리스트 입력)
   * df[[열1, 열2, ..., 열n]]

#### 실습 코드 5-21. 단일 컬럼 선택하기

In [None]:
# df.temp

#### 실습 코드 5-22. 여러 컬럼 선택

#### 실습 코드 5-23. 여러 컬럼 선택 : loc()

* 열 이름을 사용하여 열을 선택

#### 실습 코드 5-24. 여러 컬럼 선택 : iloc()

* 열 인덱스를 사용하여 열을 선택

### [행 선택하기]

* 인덱스 숫자를 이용하여 행을 슬라이싱

#### 실습 코드 5-25. 특정 행 범위 선택

### [레이블로 선택하기 (df.loc)]

* **loc** : 인덱스 이름(레이블)을 기준으로 행 선택

#### 실습 코드 5-26. 특정 날짜에 해당하는 열 선택

In [None]:
df.index=df['date']
df

### [위치로 선택하기 (df.iloc)]

* **iloc** : 정수형 위치 인덱스로 행 선택

#### 실습 코드 5-27. 특정 행 선택하기

In [None]:
# 3번째 행의 데이터를 시리즈 형태로 반환

#### 실습 코드 5-28. 특정 행과 열 선택 : 슬라이싱

In [None]:
# 두번째 ~ 세번째 행과 첫번째 ~ 두번째 열을 포함하는 데이터 프레임 반환
df.iloc[1:3,0:2]

### [불 인덱싱]

* 하나의 열의 값에 대해서 조건식이 참이 되는 기준으로 데이터를 선택
* 예) df[df.A > 0] : df에서 A열이 0보다 큰 데이터를 추출

#### 실습 코드 5-29. 조건에 맞는 데이터 추출
* 기온이 30도 이상인 데이터 추출

In [None]:
w=df['temp']>=30
df[w]

#### 실습 코드 5-30. 조건에 맞는 데이터 추출
* 최고로 더웠던 날의 모든 정보 출력

In [None]:
w=df['temp']==df['temp'].max()
df[w]

#### 실습 코드 5-31. 조건이 2개 이상인 경우 추출
* 기온이 30도 이상이고 최대풍속이 9 이상인 데이터
  - 조건이 2개 이상인 경우 각 조건식을 ()로 묶고 |, &로 연결

In [None]:
w=(df['temp']>=30) & (df['max_wind']>=9)
df[w]

## 5. 판다스 결측데이터 처리

* 유효한 데이터 값이 존재하지 않는 결측데이터 : **NaN(Not a Number)** 으로 표시
  - 결측데이터를 제거하거나 대체하는 작업 필요

### [결측데이터 확인하기]

* **isnull(), isna()** : 결측데이터면 True를 반환하고, 유효한 데이터가 존재하면 False를 반환
* **notnull()** : 유효한 데이터가 존재하면 True를 반환하고, 누락 데이터면 False를 반환

#### 실습 코드 5-32. 결측데이터 확인

In [None]:
# 평균풍속이 측정되지 않은 모든 데이터 출력


#### 실습 코드 5-33. 결측데이터 개수 확인 : 컬럼별 결측데이터 개수 확인

### [결측데이터 삭제하기]

* 결측데이터를 처리하는 가장 간단한 방법 ==> 결측데이터가 있는 행 또는 열을 삭제
  - 그 이외의 방법 : 결측데이터 대체(fillna() 등 이용)
* **dropna()** : 결측데이터(NaN)을 포함한 행 또는 열을 삭제
  - subset : NaN을 검사하는 열 리스트
  - how : NaN을 제거하는 기준
    * any : subset에 포함된 열의 값 중 NaN이 하나라도 포함되는 제거
    * all : subset에 포함된 모든 열의 값이 NaN이면 제거
  - axis : 0 - 행을 기준으로 dropna 실행, 1 - 열을 기준으로 dropna 실행
    
![image.png](attachment:68d51f91-246d-47b1-9b77-3c2a04955fbc.png)

#### 실습 코드 5-34. 결측데이터가 있는 행 삭제 후 확인

In [None]:
df2=df.dropna()
df2.isnull().sum()

### [결측데이터 대체하기]

**결측데이터 삭제가 만사는 아니다** : 데이터 중 일부가 누락되어 있더라도 나머지 데이터를 최대한 살려서 데이터 분석에 활용하는 것이 좋은 결과를 가져올 수 있다.   

**결측데이터(NaN)를 다른 값의 대체** : 데이터의 분포와 특성을 반영 (평균값, 최빈값 등 활용)
* **fillna()** 사용

#### 실습 코드 5-35. 결측데이터 대체 : 평균값으로 대체

#### 실습 코드 5-36. 결측데이터 대체 후 확인

## 6. 판다스 데이터 가공

#### 실습 코드 5-37. 엑셀 파일 불러오기

In [None]:
filename='dust1.xlsx'
dust=pd.read_excel(filename)
dust.head()

### [컬럼(변수) 삭제/생성하기]

**drop()** 메소드로 행 또는 열 삭제 **(원본 객체 변경 X, 새로운 객체 반환)
- 행 삭제 : df.drop(행 인덱스 또는 배열, axis = 0)
- 열 삭제 : df.drop(열 이름 또는 배열, axis = 1)

#### 실습 코드 5-38. 컬럼 삭제

* 데이터 분석에 필요없는 '지역', '망', '측정소코드' 컬럼을 삭제하고 특정값으로 새로운 컬럼을 생성

#### 실습 코드 5-39. 컬럼 생성

### [컬럼 이름 변경하기]

1. 데이터 프레임 만들 때 설정
   * 행 인덱스/열 이름 설정 : pandas.DataFrame(2차원 배열, index = 행 인덱스 배열, columns = 열 이름 배열)
1. 속성을 지정하여 변경
   * 행 인덱스 변경 : df.index = 새로운 행 인덱스 배열
   * 열 이름 변경 : df.columns = 새로운 열 이름 배열
1. rename() 메소드 사용 **(원본객체 변경 X, 새로운 객체 반환)**
   * 행 인덱스 변경 : df.rename(index = {기존 인덱스: 새 인덱스, ...})
   * 열 이름 변경 : df.rename(columns = {기존 이름 : 새 이름, ...})

#### 실습 코드 5-40. 컬럼 이름 변경

In [None]:
dust.rename(columns={'측정소명':'name',
                     '측정일시':'date',
                     '주소':'addr'}, inplace=True)
dust.columns

### [데이터 형 변환]

#### 실습 코드 5-41. 데이터형으로 확인

* **df.dtypes** : 데이터프레임 열의 자료형 출력

#### 실습 코드 5-42. 숫자 int형을 문자열형으로 변환

In [None]:
dust['date']=dust['date'].astype(str)    # 문자열 형식으로 형변환
dust['date']=dust['date'].str.slice(0,8) # 문자열의 지정 범위만 슬라이싱
dust.dtypes

#### 실습 코드 5-43. 문자열형을 날짜형으로 변환

In [None]:
dust['date']=pd.to_datetime(dust['date'])
dust.dtypes

#### 실습 코드 5-44. 날짜 형식 활용 : Series.dt.형식

In [None]:
dust['year']=dust['date'].dt.year
dust['month']=dust['date'].dt.month
dust['day']=dust['date'].dt.day
dust.head()

### [데이터 병합하기]

* 두 데이터프레임을 각 데이터에 존재하는 고유값(key)을 기준으로 병합
* **pd.merge(df_left, df_right, how = 'inner', on = None)**
   - 키(key)를 기준으로 두 데이터프레임을 병합 (SQL의 join 명령과 비슷)
   - 키가 되는 열이나 인덱스는 반드시 양쪽 데이터프레임에 모두 존재해야 함

![image.png](attachment:4d4b8111-a84a-48d9-aa72-d45eba447231.png)

#### 실습 코드 5-45. 병합할 원본 데이터 확인

In [None]:
filename='nation.xlsx'
s1=pd.read_excel(filename)
s1

In [None]:
filename='code.xlsx'
s2=pd.read_excel(filename)
s2

#### 실습 코드 5-46. 데이터 병합 : 공통 컬럼을 기준

In [None]:
pd.merge(s1,s2,on='국적코드')

## 7. 판다스 데이터 그룹핑

* 데이터를 특정한 기준으로 적용하여 몇 개의 그룹으로 묶어서 처리
* groupby() 함수를 사용하여 통계량을 요약
  - 통계량 관련 함수 : mean(평균), std(표준편차), var(분산), max(최대값), min(최소값), mode(최빈값) 등

#### 실습 코드 5-47. 한 열을 기준으로 그룹화
* groupby()를 사용해서 '국적코드' 열을 기준으로 그룹화하고, sum() 함수를 적용

In [None]:
# 국적코드별 입국객수 출력하기
s1.groupby('국적코드').sum()

#### 실습 코드 5-48. 여러 열을 기준으로 그룹화
* 여러 열('국적코드', '성별')을 그룹으로 묶어서 계층적인 인덱스를 구성한 후 sum() 함수를 적용하여 인덱스별 합 출력

In [None]:
s1.groupby(['국적코드','성별']).sum()