Pandas(판다스)
===
---

## 1. "Pandas" 에 대하여
- 파이썬에서 사용하는 **데이터 분석/조작** 라이브러리
- Pandas의 주요 데이터 구조 : **Series(1차원), DataFrame(2차원)**
- Pandas는 다음 종류의 데이터에 적합한 분석 패키지이다.
    - SQL 테이블 또는 Excel 스프레드 시트에서와 같이 이질적으로 유형이 지정된 열이있는 데이블 형식 데이터
    - 정렬되고 정렬되지 않은 시계열 데이터
    - 행 및 열 레이블이 포함 된 임의의 행렬 데이터
    - 다른 형태의 관찰 / 통계 데이터 세트
---

In [8]:
import numpy as np
import pandas as pd

## 2. 시리즈(Series)
- 데이터프레임의 하위 자료형, 1개의 열로 구성
- 양식 : **pd.Series(data, index = index, name = name)** (index : 각 행의 이름, name : 열의 이름)

#### 1) 딕셔너리로 만들기

In [9]:
dict_data = {'a':1, 'b':2, 'c':3}
series_data = pd.Series(dict_data)
series_data

a    1
b    2
c    3
dtype: int64

In [10]:
type(series_data)  # Series의 타입

pandas.core.series.Series

In [14]:
series_data.index  # 인덱스

Index(['a', 'b', 'c'], dtype='object')

In [15]:
series_data.values  # 값

array([1, 2, 3], dtype=int64)

#### 2) 리스트로 만들기(튜플도 동일)

In [24]:
list_data = ['Jones', 3.14, 90, True]
series_data = pd.Series(list_data, index = ['name', 'PI', 'score', 'Boolean'])
series_data

name       Jones
PI          3.14
score         90
Boolean     True
dtype: object

In [25]:
print(series_data.index)
print(series_data.values)

Index(['name', 'PI', 'score', 'Boolean'], dtype='object')
['Jones' 3.14 90 True]


#### 3) 원소 선택, 인덱싱(Indexing)  (※ 위의 list_data 활용)

In [27]:
print(series_data[0], series_data['PI'])  # 원소 선택(전자는 리스트처럼, 후자는 딕셔너리처럼 사용하는 방식)

Jones 3.14


In [40]:
print(series_data[[1, 2]],'\n')  # 1, 2번 열 선택 ([]가 2개 중첩)
print(series_data[[1, 2, 3]],'\n')  # 1, 2, 3번 열 선택

print(series_data[['PI', 'Boolean']])  # PI, Boolean 을 인덱스로 가지고 있는 열 선택

PI       3.14
score      90
dtype: object 

PI         3.14
score        90
Boolean    True
dtype: object 

PI         3.14
Boolean    True
dtype: object


In [42]:
print(series_data[0:2], '\n')  # 0 ~ 1번 열 선택 ([]가 1번 사용)
print(series_data['name':'score'])  # name ~ score 까지 출력 ("score"도 출력된다!!)

name    Jones
PI       3.14
dtype: object 

name     Jones
PI        3.14
score       90
dtype: object


---

## 3. 데이터 프레임(Dataframe)
- 시리즈가 여러개 합쳐진 자료형 (데이터 프레임에서 하나의 열만 가져오면, 이는 곧 시리즈(Series)이다.)

### 1) 딕셔너리로 만들기

In [61]:
dict_data = {'a0':[1,2,3],'a1':[4,5,6],'a2':[7,8,9],'a3':[10,11,12],'a4':[13,14,15]}  # 양식 : {column's name : [elements in column]}
df_data = pd.DataFrame(dict_data)
df_data

Unnamed: 0,a0,a1,a2,a3,a4
0,1,4,7,10,13
1,2,5,8,11,14
2,3,6,9,12,15


In [63]:
print(df_data['a1'], '\n', type(df_data['a1']))  # 데이터 프레임에서 하나의 열만 가져오면, Series가 된다.

0    4
1    5
2    6
Name: a1, dtype: int64 
 <class 'pandas.core.series.Series'>


### 2) 리스트로 만들기
- 리스트들이 하나의 행(row)이 된다. (딕셔너리는 데이터 프레임의 열(column)을, 리스트는 행(row)을 쌓아가는 형태!)

In [81]:
# 양식 : pd.DataFrame([list], index = index, columns = columns)
df_data = pd.DataFrame([[12, '남', '서울'], [13, '여', '화성'], [15, '남', '부산'], [11, '여', '남양주']], index = ['철수', '영희', '민수', '민아'], columns = ['나이', '성별', '거주지'])
df_data

Unnamed: 0,나이,성별,거주지
철수,12,남,서울
영희,13,여,화성
민수,15,남,부산
민아,11,여,남양주


In [82]:
print(df_data.index)  # 인덱스
print(df_data.columns)  # 열(column)의 이름
print(df_data.values)  # value (데이터 행렬)

Index(['철수', '영희', '민수', '민아'], dtype='object')
Index(['나이', '성별', '거주지'], dtype='object')
[[12 '남' '서울']
 [13 '여' '화성']
 [15 '남' '부산']
 [11 '여' '남양주']]


### 3) 행, 열 이름 변경(기본 방식, rename 메소드)

In [83]:
df_data.index = ['Jones', 'Lisa', 'Tom', 'Micheal']  # 인덱스 변경 (column의 이름 변경도 마찬가지)
print(df_data.index)

Index(['Jones', 'Lisa', 'Tom', 'Micheal'], dtype='object')


In [84]:
# 양식 : df.rename(columns={변경 전 열이름, 변경 후 열이름}, inplace = True)
df_data.rename(columns = {'나이':'age', '성별' : 'sex'}, inplace = True)
df_data

Unnamed: 0,age,sex,거주지
Jones,12,남,서울
Lisa,13,여,화성
Tom,15,남,부산
Micheal,11,여,남양주


### 4) 행 / 열 삭제(drop 메소드)

In [94]:
exam_data = {'Math':[100,80,70], 'English':[98,89,95],
            'Music':[100,95,80], 'Ethics':[30,100,90]}
df_data = pd.DataFrame(exam_data, index = ['student_1','student_2','student_3'])
df_data

Unnamed: 0,Math,English,Music,Ethics
student_1,100,98,100,30
student_2,80,89,95,100
student_3,70,95,80,90


In [95]:
# 양식 : df.drop('행 또는 열이름', axis = 0 or 1, inplace = True)
df_data.drop('Ethics', axis = 1, inplace = True)  # 열 삭제
df_data.drop('student_3', inplace = True)  # 행 삭제 (default값 -> axis : 0)
df_data

Unnamed: 0,Math,English,Music
student_1,100,98,100
student_2,80,89,95


In [96]:
df_data.drop(['Math', 'Music'], axis = 1, inplace = True)  # 두 개 이상의 열을 삭제하고 싶으면 대괄호 사용!
df_data

Unnamed: 0,English
student_1,98
student_2,89


### 5) 행 선택 (iloc / loc 메소드)
- 행의 인덱스나 인덱스명을 key값처럼 사용한다.
- loc은 이름으로, iloc은 숫자로 인덱싱한다.
- 한 개의 행만 선택 시, Series의 형태로 반환하고, 여러 행 선택 시, DataFrame의 형태로 반환한다.
- 열의 선택은 df[열 이름]로 한다.

In [107]:
exam_data = {'수학':[90,80,100], '영어':[90,89,95],
            '음악':[85,95,90], '체육':[80,90,90]}
df = pd.DataFrame(exam_data, index = ['윤아','수혁','지민'])

label1 = df.iloc[0]  # iloc로 인덱싱
print(label1, '\n')  # loc로 인덱싱

lable2 = df.loc[['수혁','지민']]
lable2

수학    90
영어    90
음악    85
체육    80
Name: 윤아, dtype: int64 



Unnamed: 0,수학,영어,음악,체육
수혁,80,89,95,90
지민,100,95,90,90


### 6) 범위 슬라이싱

In [119]:
exam_data = {'수학':[90,80,100,60,70], '영어':[90,89,95,70,100],
            '음악':[85,95,50,50,80], '체육':[80,90,90,100,50]}
df = pd.DataFrame(exam_data, index = ['윤아','수혁','지민', '우철', '유나'])
df

Unnamed: 0,수학,영어,음악,체육
윤아,90,90,85,80
수혁,80,89,95,90
지민,100,95,50,90
우철,60,70,50,100
유나,70,100,80,50


In [121]:
df.iloc[: : 2]  # 모든 행을 2행 간격으로 선택

Unnamed: 0,수학,영어,음악,체육
윤아,90,90,85,80
지민,100,95,50,90
유나,70,100,80,50


In [122]:
df.iloc[0:4:3]  # 0부터 3행까지 3행 간격으로 선택

Unnamed: 0,수학,영어,음악,체육
윤아,90,90,85,80
우철,60,70,50,100


In [123]:
df.iloc[: : -1] # 모든 행을 -1행 간격으로, 즉 역순 정렬

Unnamed: 0,수학,영어,음악,체육
유나,70,100,80,50
우철,60,70,50,100
지민,100,95,50,90
수혁,80,89,95,90
윤아,90,90,85,80


### 7) 원소 선택(loc, iloc)

In [128]:
df.loc[['윤아', '지민']]  # 두 개 이상의 행 선택 -> 대괄호 중첩
df.loc['윤아', '수학']  # loc[n, m] : n행의 m열에 있는 원소 선택 -> 대괄호 1번  

90

In [133]:
df.iloc[0, 1:3]  # # iloc[n, m] : n행의 m열에 있는 원소 선택

영어    90
음악    85
Name: 윤아, dtype: int64

### 8) 행, 열 추가

In [146]:
exam_data = {'수학':[90,80,100,60,70], '영어':[90,89,95,70,100],
            '음악':[85,95,50,50,80], '체육':[80,90,90,100,50]}
df = pd.DataFrame(exam_data, index = ['윤아','수혁','지민', '우철', '유나'])
df

Unnamed: 0,수학,영어,음악,체육
윤아,90,90,85,80
수혁,80,89,95,90
지민,100,95,50,90
우철,60,70,50,100
유나,70,100,80,50


In [148]:
df['과학'] = np.nan  # 열 추가 -> 양식 : df['새로운 열 이름'] = 값
df.loc['대한'] = [60,70,90,100,np.nan]  # 행 추가
df

Unnamed: 0,수학,영어,음악,체육,과학
윤아,90.0,90.0,85.0,80.0,
수혁,80.0,89.0,95.0,90.0,
지민,100.0,95.0,50.0,90.0,
우철,60.0,70.0,50.0,100.0,
유나,70.0,100.0,80.0,50.0,
대한,60.0,70.0,90.0,100.0,


In [168]:
exam_data = {'이름':['철수','영희','민철']
             ,'수학':[90,80,70], '영어':[98,89,95],
            '음악':[85,95,100], '체육':[100,90,90]}
df = pd.DataFrame(exam_data)

df.set_index('이름', inplace=True)  # 인덱스로 지정
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
철수,90,98,85,100
영희,80,89,95,90
민철,70,95,100,90


### 9) 전치 행렬 (transpose 메소드)

In [153]:
df.T  # 방법 1) .T

이름,철수,영희,민철
수학,90,80,70
영어,98,89,95
음악,85,95,100
체육,100,90,90


In [158]:
df.T.transpose()  # 방법 2) .transpose()

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
철수,90,98,85,100
영희,80,89,95,90
민철,70,95,100,90
