# Pandas 주요 기능

### 객체

In [1]:
import numpy as np
import pandas as pd

In [2]:
# pd.series로 데이터 구성
data = pd.Series(np.linspace(0,1,num=5))
data

0    0.00
1    0.25
2    0.50
3    0.75
4    1.00
dtype: float64

In [3]:
# numpy.ndarray 타입의 values
data.values

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [4]:
type(data.values)

numpy.ndarray

In [5]:
# index라는 객체(Range index의 형태 => 암묵적 인덱스)
data.index

RangeIndex(start=0, stop=5, step=1)

### Numpy 기능 및 여러 기능들

In [6]:
# 인덱싱
data[1]

0.25

In [7]:
# 슬라이싱
data[2:4]

2    0.50
3    0.75
dtype: float64

In [8]:
# 마스킹
data[(data>0.1)&(data<0.6)]

1    0.25
2    0.50
dtype: float64

In [9]:
# 팬시 인덱싱
data[[2,4]]

2    0.5
4    1.0
dtype: float64

In [10]:
# index 대신 keys 사용 가능
list(data.keys())

[0, 1, 2, 3, 4]

In [11]:
# values 대신 items 사용 가능(단 items는 index와 values의 tuple 형태로)
list(data.items())

[(0, 0.0), (1, 0.25), (2, 0.5), (3, 0.75), (4, 1.0)]

In [12]:
# 숫자가 아닌 값도 index로 대체 가능(유연한 index) => 직접 값을 지정하면 명시적 인덱스(explicit index)
data.index=['a','b','c','d','e']
data

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

### loc 인덱서(명시적), iloc 인덱서(암묵적)의 사용 (함수 아님)

In [13]:
# 인덱싱
data.loc['a']

0.0

In [14]:
# 슬라이싱
data.loc['a':'c']

a    0.00
b    0.25
c    0.50
dtype: float64

In [15]:
# 팬시 인덱싱
data.loc[['a','c']]

a    0.0
c    0.5
dtype: float64

In [16]:
# 마스킹
data.loc[data>0.7]

d    0.75
e    1.00
dtype: float64

In [17]:
# 인덱싱(암묵적)
data.iloc[0]

0.0

In [18]:
# 슬라이싱(암묵적) (여기서 범위는 0~2까지된다는 것 주의)
data.iloc[0:3]

a    0.00
b    0.25
c    0.50
dtype: float64

In [19]:
# 팬시 인덱싱(암묵적)
data.iloc[[0,2]]

a    0.0
c    0.5
dtype: float64

### DataFrame 객체

In [20]:
np.random.seed(0)

df = pd.DataFrame(np.random.randint(10,size=(3,4)), columns=['col1','col2','col3','col4'])
df

Unnamed: 0,col1,col2,col3,col4
0,5,0,3,3
1,7,9,3,5
2,2,4,7,6


In [21]:
# series 형태
df['col2']

0    0
1    9
2    4
Name: col2, dtype: int32

In [22]:
# .을 이용하여 속성에 접근
df.col2

0    0
1    9
2    4
Name: col2, dtype: int32

### DataFrame에서 loc, iloc 활용

In [23]:
# 명시적이므로 col3까지 포함(series 형태)
df.loc[0, 'col2':'col3']

col2    0
col3    3
Name: 0, dtype: int32

In [24]:
# 행을 슬라이싱을 사용하면 series를 DataFrame으로 변경
df.loc[0:0,'col2':'col3']

Unnamed: 0,col2,col3
0,0,3


In [25]:
# 행을 벡터를 사용하면 series를 DataFrame으로 변경
df.loc[[0],'col2':'col3']

Unnamed: 0,col2,col3
0,0,3


In [26]:
# 명시적이므로 2행, col3열까지
df.loc[0:2,'col2':'col3']

Unnamed: 0,col2,col3
0,0,3
1,9,3
2,4,7


In [27]:
# 부울 배열을 이용한 마스킹(조건을 만족하는 행의 col2~col3열 출력)
df.loc[(df['col2']>2) & (df['col3']<5), 'col2':'col3']

Unnamed: 0,col2,col3
1,9,3


In [28]:
# 암묵적이므로 3행까지 포함(series 형태)
df.iloc[0,1:3]

col2    0
col3    3
Name: 0, dtype: int32

In [29]:
# 행을 슬라이싱을 사용하면 series를 DataFrame으로 변경
df.iloc[0:1,1:3]

Unnamed: 0,col2,col3
0,0,3


In [30]:
# # 행을 벡터를 사용하면 series를 DataFrame으로 변경
df.iloc[[0],1:3]

Unnamed: 0,col2,col3
0,0,3


In [31]:
# 암묵적이므로 범위 주의
df.iloc[0:3,1:3]

Unnamed: 0,col2,col3
0,0,3
1,9,3
2,4,7


### DataFrame 열 추가

In [32]:
df

Unnamed: 0,col1,col2,col3,col4
0,5,0,3,3
1,7,9,3,5
2,2,4,7,6


In [33]:
df['total'] = df.sum(axis=1)
df

Unnamed: 0,col1,col2,col3,col4,total
0,5,0,3,3,11
1,7,9,3,5,24
2,2,4,7,6,19


### DataFrame 행과 열 제거

In [34]:
# 열 제거
df=df.drop(columns=['col4','total'],axis=1)
df

Unnamed: 0,col1,col2,col3
0,5,0,3
1,7,9,3
2,2,4,7


In [35]:
# 행 제거
df.drop(index=1,axis=0)

Unnamed: 0,col1,col2,col3
0,5,0,3
2,2,4,7


### DataFrame Null값 연산

In [36]:
df=pd.DataFrame([[1,2,3],[4,5,6],[np.nan,8,9],[10,np.nan,12]])
df

Unnamed: 0,0,1,2
0,1.0,2.0,3
1,4.0,5.0,6
2,,8.0,9
3,10.0,,12


In [37]:
# dropna ==> Null값 포함한 행 or 열 지우기 (axis로 행 or 열 선택)
df.dropna(axis=0)

Unnamed: 0,0,1,2
0,1.0,2.0,3
1,4.0,5.0,6


In [38]:
# fillna ==> Null값 채우기 (채울 값)
df.fillna(df.mean(axis=0))

Unnamed: 0,0,1,2
0,1.0,2.0,3
1,4.0,5.0,6
2,5.0,8.0,9
3,10.0,5.0,12


### DataFrame 조인

In [39]:
df1 = pd.DataFrame({'name': ['이순신', '강감찬', '을지문덕', '김유신'],'dept': ['연구개발', '영업', '연구개발', '인사']})
df2 = pd.DataFrame({'emp_name': ['강감찬', '을지문덕', '이순신', '이순신'],'project': ["S", "D", "A", "S"]})

In [40]:
# merge ==> DataFrame 연결 (left on과 right on에 연결할 열 선택 // inner 방식으로 매핑할 것 없으면 제외)
pd.merge(df1, df2, left_on="name", right_on="emp_name").drop("emp_name", axis=1)

Unnamed: 0,name,dept,project
0,이순신,연구개발,A
1,이순신,연구개발,S
2,강감찬,영업,S
3,을지문덕,연구개발,D


In [41]:
# merge ==> DataFrame 연결 (left on과 right on에 연결할 열 선택 // outer 방식으로 매핑할 것 없으면 NaN으로 채움)
pd.merge(df1, df2, how="outer", left_on="name", right_on="emp_name").drop("emp_name", axis=1)

Unnamed: 0,name,dept,project
0,이순신,연구개발,A
1,이순신,연구개발,S
2,강감찬,영업,S
3,을지문덕,연구개발,D
4,김유신,인사,


### DataFrame 정렬

In [42]:
# 시각화 패키지(seaborn)이 가지고 있는 데이터 셋(titanic)
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [43]:
# sort_values ==> by를 기준으로 ascending으로 오름차순 내림차순 데이터 정렬
titanic.sort_values(by=["fare", "sex"], ascending=[False, True]).head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
258,1,1,female,35.0,0,0,512.3292,C,First,woman,False,,Cherbourg,yes,True
679,1,1,male,36.0,0,1,512.3292,C,First,man,True,B,Cherbourg,yes,False
737,1,1,male,35.0,0,0,512.3292,C,First,man,True,B,Cherbourg,yes,True
88,1,1,female,23.0,3,2,263.0,S,First,woman,False,C,Southampton,yes,False
341,1,1,female,24.0,3,2,263.0,S,First,woman,False,C,Southampton,yes,False


### DataFrame 그룹 연산

In [44]:
# groupby ==> 특정 열을 그룹핑  // aggregate ==> 연산 함수
titanic.groupby("sex")[["survived"]].aggregate("mean")

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


In [45]:
# apply ==> 설정한 연산을 가능하게 만듬
titanic.groupby("sex")[["survived"]].aggregate("mean").apply(lambda x: x - x.mean())

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.276565
male,-0.276565


### DataFrame 피벗 테이블

In [46]:
# unstack ==> series를 DataFrame으로 변환(sex => 행, class => 열)
titanic.groupby(["sex", "class"])["survived"].aggregate("mean").unstack()

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [47]:
# pivot_table ==> 다차원 분석
titanic.pivot_table("survived", index="sex", columns="class")

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447
