# Pandas

# 2. Pandas 주요 기능

In [2]:
import numpy as np
import pandas as pd

### DataFrame 객체의 열 추가

In [10]:
np.random.seed(0)

df = pd.DataFrame(np.random.randint(10, size=(3, 4)), columns=['col1', 'col2', 'col3', 'col4'])
df

Unnamed: 0,col1,col2,col3,col4
0,5,0,3,3
1,7,9,3,5
2,2,4,7,6


In [11]:
df["total"] = df.sum(axis=1)
df

Unnamed: 0,col1,col2,col3,col4,total
0,5,0,3,3,11
1,7,9,3,5,24
2,2,4,7,6,19


- 연산을 통한 새로운 column 추가

- 가로 방향 => axis=1 

- total이라는 이름으로 열 추가

### DataFrame 객체의 행과 열 제거

- axis를 이용하여 행과 열 구분

- drop()을 이용해 제거

In [12]:
df = df.drop(columns=["col4", "total"], axis=1)
df

Unnamed: 0,col1,col2,col3
0,5,0,3
1,7,9,3
2,2,4,7


In [13]:
df.drop(index=1, axis=0)

Unnamed: 0,col1,col2,col3
0,5,0,3
2,2,4,7


### DataFrame 객체의 널 값 연산

- np.nan
    - not a number
    - Null
    - 널 값 연산

In [21]:
df = pd.DataFrame([[1, 2, 3],
                   [4, 5, 6],
                   [np.nan, 8, 9],
                   [10, np.nan, 12]])

df

Unnamed: 0,0,1,2
0,1.0,2.0,3
1,4.0,5.0,6
2,,8.0,9
3,10.0,,12


In [19]:
df.dropna(axis=0)

Unnamed: 0,0,1,2
0,1.0,2.0,3
1,4.0,5.0,6


In [20]:
df.dropna(axis=1)

Unnamed: 0,2
0,3
1,6
2,9
3,12


- axis=0 이면 행을 지움

- axis=1 이면 열을 지움

In [22]:
df.fillna(df.mean(axis=0))

Unnamed: 0,0,1,2
0,1.0,2.0,3
1,4.0,5.0,6
2,5.0,8.0,9
3,10.0,5.0,12


- fillna
    - naN에 값 채우기
    

### DataFrame 객체의 조인

- 2개의 DataFrame 병합(조인)

In [37]:
df1 = pd.DataFrame({
    'name': ['김씨', '강씨', '이씨', '박씨'],
    'dept': ['연구개발', '영업', '연구개발', '인사']})

df2 = pd.DataFrame({
    'emp_name': ['강씨', '이씨', '김씨', '김씨'],
    'project': ['S', 'D', 'A', 'S']})

In [38]:
pd.merge(df1, df2, left_on='name', right_on='emp_name').drop('emp_name', axis=1)

Unnamed: 0,name,dept,project
0,김씨,연구개발,A
1,김씨,연구개발,S
2,강씨,영업,S
3,이씨,연구개발,D


- merge() 함수 사용

- 연결할 방향 지정
    - df1의 name, df2의 emp_name 
    - left_on, right_on

- 연결 후 중복된 column 제거하기
    - 여기서는 이름(emp_name)을 제거

<br/>

- inner join 방식

    - 맵핑할 대상이 없는 경우에는 제외시킴
    - 박씨가 제외되었음
    

In [43]:
pd.merge(df1, df2, how='outer', left_on='name', right_on='emp_name').drop('emp_name', axis=1)

Unnamed: 0,name,dept,project
0,김씨,연구개발,A
1,김씨,연구개발,S
2,강씨,영업,S
3,이씨,연구개발,D
4,박씨,인사,


- how
    - outer, left, right

- outer join
    - 없는 데이터는 nan으로 채움

- 누락된 데이터가 없게 출력 됨

### DataFrame 객체의 정렬

In [49]:
import seaborn as sns

In [50]:
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


- titanic
    - 시각화 패키지(seaborn)가 가지고 있는 데이터셋 

In [53]:
titanic.sort_values(by=["fare", "sex"], ascending=[False, True]).head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
258,1,1,female,35.0,0,0,512.3292,C,First,woman,False,,Cherbourg,yes,True
679,1,1,male,36.0,0,1,512.3292,C,First,man,True,B,Cherbourg,yes,False
737,1,1,male,35.0,0,0,512.3292,C,First,man,True,B,Cherbourg,yes,True
88,1,1,female,23.0,3,2,263.0,S,First,woman,False,C,Southampton,yes,False
341,1,1,female,24.0,3,2,263.0,S,First,woman,False,C,Southampton,yes,False


- sort_values()
    - 데이터 정렬

    - by
        - fare: 운임별
        - sex: 성별

    - ascending
        - True => desc
        - False => asc

- 데이터의 양이 많을 경우 head와 tall을 활용해서 일부분 발췌 가능

### DataFrame 객체의 그룹 연산

- groupby를 활용해 그룹핑하려는 column 지정

In [58]:
titanic.groupby("sex")[["survived"]].aggregate("mean")

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


- 성별 생존여부에 대한 평균값 출력(성별 생존율 연산)

- aggregate() 함수를 사용하여 연산함

- \[survived\] 로 하면 series로 출력됨

In [61]:
titanic.groupby("sex")[["survived"]].aggregate("mean").apply(lambda x: x - x.mean())

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.276565
male,-0.276565


- DataFrame 객체에 apply() 함수를 이용해 column 정보에 대한 mean 구하기

- 평균을 중심이동해서 결과 표준화(데이터 표준화 기법)

### DataFrame 객체와 피벗 테이블

In [62]:
titanic.groupby(["sex", "class"])["survived"].aggregate("mean").unstack()

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


- 성별, 클래스별 생존율 구하기

- \[survived\] 를 이용해서 series로 출력 되야 하지만 unstack() 함수를 사용해서 DataFrame으로 반환

- sex => index 정보
- class => column 정보

In [64]:
titanic.pivot_table("survived", index="sex", columns="class")

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


- pivot_table()
    - 피벗 테이블 함수를 사용해 다차원 분석하기


- 다차원 분석을 할 때는 그룹핑 보다 피벗 테이블을 이용하는게 더 빠르다.

<br/>

### Reference

https://www.youtube.com/watch?v=2XLQhMOjecc