In [5]:
import pandas as pd
import numpy as np

In [7]:
data = pd.Series(np.linspace(0,1, num=5)) # 0과 1사이의 5개의 인터벌 생성
data

0    0.00
1    0.25
2    0.50
3    0.75
4    1.00
dtype: float64

In [10]:
data.values #series 안에 values 존재, values는 numpy의 array

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [13]:
type(data.values)

numpy.ndarray

In [14]:
data.index

RangeIndex(start=0, stop=5, step=1)

---
### 테이블 모양의 DataFrame은 행 인덱스와 행 이름으로 구성
- index의 객체가 Rangeindex type으로 이루어져 있다
---

In [22]:
data[1] # == 인덱싱

0.25

In [23]:
data[2:4] # == 슬라이싱

2    0.50
3    0.75
dtype: float64

In [24]:
data[(data > 0.1) & (data < 0.6)] # == 마스킹

1    0.25
2    0.50
dtype: float64

In [26]:
data[[2,4]] # == 팬시 인덱싱

2    0.5
4    1.0
dtype: float64

모든 기능은 NumPy에서 가져옴, 넘피 기반이기 때문에 Series에 적용

In [27]:
list(data.keys()) #data index도 있지만 data.keys도 존재

[0, 1, 2, 3, 4]

In [32]:
list(data.items()) #data.values도 있지만 data.items도 존재 values와 다르게 imdex와 values가 쌍으로 튜플형식으로 출력

[('a', 0.0), ('b', 0.25), ('c', 0.5), ('d', 0.75), ('e', 1.0)]

In [33]:
data.index = ["a","b","c","d","e"] # 숫자가 아닌 값으로도 인덱스를 대신 할 수 있는 유연성
                                    # 기존의 만들지 않아도 부여됐던 (0,1,2,3,4) 인덱스값 = 암묵적 인덱스 (implicit index)
                                    # 지금처럼 index에 직접 값을 지정하는 명시적 인덱스(explicit index)
                                    # 마치 key처럼 사용 가능
data

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

In [36]:
data.index #rangeindex 타입이 아닌 index타입으로 구성됐음

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

---
### Series 객체와 loc 인덱서, iloc 인덱서의 활용
- 암묵적 인덱스와 명시적 인덱스의 존재로 문제가 있다
- Pandas에서는 그 문제를 해결하기 위해 인덱서를 제공
- loc 인덱서 == 명시적 인덱서
- iloc 인덱서 == 암묵적 인덱서
- 함수가 아니다
---

In [37]:
data.loc['a'] # 앞에 명시해줬던 인덱스 값을 입력 인덱싱,슬라이싱, 팬시 인덱싱, 마스킹 모두 사용 가능
# 인덱싱

0.0

In [39]:
data.loc['a':'c'] # 슬라이싱

a    0.00
b    0.25
c    0.50
dtype: float64

In [40]:
data.loc[data > 0.7] #bool을 이용한 마스킹

d    0.75
e    1.00
dtype: float64

In [46]:
data.iloc[0]

0.0

In [50]:
data.iloc[0:3]

a    0.00
b    0.25
c    0.50
dtype: float64

### 슬라이싱 주의할 점  
loc와 iloc의 차이
위의 loc에선 a,b,c의 값을 출력하기 위해 a:c 슬라이싱을 했지만  
iloc에서 a,b,c의 값을 출력하기 위해선 슬라이싱이 stop 불포함이기 때문에 0:3으로 입력을 해줘야 한다.


In [131]:
data.iloc[[0,2]]

a    0.0
c    0.5
dtype: float64

명시적 인덱싱을 해줬더라도 iloc 사용 가능

---
### pandas 패키지와 DataFrame 객체
- 실제로 Series를 여러개 붙여놓은 모습
- Data Frame은 행 인덱스와 열 이름으로 구성된 2차원 구조
- 열은 행 인덱스와 동일한 인덱스 타입
- 각 열마다 데이터 타입 다르게 부여 가능

In [157]:
np.random.seed(0)

df = pd.DataFrame(np.random.randint(10, size=(3,4)), columns=['col1','col2','col3','col4'])
df

Unnamed: 0,col1,col2,col3,col4
0,5,0,3,3
1,7,9,3,5
2,2,4,7,6


0 ~ 9까지 정수 3행 4열 구조  
이 배열을 기반으로 columns 4개 부여  
인덱스는 암묵적 인덱스인 0,1,2

In [158]:
df.values # ==Np array

array([[5, 0, 3, 3],
       [7, 9, 3, 5],
       [2, 4, 7, 6]])

In [159]:
df["col2"]

0    0
1    9
2    4
Name: col2, dtype: int32

columns2로 접근하니 열의 데이터가 전부 출력  
데이터의 타입 == series
앞의 부분은 행 인덱스 출력

In [160]:
df.col2 # .(dot)를 이용한 속성에 접근 방법도 가능

0    0
1    9
2    4
Name: col2, dtype: int32

---
### DataFame 객체와 loc 인덱서,iloc인덱서의 활용
- 행 인덱스에 대해서 명시적 인덱싱을 사용할 것 인지,명시적 인덱싱을 사용할 것 인지 판단
- columns에도 iloc 활용 가능
- iloc 인덱스를 사용하게 되면 행과 열 모두 암묵적 인덱스를 사용하는 것
- loc 인덱스를 사용하게 되면 행과 열 모두 명싲거 인덱스를 사용하는 것

In [161]:
df.loc[0,"col2":"col3"]

col2    0
col3    3
Name: 0, dtype: int32

인덱싱, 슬라이싱 사용  
명시적 인덱스 == stop 포함  
col2,col3에 대한 Series 객체 출력  

In [162]:
df.loc[0:0,"col2":"col3"]

Unnamed: 0,col2,col3
0,0,3


행 객체를 인덱스에서 슬라이싱으로 변경하니 DataFrame으로 출력  
같은 연산 방법으로도 출력이 다르다 -> Series로 반환할지 Data Frame을 만들지 선택 가능  
결과는 같지만 데이터를 표현하는 방법이 달라진다  


In [163]:
df.loc[[0],"col2":"col3"]

Unnamed: 0,col2,col3
0,0,3


벡터를 사용하면 Data Frame으로 반환

In [164]:
df.loc[0:2,"col2":"col3"]

Unnamed: 0,col2,col3
0,0,3
1,9,3
2,4,7


loc이기 때문에 stop의 조건이 포함이다.  
iloc와 헷갈리지 말자

In [165]:
df.loc[(df["col2"] > 2) & (df["col3"] <5),"col2":"col3"]
                    #행                  ,  열

Unnamed: 0,col2,col3
1,9,3


인덱싱 bool마스킹,슬라이싱 사용
슬라이싱을 이용해 2개의 조건을 만족하는 행의 col2,col3 추출

In [166]:
df.iloc[0,1:3] #슬라이싱 stop 불포함 꼭 주의하기, 인덱싱,슬라이싱이기 때문에 Series로 반환

col2    0
col3    3
Name: 0, dtype: int32

In [167]:
df.iloc[0:1,1:3]# 슬라이싱,슬라이싱이기 때문에 DataFrame으로 출력

Unnamed: 0,col2,col3
0,0,3


In [168]:
df.iloc[[0],1:3] # 배열 형태로 넘겨준 구조 또한 Data Frame 구성

Unnamed: 0,col2,col3
0,0,3


In [169]:
df.iloc[0:3, 1:3] #슬라이싱, 슬라이싱 = DataFrame

Unnamed: 0,col2,col3
0,0,3
1,9,3
2,4,7


In [170]:
df

Unnamed: 0,col1,col2,col3,col4
0,5,0,3,3
1,7,9,3,5
2,2,4,7,6


---
### DataFrame 객체의 열추가
- 연산을 통한 새로운 column 추가
---

In [171]:
df["total"]= df.sum(axis=1)
df #일반 함수들은 axis=0 row aixs=1 columns지만 DataFrame의 통계함수는 axis=1 row axis=0  columns
#즉 일반함수 default = row 통계함수의 default = columns

Unnamed: 0,col1,col2,col3,col4,total
0,5,0,3,3,11
1,7,9,3,5,24
2,2,4,7,6,19


---
### DataFrame 객체의 행과 열 제거
- 행과 열을 구분할 때 axis를 활용한다
- axis를 활용한 행과 열의 제거
- drop 함수 사용
--- 

In [172]:
df = df.drop(columns=["col4","total"],axis = 1)
df

Unnamed: 0,col1,col2,col3
0,5,0,3
1,7,9,3
2,2,4,7


In [173]:
df.drop(index=1,axis=0)

Unnamed: 0,col1,col2,col3
0,5,0,3
2,2,4,7


열은 columns 행은 index라는 속성 사용
---
### DataFrame 객체의 널 값 연산
- np.nan(not a number)을 통한 널 값 연산
- np.nan = Null (존재하지 않는 값)


In [175]:
df = pd.DataFrame([[1,2,3],
                  [4,5,6],
                  [np.nan,8,9],
                  [10,np.nan,12]])
df

Unnamed: 0,0,1,2
0,1.0,2.0,3
1,4.0,5.0,6
2,,8.0,9
3,10.0,,12


In [176]:
df.dropna(axis=0)

Unnamed: 0,0,1,2
0,1.0,2.0,3
1,4.0,5.0,6


In [177]:
df.fillna(df.mean(axis=0)) # 통계함수는 columns이 Default 주의!!

Unnamed: 0,0,1,2
0,1.0,2.0,3
1,4.0,5.0,6
2,5.0,8.0,9
3,10.0,5.0,12


fillna를 이용해 값 채우기  
df.mean을 이용해 axis = 0 즉 column의 평균을 내 Null값을 채움  
---
누락된 값 제거하기 vs 대체하기 전략이 있다
선택적인 부분이다
---

---
### DataFrame의 아주 강력한 기능 객체의 조인
- 2개의 DataFrame 병합(조인)
- 연결할 방향 지정
- merge 함수 사용


In [186]:
df1 = pd.DataFrame({'name': ['이순신','강감찬','을지문덕','김유신'],
                   'dept' :['연구개발','영업','연구개발','인사'] })
df2 = pd.DataFrame({'emp_name':['강감찬','을지문덕','이순신','이순신'],
                   'project' : ["S","D","A","S"]})
df1

Unnamed: 0,name,dept
0,이순신,연구개발
1,강감찬,영업
2,을지문덕,연구개발
3,김유신,인사


In [187]:
df2

Unnamed: 0,emp_name,project
0,강감찬,S
1,을지문덕,D
2,이순신,A
3,이순신,S


In [189]:
pd.merge(df1,df2,left_on = 'name',right_on = "emp_name") 

Unnamed: 0,name,dept,emp_name,project
0,이순신,연구개발,이순신,A
1,이순신,연구개발,이순신,S
2,강감찬,영업,강감찬,S
3,을지문덕,연구개발,을지문덕,D


- merge 함수를 이용해 연결
- left_on, right_on을 사용해 연결할 방향 지정
- 연결 후 중복된 column 제거하기
- 중복되는 축을 제거 한다
- 2개의 연결된 행 예시(이순신)
- 이순신은 연구개발 소속
- 이순신은 S project, A project 두 개의 프로젝트에 소속되어 있다
- 맵핑할 대상이 없는 경우 제외(inner join) 방식

In [191]:
pd.merge(df1,df2, how="outer",left_on="name",right_on="emp_name").drop("emp_name", axis=1)

Unnamed: 0,name,dept,project
0,이순신,연구개발,A
1,이순신,연구개발,S
2,강감찬,영업,S
3,을지문덕,연구개발,D
4,김유신,인사,


- default = inner join
- outer = full -> 왼쪽 오른쪽 둘 다라는 뜻
- outerjoin시 없는 데이터는 nan으로 채움
- 김유신의 행이 추가된 것을 확인할 수 있다

---
### DAtaFrame 객체의 정렬
- 시각화 패키지(seaborn)가 가지고 있는 데이터 셋 titanic
- 타이타닉 데이터셋을 가지고 데이터 정렬 방법을 알아보자
---

In [196]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [197]:
titanic.sort_values(by=["fare","sex"], ascending=[False,True]).head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
258,1,1,female,35.0,0,0,512.3292,C,First,woman,False,,Cherbourg,yes,True
679,1,1,male,36.0,0,1,512.3292,C,First,man,True,B,Cherbourg,yes,False
737,1,1,male,35.0,0,0,512.3292,C,First,man,True,B,Cherbourg,yes,True
88,1,1,female,23.0,3,2,263.0,S,First,woman,False,C,Southampton,yes,False
341,1,1,female,24.0,3,2,263.0,S,First,woman,False,C,Southampton,yes,False


- 데이터를 정렬하는 방법은 sort_values(이 것 말고도 sort_index라는 함수도 있다 -> 인덱스를 이용해 정렬)
    - values를 사용한 정렬
- 운임별,성별 정렬(매개변수 by와 ascending 이용)
    - by는 하나를 기술할수도 있고 list형태로도 기술 가능
- sort_values(by=["fare","sex"], ascending=[False,True]).head()
    - fare(운임)은 descending(False) sex(성별)은 asceding 
- 즉 1순위 운임별 정렬을 내림차순으로 하되 같은 값일 경우 성별을 가지고 오름차순으로 정렬하라는 뜻이다
- 데이터가 방대한 경우 head와 tail을 활용해 발췌 가능 .head(10) <- 10번째까지 발췌 가능



---
### DataFrame 객체의 그룹 연산
- groupby를 활용해 그룹핑하려는 column지정
---

In [211]:
titanic.groupby("sex")[["survived"]].aggregate("mean")

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


- 성별로 그룹핑
- 성별에 대한 생존여부에 대한 평균을 구해보자 -> 생별생존률 연산을 위해 aggregate 함수 사용
- pandas 내장 함수인 mean으로 평균 계산
- 대괄호를 하나로 기술하게 되면 결과 값이 series로 반환 대괄호 두개를 사용한 이유는 DataFrame으로 결과를 받기 위해서 이다.
- 컬럼이 하나일 경우 기본적으로 series


In [212]:
titanic.groupby("sex")[["survived"]].aggregate("mean").apply(lambda x: x.mean()) #왜 인지 모르겠지만 lamdba가 안먹힘

survived    0.465473
dtype: float64

- Data Frame 객체에 apply함수를 이용해 column 정보에 대한 mean 구하기
- 평균을 중심이동 해서 결과 표준화
- 데이터 표준화를 사용하기 위해 많이 사용하는 기법
- male = -값 female = +값

---
### DataFrame 객체와 피벗 테이블
---

In [216]:
titanic.groupby(["sex","class"])["survived"].aggregate("mean").unstack()

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


- survive의 대괄호가 하나이기 때문에 Series로 반환
- unstack 함수를 이용해 Series를 Data Frame 으로 반환
- 성별,선실 등급별 Series의 인덱스가 된다
- unstack()함수를 통해 Series가 DataFrame으로 반환된다
- class가 DataFrame의 column으로 올라간다

In [219]:
titanic.pivot_table("survived",index="sex",columns="class")

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


- 피벗 테이블 함수를 사용해 다차원 분석하기
- 내가 알고싶은 것 = 생존률
- index는 "sex", columns은 "class"를 사용해라
- 다차원 분석은 그룹바이보다 피벗테이블을 사용한다