# Pandas

- Numpy를 기반으로 하는 파이썬 데이터 분석 라이브러리
- 행과 열로 이루어진 데이터 객체를 만들 수 있음
- Series와 DataFrame 2가지 객체가 있음 <br>
#### 1. Series
- Index와 Value가 1:1 대응인 1차원 배열 형태 <br>
#### 2. DataFrame
- Index와 Value와 Column으로 이루어진 데이터 타입
- 행과 열로 만들어지는 2차원 배열 구조
- Column은 Series로 이루어지기 때문에, 정렬된 Series 객체의 연속으로 볼 수 있음
- 엑셀의 테이블 형태과 유사함

In [2]:
# !pip install pandas

In [3]:
import numpy as np
import pandas as pd

---

## 1. Series

### 1-1. Series 생성

#### 1) 리스트로 생성

In [4]:
# 기본적으로 index는 0부터 부여
series1 = pd.Series([1, 6, 7, 3])
series1

0    1
1    6
2    7
3    3
dtype: int64

In [5]:
# 직접 index 지정 가능
series1_ = pd.Series([1, 6, 7, 3], index=["A","B","C","D"])
series1_

A    1
B    6
C    7
D    3
dtype: int64

In [6]:
# 자료형이 같을 필요는 없으나 dtype은 object로 반환
series3 = pd.Series((1, 6, 'a', 'b'))
series3

0    1
1    6
2    a
3    b
dtype: object

#### 2) 딕셔너리로 생성

In [7]:
# key 값으로 인덱스 지정
series2 = pd.Series({'A' : 90, 'B' : 80, 'C' : 70, 'D': 60})
series2

A    90
B    80
C    70
D    60
dtype: int64

#### 3) 튜플로 생성

In [8]:
series4 = pd.Series((90, 80, 70, 60), index=['A','B','C','D'])
series4

A    90
B    80
C    70
D    60
dtype: int64

### 1-2. 간단한 확인 메소드

|함수|설명|
|--|--|
|Series.values|값을 리스트로 반환|
|Series.index|인덱스 확인|
|Series.dtypes|자료형 확인|
|Series.name|시리즈 이름 설정|
|Series.index.name|인덱스 이름 설정|

In [9]:
# values: 값을 리스트로 반환
series1.values

array([1, 6, 7, 3])

In [10]:
# index: 인덱스 확인 (수치형인 인덱스일 경우 인덱스의 start/stop/step 반환)
series1.index

RangeIndex(start=0, stop=4, step=1)

In [11]:
 # index: 인덱스 확인 (수치형이 아닌 인덱스일 경우 인덱스를 리스트로 반환)
series2.index

Index(['A', 'B', 'C', 'D'], dtype='object')

In [12]:
# dtypes: 자료형 확인
series1.dtypes

dtype('int64')

In [13]:
# 자료형이 여러 개일 경우 dtype은 object로 반환
series3.dtypes

dtype('O')

In [14]:
# 시리즈 이름, 인덱스 이름 설정 가능
series2.name = '학점 기준'
series2.index.name = '학점'
series2

학점
A    90
B    80
C    70
D    60
Name: 학점 기준, dtype: int64

### 1-3. Series 인덱싱

In [15]:
# 인덱스 이름을 리스트로 설정해 전체 인덱스 변경 가능
series1.index = ['W', 'X', 'Y', 'Z']
series1

W    1
X    6
Y    7
Z    3
dtype: int64

In [16]:
series1.index

Index(['W', 'X', 'Y', 'Z'], dtype='object')

#### 인덱싱 방법

##### 1) index 이름을 통해 인덱싱

In [17]:
series2

학점
A    90
B    80
C    70
D    60
Name: 학점 기준, dtype: int64

In [18]:
# 1.<index 이름>
series2.A

90

In [19]:
# 2. ['<index 이름>'] -> # 1.과 같은 값 반환
series2['A']

90

In [20]:
# value 수정
series2['A']=95
series2

학점
A    95
B    80
C    70
D    60
Name: 학점 기준, dtype: int64

In [21]:
# 여러 개 한꺼번에 인덱싱 가능
series2[['A', 'C']]

학점
A    95
C    70
Name: 학점 기준, dtype: int64

In [22]:
# 여러 values 동시에 수정
series2[['B', 'C']]=[85,75]
series2

학점
A    95
B    85
C    75
D    60
Name: 학점 기준, dtype: int64

##### 2) 자료의 위치를 통해 인덱싱

In [23]:
series2[0]

95

In [24]:
# 여러 개 한꺼번에 인덱싱 가능
series2[[0,2]]

학점
A    95
C    75
Name: 학점 기준, dtype: int64

### 1-4. Series 슬라이싱

In [25]:
# 인덱스 이름을 통해 슬라이싱
series2["A":"C"]

학점
A    95
B    85
C    75
Name: 학점 기준, dtype: int64

In [26]:
# offset index
series2[0:3]

학점
A    95
B    85
C    75
Name: 학점 기준, dtype: int64

### 1-5. Data filtering

In [27]:
series2 >= 80

학점
A     True
B     True
C    False
D    False
Name: 학점 기준, dtype: bool

In [28]:
# 데이터 필터링
series2[series2 >= 80]

학점
A    95
B    85
Name: 학점 기준, dtype: int64

### 1-6. Series 연산

In [29]:
series_1 = pd.Series([1, 2, 3, 4])
series_2 = pd.Series([5, 6, 7, 8])

In [30]:
# series끼리 연산 가능
print(np.dot(series_1, series_2))

70


In [31]:
# numpy 함수를 써도 됨
print(np.subtract(series_1 , series_2))
print("")
print(series_1.sub(series_2))

0   -4
1   -4
2   -4
3   -4
dtype: int64

0   -4
1   -4
2   -4
3   -4
dtype: int64


In [32]:
# 인덱스를 기준으로 연산하기 때문에 인덱스 값이 다르면 NaN 반환
series1 + series2

A   NaN
B   NaN
C   NaN
D   NaN
W   NaN
X   NaN
Y   NaN
Z   NaN
dtype: float64

### 1-7. Series 변형

#### concat

In [33]:
S1 = pd.Series([1,2,3])
S2 = pd.Series([4,5,6])

In [34]:
# default는 axis=0 -> 행 방향으로 순서의 변환 없이 결합
pd.concat([S1,S2])

0    1
1    2
2    3
0    4
1    5
2    6
dtype: int64

In [35]:
# axis=1 -> 열 방향 결합
pd.concat([S1,S2], axis=1)

Unnamed: 0,0,1
0,1,4
1,2,5
2,3,6


#### drop

In [36]:
S1

0    1
1    2
2    3
dtype: int64

In [37]:
# index가 수치형일 때: 인덱스 값을 drop()에 넣어줌
S = S1.drop(0)
S

1    2
2    3
dtype: int64

In [38]:
S.index = ["a","b"]
S

a    2
b    3
dtype: int64

In [39]:
# index를 수치형이 아닌 자료형으로 지정해 주었을 때: 인덱스 이름을 drop()에 넣어줌
# S.drop(0) -> error
S=S.drop("a")
S

b    3
dtype: int64

### 1-8. Series 결측치 처리

|함수|설명|
|--|--|
|.isnull()|null인 값에 대해 True를 반환|
|.notnull()|null이 아닌 값에 대해 True를 반환|
|.dropna()|null 값 제거|
|.fillna()|null 값 대체|

In [40]:
Series = pd.Series([3,4,np.nan,5,6,np.nan])
Series

0    3.0
1    4.0
2    NaN
3    5.0
4    6.0
5    NaN
dtype: float64

In [41]:
# Series의 각 Value 값이 결측치인지 아닌지 확인 가능
# .isnull(): null인 값에 대해 True를 반환
Series.isnull()

0    False
1    False
2     True
3    False
4    False
5     True
dtype: bool

In [42]:
#결측치 개수
Series.isnull().sum()

2

In [43]:
# .notnull(): null이 아닌 값에 대해 True를 반환
Series.notnull()

0     True
1     True
2    False
3     True
4     True
5    False
dtype: bool

In [44]:
# 결측치 아닌 values 개수
#--------------------------

#--------------------------

In [45]:
# null이 아닌 값들만 가져오기
Series[Series.notnull()]

0    3.0
1    4.0
3    5.0
4    6.0
dtype: float64

In [46]:
# .dropna(): null 값 제거
Series.dropna()

0    3.0
1    4.0
3    5.0
4    6.0
dtype: float64

In [47]:
# .fillna(): null 값 대체
Series.fillna(5.5)

0    3.0
1    4.0
2    5.5
3    5.0
4    6.0
5    5.5
dtype: float64

In [48]:
# 결측치를 평균값으로 대체 Series.mean() 사용!!
#--------------------------------------

#--------------------------------------

---

## 2. DataFrame

column : 열(세로) / row : 행(가로)

### 2-1. 데이터프레임 생성

#### 1) 리스트로 생성

In [49]:
df1 = pd.DataFrame(columns=["Food","Price"])

df1["Food"] = ["마라샹궈","마라탕","아이스크림","아이셔"]
df1["Price"] = [15000,8000,1000,"판매종료"]

df1

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,마라탕,8000
2,아이스크림,1000
3,아이셔,판매종료


#### 2) 딕셔너리로 생성

In [50]:
food = ["꿔바로우", "순대국밥"]
price = [16000, 8000]

dic = {"Food": food, "Price": price}
df2 = pd.DataFrame(dic, index=['A','B'])
df2

Unnamed: 0,Food,Price
A,꿔바로우,16000
B,순대국밥,8000


In [51]:
# 칼럼을 인덱스로 설정
df2.set_index("Food")

Unnamed: 0_level_0,Price
Food,Unnamed: 1_level_1
꿔바로우,16000
순대국밥,8000


### 2-2. 데이터프레임 인덱싱

In [52]:
df2

Unnamed: 0,Food,Price
A,꿔바로우,16000
B,순대국밥,8000


#### 1) 바로 인덱싱

In [53]:
# df["column"]: 열 이름으로 접근
df2['Food']
# df2.Food

A    꿔바로우
B    순대국밥
Name: Food, dtype: object

In [54]:
# df[열 이름 리스트]: 리스트로 열 인덱싱
df2[['Food','Price']]

Unnamed: 0,Food,Price
A,꿔바로우,16000
B,순대국밥,8000


In [55]:
# dataframe은 행 이름으로 인덱싱 불가능
# df2["A"] -> Error

In [56]:
# dataframe의 행 이름은 슬라이싱으로만 접근 가능
df2["A":"A"]

Unnamed: 0,Food,Price
A,꿔바로우,16000


#### 2) loc[ ]

In [57]:
# df.loc["row","column"]: 행/열의 이름으로 접근
df2.loc["A"] # 행의 이름으로 접근

Food      꿔바로우
Price    16000
Name: A, dtype: object

In [58]:
df2.loc[["A","B"]] # 행의 이름을 리스트로 접근

Unnamed: 0,Food,Price
A,꿔바로우,16000
B,순대국밥,8000


In [59]:
df2.loc["A":"B"] # 행의 이름 리스트 슬라이싱

Unnamed: 0,Food,Price
A,꿔바로우,16000
B,순대국밥,8000


In [60]:
df2.loc[:,"Price"] # 열의 이름으로 접근

A    16000
B     8000
Name: Price, dtype: int64

In [61]:
df2.loc[:,["Food", "Price"]] # 열의 이름을 리스트로 접근

Unnamed: 0,Food,Price
A,꿔바로우,16000
B,순대국밥,8000


In [62]:
df2.loc[:,"Food":"Price"] # 열의 이름 리스트 슬라이싱

Unnamed: 0,Food,Price
A,꿔바로우,16000
B,순대국밥,8000


In [63]:
df2.loc["A", "Price"] # 행의 이름, 열의 이름 인덱싱

16000

In [64]:
#요소 바꾸기
df2.loc["A","Price"]=12000
df2

Unnamed: 0,Food,Price
A,꿔바로우,12000
B,순대국밥,8000


#### 3) iloc[ ]

In [65]:
# df.iloc[0,0]: 행/열의 인덱스 값으로 접근 (0부터 시작)
df2.iloc[0] # 행의 인덱스 값으로 접근

Food      꿔바로우
Price    12000
Name: A, dtype: object

In [66]:
df1.iloc[[0,2]] # 행의 인덱스 값을 리스트로 접근

Unnamed: 0,Food,Price
0,마라샹궈,15000
2,아이스크림,1000


In [67]:
df1.iloc[1:3,0] # 행의 인덱스 값 리스트 슬라이싱

1      마라탕
2    아이스크림
Name: Food, dtype: object

In [68]:
df2.iloc[:,0] # 열의 인덱스 값으로 접근

A    꿔바로우
B    순대국밥
Name: Food, dtype: object

In [69]:
df1.iloc[:,[0,1]] # 열의 인덱스 값을 리스트로 접근

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,마라탕,8000
2,아이스크림,1000
3,아이셔,판매종료


In [70]:
df2.iloc[:,0:1] # 열의 인덱스 값 리스트 슬라이싱

Unnamed: 0,Food
A,꿔바로우
B,순대국밥


In [71]:
df2.iloc[0,1] # 행의 인덱스 값, 열의 인덱스 값 인덱싱

12000

#### 4) 조건으로 접근

In [72]:
# 조건으로 접근
df2[df2.Price > 10000]['Price']

A    12000
Name: Price, dtype: int64

### 2-3. 데이터프레임 추가, 삭제

#### 추가

In [73]:
df1

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,마라탕,8000
2,아이스크림,1000
3,아이셔,판매종료


In [74]:
# loc을 이용해 변경
df1.loc[3] = ["꿔바로우", "12000"]
df1

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,마라탕,8000
2,아이스크림,1000
3,꿔바로우,12000


In [75]:
# loc을 이용해 추가
df1.loc[4] = ["볶음밥", "7000"]
df1

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,마라탕,8000
2,아이스크림,1000
3,꿔바로우,12000
4,볶음밥,7000


In [76]:
# 바로 변경
df1["Price"][2] = 1200
df1

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,마라탕,8000
2,아이스크림,1200
3,꿔바로우,12000
4,볶음밥,7000


#### Row(행) 삭제

In [77]:
# drop을 통해 삭제, default는 axis=0(행)
df1_ = df1.drop(2) # 원본 데이터를 변경하지 않음
df1_

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,마라탕,8000
3,꿔바로우,12000
4,볶음밥,7000


In [78]:
# 해당 데이터프레임에서 삭제하는 방법: inplace=True
df1.drop(1, inplace=True)
df1
# df1 = df1.drop(1) -> error

Unnamed: 0,Food,Price
0,마라샹궈,15000
2,아이스크림,1200
3,꿔바로우,12000
4,볶음밥,7000


In [79]:
# reset_index를 통해 인덱스 재정렬
# 옵션이 없을 시에는 삭제된 index도 따로 index라는 column으로 저장됨
df1__ = df1.reset_index()
df1__

Unnamed: 0,index,Food,Price
0,0,마라샹궈,15000
1,2,아이스크림,1200
2,3,꿔바로우,12000
3,4,볶음밥,7000


In [80]:
# 다음과 같이 실행하면 저장하지 않음
df1 = df1.reset_index(drop=True)
df1

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,아이스크림,1200
2,꿔바로우,12000
3,볶음밥,7000


#### Column(열) 삭제

In [81]:
# axis=1로 열 삭제
df1__.drop("index", axis=1)

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,아이스크림,1200
2,꿔바로우,12000
3,볶음밥,7000


### 2-4. concat / merge

####  concat

In [82]:
df1

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,아이스크림,1200
2,꿔바로우,12000
3,볶음밥,7000


In [83]:
df2

Unnamed: 0,Food,Price
A,꿔바로우,12000
B,순대국밥,8000


In [84]:
# default는 axis=0: 행 방향(위아래)으로 결합
df3 = pd.concat([df1, df2])
df3

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,아이스크림,1200
2,꿔바로우,12000
3,볶음밥,7000
A,꿔바로우,12000
B,순대국밥,8000


In [85]:
# axis=1: 열 방향(좌우)으로 결합
df4 = pd.concat([df2, df2], axis=1)
df4

Unnamed: 0,Food,Price,Food.1,Price.1
A,꿔바로우,12000,꿔바로우,12000
B,순대국밥,8000,순대국밥,8000


In [86]:
# 결합 방법은 join으로 지정, default 값은 'outer'
# 'outer' -> concat했을 때 공통적 key 값이 없는 값은 null로 반환
pd.concat([df3,df2], axis=1)

Unnamed: 0,Food,Price,Food.1,Price.1
0,마라샹궈,15000,,
1,아이스크림,1200,,
2,꿔바로우,12000,,
3,볶음밥,7000,,
A,꿔바로우,12000,꿔바로우,12000.0
B,순대국밥,8000,순대국밥,8000.0


In [87]:
# 'inner' -> 공통적으로 존재하는 key 값만을 반환
pd.concat([df3,df2], axis=1, join='inner')

Unnamed: 0,Food,Price,Food.1,Price.1
A,꿔바로우,12000,꿔바로우,12000
B,순대국밥,8000,순대국밥,8000


#### merge

#### concat과 merge의 차이?
- concat은 단순히 물리적으로 이어붙임
- merge는 각 데이터에 존재하는 고유값(key)을 기준으로 병합

#### merge 종류
<img src="https://miro.medium.com/max/1400/1*9eH1_7VbTZPZd9jBiGIyNA.png" height="100px" width="300px">

In [88]:
df3

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,아이스크림,1200
2,꿔바로우,12000
3,볶음밥,7000
A,꿔바로우,12000
B,순대국밥,8000


In [89]:
df5 = pd.DataFrame({'Food': ['마라샹궈', '초밥', '부대찌개', '순대국밥'],
                    'Country': ['중국', '일본', '한국', '한국']})
df5

Unnamed: 0,Food,Country
0,마라샹궈,중국
1,초밥,일본
2,부대찌개,한국
3,순대국밥,한국


In [90]:
# 결합 방법 how로 지정, default 값은 'inner'
# how='inner' -> key 값이 둘 다 있는 것만 병합
# on='Food' -> 기준으로 할 열 이름
pd.merge(df3, df5, how='inner', on='Food')

Unnamed: 0,Food,Price,Country
0,마라샹궈,15000,중국
1,순대국밥,8000,한국


In [91]:
# how='outer' -> key 값이 한 데이터프레임에만 있어도 병합
pd.merge(df3, df5, how='outer', on='Food')

Unnamed: 0,Food,Price,Country
0,마라샹궈,15000.0,중국
1,아이스크림,1200.0,
2,꿔바로우,12000.0,
3,꿔바로우,12000.0,
4,볶음밥,7000.0,
5,순대국밥,8000.0,한국
6,초밥,,일본
7,부대찌개,,한국


In [92]:
# how='left' -> 왼쪽 데이터프레임의 'on' 기준
pd.merge(df3, df5, how='left', on='Food')

Unnamed: 0,Food,Price,Country
0,마라샹궈,15000,중국
1,아이스크림,1200,
2,꿔바로우,12000,
3,볶음밥,7000,
4,꿔바로우,12000,
5,순대국밥,8000,한국


In [93]:
# how='right' -> 오른쪽 데이터프레임의 'on' 기준
pd.merge(df3, df5, how='right', on='Food')

Unnamed: 0,Food,Price,Country
0,마라샹궈,15000.0,중국
1,초밥,,일본
2,부대찌개,,한국
3,순대국밥,8000.0,한국


### 2-5. 데이터 읽기, 저장하기 (titanic.csv)
|함수|설명|
|--|--|
|pd.read_csv|csv 파일 불러오기|
|df.head()|전체 데이터프레임에서 상위 5개 행 출력|
|df.tail()|전체 데이터프레임에서 하위 5개 행 출력|
|df.shape|데이터프레임의 행, 열 개수를 튜플로 반환|
|df.info()|데이터프레임의 열의 데이터 타입, 전체 데이터 개수, 결측치 개수 확인|
|df.astype()|데이터프레임의 모든 데이터 타입이 같을 때 전체를 한꺼번에 변경|
|df.describe()|데이터프레임의 수치형 데이터를 갖는 열에 대한 통계값 확인|
|df.columns|열 이름을 리스트로 반환|
|df.to_csv()|csv 파일로 저장하기|

In [94]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [95]:
# 데이터 읽기
# path = ''
# titanic = pd.read_csv(path+'titanic.csv')
titanic = pd.read_csv('/content/drive/MyDrive/교육세션/0706/titanic.csv')

In [96]:
# head를 통해 데이터프레임 맨 앞부분 확인
# 기본 5개
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [97]:
# tail을 통해 데이터프레임 맨 뒷부분 확인
# 기본 5개
titanic.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [98]:
# default는 5개이지만 표시하는 개수를 조정 가능
# display를 사용해 print처럼 확인 가능

display(titanic.head(2))
display(titanic.tail(2))

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [99]:
# shape를 통해 데이터프레임의 row, column 개수 확인 가능
titanic.shape

(891, 12)

In [100]:
# info를 통해 nan과 데이터 타입, 전체 데이터 수 등 확인 가능
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [101]:
# 데이터 타입 변경 가능
titanic.Survived = titanic.Survived.astype('object')
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    object 
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(4), object(6)
memory usage: 83.7+ KB


In [102]:
# describe를 이용하여 수치형 데이터를 갖는 열에 대한 통계값 확인
titanic.describe()

Unnamed: 0,PassengerId,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,2.0,20.125,0.0,0.0,7.9104
50%,446.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,3.0,38.0,1.0,0.0,31.0
max,891.0,3.0,80.0,8.0,6.0,512.3292


In [103]:
# columns을 이용하여 리스트 형태로 열 이름 확인
titanic.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [104]:
# 불러오는 설정을 다르게 해서 csv의 일부분만 가져올 수 있음
titanic2= pd.read_csv("/content/drive/MyDrive/교육세션/0706/titanic.csv",
                      usecols=["PassengerId","Age", "Survived"], # 사용할 컬럼들
                      nrows=10, #가져올 행의 개수
                      index_col="PassengerId") # 인덱스로 지정할 컬럼명

titanic2

Unnamed: 0_level_0,Survived,Age
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0,22.0
2,1,38.0
3,1,26.0
4,1,35.0
5,0,35.0
6,0,
7,0,54.0
8,0,2.0
9,1,27.0
10,1,14.0


In [105]:
# 저장하기: .to_csv
titanic2.to_csv("/content/drive/MyDrive/교육세션/0706/titanic2.csv", index=False) #read_csv와 마찬가지로, 경로 지정 가능
# index=False를 하지 않으면 인덱스까지 새로운 컬럼(Unnamed: 0)으로 저장됨
# 이 경우, 인덱스인 PassengerId column이 저장
titanic2.to_csv("/content/drive/MyDrive/교육세션/0706/titanic3.csv")

In [106]:
titanic2 = pd.read_csv('/content/drive/MyDrive/교육세션/0706/titanic2.csv')
titanic2

Unnamed: 0,Survived,Age
0,0,22.0
1,1,38.0
2,1,26.0
3,1,35.0
4,0,35.0
5,0,
6,0,54.0
7,0,2.0
8,1,27.0
9,1,14.0


In [107]:
titanic3 = pd.read_csv('/content/drive/MyDrive/교육세션/0706/titanic2.csv')
titanic3

Unnamed: 0,Survived,Age
0,0,22.0
1,1,38.0
2,1,26.0
3,1,35.0
4,0,35.0
5,0,
6,0,54.0
7,0,2.0
8,1,27.0
9,1,14.0


---

### 2-6. 판다스 함수
|함수|설명|
|--|--|
|df.apply()|전체 데이터프레임 또는 특정 열에 함수 적용|
|df.sort_values()|값을 기준으로 정렬|
|df.isnull()|결측치 확인 (null 값이라면 True, null 값이 아니라면 False 출력)|
|df.isnull.sum()|각 컬럼별 결측치 개수 확인|
|df.notnull()|결측치 확인 (null 값이 아니라면 True, null 값이라면 False 출력)|
|df.dropna()|결측치가 있는 행, 열 제거|
|df.fillna()|() 안의 값으로 결측치 대체|
|df.unique()|데이터의 고유 값 출력|
|df.value_counts()|고유 값 별 데이터 개수 출력|
|df.groupby()|데이터를 그룹별로 분할|
|df.groupby.size()|데이터를 그룹별로 분할한 후 그룹별 개수 확인|
|df.groupby.agg()|데이터를 그룹별로 분할한 후 통계값 확인|

#### 1) apply

In [108]:
titanic.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [109]:
# apply를 이용해 함수를 적용할 수 있음
def is_adult(age):
    if age < 20 :
        return 'not adult'
    if age >= 20 :
        return 'adult'

In [110]:
titanic['is_adult'] = titanic['Age'].apply(is_adult)
titanic.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,is_adult
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S,adult
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S,not adult
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S,
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C,adult
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q,adult


##### lambda 사용

In [111]:
df3['Price'] = df3['Price'].apply(lambda x : int(x))

df3

Unnamed: 0,Food,Price
0,마라샹궈,15000
1,아이스크림,1200
2,꿔바로우,12000
3,볶음밥,7000
A,꿔바로우,12000
B,순대국밥,8000


In [112]:
# lambda 함수를 통해서도 쓸 수 있음
# 더 간단
titanic['is_adult'] = titanic['Age'].apply(lambda x: 'adult' if x >= 20 else 'not_adult')
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,is_adult
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,adult
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,adult
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,adult
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,adult
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,adult


In [113]:
titanic.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,is_adult
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S,adult
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S,not_adult
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S,not_adult
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C,adult
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q,adult


#### 2) sort_values

In [114]:
df3.sort_values('Price', ascending = False)

Unnamed: 0,Food,Price
0,마라샹궈,15000
2,꿔바로우,12000
A,꿔바로우,12000
B,순대국밥,8000
3,볶음밥,7000
1,아이스크림,1200


In [115]:
# 원하는 칼럼을 선택해 그것을 기준으로 오름차순 정렬: .sort_values()
titanic.sort_values('Pclass').head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,is_adult
445,446,1,1,"Dodge, Master. Washington",male,4.0,0,2,33638,81.8583,A34,S,not_adult
310,311,1,1,"Hays, Miss. Margaret Bechstein",female,24.0,0,0,11767,83.1583,C54,C,adult
309,310,1,1,"Francatelli, Miss. Laura Mabel",female,30.0,0,0,PC 17485,56.9292,E36,C,adult
307,308,1,1,"Penasco y Castellana, Mrs. Victor de Satode (M...",female,17.0,1,0,PC 17758,108.9,C65,C,not_adult
306,307,1,1,"Fleming, Miss. Margaret",female,,0,0,17421,110.8833,,C,not_adult


In [116]:
# ascending=False로 하면 내림차순
titanic.sort_values('Pclass', ascending=False).head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,is_adult
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,adult
511,512,0,3,"Webber, Mr. James",male,,0,0,SOTON/OQ 3101316,8.05,,S,not_adult
500,501,0,3,"Calic, Mr. Petar",male,17.0,0,0,315086,8.6625,,S,not_adult
501,502,0,3,"Canavan, Miss. Mary",female,21.0,0,0,364846,7.75,,Q,adult
502,503,0,3,"O'Sullivan, Miss. Bridget Mary",female,,0,0,330909,7.6292,,Q,not_adult


### null 값 확인 및 처리

In [117]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 13 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    object 
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
 12  is_adult     891 non-null    object 
dtypes: float64(2), int64(4), object(7)
memory usage: 90.6+ KB


In [118]:
# .isnull(): null 값 확인
titanic[titanic["Age"].isnull()]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,is_adult
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q,not_adult
17,18,1,2,"Williams, Mr. Charles Eugene",male,,0,0,244373,13.0000,,S,not_adult
19,20,1,3,"Masselmani, Mrs. Fatima",female,,0,0,2649,7.2250,,C,not_adult
26,27,0,3,"Emir, Mr. Farred Chehab",male,,0,0,2631,7.2250,,C,not_adult
28,29,1,3,"O'Dwyer, Miss. Ellen ""Nellie""",female,,0,0,330959,7.8792,,Q,not_adult
...,...,...,...,...,...,...,...,...,...,...,...,...,...
859,860,0,3,"Razi, Mr. Raihed",male,,0,0,2629,7.2292,,C,not_adult
863,864,0,3,"Sage, Miss. Dorothy Edith ""Dolly""",female,,8,2,CA. 2343,69.5500,,S,not_adult
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5000,,S,not_adult
878,879,0,3,"Laleff, Mr. Kristo",male,,0,0,349217,7.8958,,S,not_adult


In [119]:
# .isnull().sum(): null 값 개수 확인
titanic.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
is_adult         0
dtype: int64

In [194]:
# null 값이 없는 행만 보고 싶다면? notnull() 사용!!
#------------------------------------
titanic.notnull()
#------------------------------------

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,is_adult
0,True,True,True,True,True,True,True,True,True,True,False,True,True
1,True,True,True,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True,False,True,True
3,True,True,True,True,True,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True,True,True,False,True,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,True,True,True,True,True,True,True,True,True,True,False,True,True
887,True,True,True,True,True,True,True,True,True,True,True,True,True
888,True,True,True,True,True,False,True,True,True,True,False,True,True
889,True,True,True,True,True,True,True,True,True,True,True,True,True


#### 3) dropna

In [121]:
titanic[titanic['Age'].isnull()].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,is_adult
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q,not_adult
17,18,1,2,"Williams, Mr. Charles Eugene",male,,0,0,244373,13.0,,S,not_adult
19,20,1,3,"Masselmani, Mrs. Fatima",female,,0,0,2649,7.225,,C,not_adult
26,27,0,3,"Emir, Mr. Farred Chehab",male,,0,0,2631,7.225,,C,not_adult
28,29,1,3,"O'Dwyer, Miss. Ellen ""Nellie""",female,,0,0,330959,7.8792,,Q,not_adult


In [122]:
titanic_notnull = titanic.dropna() # 결측치가 있는 행 모두 제거
titanic_notnull.head(20)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,is_adult
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,adult
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,adult
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S,adult
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S,not_adult
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S,adult
21,22,1,2,"Beesley, Mr. Lawrence",male,34.0,0,0,248698,13.0,D56,S,adult
23,24,1,1,"Sloper, Mr. William Thompson",male,28.0,0,0,113788,35.5,A6,S,adult
27,28,0,1,"Fortune, Mr. Charles Alexander",male,19.0,3,2,19950,263.0,C23 C25 C27,S,not_adult
52,53,1,1,"Harper, Mrs. Henry Sleeper (Myna Haxtun)",female,49.0,1,0,PC 17572,76.7292,D33,C,adult
54,55,0,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,113509,61.9792,B30,C,adult


In [123]:
titanic_notnull.isnull().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
is_adult       0
dtype: int64

In [124]:
titanic.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
is_adult         0
dtype: int64

In [125]:
# (inplace=True) 조건은 null drop한 상태로 데이터프레임 저장
temp = titanic.copy()
temp
temp.dropna(inplace=True)
temp[temp['Age'].isnull()].head() # 결측치 모두 제거했기 때문에 빈 데이터프레임

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,is_adult


In [126]:
# .dropna(axis=1): null 값이 있는 열을 다 삭제
titanic_notnull = titanic.dropna(axis=1)
titanic_notnull # Age, Cabin, Embarked 열 모두 삭제된 것 확인 가능
# titanic_notnull[titanic_notnull['Age'].isnull()] -> Error

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,SibSp,Parch,Ticket,Fare,is_adult
0,1,0,3,"Braund, Mr. Owen Harris",male,1,0,A/5 21171,7.2500,adult
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,1,0,PC 17599,71.2833,adult
2,3,1,3,"Heikkinen, Miss. Laina",female,0,0,STON/O2. 3101282,7.9250,adult
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,1,0,113803,53.1000,adult
4,5,0,3,"Allen, Mr. William Henry",male,0,0,373450,8.0500,adult
...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,0,0,211536,13.0000,adult
887,888,1,1,"Graham, Miss. Margaret Edith",female,0,0,112053,30.0000,not_adult
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,1,2,W./C. 6607,23.4500,not_adult
889,890,1,1,"Behr, Mr. Karl Howell",male,0,0,111369,30.0000,adult


#### 4) unique

In [127]:
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,is_adult
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,adult
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,adult
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,adult
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,adult
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,adult


In [128]:
# unique 값 확인
titanic.Embarked.unique()

array(['S', 'C', 'Q', nan], dtype=object)

#### 5) value_counts

In [129]:
# unique 값 개수 확인
titanic.Survived.value_counts()

0    549
1    342
Name: Survived, dtype: int64

#### 6) groupby

In [130]:
titanic_sample = titanic[['Name', 'Age', 'Pclass', 'Fare', 'Sex']]
titanic_sample.head()

Unnamed: 0,Name,Age,Pclass,Fare,Sex
0,"Braund, Mr. Owen Harris",22.0,3,7.25,male
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1,71.2833,female
2,"Heikkinen, Miss. Laina",26.0,3,7.925,female
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1,53.1,female
4,"Allen, Mr. William Henry",35.0,3,8.05,male


In [131]:
# size를 통해 해당 칼럼을 모은 후 개수 확인
titanic_sample.groupby("Pclass").size()

Pclass
1    216
2    184
3    491
dtype: int64

In [132]:
# 2가지 기준으로 groupby한 후에 개수 확인
titanic_sample.groupby(["Pclass", "Sex"]).size()

Pclass  Sex   
1       female     94
        male      122
2       female     76
        male      108
3       female    144
        male      347
dtype: int64

In [203]:
#Pclass에 따른 생존자 수를 확인하자 -> Pclass, Survived column 사용
#----------------------------------------------------------
titanic.groupby(["Pclass","Survived"]).size()
#----------------------------------------------------------

Pclass  Survived
1       0            80
        1           136
2       0            97
        1            87
3       0           372
        1           119
dtype: int64

In [134]:
# Pclass, Sex는 집계 기준이 되는 컬럼, Fare은 mean 구하는 컬럼
titanic_sample.groupby(["Pclass", "Sex"])['Fare'].mean()

Pclass  Sex   
1       female    106.125798
        male       67.226127
2       female     21.970121
        male       19.741782
3       female     16.118810
        male       12.661633
Name: Fare, dtype: float64

In [135]:
# groupby로 모은 후 .agg를 통해 다양한 통계를 낼 수 있음 (min, max, mean, sum, median)
titanic_sample.groupby("Pclass").agg((["min","max","mean"]))

  titanic_sample.groupby("Pclass").agg((["min","max","mean"]))


Unnamed: 0_level_0,Age,Age,Age,Fare,Fare,Fare
Unnamed: 0_level_1,min,max,mean,min,max,mean
Pclass,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,0.92,80.0,38.233441,0.0,512.3292,84.154687
2,0.67,70.0,29.87763,0.0,73.5,20.662183
3,0.42,74.0,25.14062,0.0,69.55,13.67555


## 3. 과제

In [136]:
#1.서울버스노선이용자수, 서울버스정류소위치 파일 가져와서 각각 df1, df2에 저장합니다. 만약 한글이 깨질 경우 구글링해서 문제를 해결해보세요!
df1=pd.read_csv('/content/drive/MyDrive/교육세션/0706/과제/서울버스노선이용자수.csv')
df2=pd.read_csv('/content/drive/MyDrive/교육세션/0706/과제/서울버스정류소위치.csv')

  df1=pd.read_csv('/content/drive/MyDrive/교육세션/0706/과제/서울버스노선이용자수.csv')


In [137]:
#2. head()와 tail()을 통해 df1, df2 대략적으로 확인합니다, print말고 display 함수를 써보세요!
display(df1.head)
display(df1.tail)
display(df2.head)
display(df2.tail)

<bound method NDFrame.head of             기준일자  노선명  승차_정류장ARS     승차_정류장명  하차_정류장ARS   하차_정류장명  승차_정류장순번  \
0       20230521   17     3689.0     청암자이아파트     3255.0       용산역       1.0   
1       20230521   17     3298.0  청암동강변삼성아파트     3122.0    한강대교북단       2.0   
2       20230521   17     3298.0  청암동강변삼성아파트     3252.0  신용산.지하차도       2.0   
3       20230521   17     3298.0  청암동강변삼성아파트     3255.0       용산역       2.0   
4       20230521   17     3298.0  청암동강변삼성아파트     3294.0   서부이촌동입구       2.0   
...          ...  ...        ...         ...        ...       ...       ...   
430382  20230521  NaN        NaN  경성여객(기점가상)     7147.0    중랑초등학교       NaN   
430383  20230521  NaN        NaN  경성여객(기점가상)     7151.0  상봉2동주민센터       NaN   
430384  20230521  NaN        NaN  경성여객(기점가상)     7155.0     면목6거리       NaN   
430385  20230521  NaN        NaN  경성여객(기점가상)     7189.0    용마공원입구       NaN   
430386  20230521  NaN        NaN  경성여객(기점가상)     7191.0    면일초등학교       NaN   

        하차_정류장순번  승객수

<bound method NDFrame.tail of             기준일자  노선명  승차_정류장ARS     승차_정류장명  하차_정류장ARS   하차_정류장명  승차_정류장순번  \
0       20230521   17     3689.0     청암자이아파트     3255.0       용산역       1.0   
1       20230521   17     3298.0  청암동강변삼성아파트     3122.0    한강대교북단       2.0   
2       20230521   17     3298.0  청암동강변삼성아파트     3252.0  신용산.지하차도       2.0   
3       20230521   17     3298.0  청암동강변삼성아파트     3255.0       용산역       2.0   
4       20230521   17     3298.0  청암동강변삼성아파트     3294.0   서부이촌동입구       2.0   
...          ...  ...        ...         ...        ...       ...       ...   
430382  20230521  NaN        NaN  경성여객(기점가상)     7147.0    중랑초등학교       NaN   
430383  20230521  NaN        NaN  경성여객(기점가상)     7151.0  상봉2동주민센터       NaN   
430384  20230521  NaN        NaN  경성여객(기점가상)     7155.0     면목6거리       NaN   
430385  20230521  NaN        NaN  경성여객(기점가상)     7189.0    용마공원입구       NaN   
430386  20230521  NaN        NaN  경성여객(기점가상)     7191.0    면일초등학교       NaN   

        하차_정류장순번  승객수

<bound method NDFrame.head of          NODE_ID  ARS_ID           정류소명         X좌표        Y좌표
0      100000001    1001        종로2가사거리  126.987750  37.569765
1      100000002    1002    창경궁.서울대학교병원  126.996566  37.579183
2      100000003    1003      명륜3가.성대입구  126.998340  37.582671
3      100000004    1004       종로2가.삼일교  126.987613  37.568579
4      100000005    1005  혜화동로터리.여운형활동터  127.001744  37.586243
...          ...     ...            ...         ...        ...
12565  124000334   25995          우성아파트  127.139338  37.550386
12566  124000333   25996          우성아파트  127.140046  37.550643
12567  124000332   25997           조일약국  127.123596  37.533630
12568  124000331   25998           성내시장  127.125497  37.536155
12569  124000330   25999    천호우체국.로데오거리  127.127337  37.540343

[12570 rows x 5 columns]>

<bound method NDFrame.tail of          NODE_ID  ARS_ID           정류소명         X좌표        Y좌표
0      100000001    1001        종로2가사거리  126.987750  37.569765
1      100000002    1002    창경궁.서울대학교병원  126.996566  37.579183
2      100000003    1003      명륜3가.성대입구  126.998340  37.582671
3      100000004    1004       종로2가.삼일교  126.987613  37.568579
4      100000005    1005  혜화동로터리.여운형활동터  127.001744  37.586243
...          ...     ...            ...         ...        ...
12565  124000334   25995          우성아파트  127.139338  37.550386
12566  124000333   25996          우성아파트  127.140046  37.550643
12567  124000332   25997           조일약국  127.123596  37.533630
12568  124000331   25998           성내시장  127.125497  37.536155
12569  124000330   25999    천호우체국.로데오거리  127.127337  37.540343

[12570 rows x 5 columns]>

In [138]:
#3.각 데이터프레임의 정보를 확인합니다. (서울버스노선이용자수 데이터(df1)에 결측치가 있는 것을 확인할 수 있습니다)
print(df1.info)
print(df2.info)

<bound method DataFrame.info of             기준일자  노선명  승차_정류장ARS     승차_정류장명  하차_정류장ARS   하차_정류장명  승차_정류장순번  \
0       20230521   17     3689.0     청암자이아파트     3255.0       용산역       1.0   
1       20230521   17     3298.0  청암동강변삼성아파트     3122.0    한강대교북단       2.0   
2       20230521   17     3298.0  청암동강변삼성아파트     3252.0  신용산.지하차도       2.0   
3       20230521   17     3298.0  청암동강변삼성아파트     3255.0       용산역       2.0   
4       20230521   17     3298.0  청암동강변삼성아파트     3294.0   서부이촌동입구       2.0   
...          ...  ...        ...         ...        ...       ...       ...   
430382  20230521  NaN        NaN  경성여객(기점가상)     7147.0    중랑초등학교       NaN   
430383  20230521  NaN        NaN  경성여객(기점가상)     7151.0  상봉2동주민센터       NaN   
430384  20230521  NaN        NaN  경성여객(기점가상)     7155.0     면목6거리       NaN   
430385  20230521  NaN        NaN  경성여객(기점가상)     7189.0    용마공원입구       NaN   
430386  20230521  NaN        NaN  경성여객(기점가상)     7191.0    면일초등학교       NaN   

        하차_정류장순번  승

In [139]:
#4. df1의 노선명 column 중 결측치가 있는 행만 확인해봅니다.(index가 427603인 행부터 결함이 있다는 것을 확인할 수 있습니다.)
print(df1[df1['노선명'].isnull()])

            기준일자  노선명  승차_정류장ARS     승차_정류장명  하차_정류장ARS    하차_정류장명  승차_정류장순번  \
427603  20230521  NaN     7195.0    용마문화복지센터     1006.0    서대문역사거리       1.0   
427604  20230521  NaN     7195.0    용마문화복지센터     1010.0        광화문       1.0   
427605  20230521  NaN     7195.0    용마문화복지센터     1012.0       종로1가       1.0   
427606  20230521  NaN     7195.0    용마문화복지센터     1014.0       종로2가       1.0   
427607  20230521  NaN     7195.0    용마문화복지센터     1016.0  종로3가.탑골공원       1.0   
...          ...  ...        ...         ...        ...        ...       ...   
430382  20230521  NaN        NaN  경성여객(기점가상)     7147.0     중랑초등학교       NaN   
430383  20230521  NaN        NaN  경성여객(기점가상)     7151.0   상봉2동주민센터       NaN   
430384  20230521  NaN        NaN  경성여객(기점가상)     7155.0      면목6거리       NaN   
430385  20230521  NaN        NaN  경성여객(기점가상)     7189.0     용마공원입구       NaN   
430386  20230521  NaN        NaN  경성여객(기점가상)     7191.0     면일초등학교       NaN   

        하차_정류장순번  승객수  
427603      36.

In [140]:
# 개수가 2784개인 것을 보아 노선명에 결측치가 있는 행이 index가 427603~430386인 행이라고 추측할 수 있습니다.
print(df1.isnull().sum())
print('-'*50)
print(430386-427602)

기준일자            0
노선명          2784
승차_정류장ARS     760
승차_정류장명         0
하차_정류장ARS     165
하차_정류장명        21
승차_정류장순번      747
하차_정류장순번      162
승객수             0
dtype: int64
--------------------------------------------------
2784


In [141]:
#5. df1에서 index가 427603인 행부터 삭제해서 새로운 df1을 만듭니다.

df1=df1.drop(range(427603,430387),axis=0)
print(df1)

            기준일자   노선명  승차_정류장ARS     승차_정류장명  하차_정류장ARS    하차_정류장명  승차_정류장순번  \
0       20230521    17     3689.0     청암자이아파트     3255.0        용산역       1.0   
1       20230521    17     3298.0  청암동강변삼성아파트     3122.0     한강대교북단       2.0   
2       20230521    17     3298.0  청암동강변삼성아파트     3252.0   신용산.지하차도       2.0   
3       20230521    17     3298.0  청암동강변삼성아파트     3255.0        용산역       2.0   
4       20230521    17     3298.0  청암동강변삼성아파트     3294.0    서부이촌동입구       2.0   
...          ...   ...        ...         ...        ...        ...       ...   
427598  20230521  중랑02     7526.0       새마을금고     7527.0        공판장      23.0   
427599  20230521  중랑02     7526.0       새마을금고     7528.0  진주빌라.바다약국      23.0   
427600  20230521  중랑02     7526.0       새마을금고     7529.0  진로아파트앞.종점      23.0   
427601  20230521  중랑02     7529.0   진로아파트앞.종점     7149.0   동부시장남문입구      26.0   
427602  20230521  중랑02     7529.0   진로아파트앞.종점     7529.0  진로아파트앞.종점      26.0   

        하차_정류장순번  승객수  
0  

In [142]:
#아직 하차 정류장ARS와 하차_정류장 순번에 결측치가 있는 것을 확인할 수 있습니다.
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 427603 entries, 0 to 427602
Data columns (total 9 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   기준일자       427603 non-null  int64  
 1   노선명        427603 non-null  object 
 2   승차_정류장ARS  426854 non-null  float64
 3   승차_정류장명    427603 non-null  object 
 4   하차_정류장ARS  427439 non-null  float64
 5   하차_정류장명    427582 non-null  object 
 6   승차_정류장순번   426867 non-null  float64
 7   하차_정류장순번   427442 non-null  float64
 8   승객수        427603 non-null  int64  
dtypes: float64(4), int64(2), object(3)
memory usage: 29.4+ MB


In [150]:
#6. 이번에는 df1에서 결측치가 있는 행을 모두 제거해 새로운 df1을 만듭니다.

df1 = df1.dropna(axis=1)

In [151]:
# 결측치가 모두 없어진 것을 확인할 수 있습니다
df1.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 426725 entries, 0 to 427602
Data columns (total 9 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   기준일자       426725 non-null  int64  
 1   노선명        426725 non-null  object 
 2   승차_정류장ARS  426725 non-null  int64  
 3   승차_정류장명    426725 non-null  object 
 4   하차_정류장ARS  426725 non-null  int64  
 5   하차_정류장명    426725 non-null  object 
 6   승차_정류장순번   426725 non-null  float64
 7   하차_정류장순번   426725 non-null  float64
 8   승객수        426725 non-null  int64  
dtypes: float64(2), int64(4), object(3)
memory usage: 32.6+ MB


In [145]:
#7. df1와 df2를 merge하기 위해 ARS의 data type을 통일할 것입니다. df1의 승차_정류장 ARS와 하차_정류장 ARS의 dtype을 float에서 int로 바꿉니다. (람다식 사용!)
df1["승차_정류장ARS"] = df1['승차_정류장ARS'].apply(lambda x:int(x))
df1["하차_정류장ARS"] = df1["하차_정류장ARS"].apply(lambda x:int(x))

In [146]:
#8. df2에서 ARS_ID, X좌표, Y좌표 column만 선택해 df2_sample을 만듭니다.

df2_sample = df2[['ARS_ID','X좌표','Y좌표']].copy()

In [156]:
#9. ARS 번호를 이용하여 df1에 df2_sample을 merge해 '승차_정류장_X좌표', '승차_정류장_Y좌표', '하차_정류장_X좌표', '하차_정류장_Y좌표' 4개의 column을 추가하여 새로운 df1을 만듭니다
# merge할 때 inner 조인 방식을 사용합니다!

df1 = pd.merge(df1, df2_sample.rename(columns={'ARS_ID': '승차_정류장ARS', 'X좌표': '승차_정류장_X좌표', 'Y좌표': '승차_정류장_Y좌표'}),how='inner',on='승차_정류장ARS')
df1 = pd.merge(df1, df2_sample.rename(columns={'ARS_ID': '하차_정류장ARS', 'X좌표': '하차_정류장_X좌표', 'Y좌표': '하차_정류장_Y좌표'}), how='inner',on='하차_정류장ARS')


In [184]:
#10. 승차정류장의 좌표와 하차정류장의 좌표를 이용해 거리를 구하고 df1에 새로운 column '거리'를 추가해줍니다!
#경도와 위도 1도의 거리는 133.33km라 가정하고 피타고라스의 정리를 사용해 직선거리를 구합니다.
import math
def d1_dist(row):
  long1 = row['승차_정류장_X좌표']
  lat1 = row['승차_정류장_Y좌표']
  long2 = row['하차_정류장_X좌표']
  lat2 = row['하차_정류장_Y좌표']

  longdist = abs(long1-long2)
  latdist = abs(lat1-lat2)

  eucdist = math.sqrt(latdist**2+longdist**2)*133.33

  return eucdist

df1['거리'] = df1.apply(d1_dist, axis=1)

print(df1['거리'])

0        0.700604
1        0.700604
2        0.700604
3        0.700604
4        0.700604
           ...   
14203    0.000000
14204    0.000000
14205    0.000000
14206    0.000000
14207    0.000000
Name: 거리, Length: 14208, dtype: float64


In [162]:
#11. 거리에 따라 내림차순으로 df1을 정렬하고 index를 초기화해줍니다. (제가 실수했는데.. index column도 없애주세요!)

df1 = df1.sort_values('거리',ascending = False)
df1 = df1.reset_index(drop=True)

In [191]:
#12. 노선당 몇 개의 경로가 있는지 그리고 각각의 경로 거리의 min, max, mean 값을 나타내봅니다.
df1_routes = df1.groupby("노선명").size()
df1_cha = df1.groupby("거리").agg(("min","max","mean"))
print(df1_routes)
print(df1_cha)


노선명
150     79
151     46
152     93
160     87
162     40
        ..
종로09    10
종로11    13
종로12     6
중랑01     3
중랑02     9
Length: 607, dtype: int64
              기준일자                       승차_정류장ARS                       \
               min       max        mean       min    max          mean   
거리                                                                        
0.000000  20230521  20230521  20230521.0      1001  25990  13729.738137   
0.200533  20230521  20230521  20230521.0      4512   4512   4512.000000   
0.661895  20230521  20230521  20230521.0      4540   4540   4540.000000   
0.700604  20230521  20230521  20230521.0      4547   4547   4547.000000   

         하차_정류장ARS                      승차_정류장순번  ...  승차_정류장_X좌표 승차_정류장_Y좌표  \
               min    max          mean      min  ...        mean        min   
거리                                                ...                          
0.000000      1001  25990  13729.738137      1.0  ...  126.986103  37.430862   
0.2

  df1_cha = df1.groupby("거리").agg(("min","max","mean"))


In [193]:
#13. 최종적으로 df1을 csv파일로 만들어줍니다!
#csv 파일에서 한글이 깨지지 않도록 구글링해서 적용해주세요
df1.to_csv('정수현_pandas과제.csv', index=False, encoding='utf-8-sig')

**과제하시느라 수고하셨습니다!!!** <br>
과제는 실습과 과제 때 사용한 현 ipynb 파일과 최종 생성한 csv파일을 제출해주시면 됩니다!,<br>
(ipynb,csv 파일명=> {이름}_pandas과제)