# 데이터 변경

In [5]:
# 필요 라이브러리 로딩
import numpy as np
import pandas as pd

In [20]:
# 지난 시간 저장한 csv 파일 로딩
df = pd.read_csv('../data/student.csv')
display(df)

Unnamed: 0,이름,학과,성적
0,아이유,국문과,3.0
1,김연아,수학과,1.0
2,홍길동,전자과,3.5
3,김은숙,컴퓨터,2.7
4,홍의선,물리,4.0


In [6]:
# 만약 어떤 directory에 파일이 있는지 모르겠다?
import os
os.getcwd() # 자신의 현재 경로 current working directory

'C:\\Users\\1215h\\test'

### 컬럼 생성

In [7]:
# '등급' 컬럼 생성
df['등급'] = 'A' # 새로운 컬럼 명시 후 임시 값 부여 또는 바로 list느 넘파이 배열 입력 가능
display(df)

Unnamed: 0,이름,학과,성적,등급
0,아이유,국문과,3.0,A
1,김연아,수학과,1.0,A
2,홍길동,전자과,3.5,A
3,김은숙,컴퓨터,2.7,A
4,홍의선,물리,4.0,A


In [11]:
# 성적에 따라 등급 부여 
#grade = ['B','B','B','B','B'] -> 단순 리스트도 가능
grade = np.array(['B','D','B','C','A'])
df['등급'] = grade
display(df)

Unnamed: 0,이름,학과,성적,등급
0,아이유,국문과,3.0,B
1,김연아,수학과,1.0,D
2,홍길동,전자과,3.5,B
3,김은숙,컴퓨터,2.7,C
4,홍의선,물리,4.0,A


In [14]:
# 컬럼을 추가하는 다른 방법 중 하나는 시리즈를 추가하는 것
# 나이를 의미하는 age라는 시리즈 생성
age = pd.Series([21,20,24,23,28])

# 데이터프레임내 나이 컬럼을 만들고 시리즈를 값으로 할당
df['나이'] = age
display(df)

Unnamed: 0,이름,학과,성적,등급,나이
0,아이유,국문과,3.0,B,21
1,김연아,수학과,1.0,D,20
2,홍길동,전자과,3.5,B,24
3,김은숙,컴퓨터,2.7,C,23
4,홍의선,물리,4.0,A,28


### 인덱스 설정 및 리셋

In [15]:
df.index # 현재 데이터프레임의 index 속성 확인

RangeIndex(start=0, stop=5, step=1)

In [17]:
# 인덱스 설정 방법 1 -> 속성에 직접 적근하여 변경
df.index =['one','two','three','four','five']
df

Unnamed: 0,이름,학과,성적,등급,나이
one,아이유,국문과,3.0,B,21
two,김연아,수학과,1.0,D,20
three,홍길동,전자과,3.5,B,24
four,김은숙,컴퓨터,2.7,C,23
five,홍의선,물리,4.0,A,28


In [18]:
# 새로운 컬럼 성별(sex) 생성
sex = pd.Series(['여자','여자','남자','여자','남자'])
df['성별'] = sex
df # 결측치를 의미하는 NaN으로 뜸

Unnamed: 0,이름,학과,성적,등급,나이,성별
one,아이유,국문과,3.0,B,21,
two,김연아,수학과,1.0,D,20,
three,홍길동,전자과,3.5,B,24,
four,김은숙,컴퓨터,2.7,C,23,
five,홍의선,물리,4.0,A,28,


In [23]:
# 성별이 결측치로 뜬 이유는 서로 index가 다르기 때문이다.
# 성별의 index는 0~5 인데, df의 index는 직접 설정한 object이다.

print('성별의 인덱스 : ',sex.index)
print('데이터프레임의 인덱스 : ',df.index)

성별의 인덱스 :  RangeIndex(start=0, stop=5, step=1)
데이터프레임의 인덱스 :  Index(['one', 'two', 'three', 'four', 'five'], dtype='object')


In [25]:
# 인덱스 통일후 다시 성별 컬럼에 값 부여
sex.index = df.index
df['성별'] = sex
df

Unnamed: 0,이름,학과,성적,등급,나이,성별
one,아이유,국문과,3.0,B,21,여자
two,김연아,수학과,1.0,D,20,여자
three,홍길동,전자과,3.5,B,24,남자
four,김은숙,컴퓨터,2.7,C,23,여자
five,홍의선,물리,4.0,A,28,남자


In [29]:
# 현재 설정되어 있는 인덱스 리셋
df.reset_index()

Unnamed: 0,index,이름,학과,성적,등급,나이,성별
0,one,아이유,국문과,3.0,B,21,여자
1,two,김연아,수학과,1.0,D,20,여자
2,three,홍길동,전자과,3.5,B,24,남자
3,four,김은숙,컴퓨터,2.7,C,23,여자
4,five,홍의선,물리,4.0,A,28,남자


In [30]:
df # 변함이 없음, 왜냐면 위는 dataframe의 view 형태이고 원본 인덱스에 대한 변함이 없기 때문이다.

Unnamed: 0,이름,학과,성적,등급,나이,성별
one,아이유,국문과,3.0,B,21,여자
two,김연아,수학과,1.0,D,20,여자
three,홍길동,전자과,3.5,B,24,남자
four,김은숙,컴퓨터,2.7,C,23,여자
five,홍의선,물리,4.0,A,28,남자


In [31]:
df.reset_index(inplace=True) # inplace = True라는 인수값을 주면 데이터프레임 원본에 바로 적용이됨
df

Unnamed: 0,index,이름,학과,성적,등급,나이,성별
0,one,아이유,국문과,3.0,B,21,여자
1,two,김연아,수학과,1.0,D,20,여자
2,three,홍길동,전자과,3.5,B,24,남자
3,four,김은숙,컴퓨터,2.7,C,23,여자
4,five,홍의선,물리,4.0,A,28,남자


In [32]:
# index 설정
df.set_index('이름', inplace=True) # 인덱스로 사용할 컬럼 설정 df.set_index('컬럼')
df

Unnamed: 0_level_0,index,학과,성적,등급,나이,성별
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
아이유,one,국문과,3.0,B,21,여자
김연아,two,수학과,1.0,D,20,여자
홍길동,three,전자과,3.5,B,24,남자
김은숙,four,컴퓨터,2.7,C,23,여자
홍의선,five,물리,4.0,A,28,남자


In [36]:
df.set_index('index',inplace = True) # 원래 index였던 이름 컬럼이 없어짐..
df

Unnamed: 0_level_0,학과,성적,등급,나이,성별
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,국문과,3.0,B,21,여자
two,수학과,1.0,D,20,여자
three,전자과,3.5,B,24,남자
four,컴퓨터,2.7,C,23,여자
five,물리,4.0,A,28,남자


In [37]:
df['이름'] = ['홍의선','홍길동','홍의채','김은숙','홍의빈']
# 이름이 홍의선인 사람을 '헤헤'로 바꾸기
df.loc[df['이름']=='홍의선','이름']='히하허ㅓ'
df

Unnamed: 0,이름,학과,성적
0,히하허ㅓ,히히히,히히히
1,홍길동,수학과,1.0
2,홍의채,전자과,3.5
3,김은숙,컴퓨터,2.7
4,홍의빈,물리,4.0


### 컬럼 삭제

In [40]:
# 성별 컬럼 삭제, dataframe의 drop 메서드 이용
df.drop('성별', axis=1) # axis = 0 은 행, axis = 1은 컬럼 or axis='columns'
# 역시 원본에 반영된 것은 아니고 반영을 위해선 inplace = True 해줘야한다.

Unnamed: 0_level_0,학과,성적,등급,나이,이름
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,국문과,3.0,B,21,홍의선
two,수학과,1.0,D,20,홍길동
three,전자과,3.5,B,24,홍의채
four,컴퓨터,2.7,C,23,김은숙
five,물리,4.0,A,28,홍의빈


In [43]:
# 컬럼을 완전히 삭제하는 방법:
# 방법 1, 해당 피처를 제외한 새로운 데이터 프레임 생성
# 실무에서 원본 데이터를 보존하기 위해 이 방법이 안전하다.
df2 = df.drop('성별', axis='columns')
df2

Unnamed: 0_level_0,학과,성적,등급,나이,이름
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,국문과,3.0,B,21,홍의선
two,수학과,1.0,D,20,홍길동
three,전자과,3.5,B,24,홍의채
four,컴퓨터,2.7,C,23,김은숙
five,물리,4.0,A,28,홍의빈


In [44]:
# 방법 2, 원본데이터에서 해당 피처 삭제
df.drop('성별', axis=1, inplace = True) # inplace 인수 설정
df

Unnamed: 0_level_0,학과,성적,등급,나이,이름
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,국문과,3.0,B,21,홍의선
two,수학과,1.0,D,20,홍길동
three,전자과,3.5,B,24,홍의채
four,컴퓨터,2.7,C,23,김은숙
five,물리,4.0,A,28,홍의빈


In [45]:
# 데이터 프레임 행 삭제
df.drop('one',axis=0) # df.drop('행의 index 값', axis = 0)

Unnamed: 0_level_0,학과,성적,등급,나이,이름
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
two,수학과,1.0,D,20,홍길동
three,전자과,3.5,B,24,홍의채
four,컴퓨터,2.7,C,23,김은숙
five,물리,4.0,A,28,홍의빈


## 실습 : 전국 무인 교통 단속 카메라 표준 데이터 json 데이터 pandas로 호출하기

In [6]:
import pandas as pd
import numpy as np
import json
import requests # 서버 쪽에 request 보낼 때 사용하는 라이브러리.

In [3]:
# open API 호출시 필요하 정보 입력
# open API 활용시 발급 받은 key
key = 'Zlj1gRjWjF%2BKVHdTXZRSqJde6I3YhDxfz%2Bih8dr82BBpPFpipkoy3q8%2B8Q6Eg70ftz%2Buc4E4NQ5kViqs3ysHBw%3D%3D'
pageNo = 0 # 요청 변수 : 페이지 번호 입력
row = 100 # 요청 변수 : 한 페이지 결과 수 입력

# full url 입력 : '주소 + '?servicekey=키' + '&pageNo=페이지 번호' + '&numOfRows= 한 페이지 출력 결과 수' + '&type=json'
url = f'http://api.data.go.kr/openapi/tn_pubr_public_unmanned_traffic_camera_api?serviceKey={key}&pageNo={pageNo}&numOfRows={row}&type=json'

response = requests.get(url) # full url을 requests 라이브러리를 통해 호출

# 한글 출력시, encoding이 필요함
response.endoding = 'utf-8' # utf-8로 설정

print(response.text[0:400]) # response 객체의 text 출력, 글자 400개 제한

{"response":{"header":{"resultCode":"00","resultMsg":"NORMAL_SERVICE","type":"json"},"body":{"items":[{"mnlssRegltCameraManageNo":"23","ctprvnNm":"전라북도","signguNm":"익산시","roadKnd":"기타","roadRouteNo":"","roadRouteNm":"동서로","roadRouteDrc":"3","rdnmadr":"","lnmadr":"전라북도 익산시 남중동 375-193","latitude":"35.9533199","longitude":"126.9589814","itlpc":"남중동 북부시장사거리","regltSe":"4","lmttVe":"0","regltSctnLcSe"


In [7]:
# 2. 결과 객체에 있는 데이터(json) 조회
resulting_dict = json.loads(response.text) # json을 dict 타입으로 바꾸는 함수
# print(resulting_dict['header']) -> header는 정상적으로 호출됐는지, 타입은 어떤 것인지 등등 정보 포함
resulting_dict.keys() # dictionary 키 확인 -> 중첩 딕셔너리임
# response : {header : data_list, body : data list ..}

dict_keys(['response'])

In [8]:
# 중첩 딕셔너리의 키 확인
resulting_dict['response'].keys()

dict_keys(['header', 'body'])

In [9]:
resulting_dict['response']['body'].keys()

dict_keys(['items', 'totalCount', 'numOfRows', 'pageNo'])

In [18]:
print(len(resulting_dict['response']['body']['items']))
resulting_dict['response']['body']['items'][0]

100


{'mnlssRegltCameraManageNo': '23',
 'ctprvnNm': '전라북도',
 'signguNm': '익산시',
 'roadKnd': '기타',
 'roadRouteNo': '',
 'roadRouteNm': '동서로',
 'roadRouteDrc': '3',
 'rdnmadr': '',
 'lnmadr': '전라북도 익산시 남중동 375-193',
 'latitude': '35.9533199',
 'longitude': '126.9589814',
 'itlpc': '남중동 북부시장사거리',
 'regltSe': '4',
 'lmttVe': '0',
 'regltSctnLcSe': '',
 'ovrspdRegltSctnLt': '',
 'prtcareaType': '',
 'installationYear': '2015',
 'institutionNm': '전라북도 익산시청',
 'phoneNumber': '063-859-5571',
 'referenceDate': '2023-09-04',
 'insttCode': '4680000'}

In [25]:
# 도시이름, 주소, latitude만 뽑아내야 한다면?
cities = []
addr = []
latitudes = []
for item in resulting_dict['response']['body']['items'] :
    cities.append(item['ctprvnNm'])
    addr.append(item['lnmadr'])
    latitudes.append(item['latitude'])
addr[:10]

['전라북도 익산시 남중동 375-193',
 '전라북도 익산시 영등동 867',
 '전라북도 익산시 어양동 663',
 '전라북도 익산시 모현동1가 915',
 '전라북도 익산시 영등동 543-56',
 '전라북도 익산시 남중동 375-193',
 '전라북도 익산시 중앙동1가 87',
 '전라북도 익산시 동산동 685',
 '전라북도 익산시 영등동 869',
 '인천광역시 동구 화평동 1-48']

In [47]:
# dataframe으로 변환
df = pd.DataFrame({
    'city' : cities,
    'address' : addr,
    'latitudes' : latitudes
})
a = df.loc[df['city']=='인천광역시']
a.shape

(25, 3)