# 데이터 변경

In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.read_csv('./data/student.csv')
display(df)

Unnamed: 0,이름,학과,성적
0,아이유,국문학,3.0
1,김연아,수학,1.0
2,홍길동,컴퓨터,3.5
3,장범준,철학,2.7
4,강감찬,경영학,4.0


## 컬럼 생성

In [3]:
# '등급' 컬럼 생성
df['등급'] = 'A'
display(df)

Unnamed: 0,이름,학과,성적,등급
0,아이유,국문학,3.0,A
1,김연아,수학,1.0,A
2,홍길동,컴퓨터,3.5,A
3,장범준,철학,2.7,A
4,강감찬,경영학,4.0,A


In [4]:
# 성적에 따라 등급 부여
grade = np.array(['B', 'D', 'B', 'C', 'A'])
df['등급'] = grade
display(df)

Unnamed: 0,이름,학과,성적,등급
0,아이유,국문학,3.0,B
1,김연아,수학,1.0,D
2,홍길동,컴퓨터,3.5,B
3,장범준,철학,2.7,C
4,강감찬,경영학,4.0,A


In [5]:
# 나이를 의미하는 age라는 시리즈 생성
age = pd.Series([21, 20, 24, 23, 28])

# 데이터프레임내 나이 컬럼을 만들고 시리즈를 값으로 할당
df['나이'] = age
display(df)

Unnamed: 0,이름,학과,성적,등급,나이
0,아이유,국문학,3.0,B,21
1,김연아,수학,1.0,D,20
2,홍길동,컴퓨터,3.5,B,24
3,장범준,철학,2.7,C,23
4,강감찬,경영학,4.0,A,28


In [6]:
# 혼자 해본 것
df['등급'][df['성적'] >= 4] = 'a'
display(df)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Unnamed: 0,이름,학과,성적,등급,나이
0,아이유,국문학,3.0,B,21
1,김연아,수학,1.0,D,20
2,홍길동,컴퓨터,3.5,B,24
3,장범준,철학,2.7,C,23
4,강감찬,경영학,4.0,a,28


## 인덱스 설정 및 리셋

In [7]:
df.index

RangeIndex(start=0, stop=5, step=1)

In [8]:
df.index = ['one', 'two', 'three', 'four', 'five']
df

Unnamed: 0,이름,학과,성적,등급,나이
one,아이유,국문학,3.0,B,21
two,김연아,수학,1.0,D,20
three,홍길동,컴퓨터,3.5,B,24
four,장범준,철학,2.7,C,23
five,강감찬,경영학,4.0,a,28


In [9]:
sex = pd.Series(['여자', '여자', '남자', '남자', '남자'])
df['성별'] = sex
df

Unnamed: 0,이름,학과,성적,등급,나이,성별
one,아이유,국문학,3.0,B,21,
two,김연아,수학,1.0,D,20,
three,홍길동,컴퓨터,3.5,B,24,
four,장범준,철학,2.7,C,23,
five,강감찬,경영학,4.0,a,28,


In [12]:
# 둘의 index가 다르기 때문에 NaN값
print(f"시리즈 sex의 인덱스      --> {sex.index}")
print(f"데이터프레임 df의 인덱스 --> {df.index}")

시리즈 sex의 인덱스      --> RangeIndex(start=0, stop=5, step=1)
데이터프레임 df의 인덱스 --> Index(['one', 'two', 'three', 'four', 'five'], dtype='object')


In [13]:
# 인덱스 통일 후 다시 성별 컬럼에 값 부여
sex.index = df.index
df['성별'] = sex
df

Unnamed: 0,이름,학과,성적,등급,나이,성별
one,아이유,국문학,3.0,B,21,여자
two,김연아,수학,1.0,D,20,여자
three,홍길동,컴퓨터,3.5,B,24,남자
four,장범준,철학,2.7,C,23,남자
five,강감찬,경영학,4.0,a,28,남자


In [14]:
# 현재 설정되어 있는 인덱스 리셋
#df.reset_index(inplace=True) # inplace=True라는 인수값을 주면 데이터프레임 원본에 바로 적용 됨
df.reset_index()

Unnamed: 0,index,이름,학과,성적,등급,나이,성별
0,one,아이유,국문학,3.0,B,21,여자
1,two,김연아,수학,1.0,D,20,여자
2,three,홍길동,컴퓨터,3.5,B,24,남자
3,four,장범준,철학,2.7,C,23,남자
4,five,강감찬,경영학,4.0,a,28,남자


In [15]:
df

Unnamed: 0,이름,학과,성적,등급,나이,성별
one,아이유,국문학,3.0,B,21,여자
two,김연아,수학,1.0,D,20,여자
three,홍길동,컴퓨터,3.5,B,24,남자
four,장범준,철학,2.7,C,23,남자
five,강감찬,경영학,4.0,a,28,남자


In [16]:
df.reset_index(inplace=True)
df

Unnamed: 0,index,이름,학과,성적,등급,나이,성별
0,one,아이유,국문학,3.0,B,21,여자
1,two,김연아,수학,1.0,D,20,여자
2,three,홍길동,컴퓨터,3.5,B,24,남자
3,four,장범준,철학,2.7,C,23,남자
4,five,강감찬,경영학,4.0,a,28,남자


In [17]:
df.set_index('이름')

Unnamed: 0_level_0,index,학과,성적,등급,나이,성별
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
아이유,one,국문학,3.0,B,21,여자
김연아,two,수학,1.0,D,20,여자
홍길동,three,컴퓨터,3.5,B,24,남자
장범준,four,철학,2.7,C,23,남자
강감찬,five,경영학,4.0,a,28,남자


In [18]:
df.set_index('이름', inplace=True)

In [19]:
df

Unnamed: 0_level_0,index,학과,성적,등급,나이,성별
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
아이유,one,국문학,3.0,B,21,여자
김연아,two,수학,1.0,D,20,여자
홍길동,three,컴퓨터,3.5,B,24,남자
장범준,four,철학,2.7,C,23,남자
강감찬,five,경영학,4.0,a,28,남자


## 컬럼 삭제

In [21]:
# 성별 컬럼 삭제 (dataframe의 drop 메서드 이용)
df.drop('성별', axis=1) # drop에서 axis=1의 값을 주면 컬럼을 삭제하겠다는 의미

Unnamed: 0_level_0,index,학과,성적,등급,나이
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
아이유,one,국문학,3.0,B,21
김연아,two,수학,1.0,D,20
홍길동,three,컴퓨터,3.5,B,24
장범준,four,철학,2.7,C,23
강감찬,five,경영학,4.0,a,28


In [22]:
df

Unnamed: 0_level_0,index,학과,성적,등급,나이,성별
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
아이유,one,국문학,3.0,B,21,여자
김연아,two,수학,1.0,D,20,여자
홍길동,three,컴퓨터,3.5,B,24,남자
장범준,four,철학,2.7,C,23,남자
강감찬,five,경영학,4.0,a,28,남자


In [24]:
df.drop('성별', axis='columns')

Unnamed: 0_level_0,index,학과,성적,등급,나이
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
아이유,one,국문학,3.0,B,21
김연아,two,수학,1.0,D,20
홍길동,three,컴퓨터,3.5,B,24
장범준,four,철학,2.7,C,23
강감찬,five,경영학,4.0,a,28


In [25]:
df

Unnamed: 0_level_0,index,학과,성적,등급,나이,성별
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
아이유,one,국문학,3.0,B,21,여자
김연아,two,수학,1.0,D,20,여자
홍길동,three,컴퓨터,3.5,B,24,남자
장범준,four,철학,2.7,C,23,남자
강감찬,five,경영학,4.0,a,28,남자


In [27]:
df2 = df.drop('성별', axis=1)
df2

Unnamed: 0_level_0,index,학과,성적,등급,나이
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
아이유,one,국문학,3.0,B,21
김연아,two,수학,1.0,D,20
홍길동,three,컴퓨터,3.5,B,24
장범준,four,철학,2.7,C,23
강감찬,five,경영학,4.0,a,28


In [29]:
df.set_index('index', inplace=True)
df

Unnamed: 0_level_0,학과,성적,등급,나이,성별
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,국문학,3.0,B,21,여자
two,수학,1.0,D,20,여자
three,컴퓨터,3.5,B,24,남자
four,철학,2.7,C,23,남자
five,경영학,4.0,a,28,남자


In [30]:
# 데이터프레임 행 삭제
df.drop('one', axis=0)

Unnamed: 0_level_0,학과,성적,등급,나이,성별
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
two,수학,1.0,D,20,여자
three,컴퓨터,3.5,B,24,남자
four,철학,2.7,C,23,남자
five,경영학,4.0,a,28,남자


In [31]:
df

Unnamed: 0_level_0,학과,성적,등급,나이,성별
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,국문학,3.0,B,21,여자
two,수학,1.0,D,20,여자
three,컴퓨터,3.5,B,24,남자
four,철학,2.7,C,23,남자
five,경영학,4.0,a,28,남자


# 실습 : 전국 무인 교통 단속 카메라 표준 데이터 `json` 데이터 `pandas`로 호출하기

In [35]:
import pandas as pd
import json
import requests

In [46]:
# open API 호출시 필요한 정보 입력
key = "dmuCB2wfe1qfcAIz42ts%2Be%2Fy5OVJaYeIINrowE2jZX0%2BuegviFtNclH8saHau%2BqjCMwcdtxJgNKRqlVIpPNdgg%3D%3D" # 발급받은 Key
pageNo = 0 # 요청 변수 : 페이지 번호 입력
row = 100 # 요청 변수 : 한 페이지 결과 수 입력

url = f'http://api.data.go.kr/openapi/tn_pubr_public_unmanned_traffic_camera_api?serviceKey={key}&pageNo={pageNo}&numOfRows={row}&type=json'

response = requests.get(url)

response.encoding = 'utf-8'

print(response.text[0:400])

{"response":{"header":{"resultCode": "30","resultMsg":"SERVICE KEY IS NOT REGISTERED ERROR."}}}


In [40]:
# 결과 객체에 있는 데이터(json) 조회
resulting_dict = json.loads(response.text) # json을 dict 타입으로 바꾸는 함수
# print(resulting_dict['header'])
resulting_dict.keys() # dictionary 키 확인 --> 중첩 딕셔너리임

dict_keys(['response'])

In [41]:
# 중첩 딕셔너리의 키 확인
resulting_dict['response'].keys()

dict_keys(['header'])

In [42]:
resulting_dict['response']['body'].keys()

KeyError: 'body'

In [None]:
resulting_dict['response']['body']['items'][0]

In [None]:
# 주소, 카메라 위치, 위도, 경도의 정보만 출력

address_list = []
location_list = []
latitude_list = []
longitude_list = []

# dictionary 속 데이터 정보 입력
for tmp in resulting_dict['response']['body']['items']:
    address_list.append(tmp['rdnmadr'])
    location_list.append(tmp['itlpc'])
    latitude_list.append(tmp['latitude'])
    longitude_list.append(tmp['longitude'])

print(address_list[:10])
print(location_list[:10])
print(latitude_list[:10])
print(longitude_list[:10])

In [None]:
# dataframe으로 변환
df = pd.DataFrame({
    'address' : address_list,
    'location' : location_list,
    'latitude' : latitude_list,
    'longitude' : longitude_list
})

df