# Day-6: Chat-GPT를 활용한 데이터 수집 및 전처리



# I.데이터 수집

## 웹크롤링과 웹스크랩핑
- 웹은 무한히 많은 데이터가 있는 정보의 바다이다. 이러한 웹에서 유의미한 데이터를 찾는 것은 매우 중요한 일이 됐다.
- 웹 페이지에서 정보를 추출하는 프로그램을 웹크롤러(Web Crawler), 또는 스파이더(Spider), 봇(Bot)이라고도 부르며, 크롤러를 사용하여 데이터를 수집하는 것을 크롤링(Crawling)이라고 하다.
- 즉, 웹크롤링은 웹페이지의 하이퍼링크를 순회하면서 웹 페이지를 다운로드 하는 작업을 의미한다.
- 웹스크랩핑(Scraping)은 다운로드한 웹 페이지에서 필요한 정보를 추출하는 작업을 의미한다.
- 일부 모듈들은 웹크롤링과 웹스크랩핑 기능을 모두 갖고 있기도 해서 이를 혼용하여 부르기도 한다.

- 웹크롤링은 다양하게 활용되고 있다.
  - 음식점의 예약 상황을 실시간으로 추출하여 어떤 음식점에 자리가 비어있는지, 어떤 요일과 어떤 시간에 어떤 음식점이 인기 있는지 등의 정보를 추출하는데 활용되기도 한다.
  - 여러 책 판매 사이트에서 정보를 추출하여 직접 가격 비교해서 최저가 정보를 알려주거나 웹사이트에서 정보를 추출하고 정보를 정리하는데 사용되기도 한다.
  - 정부, 자치단체, 기업 등이 자유롭게 사용할 수 있도록 공개한 데이터인 열린 데이터를 수집할 때도 도움이 된다.
  - 웹데이터 분석, 자연언어분석, 이미지 처리 등 대량의 데이터 수집이 필요 할 때도 이용된다.

- Python을 이용한 크롤링
    - BeautifulSoup와 requests 사용: 가장 기본적인 방법으로, BeautifulSoup와 requests 라이브러리를 사용하여 HTML 페이지를 파싱하고 원하는 정보를 추출
    - Selenium 사용: 동적 웹페이지에 적합한 방법으로, 웹 브라우저를 실제로 실행시켜서 크롤링하는 방법
- API를 이용한 크롤링
    - API(Application Programming Interface): 응용 프로그램에서 사용할 수 있도록, 운영 체제나 프로그래밍 언어가 제공하는 기능을 제어할 수 있게 만든 인터페이스
    - 프로그램과 프로그램의 다리
    - 예) 네이버 뉴스 API 사용: 네이버에서 제공하는 API를 사용하여 뉴스 데이터를 수집하는 방법
    - API 사용을 위해서는 네이버 개발자 센터에서 API 키를 발급받아야 함.

- <font color="red">**크롤링을 통해 원하는 정보를 효율적으로 수집할 수 있지만, 크롤링에는 책임감 있는 접근이 필요함. 웹사이트의 부하를 고려하고, 이용 약관을 준수하며 정보를 수집해야 함**</font>
- 인터넷 상에서 데이터를 수집하기 위해서는 기본적으로 HTML 구조와 소스코드를 이해할 수 있어야 문제에 직면했을 때 해결이 가능 함

## 웹데이터 수집 절차

1. 로봇배제 기준을 확인하여 크롤링 가능한 웹사이트인지 확인
2. Urllib나 Request 라이브러리로 해당 사이트를 불러와서 BeautifulSoup으로 HTML문서를 파싱
3. HTML의 구조를 파악(F12 기능키)하여 find 문이나 select문을 이용하여 추출하고자 하는 부분을 찾아서 텍스트 문서로 추출

## 네이버 금융데이터 추출하기


😄 네이버 증권정보 사이트(https://finance.naver.com/marketindex/) 에서 환전 고시 환율, 국제 시장 환율, 유가.금시세 데이터를 아래와 같이 추출해보자.

```
미국 USD : 1,339.50
일본 JPY(100엔) : 999.51
유럽연합 EUR : 1,478.00
중국 CNY : 193.25
달러/일본 엔 : 134.1100
유로/달러 : 1.1011
영국 파운드/달러 : 1.2466
달러인덱스 : 101.2500
WTI : 74.76
휘발유 : 1664.17
국제 금 : 1999.0
국내 금 : 85538.28
```


### 1.로봇배제 기준 확인해보기
- 웹사이트의 로봇배제 기준을 확인하는 방법은 웹페이지 주소 + robots.txt로 확인한다.
- requests 모듈의 get()함수를 이용하여 웹사이트 접속하여 기준을 확인한다.
- 네이버 금융데이터가 있는 /marketindex/ 폴더의 접근을 허용하고 있음을 알 수 있다.

In [None]:
import requests
resp = requests.get("https://finance.naver.com/robots.txt")
print(resp.text)

### 2.1.urlopen()으로 웹페이지 가져오기
- 웹크롤링을 하기 위해서는 먼저 웹페이지에 접속부터 해야 한다.
- 파이썬으로 웹페이지에 접속하기 위해서는 urllib.request 모듈의 urlopen() 함수를 통해 할 수 있다.
  - urllib 패키지는 URL과 관련된 작업을 하기 위한 여러 모듈을 모은 패키지로, 그중에서 urllib.request 모듈은 URL을 여는것과 관련한 다양한 함수를 제공하고 있다.
- 먼저, urlopen() 함수를 import하고, urlopen() 괄호안에 접속할 사이트의 주소를 넣어준다.

- 아래 코드를 실행시켜서 웹페이지를 가져와보자.

In [None]:
from urllib.request import urlopen
page = urlopen('https://finance.naver.com/marketindex/')
print(page)

- 변수 page를 출력해보면, 에러없이 웹페이지를 열었지만 반환된 값은 웹문서 스타일이 아니라 HTTPResponse 객체이다.

### 2.2.BeautifulSoup()으로 웹스크랩핑하기
- urlopen()으로 가져온 웹페이지를 눈으로 확인 가능한 HTML문서로 바꿔보자.
- 이를 위해 BeautifulSoup() 함수를 활용할 수 있다.
- BeautifulSoup() 함수는 HTML에서 데이터를 추출할 수 있도록 하는 함수로 HTML 구문 분석 기능을 갖고 있다.
    - 참고자료: https://www.crummy.com/software/BeautifulSoup/bs4/doc/
    

- 먼저 bs4모듈에 BeautifulSoup() 함수를 import한다.
- BeautifulSoup() 함수의 괄호안에는 첫 번째 전달인자로 구문을 분석하고자 하는 HTML, 두 번째 전달인자로 분석할 파서의 종류를 넣어준다. 여기서는 html 구문으로 파싱할 것이므로 'html.parser'로 적어준다.
- 파싱(parsing)이란 구문 분석이라는 뜻으로 각 구성 성분으로 분해하고 이들간의 관계를 분석하여 구조를 결정하는 작업을 말한다.
- 파싱하여 변수 soup에 저장하여 출력해보면 urlopen()으로 가져왔던 웹페이지가 html코드로 보여진다.
  - 통상적으로 BeautifulSoup()으로 파싱한 객체는 변수 이름을 soup으로 한다.
  - 즉, BeautifulSoup()을 활용해 HTML 파싱을 해서 soup객체로 만든다.  

In [None]:
from bs4 import BeautifulSoup
soup=BeautifulSoup(page,'html.parser')
print(soup)

### 3.개발자 도구 활용하여 텍스트 추출
- 웹페이지를 가져왔지만 그 안에 들어있는 텍스트를 추출하기에는 매우 복잡한 형태이다. 이를 위해 개발자 도구를 활용해보자.
-  개발자 도구를 활용하여 추출하고자 하는 데이터가 어느 태그에 혹은 어떤 속성을 갖고 있는지 확인한다.
- 이를 위해 개발자 도구 F12 또는 ... > 도구 더보기 > 개발자 도구를 클릭한다.

<div align="center"><img src="https://haesunbyun.github.io/common/images/html5.png" style="width:600px;"></div>

- 요소(element) 선택 버튼을 클릭한다.

<div align="center"><img src="https://haesunbyun.github.io/common/images/html6.png" style="width:600px;"></div>

- 추출하고자 하는 데이터는
  - 환전 고시 환율, 국제 시장 환율, 유가.금시세 정보이다.
- 추출하고자 하는 컨텐츠인 '미국USD'로 마우스를 가져가보자.
- 마우스를 가져가면 도움말 기능으로 태그의 상세 정보인 h3.h_lst가 보인다.
- 좀 더 자세히 확인해보기 위해 클릭한 후, 오른쪽의 소스보기 창의 음영처리 된 부분으로 가보자.
- 미국USD라는 텍스트는 `<h3 class="h_lst">`에 들어있다.
- 태그 옆에는 작은 삼각형이 보이는데, 이 삼각형을 클릭하여 소스보기를 접거나 펼칠 수 있다.
- 삼각형을 눌러 펼쳐보면 `<span class="blind">미국 USD</span>`태그에 미국 USD 컨텐츠가 들어있다.


<div align="center"><img src="https://haesunbyun.github.io/common/images/html7.png" style="width:600px;"></div>

- 추출하고자 하는 데이터를 몇 개 더 동일한 방법으로 확인해보자.
- 일본JPY나 유로/달러 등의 컨텐츠도 동일한 태그인 것을 확인했다면 이제 그 태그를 이용하여 데이터를 추출할 수 있다.



#### find_all()로 찾기
- 태그안에 숨겨져있는 컨텐츠를 가져오기 위해서는 태그를 잘 선택하는 것이 매우 중요하다.
-  ```<h3 class="h_lst">```로 태그가 h3이고 class가 h_lst인 컨텐츠를 찾는 것
- 어떤 태그로 찾는 것이 가장 최소한의 노력으로 헛일하지 않고 원하는 데이터를 추출할 수 있는지 생각해야 한다.
- 어떤 태그를 활용해야 데이터를 잘 추출할 것인가는 여러 번의 연습과 시행착오를 거쳐서 감을 잡는 것이 필요하다.^^;;



In [None]:
soup.find_all('h3', class_="h_lst")

- 그럼 find_all()로 찾은 요소들을 변수에 저장해보자.
- find_all()의 결과는 'bs4.element.ResultSet'이다. 리스트는 아니지만 리스트처럼 보여지며, 리스트와 같이 접근이 가능하다. 즉, 인덱스를 활용한 접근과 반복문에 활용 할 수 있다는 것이다.

In [None]:
fList = soup.find_all('h3', class_="h_lst")
for each in fList:
  print(each.string)

😄 ChatGPT를 활용하여 환전 고시 환율, 국제 시장 환율, 유가/금시세 최종 데이터를 아래와 같이 출력해보자.

```
https://finance.naver.com/marketindex/에서 태그가 span이면서 class가 value인 값을 추출하는 파이썬 웹크롤링 코드를 작성해줘
```



최종적으로 아래와 같이 출력해보자.

```
미국 USD : 1,339.50
일본 JPY(100엔) : 999.51
유럽연합 EUR : 1,478.00
중국 CNY : 193.25
달러/일본 엔 : 134.1100
유로/달러 : 1.1011
영국 파운드/달러 : 1.2466
달러인덱스 : 101.2500
WTI : 74.76
휘발유 : 1664.17
국제 금 : 1999.0
국내 금 : 85538.28
```

## 네이버 블로그 검색을 API로 추출하기

- API를 사용하려면 먼저 API 인증키를 발급받아야 한다.
- 이번 예제에서는 네이버 블로그 검색을 네이버 API를 이용해서 추출하기 위해 네이버 API를 신청해보자.
- https://developers.naver.com/main/ 에서 서비스 API를 클릭하여 오픈API 이용 신청을 한다.

<div align="center"><img src="https://haesunbyun.github.io/common/images/gptPic29.PNG" width="400"></div>

---

<div align="center"><img src="https://haesunbyun.github.io/common/images/gptPic30.PNG" width="400"></div>

- 네이버 로그인을 하고, 약관에 동의하고, 폰 번호 인증, 계정 정보 등록, 애플리케이션 등록 등 차례대로 진행한다.
  - 애플리케이션 등록: 식별할 수 있는 이름을 적는다.
    - 예) 네이버검색 API
  - 사용 API:
    - 검색, 데이터랩(검색어트렌드)를 선택한다.
  - 비로그인 오픈 API 서비스 환경
    - 환경 추가: WEB 설정
    - 웹 서비스 URL: http://naver.com

<div align="center"><img src="https://haesunbyun.github.io/common/images/gptPic31.PNG" width="400"></div>    
  


- 애플리케이션 등록까지 완료하고 나면 Client ID와 Client Secret을 획득할 수 있다.

<div align="center"><img src="https://haesunbyun.github.io/common/images/gptPic32.PNG" width="400"></div>

- Naver Developers의 홈으로 이동하여 Documents메뉴로 가면 서비스 API를 활용하는 예제를 참고할 수 있다.
<div align="center"><img src="https://haesunbyun.github.io/common/images/gptPic33.PNG" width="400"></div>

- 네이버 검색 API 파이썬 코드를 복사하여 코랩에서 실행시켜보자.
<div align="center"><img src="https://haesunbyun.github.io/common/images/gptPic34.PNG" width="400"></div>

- Client_ID, Client_secret에 발급받은 정보를 넣어준 후, 검색할 단어를 '워터파크'로 넣어준 후 코드를 실행시켜보면 웹페이지의 결과가 크롤링된 것을 확인할 수 있다.

In [None]:
# 네이버 검색 API 예제 - 블로그 검색
import os
import sys
import urllib.request
client_id = "YOUR_CLIENT_ID"
client_secret = "YOUR_CLIENT_SECRET"
encText = urllib.parse.quote("검색할 단어")
url = "https://openapi.naver.com/v1/search/blog?query=" + encText # JSON 결과
# url = "https://openapi.naver.com/v1/search/blog.xml?query=" + encText # XML 결과
request = urllib.request.Request(url)
request.add_header("X-Naver-Client-Id",client_id)
request.add_header("X-Naver-Client-Secret",client_secret)
response = urllib.request.urlopen(request)
rescode = response.getcode()
if(rescode==200):
    response_body = response.read()
    print(response_body.decode('utf-8'))
else:
    print("Error Code:" + rescode)

- 이제 ChatGPT를 통해 질문해보자.

<font color="red">Q.</font> 코드를 실행시켜 나온 결과 중에 블로그의 제목만 20개 크롤링하는 파이썬 코드를 작성해줘

# II. Pandas-1

- 판다스는 파이썬에서 사용하는 데이터 분석 라이브러리이다.
- 'pandas'라는 이름은 다차원으로 구조화된 데이터를 뜻하는 경제학 용어인 Panel data와 파이썬 데이터 분석인 Python data analysis에서 따온 것이다.
- 2008년 금융데이터 분석용으로 처음 개발되었다.
- 대용량의 데이터를 처리하는데 최적화된 도구이며, 데이터의 재배치, 집계, 부분집합 구하기 등을 쉽게 할 수 있다.
- Pandas는 Series와 DataFrame이라는 자료구조를 제공한다.


추천자료:
- https://wikidocs.net/book/7188 :[Python 완전정복 시리즈] 2편 : Pandas DataFrame 완전정복
- https://pandas.pydata.org/docs/reference/index.html : Pandas 공식사이트 문서

## Series

- 시리즈는 1차원 배열에 인덱스를 가지고 있는 구조이다.

- 이때 값은 인덱스 번호(위치 인덱스)로도 접근 할 수 있고 인덱스명(설정 인덱스)으로도 접근할 수 있다.

- 즉, 인덱스 번호로 값을 접근할 수 있는 리스트(list)와 인덱스명과 같은 키(key)로 값을 접근할 수 있는 딕셔너리(dict)의 장점을 섞어 놓은 자료구조이다.

### 시리즈 생성
- 시리즈를 생성하기 위해서는 먼저 pandas 모듈을 불러와야 한다.
- pandas 모듈은 보통 pd라는 별칭을 사용한다.

In [None]:
import pandas as pd

- 시리즈를 생성해보자. 형식은 아래와 같다. 이때 Series의 'S'를 대문자로 써야 한다는 것에 주의하자.

```python
pd.Series(list or dict or array, index = list or array)
```

In [None]:
score = [84, 21, 87, 100, 59, 46]
s = pd.Series(score)
print(s)

- 인덱스를 별도 설정하지 않으면 기본적으로 위치 인덱스로 설정된다.
- 마지막에 데이터 타입이 표시된다. dtype: int64는 시리즈 속 데이터가 정수형64bit 데이터임을 의미한다.

|dtype|설명|
|:----------:|:----------|
|`int64`|정수|
|`float64`|소수|
|`object`|텍스트|
|`bool`|True/False|
|`datetime64`|날짜와 시간|
|`category`|카테고리|


- index 옵션을 통해 인덱스명을 설정할 수 있다.

In [None]:
score = [84, 21, 87, 100, 59, 46]
names=['철수','영이','길동','미영','순이','철이']
s = pd.Series(score, index = names)
print(s)

- 딕셔너리를 넣어서 시리즈를 생성할 수 있다.


In [None]:
dic={'철수':84, '영이':21, '길동':87,'미영':100, '순이':59, '철이':46}
s = pd.Series(dic)
print(s)

- type() 함수로 시리즈의 타입을 확인해보자.

In [None]:
print(type(s))

- 시리즈의 모양은 시리즈명.shape으로 확인할 수 있다.
- 1차원 배열은 (원소갯수, ) 형태로 나온다.

In [None]:
print(s.shape)

### 시리즈 산술연산
- 시리즈에 산술연산을 적용해보자. 이때, 연산하여 나온 결과 또한 시리즈타입이다.

In [None]:
import pandas as pd
names1=['철수','영이','길동','미영','순이','철이']
score1 = [84, 21, 87, 100, 59, 46]
names2 =['길동','철수','영이','철이','순이','미영']
score2 = [99, 87, 87, 84, 77, 15]

s1 = pd.Series(score1, index=names1)
s2 = pd.Series(score2, index=names2)
print(s1)
print(s2)

In [None]:
s1 + 10

In [None]:
s1 + s2

In [None]:
s1 - s2

In [None]:
s1 * s2

In [None]:
(s1+s2)/2

In [None]:
s1%2

In [None]:
s1.sum()

### 시리즈 인덱싱
- 시리즈의 데이터에 접근은 인덱스 번호(위치 인덱스) 또는 인덱스명(설정 인덱스)를 통해 가능하다.
```
시리즈명[위치인덱스 or 설정인덱스]
```

In [None]:
s1[2]

In [None]:
s1['영이']

### 시리즈 슬라이싱
- 위치 인덱스로 슬라이싱하는 방법은 리스트나 배열과 동일하다.
- 설정 인덱스로 슬라이싱하면 `끝 인덱스까지 포함`한다.
```
시리즈변수명[start:end:step]
```

In [None]:
s1[2:]

- 끝 인덱스인 '순이'까지 포함하여 슬라이싱한다.

In [None]:
s1['영이':'순이']

In [None]:
s1['미영':]

### 시리즈 데이터 추가, 수정, 삭제

- 시리즈에 데이터 추가와 수정은 형식이 동일하다. 시리즈에 인덱스가 있으면 수정하고, 없으면 추가한다.
- 형식은 다음과 같다.
```
시리즈명[인덱스] = value
```

- '슬기'는 인덱스에 없으므로 추가된다.

In [None]:
s1['슬기']= 87
print(s1)

- '길동'은 인덱스에 있으므로 수정된다.

In [None]:
s1['길동']=88
print(s1)

- 시리즈에서 데이터 삭제는 키워드 del을 통해 가능하다.
- 아래 코드는 인덱스 '철이'를 삭제한다.

In [None]:
del s1['철이']
print(s1)

- .drop()을 옵션 inplace없이 사용했을 때는 '길동'을 삭제하여 출력하지만, 원본 데이터에는 변동이 없다.

In [None]:
s1.drop('길동')

In [None]:
s1

In [None]:
s1.drop('길동', inplace=True)

### 시리즈 비교연산과 필터링

- 시리즈에서도 넘파이에서와 같이 비교연산의 결과를 얻기도 쉽다.


In [None]:
a = s1>=85
print(a)

- 시리즈에서도 비교연산의 결과를 필터링하는데 사용할 수 있다.
- 아래 코드는 시리즈 s1에서 85이상인 값들에 대해서 필터링한다.

In [None]:
s1[a]

## DataFrame

DataFrame은 행과 열로 이루어진 2차원 형태의 배열이다.
이때 한 개의 열(칼럼)은 하나의 시리즈이며, DataFrame은 시리즈들의 묶음이다.

### 데이타프레임 생성

- 데이타프레임 생성 형식은 다음과 같다.
```
pd.DataFrame(list or array or series or dictionary, index = list or array, columns = list or array)
```


- 먼저, 시리즈를 이용하여 데이터프레임을 생성해보자.
- 아래와 같이 시리즈 2개를 만들자.

In [None]:
names1=['철수','영이','길동','미영','순이','철이']
score1 = [84, 21, 87, 100, 59, 46]
names2 =['길동','철수','영이','철이','순이','미영']
score2 = [99, 87, 87, 84, 77, 15]

s1 = pd.Series(score1, index=names1)
s2 = pd.Series(score2, index=names2)

- 시리즈를 데이타프레임의 열(column)로 넣어준다.

In [None]:
df = pd.DataFrame()
df['국어']= s1  # 국어 칼럼 생성
df['영어']= s2  # 영어 칼럼 생성
df['합계']=df['국어']+df['영어'] # 합계 칼럼 생성
df

:::{admonition} 인덱싱 주의
:class: warning  
- 시리즈에서 인덱싱
  - 예) s['영이']로 했다면 '영이'는 행의 인덱스이다.
- 데이터프레임 인덱싱
  - 예) df['국어']로 했다면 '국어'는 열의 인덱스이다.

:::

- 데이타프레임을 리스트나 어레이로도 만들 수 있다.

In [None]:
scores = [[84,87,78], [21,15,84], [87,84,76], [100,87,99],[59,99,59],[46,77,56]]
d1 = pd.DataFrame(scores)
d1

- 데이터프레임에 옵션 index와 columns에 인덱스와 칼럼명을 직접 명시해줄 수도 있다.

In [None]:
scores = [[84,87,78], [21,15,84], [87,84,76], [100,87,99],[59,99,59],[46,77,56]]
names=['철수','영이','길동','미영','순이','철이']
lectures=['국어','수학','영어']
d2 = pd.DataFrame(scores, index=names, columns=lectures)
d2

- 딕셔너리를 데이터로 넣어 줄 수도 있다.

In [None]:
ScoresWithLectures={'국어':[84,21,87,100,59,46], '수학':[87,15,84,87,99,77], '영어':[78,84,76,99,59,56]}
names=['철수','영이','길동','미영','순이','철이']
d3 = pd.DataFrame(ScoresWithLectures, index=names)
d3

Unnamed: 0,국어,수학,영어
철수,84,87,78
영이,21,15,84
길동,87,84,76
미영,100,87,99
순이,59,99,59
철이,46,77,56




---



### 데이터프레임 확인
- 데이터프레임의 정보를 확인하기 위해 다음과 같은 변수 또는 메서드를 사용한다.
  - .shape: 모양을 확인한다.
  - .columns: 열이름을 확인한다.
  - head(): 데이터프레임의 맨 위 5개 행을 보여준다.
  - tail(): 데이터프레임의 맨 아래 5개 행을 보여준다.
  - info(): 칼럼명, Non-Null count, Dtype 정보를 보여준다.
  - isnull().sum(): 값이 없는(null) 갯수를 반환한다.

```
url='https://raw.githubusercontent.com/HaesunByun/Basic-Computing/main/titanic_test.csv'
titanic_test = pd.read_csv(url)
titanic_test
```
- passenger ID
- Pclass: 티켓 클래스. (1 = 1st, 2 = 2nd, 3 = 3rd)
- Name: 이름
- Sex: 성별
- Age: 나이(세)
- Sibsp (Siblings and spouse): 함께 탑승한 형제자매, 배우자 수 총합
- Parch (Parents and children): 함께 탑승한 부모, 자녀 수 총합
- Ticket: 티켓 번호
- Fare: 탑승 요금
- Cabin: 객실 번호
- Embarked: 탑승 항구

In [None]:
# titanic_test.shape
# titanic_test.columns
# titanic_test.head(3)
# titanic_test.tail()
# titanic_test.info()
# titanic_test.isnull().sum()

### 인덱스/칼럼명 변경
- .index를 이용하여 리스트 또는 배열로 인덱스를 넣어줘서 인덱스를 변경 또는 생성할 수 있다.

In [None]:
d3.index = ['학생1','학생2','학생3','학생4','학생5','학생6']
d3

- 인덱스의 일부만 변경하고자 할때에는
.rename(index={기존 index : 새 index, ...}, [inplace=True])을 사용한다.

In [None]:
d3.rename(index={'학생':'철수'}, inplace=True)
d3

- .columns를 이용하여 리스트 또는 배열로 칼럼명를 넣어줘서 칼럼명을 변경 또는 생성할 수 있다.

In [None]:
d3.columns = ['과목1', '과목2', '과목3']
d3

- 칼럼명의 일부만 변경하고자 할때에는
.rename(columns={기존 칼럼명 : 새 칼럼명, ...}, [inplace=True])을 사용한다.

In [None]:
d3.rename(columns={'과목1':'국어'}, inplace=True)
d3

### 열순서 변경

- 열순서를 변경하기 위해 인덱스와 칼럼명을 원래대로 다시 되돌려보자.

In [None]:
d3.index = ['철수','영이','길동','미영','순이','철이']
d3.columns = ['국어','수학','영어']

- 변경하고자 하는 순서대로 리스트로 만들어 넣어주면 순서를 변경할 수 있다.

In [None]:
a = ['국어','영어','수학']
d3[a]

- 오름차순 또는 내림차순(reverse=True)으로 순서를 만들어주고자 할때에는 sorted()함수를 이용하면 된다.

In [None]:
a = sorted(d3.columns)
d3[a]

### 데이터프레임 인덱싱과 슬라이싱

#### 데이터프레임명.iloc[]

- iloc는 index location의 약자로 위치 인덱스로만 인덱싱과 슬라이싱을 할 수 있다.
- .iloc[]을 사용하여 행추출/열추출/행렬추출을 해보자.
- 형식은 다음과 같다.
```
데이터프레임명.iloc[행 또는 행범위, 열 또는 열범위]
```
- 이때 행이든 열이든 범위가 아닌 하나만 명시했다면 그 결과는 시리즈로 나온다.
- 행과 열 모두 범위로 명시했다면 그 결과는 데이터프레임으로 나온다.



- 행추출
  - 열은 생략할 수 있다.

In [None]:
d3.iloc[2]
d3.iloc[2:3]

- 열추출
  - 행은 생략할 수 없다.

In [None]:
d3.iloc[:, 1]
#d3.iloc[:, 0:2]

- 행열 추출

In [None]:
d3.iloc[1:3, 0:2]

#### 데이터프레임명.loc[]
- 설정 인덱스로만 인덱싱과 슬라이싱을 할 수 있다.
- 사용하는 방법은 다음과 같다.

```
데이터프레임명.loc[행 또는 행범위, 열 또는 열범위]
```
- 이때 행이든 열이든 범위가 아닌 하나만 명시했다면 그 결과는 시리즈로 나온다.
- 행과 열 모두 범위로 명시했다면 그 결과는 데이터프레임으로 나온다.

- 행추출
  - 열은 생략할 수 있다.

In [None]:
d3.loc['길동']
d3.loc['길동':'순이']

- 열추출
  - 행은 생략할 수 없다.

In [None]:
d3.loc[:, '국어']
d3.loc[:, '국어':'수학']

- 행렬추출

In [None]:
d3.loc['철수':'영이', '국어':'수학']

#### 데이터프레임명
- 데이터프레임명만 사용하여 추출하는 방법이 조금 복잡하다.

- 행추출은 하나의 행을 추출하더라도 반드시 **슬라이싱**으로 해야 한다. 그렇지 않으면 열이름으로 인식해 에러가 난다.
```
데이터프레임명[행범위]
```

In [None]:
d3[2:3]
d3[2:5]
d3['길동':'길동']
d3['길동':'철이']

- 열추출은 반드시 **칼럼명으로만** 추출가능하다.
- 여러 칼럼을 추출할 때에는 **리스트**로 넣어준다.
```
데이터프레임명[열이름 또는 열이름 리스트]
```

In [None]:
d3['국어']
d3[['국어','수학']]

- 행렬추출은 **행렬의 대괄호 순서를 바꿀 수 있지만** 행추출, 열추출 제약사항이 그대로 적용된다.
  - 행추출은 **슬라이싱으로만!**
  - 열추출은 **칼럼명으로만!**
  - 여러 열을 추출할 때에는 **리스트로만!**
```
데이터프레임명[행범위][열이름 또는 열이름 리스트]
데이터프레임명[열이름 또는 열이름 리스트][행범위]
```

In [None]:
d3['길동':'미영'][['국어','수학']]
d3[2:4][['국어','수학']]

d3[['국어','수학']]['길동':'미영']
d3[['국어','수학']][2:4]

### 데이터프레임 행/열 추가, 수정, 삭제


- '컴기' 열을 추가해보자.
- '컴기'라는 칼럼이 없으면 추가되고, 있으면 수정이 된다.

In [None]:
comScore=[60, 70, 56, 74, 77, 66]
d3['컴기']= comScore
d3

Unnamed: 0,국어,수학,영어,컴기
철수,84,87,78,60
영이,21,15,84,70
길동,87,84,76,56
미영,100,87,99,74
순이,59,99,59,77
철이,46,77,56,66


- '나리' 행을 추가해보자.
- .loc[인덱스명]을 통해 추가할 수 있으며, '나리'행이 있으면 수정된다.

In [None]:
d3.loc['나리']= [80, 90, 87, 76]
d3

Unnamed: 0,국어,수학,영어,컴기
철수,84,87,78,60
영이,21,15,84,70
길동,87,84,76,56
미영,100,87,99,74
순이,59,99,59,77
철이,46,77,56,66
나리,80,90,87,76


- '컴기'열을 삭제해보자.

In [None]:
d3.drop('컴기', axis=1, inplace=True)
d3

Unnamed: 0,국어,수학,영어
철수,84,87,78
영이,21,15,84
길동,87,84,76
미영,100,87,99
순이,59,99,59
철이,46,77,56
나리,80,90,87


- '나리'행을 삭제해보자.

In [None]:
d3.drop('나리', axis=0, inplace=True)
d3

Unnamed: 0,국어,수학,영어
철수,84,87,78
영이,21,15,84
길동,87,84,76
미영,100,87,99
순이,59,99,59
철이,46,77,56


### 산술/비교연산 및 필터링
- 배열, 시리즈에서의 연산과 비슷하다.

In [None]:
d3.iloc[0] + d3.iloc[1]

In [None]:
d3['수학']+ d3['영어']

In [None]:
x = d3['수학'] > 60
d3[x]

Unnamed: 0,국어,수학,영어
철수,84,87,78
길동,87,84,76
미영,100,87,99
순이,59,99,59
철이,46,77,56


### 정렬하기
- sort_index()를 통해 인덱스를 기준으로 정렬한다.

In [None]:
d3.sort_index(ascending=True)

- 특정 칼럼명을 기준으로 정렬한다.

In [None]:
d3.sort_values(by = '국어', ascending=True)

## Practice -1: Chat-GPT로 Gapminder 데이터 활용해보기
- 유엔의 데이터를 바탕으로 5개 대륙, 총 142개 국가에 대한 인구 데이터 등이 5년 간격으로 담겨있으며 인구 예측, 부의 이동 등 특정 국가(군)별, 대륙별, 소득수준별 변화동향을 파악할 수 있다.

- 아래 사이트에서 gapminder.tsv파일을 코랩에서 불러와보자.

In [None]:
import pandas as pd
df=pd.read_csv("https://raw.githubusercontent.com/HaesunByun/common/main/data/gapminder.tsv",sep="\t")
df

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


### country열 추출하기

<img src="https://haesunbyun.github.io/common/images/talk.PNG" width="30">

- country,	continent, year, lifeExp, pop, gdpPercap 열을 가지고 있는 데이터프레임 df가 있어.
country열을 추출하는 코드를 파이썬으로 작성해줘

### country, continent, year 열 추출하기


### 2,4,6번째 행 데이터 추출하기

### 7~10행 데이터 중에서 country, lifeExp, gdpPercap 열의 데이터만 추출하기

## Practice-2: Chat-GPT로 조건에 맞는 데이터 찾아보기

- 아래 데이터로 데이터프레임을 만든 후 조건에 맞는 데이터를 찾아보세요.

```
김철수	남	60	전문직
김미영	여	62	기타
이수지	여	20	학생
홍길동	남	32	직장인
이철	남	45	자영업
```

### 여성고객 추출하기

### 나이가 60 이상인 여성 고객 명단 추출하기

### 30, 40대 고객 명단 추출하기


### 나이가 많은 사람부터 적은 사람 순서로 정렬하기

### 이름 순서로 정렬하기