<img src=https://i.ibb.co/7N5nnt9/001-2.jpg, width=600>

# Chat GPT에게 pandas 질문하기

강사 : 김판다

- 영상 링크 : [https://youtu.be/zKliUsqIWLA](https://youtu.be/zKliUsqIWLA)

## 1. 시작


pandas를 비롯한 데이터를 코딩으로 다룰 때 질문은 최소화(minimal)되고 재현가능한(reproducible) 예를 사용해 질문해야한다

이러한 질문으로 어떻게 문제를 해결할 수 있는지 ChatGPT를 이용해 질문하는 과정을 함께 해보자

##2. 실습에 사용할 데이터

오늘 수행할 작업

<img src=https://i.ibb.co/NWKxYRw/01.jpg, width=600>

위와 같은 데이터를 아래와 같이 바꾼다

- 숙련된 pandas 유저도 쉽지만은 않음

실습에 사용할 csv 파일 경로명
: https://raw.githubusercontent.com/panda-kim/csv_files/main/q_and_a.csv

In [1]:
# csv 파일 데이터 프레임으로 불러오기
import pandas as pd
url = 'https://raw.githubusercontent.com/panda-kim/csv_files/main/q_and_a.csv'
df = pd.read_csv(url)
df

Unnamed: 0,이름,나이,연차,연봉,언어,전공,지역,분야,col1,col2,col3,col4,col5,col6,col7
0,강승주,25,2,6200,Python/R/SQL,a1,b1,c1,d1,e1,f1,g1,h1,i1,j1
1,송중기,31,6,8100,Java/JavaScript,a2,b2,c2,d2,e2,f2,g2,h2,i2,j2
2,권보아,35,7,8500,C++/Python,a3,b3,c3,d3,e3,f3,g3,h3,i3,j3
3,김판다,56,20,15000,Java/JavaScript/Python/R/SQL,a4,b4,c4,d4,e4,f4,g4,h4,i4,j4


## 3. 예 만들기

df를 변환하는 질문을 하기 위해 최소화(minimal)되고 재현가능한(reproducible) 예를 코드로 만든다

<img src= https://i.ibb.co/Sn0Snf2/02.jpg, width=500>

In [2]:
# input의 코드
data = [['a1', 'A/B', 'b1'], ['a2', 'B', 'b2'], ['a3', 'A/B/C', 'b3']]
df_input = pd.DataFrame(data, columns=['col1', 'col2', 'col3'])
df_input

Unnamed: 0,col1,col2,col3
0,a1,A/B,b1
1,a2,B,b2
2,a3,A/B/C,b3


In [3]:
# output의 코드
data1 = [['a1', 1, 1, 0, 'b1'], ['a2', 0, 1, 0, 'b2'], ['a3', 1, 1, 1, 'b3']]
df_output = pd.DataFrame(data1, columns=['col1', 'A', 'B', 'C', 'col3'])
df_output

Unnamed: 0,col1,A,B,C,col3
0,a1,1,1,0,b1
1,a2,0,1,0,b2
2,a3,1,1,1,b3


## 4. ChatGPT에게 질문하기

ChatGPT 링크 : https://openai.com/blog/chatgpt

첫번째 질문 


```python
import pandas as pd
data = [['a1', 'A/B', 'b1'], ['a2', 'B', 'b2'], ['a3', 'A/B/C', 'b3']]
df_input = pd.DataFrame(data, columns=['col1', 'col2', 'col3'])

data1 = [['a1', 1, 1, 0, 'b1'], ['a2', 0, 1, 0, 'b2'], ['a3', 1, 1, 1, 'b3']]
df_output = pd.DataFrame(data1, columns=['col1', 'A', 'B', 'C', 'col3'])
```

df_input의 col2열의 문자열을 '/'로 분리해서 df_output과 같이 만드는 pandas 코드를 정확하고 간결한 코드로 알려줘

ChatGPT의 답변

```python
df_output = df_input['col2'].str.get_dummies(sep='/').join(df_input[['col1', 'col3']])
```
위 코드는 str.get_dummies() 메서드를 사용하여 col2 열을 "/"로 분리하고 이를 이진화(dummification)합니다. 그러면 A, B, C 열로 이루어진 데이터프레임이 생성됩니다. 이진화된 데이터프레임과 col1, col3 열로 이루어진 데이터프레임을 조인(join)하여 최종 결과 데이터프레임을 생성합니다.

In [4]:
# 첫번째 ChatGPT의 답변 코드 검증
df_input['col2'].str.get_dummies(sep='/').join(df_input[['col1', 'col3']])

Unnamed: 0,A,B,C,col1,col3
0,1,1,0,a1,b1
1,0,1,0,a2,b2
2,1,1,1,a3,b3


ChatGPT의 답변결과가 df_output과 열의 순서가 다르다는 점을 알 수 있다

물론 판다스 유저라면 `reindex` 또는 인덱싱으로 열의 순서를 바꿀 수 있겠지만 그렇지 못한 사람들을 위해 다시 질문하자

**두번째 질문**

위 답변에서 df_output의 열의 순서가 다른 것 같아. 열의 순서를 df_output과 똑같이 만들어줘

**두번째 답변**

죄송합니다. df_output과 열의 순서가 다르게 나왔습니다. 다음 코드를 사용하면 열의 순서를 맞출 수 있습니다.

```python
df_output = pd.concat([df_input['col1'], df_input['col2'].str.get_dummies(sep='/'), df_input['col3']], axis=1)
df_output.columns = ['col1', 'A', 'B', 'C', 'col3']
```

pd.concat() 함수를 사용하여 col2 열을 "/"로 분리하고 이를 이진화하는 과정은 이전과 같습니다. pd.concat() 함수의 axis 인자를 1로 설정하여 데이터프레임을 열 방향으로 병합하고, columns 속성을 사용하여 열 이름을 변경합니다. 이렇게 하면 열의 순서와 이름이 df_output과 동일한 데이터프레임이 생성됩니다.


In [5]:
# 두번째 답변도 불필요한 코드가 보인다 필요한 부분만 실행해보자 
pd.concat([df_input['col1'], df_input['col2'].str.get_dummies(sep='/'), 
           df_input['col3']], axis=1)

Unnamed: 0,col1,A,B,C,col3
0,a1,1,1,0,b1
1,a2,0,1,0,b2
2,a3,1,1,1,b3


df_output과 동일하니 이 코드를 기반으로 df를 해결하자

## 5. 문제해결

In [6]:
# 위 코드를 df에 맞게 적용하자
pd.concat([df.loc[:, '이름':'연봉'], df['언어'].str.get_dummies(sep='/'), 
           df.loc[:, '전공':]], axis=1)

Unnamed: 0,이름,나이,연차,연봉,C++,Java,JavaScript,Python,R,SQL,전공,지역,분야,col1,col2,col3,col4,col5,col6,col7
0,강승주,25,2,6200,0,0,0,1,1,1,a1,b1,c1,d1,e1,f1,g1,h1,i1,j1
1,송중기,31,6,8100,0,1,1,0,0,0,a2,b2,c2,d2,e2,f2,g2,h2,i2,j2
2,권보아,35,7,8500,1,0,0,1,0,0,a3,b3,c3,d3,e3,f3,g3,h3,i3,j3
3,김판다,56,20,15000,0,1,1,1,1,1,a4,b4,c4,d4,e4,f4,g4,h4,i4,j4


최소화(minimal)되고 재현 가능한(reproducible) 예를 만들 수 있다면 `str.get_dummies` 함수를 알정도로 모든 판다스 함수를 알지 않아도 손쉽게 문제 해결이 가능하다

물론 `concat`함수와 같은 기본적인 pandas함수는 알아야 한다

그렇지만 기본적인 함수를 아는 것 만으로 최고 레벨에 가깝게 pandas를 사용할 수 있다

기본 pandas 공부는 아래 채널을 참조 : https://www.youtube.com/channel/UCKsPvuqR7BucXi7umcUlmzg

기본 pandas 함수설명 블로그 : [김판다 블로그 함수설명](https://kimpanda.tistory.com/category/%ED%8C%90%EB%8B%A4%EC%8A%A4%EA%B0%95%EC%9D%98/%ED%8C%90%EB%8B%A4%EC%8A%A4%20%ED%95%A8%EC%88%98%EC%84%A4%EB%AA%85)