# Day-7: Chat-GPT를 활용한 데이터 분석



# I. Pandas-2

:::{admonition} 학습목표와 기대효과
:class: info  
- 학습목표
  - 파일 입출력 방법을 익혀보자.
  - 통계함수와 데이터 처리에 관련된 함수를 익혀보자.
  - ChatGPT를 활용하여 파이썬 코드를 작성해보자.
- 기대효과
  - ChatGPT와 pandas를 활용하여 다양한 데이터 연산 및 분석에 필요한 기능을 쉽고 빠르게 할 수 있다.

:::

## 파일 입출력

|파일 형식|읽기|쓰기|
|:----------:|:----------|:----------|
|MS Excel|read_excel| to_excel|
|CSV|read_csv| to_csv|
|JSON|read_json|to_json|
|HTML|read_html|to_html|
|Local clipboard|read_clipboard|to_clipboard|
|HDF5 format|read_hdf|to_hdf|
|SQL|read_sql|to_sql|

- csv 파일을 불러올 때
  - pd.read_csv('파일명', index_col=칼럼번호, encoding='인코딩방법')
    - index_col:칼럼번호를 설정인덱스로 지정한다.
    - usecols: 사용할 칼럼번호를 지정한다.
    - header: 헤더(칼럼)으로 선택할 헤더를 지정한다.
    - encoding: 한글이 깨질때에는 encoding 옵션에 'euc-kr'을 넣어준다.
    - 이 외에도 많은 옵션이 있다.

- excel파일을 불러올 때
  - pd.read_excel('파일명', encoding='인코딩방법')


:::{admonition} 인코딩 & 디코딩
:class: tip  
- 인코딩(encoding)는 코드화 또는 암호화로 불리우며, 문자열을 바이트코드로 변환하는 것을 의미한다.
- 파이썬에서는 문자열을 유니코드로 처리하는데 유니코드를 utf-8, euc-kr, ascii 형식의 인코딩방식을 사용하여 바이트코드로 변환한다. 예를 들어,
```
x='한글'
encoded = x.encode('utf-8')
print(f'Output: {encoded}')
```
Output: b'\xed\x95\x9c\xea\xb8\x80'

- 여기서 결과로 나온 b'\xed\x95\x9c\xea\xb8\x80'가 바이트 코드이다.

- 디코딩(decoding)은 역코드화 또는 복호화로 불리우며, 바이트코드를 문자열로 변환하는 것을 의미한다.
- 이때 디코딩에서도 인코딩 시 사용했던 것과 동일한 인코딩 방식(utf-8, euc-kr, ascii 등)이 사용되어야 한다.
```
decoded = encoded.decode('utf-8')
print(f'Output: {decoded}')
```
Output: 한글

- 인코딩을 하는 이유는 언어마다 표준화된 규격으로 문자집합을 만들고, 이러한 문자집합을 가지고 정보의 형태 표준화, 보안, 저장 공간 절약 등의 다양한 목적으로 부호화하여 사용하기 위한 것이다.

:::

- 파일 읽고 저장하기

In [None]:
import pandas as pd
scores = [[84,87,78], [21,15,84], [87,84,76], [100,87,99],[59,99,59],[46,77,56]]
names=['철수','영이','길동','미영','순이','철이']
lectures=['국어','수학','영어']
d1 = pd.DataFrame(scores, index=names, columns=lectures)
d1

In [None]:
# 엑셀로 저장하기
d1.to_excel('sample.xlsx', encoding='euc-kr')

In [None]:
# 엑셀 읽어오기
d2 = pd.read_excel("sample.xlsx")
d2

In [None]:
d2 = pd.read_excel("sample.xlsx", index_col=0)
d2

In [None]:
# csv로 저장하기
d2.to_csv('sample.csv', encoding='euc-kr')

## 통계함수 적용하기

- mean(): 평균값

In [None]:
d1.mean()

- median(): 주어진 값들을 크기 순서대로 정렬했을 때 가장 중앙에 위치하는 값
- 값이 짝수일때는 중앙에 있는 두 값의 평균

In [None]:
d1['영어'].median()

- max(): 최댓값
- min(): 최솟값

In [None]:
print(d1['영어'].max())
print(d1['국어'].min())

- var():분산, 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다.
- std():표준편차, 분산을 제곱근한 것

In [None]:
print(d1.var())
print(d1.std())

- corr(): 상관계수, 두 변수간의 관계강도를 나타냄

In [None]:
d1.corr()

## 자료형 다루기
- .astype(자료형)

In [None]:
d1.astype('str')

## 누락값 처리하기


- 누락 데이터 확인
  - isnull(): 누락 데이터이면 True, 유효한 데이터이면 False를 반환
  - notnull():유효한 데이터이면 True, 누락데이터이면 False를 반환

In [None]:
scores = [[84,87,78], [21,15,84], [87,84,76], [100,87,99],[59,99,59],[46,77,56]]
names=['철수','영이','길동','슬기','순이','철이']
lectures=['국어','수학','영어']
d2 = pd.DataFrame(scores, index=names, columns=lectures)
d2

In [None]:
d3=d1+d2
d3

In [None]:
d3.isnull()
#d3.notnull()

- 누락 데이터 제거
  - 행제거: .dropna(subset=칼럼명, how='any'/'all', axis=0, thresh=개수)
  - 열제거: .dropna(axis=1, thresh=개수)
  - thresh: 유효한 값의 개수가 thresh보다 작은 행이나 열을 삭제

In [None]:
d3

In [None]:
d4=d3.dropna(axis=0)
d4

- 누락 데이터 치환
  - .fillna(값)

In [None]:
min_kor = d3['국어'].min()
d3['국어'].fillna(min_kor, inplace=True)
d3

## 중복데이터 처리

- .duplicated(): 중복 확인


In [None]:
d3

In [None]:
d3.duplicated()

In [None]:
d3['국어'].duplicated()

- 중복행 제거:  .drop_duplicates(subset=컬럼명리스트)

In [None]:
d3

In [None]:
d3.drop_duplicates(subset=['국어', '영어'])

## 시계열 데이터
- 다른 자료형을 시계열 객체로 변환
- to_datetime(): 문자열을 timestamp로 변환

In [None]:
data = [['1990-03-02', 90], ['1991-08-08', 95], ['1990-11-22',90], ['1991-01-05', 88]]
names=['철수','영이','길동','미영']
column=['생년월일','점수']
d1 = pd.DataFrame(data, index=names, columns=column)
d1

Unnamed: 0,생년월일,점수
철수,1990-03-02,90
영이,1991-08-08,95
길동,1990-11-22,90
미영,1991-01-05,88


In [None]:
d1.info()

In [None]:
d1['생년월일'] = pd.to_datetime(d1['생년월일'])
d1

In [None]:
d1.info()

- 시계열 데이터 활용
  - 날짜 데이터 분리: 연-월-일 정보에서 연,월,일 추출: dt.year, dt.month, dt.day를 사용

In [None]:
d1['년'] = d1['생년월일'].dt.year
d1['월'] = d1['생년월일'].dt.month
d1['일'] = d1['생년월일'].dt.day
d1

Unnamed: 0,생년월일,점수,년,월,일
철수,1990-03-02,90,1990,3,2
영이,1991-08-08,95,1991,8,8
길동,1990-11-22,90,1990,11,22
미영,1991-01-05,88,1991,1,5


  - 연-월-일 정보에서 연-월 등 추출: dt.to_period()를 사용

In [None]:
d1['년월'] = d1['생년월일'].dt.to_period(freq='M')
d1

Unnamed: 0,생년월일,점수,년,월,일,년월
철수,1990-03-02,90,1990,3,2,1990-03
영이,1991-08-08,95,1991,8,8,1991-08
길동,1990-11-22,90,1990,11,22,1990-11
미영,1991-01-05,88,1991,1,5,1991-01


- 날짜 인덱스 활용

In [None]:
d2 = d1.set_index('생년월일')
d2

Unnamed: 0_level_0,점수,년,월,일,년월
생년월일,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1990-03-02,90,1990,3,2,1990-03
1991-08-08,95,1991,8,8,1991-08
1990-11-22,90,1990,11,22,1990-11
1991-01-05,88,1991,1,5,1991-01


In [None]:
d2['1990']

  d2['1990']


Unnamed: 0_level_0,점수,년,월,일,년월
생년월일,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1990-03-02,90,1990,3,2,1990-03
1990-11-22,90,1990,11,22,1990-11


In [None]:
d2['1990-03']

In [None]:
d2['1990-01':'1990-12']

In [None]:
today = pd.to_datetime('2024-03-14')
today

Timestamp('2024-03-14 00:00:00')

In [None]:
d2['날짜_차이'] = today-d2.index
d2

## melt()를 이용한 데이터 정리
- 넓은 데이터: 데이터의 열 이름이 어떤 값을 의미하면 열의 폭이 넓은 경우가 많음
- melt()메서드는 지정한 열의 데이터를 모두 행으로 정리해준다.
  - id_vars: 위치를 그대로 유지할 열의 이름을 지정
  - value_vars: 행으로 위치를 변경할 열의 이름을 지정
  - var_name: value_vars로 위치를 변경한 열의 이름을 지정
  - value_name: var_name으로 위치를 변경한 열의 데이터를 저장한 열의 이름을 지정

In [None]:
a = ['religion', '<$10k', '$10-20k', '$20-30k', '$30-40k', '$40-50k', '$50-75k', \
'$75-100k','$100-150k', '>150k', "Don't know/refused"]

data =[['Agnostic', 27, 34, 60, 81, 76, 137, 122, 109, 84, 96],\
       ['Atheist', 12, 27, 37, 52, 35, 70, 73, 59, 74, 76], \
       ['Buddhist', 27, 21, 30, 34, 33, 58, 62, 39, 53, 54], \
       ['Catholic', 418, 617, 732, 670, 638, 1116, 949, 792, 633, 1489], \
       ["Don't know/refused", 15, 14, 15, 11, 10, 35, 21, 17, 18, 116]]
df=pd.DataFrame(data, columns=a)
df


Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,$75-100k,$100-150k,>150k,Don't know/refused
0,Agnostic,27,34,60,81,76,137,122,109,84,96
1,Atheist,12,27,37,52,35,70,73,59,74,76
2,Buddhist,27,21,30,34,33,58,62,39,53,54
3,Catholic,418,617,732,670,638,1116,949,792,633,1489
4,Don't know/refused,15,14,15,11,10,35,21,17,18,116


- 1개의 열만 고정하고 나머지 열을 행으로 바꾸기

In [None]:
pew_long = pd.melt(df, id_vars='religion', var_name='income', value_name='count')
pew_long

## 피벗 테이블을 이용한 데이터 정리
- 피벗 테이블: 대화형 테이블의 일종으로, 데이터의 나열 형태에 따라서 집계나 카운트 등의 계산을 하는 기능
- .pivot_table(df, index=인덱스리스트, values=값리스트)

- https://raw.githubusercontent.com/HaesunByun/common/main/data/salesfunnel.xlsx

In [None]:
df = pd.read_excel('https://raw.githubusercontent.com/HaesunByun/common/main/data/salesfunnel.xlsx')
df

- 특별히 지정하지 않으면 Name을 기준으로 숫자형 데이터 컬럼들이 남게 됨

In [None]:
pd.pivot_table(df, index=['Name'])

- value를 pivot_table로 합친 경우 평균치가 기본이 됨

In [None]:
pd.pivot_table(df, index=['Manager', 'Rep'], values=['Price'])

- value의 값을 합산으로 하고 싶을 때 aggfunc옵션에 sum함수의 이름을 쓴다.

In [None]:
pd.pivot_table(df, index=['Manager', 'Rep'], values=['Price'], aggfunc=sum)

## Practice-1: Chat-GPT로 서울인구데이터 활용해보기
- https://raw.githubusercontent.com/HaesunByun/common/main/data/population_in_Seoul.txt

https://data.seoul.go.kr/
<br>
검색어: 서울시 자치구별 인구수

### 😄 데이타프레임 생성하기
```
주민등록인구_20240509110416.xlsx 파일에서 3번째 행을 header로 하여 1,3,6,9,13번째 열을 가져와서 데이터프레임으로 만드는 파이썬 코드를 작성해줘!
```



### 😄 데이타프레임 칼럼명 변경하기
```
데이터프레임의 칼럼명을 ['구별', '인구수', '한국인', '외국인', '고령자']로 변경해줘
```

### 😄 데이타프레임 인덱스 설정하기
```
데이터프레임에서 '구별'이라는 칼럼을 인덱스로 설정해줘
```


### 😄 불필요한 행 삭제하기
```
데이터프레임에서 1번째 행(합계 데이터)을 삭제하는 파이썬 코드를 작성해줘
```

### 😄 값 구하기
```
각 구별 한국인의 비율 구하기 : 데이타프레임에 '인구수'와 '한국인' 컬럼이 있는데 모든 행에 대해 한국인 비율을 구하는 파이썬 코드를 작성해줘
각 구별 외국인의 비율 구하기
각 구별 고령자의 비율 구하기
```

### 😄 값에 따라 정렬하기
```
'인구수' 칼럼이 있는데 인구수가 많은 행부터 내림차순으로 정렬하는 파이썬 코드를 작성해줘
- 인구수가 적은 순서대로 5개 구 출력하기
- 외국인 수 내림차순 정렬하기
- 고령자 비율 오름차순 정렬하기
```

### 😄 데이타프레임 필요한 통계내기
```
- 인구수 최대값 구하기: 데이타프레임의 '인구수'칼럼에서 가장 큰 값을 찾는 파이썬 코드를 작성해줘
- 인구수 최소값 구하기
```

```
- 인구수와 고령자수 간의 상관 관계 구하기
```

## Practice-2: Chat-GPT로 BMI 지수와 비만도 결정하기

### 😄 데이터프레임 생성하기

주어진 링크를 통해 데이터를 데이터프레임으로 가져와 주세요.

https://raw.githubusercontent.com/HaesunByun/common/main/data/Height_Weight_Index.csv


In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/HaesunByun/common/main/data/Height_Weight_Index.csv', delimiter=',')
df

Unnamed: 0,Gender,Height,Weight
0,Male,174,96
1,Male,189,87
2,Female,185,110
3,Female,195,104
4,Male,149,61
...,...,...,...
495,Female,150,153
496,Female,184,121
497,Female,141,136
498,Male,150,95


### 😄 BMI 지수 생성하기
BMI 지수를 나타내는 "BMI" 열을 만든 뒤 남자, 여자의 BMI 평균을 출력하시오.

BMI 지수는 다음과 같이 계산할 수 있습니다.
```
BMI = 체중(kg) ÷ {신장(m) × 신장(m)}
```
---
Output Sample
```
남자 BMI 평균: 38.15
여자 BMI 평균: 37.39
```

### 😄 비만도 결정

BMI 지수에 따라 다음과 같이 비만도를 결정할 수 있습니다.
```
저체중 : BMI 18.5 이하
정상 : BMI 18.5 초과 23 이하
과체중 : BMI 23 초과 25 이하
비만 : BMI 25 초과
```

비만도를 나타내는 "Obesity" 열을 위의 조건에 맞게 만든 후 성별과 비만도에 따른 사람의 수를 count하여 출력해보시오. 사람의 수를 count할 열은 bmi로 주세요.

Hint : groupby 사용하기

---
DataFrame Sample
```
Gender	Height	Weight	bmi
0	Male	174	96	31.708284
1	Male	189	87	24.355421
2	Female	185	110	32.140248
3	Female	195	104	27.350427
```
Output Sample
```
Gender  obesity
Female  과체중         11
        비만          204
        저체중         13
        정상           27
Male    과체중          8
        비만          196
        저체중         21
        정상           20
```

```
😄 Obesity 칼럼에 BMI 칼럼 값에 따라 저제중, 정상, 과체중, 비만으로 분류하여 저장하는 파이썬 코드를 작성해줘
```

```
😄 위에서 만든 Obesity 칼럼 값에 따라 성별과 비만도에 따른 사람의 수를 카운트하는 파이썬 코드를 작성해줘
```

## Practice-3: Chat-GPT로 범죄데이터 분석하기

### 😄 데이터프레임 생성하기
- https://raw.githubusercontent.com/HaesunByun/common/main/data/crime_in_seoul.csv

- csv 파일을 읽어서 데이터프레임 객체로 만들기 (인코딩은 ‘euc-kr’로 읽어오기)

In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/HaesunByun/common/main/data/crime_in_seoul.csv', encoding='euc-kr')
df

### 😄 데이터 추출하기
```
구분, 죄종, 발생검거, 건수 칼럼을 가진 데이터프레임이 있어 죄종에서 살인이 10건 이상 발생한 행을 추출해줘
```

Unnamed: 0,구분,죄종,발생검거,건수
90,영등포,살인,발생,17
91,영등포,살인,검거,15
190,강서,살인,발생,11


### 😄 합계구하기1
```
발생검거 칼럼에서 살인의 발생, 검거에 대한 합계를 구해줘
```

'살인'의 '발생' 합계: 143
'살인'의 '검거' 합계: 137


### 😄 합계구하기2
```
죄종에 따른 발생, 검거 건수 합계를 구해줘
```

## Practice-4: Chat-GPT로 주유소 가격 분석하기

### 😄 데이터프레임 생성하기
- https://raw.githubusercontent.com/HaesunByun/common/main/data/gas_stations.csv


In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/HaesunByun/common/main/data/gas_stations.csv', encoding='euc-kr')
df


Unnamed: 0.1,Unnamed: 0,상호,주소,가격,셀프,상표,구
0,0,구천면주유소,서울 강동구 구천면로 357 (암사동),1585.0,N,현대오일뱅크,강동구
1,1,지에스칼텍스㈜ 동서울주유소,서울 강동구 천호대로 1456 (상일동),1595.0,Y,GS칼텍스,강동구
2,2,주)지유에너지직영 오렌지주유소,서울 강동구 성안로 102 (성내동),1596.0,N,SK에너지,강동구
3,3,천호현대주유소,서울 강동구 천중로 67 (천호동),1596.0,N,현대오일뱅크,강동구
4,4,지에스칼텍스㈜ 신월주유소,서울 강동구 양재대로 1323 (성내동),1598.0,N,GS칼텍스,강동구
...,...,...,...,...,...,...,...
487,487,(주)소모에너지엔테크놀러지 쎈트럴주유소,서울 강남구 삼성로 335 (대치동),1998.0,N,GS칼텍스,강남구
488,488,(주)만정에너지,서울 강남구 봉은사로 433 (삼성동),1999.0,N,GS칼텍스,강남구
489,489,금성주유소,서울 강남구 테헤란로 619 (삼성동),1999.0,N,SK에너지,강남구
490,490,오천주유소,서울 강남구 봉은사로 503 (삼성동),1999.0,N,SK에너지,강남구


- 상호를 인덱스로 설정하기

- Unnamed: 칼럼 없애기

### 😄 구별 평균 주유 가격 추출하기


### 😄 주유 가격이 저렴한 순서대로 10개 주유소 추출하기