## 판다스(Pandas)
https://pandas.pydata.org/docs/user_guide/index.html
- 파이썬에서 데이터 분석과 조작을 위한 핵심 라이브러리입니다.
- 엑셀처럼 표 형태의 데이터를 다루지만 훨씬 강력하고 유연한 기능을 제공합니다.
  - 1차원은 '시리즈'라고 부릅니다.
  - 2차원은 '데이터프레임'으로 부릅니다.

In [None]:
!pip list | grep pandas

geopandas                             1.1.1
pandas                                2.2.2
pandas-datareader                     0.10.0
pandas-gbq                            0.29.2
pandas-stubs                          2.2.2.240909
sklearn-pandas                        2.2.0


### 1. Series
- 1차원 데이터 구조로 리스트나 배열과 유사하지만 인덱스(index)를 포함하여 저장합니다.
  - 인덱스를 통해 값을 빠르게 접근 가능
  - 엑셀의 한열(column)과 비슷한 구조

In [None]:
import pandas as pd

In [None]:
# 산업별 AI 도입률(%)
industry =  ['제조업', '금융업', '의료업', '물류업', '교육업']
rates =  [35.2, 48.7, 42.1, 29.5, 25.3]
print('type(industry) :',type(industry))

type(industry) : <class 'list'>


In [None]:
# 리스트 데이터를 pd.Series(데이터) 로 실행하면 시리즈 생성됩니다.
ser1=pd.Series(industry)
ser1

Unnamed: 0,0
0,제조업
1,금융업
2,의료업
3,물류업
4,교육업


In [None]:
print('ser1.index :',ser1.index)
print('ser1.values =',ser1.values)
print('type(ser1.index) :',type(ser1.index))
print('type(ser1.values) :',type(ser1.values))    # 값은 넘파이의 ndarray 기반으로 저장

ser1.index : RangeIndex(start=0, stop=5, step=1)
ser1.values = ['제조업' '금융업' '의료업' '물류업' '교육업']
type(ser1.index) : <class 'pandas.core.indexes.range.RangeIndex'>
type(ser1.values) : <class 'numpy.ndarray'>


In [None]:
ser1=pd.Series(rates)
print(ser1)
ser1[2]   # 넘파이 실수 타입(스칼라)

0    35.2
1    48.7
2    42.1
3    29.5
4    25.3
dtype: float64


np.float64(42.1)

In [None]:
# print(ser1)으로 출력하면
print(ser1)

# 표로 만들어서 출력하려면
from IPython.display import display
display(ser1)

0    35.2
1    48.7
2    42.1
3    29.5
4    25.3
dtype: float64


Unnamed: 0,0
0,35.2
1,48.7
2,42.1
3,29.5
4,25.3


In [None]:
# 기존의 순차적인 인덱스 값 대신에 '레이블'을 사용할 수 있음.
# 레이블은 문자열 형태의 인덱스. 인덱스는 리스트로 전달
ser1 = pd.Series(rates, index=industry, name='산업별 AI 도입률')
ser1

Unnamed: 0,산업별 AI 도입률
제조업,35.2
금융업,48.7
의료업,42.1
물류업,29.5
교육업,25.3


In [None]:
# 인덱스가 0,1,2,3 에서 지정된 문자열 리스트로 바뀜
ser1['제조업']

np.float64(35.2)

In [None]:
type(ser1)

- 딕셔너리로 시리즈 생성

In [None]:
# 딕셔너리로 시리즈 생성
# ↪ 딕셔너리의 key list 로 인덱스 지정
data = {
    '제조업': 35.2,
    '금융업': 48.7,
    '의료업': 42.1,
    '물류업': 29.5,
    '교육업': 25.3
}
print(type(data))
ai_adoption_rate = pd.Series(data,name='산업별 AI 도입률')
ai_adoption_rate

<class 'dict'>


Unnamed: 0,산업별 AI 도입률
제조업,35.2
금융업,48.7
의료업,42.1
물류업,29.5
교육업,25.3


### 2. 데이터 프레임
- 2차원 테이블 형태의 데이터 구조로 여러개의 시리즈가 모여 만들어집니다.
  - 행(row) 과 열(column) 로 구성된 구조
  - 다양한 데이터 타입을 열마다 다르게 가질 수 있음
  - 엑셀 시트와 유사한 형태
- 리스트와 딕셔너리를 데이터 프레임으로 생성하기

In [None]:
# 딕셔너리 데이터
# ↪ key 가 데이터프레임의 열(컬럼)
dict_data = {
    '산업군': ['제조업', '금융업', '의료업', '물류업', '교육업'],
    '도입 기업 수': [1200, 850, 430, 670, 310],
    '평균 투자액': [3.2, 5.5, 4.1, 2.8, 1.9]
}
df = pd.DataFrame(dict_data)
df

Unnamed: 0,산업군,도입 기업 수,평균 투자액
0,제조업,1200,3.2
1,금융업,850,5.5
2,의료업,430,4.1
3,물류업,670,2.8
4,교육업,310,1.9


In [23]:
# 리스트 데이터
# ↪  리스트 모양 그대로 데이터프레임 생성
list_data = [['제조업',1200,3.2],
        ['금융업',850,5.5],
        ['의료업',430,4.1],
        ['물료업',670,2.8],
        ['교육업',310,1.9]]

# 컬럼은 별도로 지정. 원하는 리스트 전달.
df = pd.DataFrame(list_data, columns=['산업군','도입 기업 수','평균 투자액'])
df

Unnamed: 0,산업군,도입 기업 수,평균 투자액
0,제조업,1200,3.2
1,금융업,850,5.5
2,의료업,430,4.1
3,물료업,670,2.8
4,교육업,310,1.9


In [None]:
list_data = [[1200,3.2],
        [850,5.5],
        [430,4.1],
        [670,2.8],
        [310,1.9]]
# 인덱스를 별도로 지정.
industry =  ['제조업', '금융업', '의료업', '물류업', '교육업']
df = pd.DataFrame(list_data, columns=['도입 기업 수','평균 투자액'],index=industry)
df

Unnamed: 0,도입 기업 수,평균 투자액
제조업,1200,3.2
금융업,850,5.5
의료업,430,4.1
물류업,670,2.8
교육업,310,1.9


### 3. 직렬화 / 역직렬화
- 직렬화는 파일에 저장할 목적 또는 네트워크로 보낼 때(쓰기)
- 역직렬화는 파일의 내용 읽기 또는 네트워크로 수신된 내용 확인(읽기)
##### 직렬화 파일 형식
-

- 파이썬 객체를 그대로 저장

In [None]:
pd.to_pickle(df,'df.pkl')

In [None]:
df2 = pd.read_pickle('df.pkl')    # 파일에 저장된 것을 읽어서 df2 로 역직렬화
df2

Unnamed: 0,도입 기업 수,평균 투자액
제조업,1200,3.2
금융업,850,5.5
의료업,430,4.1
물류업,670,2.8
교육업,310,1.9


- JSON 파일로 저장하기

In [None]:
# 한글 저장 형태 확인 : 기본은 유니코드값으로 저장
# df.to_json('df.json')
df.to_json('df.json',force_ascii=False)

- CSV 파일로 저장하기

In [None]:
# 한글 저장 형태 확인
# df.to_csv('df.csv')
# 메모장에서는 유니코드, 엑셀은 cp949 (엑셀에서 열기하려면 인코딩하기)
df.to_csv('df.csv',encoding='cp949')

- 내 Google Drive 에 저장

In [None]:
# 코랩에 Google Drive 마운트
import sys
from google.colab import drive

drive.mount('/content/drive')

In [None]:
# 내 Google Drive 에 파일 저장
dir = '/content/drive/MyDrive/AI Lesson'
sys.path.append(dir)
df.to_csv(f'{dir}/test_df.csv')
# ↪ 해당 폴더에 가서 새로고침

### 4. 정렬
- 시리즈
  - 1차원이므로 정렬 기준 인자가 필요없음

In [None]:
ser1.sort_values()

Unnamed: 0,산업별 AI 도입률
교육업,25.3
물류업,29.5
제조업,35.2
의료업,42.1
금융업,48.7


- 데이터프레임
  - 2차원이므로 여러개 컬럼 중 정렬 기준 인자가 필요
  - 새로운 데이터프레임 리턴

In [24]:
# 기존 df
df

Unnamed: 0,산업군,도입 기업 수,평균 투자액
0,제조업,1200,3.2
1,금융업,850,5.5
2,의료업,430,4.1
3,물료업,670,2.8
4,교육업,310,1.9


In [25]:
# df.sort_values()
# 오류 - missing 1 required positional argument: 'by'
sort_df = df.sort_values(by='도입 기업 수')
sort_df

Unnamed: 0,산업군,도입 기업 수,평균 투자액
4,교육업,310,1.9
2,의료업,430,4.1
3,물료업,670,2.8
1,금융업,850,5.5
0,제조업,1200,3.2


In [39]:
df.sort_values(by='도입 기업 수',inplace=True,ascending=False)
# inplace=True : 기존 df 를 변경
# ascending=False : 내림차순
df

Unnamed: 0,산업군,도입 기업 수,평균 투자액
0,제조업,1200,3.2
1,금융업,850,5.5
3,물료업,670,2.8
2,의료업,430,4.1
4,교육업,310,1.9


In [40]:
# df.sort_values(by='평균투자액')   # 띄어쓰기 주의
# 오류 - KeyError: '평균투자액'
df.sort_values(by='평균 투자액')

Unnamed: 0,산업군,도입 기업 수,평균 투자액
4,교육업,310,1.9
3,물료업,670,2.8
0,제조업,1200,3.2
2,의료업,430,4.1
1,금융업,850,5.5


In [41]:
# 정렬을 해도 기존 df 는 변경안됨
df

Unnamed: 0,산업군,도입 기업 수,평균 투자액
0,제조업,1200,3.2
1,금융업,850,5.5
3,물료업,670,2.8
2,의료업,430,4.1
4,교육업,310,1.9


### 5. 데이터 통계
- 데이터 통계 요약

In [36]:
# 소수점 이하 기본 6자리 -> 커스텀 설정
pd.options.display.float_format='{:.2f}'.format
# ↪ ser1,df 객체 함수,메소드에 적용
# ↪ pd.to_csv() 에는 적용 안됩니다. 변수에 저장한 값 그대로...

In [42]:
# 시리즈
ser1.describe()
# rates =  [35.2, 48.7, 42.1, 29.5, 25.3]

Unnamed: 0,산업별 AI 도입률
count,5.0
mean,36.16
std,9.43
min,25.3
25%,29.5
50%,35.2
75%,42.1
max,48.7


In [46]:
# 데이터프레임
df.describe()

Unnamed: 0,도입 기업 수,평균 투자액
count,5.0,5.0
mean,692.0,3.5
std,352.87,1.37
min,310.0,1.9
25%,430.0,2.8
50%,670.0,3.2
75%,850.0,4.1
max,1200.0,5.5


- 행을 일부분 추출
  - 정렬된 데이터로 활용. 값의 분포를 대략적 확인

In [43]:
df.head(2)   # 기본값 5개

Unnamed: 0,산업군,도입 기업 수,평균 투자액
0,제조업,1200,3.2
1,금융업,850,5.5


In [44]:
df.tail(2)  # 기본값 5개

Unnamed: 0,산업군,도입 기업 수,평균 투자액
2,의료업,430,4.1
4,교육업,310,1.9


- 데이터의 정보(컬럼정보,형식,값의 특징)

In [45]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   산업군      5 non-null      object 
 1   도입 기업 수  5 non-null      int64  
 2   평균 투자액   5 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 160.0+ bytes
