# 2-2. DataFrame 기본

## 1. Pandas 사용 준비
**(1) 패키지 설치**: !pip install pandas\
**(2) 패키지 및 함수 호출**: import, from, as
> - import: 모듈 또는 함수 호출, 콤마 사용하여 여러 개 동시 호출 가능
> - from: 모듈의 일부 함수 또는 패키지만 호출, 구두점(.)을 활용하여 함수의 위치를 구체적으로 지정
> - as: 호출하는 대상의 약칭 설정\


[용어 정리]
- 패키지: 여러 모듈을 묶은 폴더
- 모듈: 함수, 변수 등을 포함하는 파일
- 함수: 특정 작업을 수행하는 코드 블록

In [1]:
import pandas as pd # pandas 호출, pd 약칭으로 사용

## 2. DataFrame 선언하기
**(1) 판다스 데이터 구조**: Series(1차원 배열), DataFrame(2차원 배열)\
**(2) 데이터 타입**: list, dictionary, ndarray
> - List: **순서가 있으며 변경 가능한 다양한 자료형의 요소를 저장**할 수 있는 파이썬의 기본 시퀀스 자료형
> - Dictionary: **키와 값의 쌍으로 데이터를 저장**하며, 키를 통해 빠르게 값을 조회할 수 있는 **비순서형 자료형**
> - ndarray: NumPy에서 제공하는 다차원 배열 객체로, **동일한 자료형의 요소**를 효율적으로 저장하고 고속 수치 연산이 가능

In [6]:
pd.Series({'idx 1':'kor', 'idx 2':'math'}, name='class') # Series 선언하기

idx 1     kor
idx 2    math
Name: class, dtype: object

In [7]:
import numpy as np
# dataframe 선언하기 - 방법1
dataset = np.array([['kor', 70], ['math',80]])
df = pd.DataFrame(dataset, columns=['class','score'])
df

Unnamed: 0,class,score
0,kor,70
1,math,80


In [8]:
# dataframe 선언하기 - 방법2
df = pd.DataFrame([['kor',70],['math',80]],columns=['class','score'])
df

Unnamed: 0,class,score
0,kor,70
1,math,80


In [11]:
# dataframe 선언하기 - 방법3
df = pd.DataFrame({'class':['kor','math'],'score':[70,80]})
df

Unnamed: 0,class,score
0,kor,70
1,math,80


## 3. DataFrame 읽고 저장하기
(1) 읽기: pandas.read_csv() 함수\
(2) 저장하기: 데이터명.to_csv() 함수

In [14]:
filepath = 'C:/Users/hawan/data study/python/dataset/data/cats.csv' # 파일 이름과 경로는 /, \\를 사용하여 연결
data = pd.read_csv(filepath, na_values='NA', encoding='utf8')
# na_values는 null값이 빈칸이 아닌 string값으로 저장된 경우 사용
# 데이터에 한국어가 포함된 경우 'utf8'로 인코딩
data

Unnamed: 0,Sex,Bwt,Hwt
0,F,2.0,7.0
1,F,2.0,7.4
2,F,2.0,9.5
3,F,2.1,7.2
4,F,2.1,7.3
...,...,...,...
139,M,3.7,11.0
140,M,3.8,14.8
141,M,3.8,16.8
142,M,3.9,14.4


In [16]:
data.to_csv('C:/Users/hawan/data study/python/dataset/data/result.csv', header=True, index=True, encoding='utf8')
# header(컬럼명), index 함께 저장 가능
# 한국어 데이터일 때 utf8로 인코딩

## 4. DataFrame 출력
(1) 데이터프레임 호출\
(2) head(), tail() 함수 사용\
(3) 모든 행 또는 열을 출력할 때
> - pandas.set_option('display.max_columns', None) # 모든 열 출력
> - pandas.set_option('display.max_rows', None) # 모든 행 출력

In [19]:
from sklearn.datasets import load_iris
iris = load_iris()
iris = pd.DataFrame(iris.data, columns=iris.feature_names)
iris

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [22]:
iris.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [21]:
iris.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


## 5. DataFrame 요약 및 통계정보 확인하기
(1) info() 함수: 총 데이터의 건수, 각 컬럼의 데이터 형식, 결측치의 건수 확인\
(2) describe() 함수: 수치형 컬럼이 존재하는 경우, 데이터 개수, n-percentile 분포도, 평균값, 표준편차, 최댓값, 최솟값 확인 가능

In [24]:
iris.info()
# 결과 해석: dataframe 객체, 150개의 행과 4개의 컬럼, 각 컬럼의 이름, 모든 컬럼은 결측값이 없음, 모든 컬럼의 데이터 타입은 float64(실수형 데이터)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


In [25]:
iris.describe()
# sepal length와 petal width의 크기 차이가 큼 > 회귀분석 수행 시 크기가 작은 변수가 분석 모델에 미치는 영향력이 적을 수 있음
# 이는 모델링 전 전처리 과정에서 변수의 '정규화'를 수행하는 근거가 됨

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


## 6. DataFrame 인덱스 확인, 추가, 리셋
(1) list 또는 numpy의 array 형식을 사용\
(2) set_index(): DataFrame 내의 열을 인덱스로 변경 가능
> **DataFrame.set_index(keys, drop=True, append=False, inplace=True)**
> - keys: 필수, 인덱스로 사용하고자 하는 컬럼의 이름을 문자형으로 입력
> - drop: 선택, 인덱스로 세팅한 컬럼을 DataFrane 내에서 삭제할지를 결정
> - append: 선택, 기존에 존재하던 인덱스를 삭제할지(false), 컬럼으로 추가할지를 결정(true)
> - inplace: 선택, 원본 객체를 변경할지를 결정

(3) reset_index(): 인덱스를 0부터 시작하는 정수로 재설정 가능
>  **DataFrame.reset_index(drop=False, inplace=False)**

In [29]:
df.index

RangeIndex(start=0, stop=2, step=1)

In [30]:
list(df.index) # 인덱스 확인

[0, 1]

In [32]:
df.index=['A','B'] # 인덱스 수정
df.index

Index(['A', 'B'], dtype='object')

In [33]:
df

Unnamed: 0,class,score
A,kor,70
B,math,80


In [42]:
df = pd.DataFrame({'class':['kor','math'],'score':[70,80]})
df.set_index('class', drop=True, append=False, inplace=True)
df

Unnamed: 0_level_0,score
class,Unnamed: 1_level_1
kor,70
math,80


In [52]:
df = pd.DataFrame({'class':['kor','math'],'score':[70,80]})
df.index=['A','B']
df.reset_index(drop=True, inplace=True)
df

Unnamed: 0,class,score
0,kor,70
1,math,80


## 7. DataFrame 컬럼명 확인 및 변경
(1) DataFrame.columns\
(2) DataFrame.columns.str.replace('기존문자', '대체할 문자')

In [53]:
iris.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

In [57]:
iris.columns = ['sepal length', 'sepal width', 'petal length', 'petal width']
iris.head(3)

Unnamed: 0,sepal length,sepal width,petal length,petal width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2


In [58]:
iris.columns = iris.columns.str.replace(' ', '_')
iris.head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2


## 8. DataFrame 컬럼의 데이터 타입 확인 및 변경
(1) 데이터 타입: int(정수형), float(실수형), bool(부울형, True or False), datatime(날짜와 시간), category(범주형 변수), object(문자열&복합형)\
(2) 데이터 타입 확인: dataFrame.dtypes 또는 info() 사용\
(3) 데이터 타입 변경: astype()

In [60]:
iris['sepal_length'] = iris['sepal_width'].astype('int')
iris[['sepal_width', 'petal_length']] = \
iris[['sepal_width', 'petal_length']].astype(int) # 역슬래시: 코드에서 줄 바꾸기
iris.head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,3,3,1,0.2
1,3,3,1,0.2
2,3,3,1,0.2
