# 제2장 데이터 핸들링

## 제1절. 판다스 데이터구조

판다스는 Series와 DataFrame 구조를 지원한다.
-  Series는 1차원 배열구조로 이름과 형식을 가지고 모든 값에 대해 고유한 인덱스를 가진다는 특징이 있다.
- DataFrame은 행, 열로 이루어진 2차원 배열구조이다. 각 행은 인덱스를 가지며, 각 열은 이름과 형식을 가진다.


## 제2절 DataFrame 기본

### DataFrame 선언하기

In [3]:
import numpy as np
import pandas as pd
dataset = np.array([['kor' , 70] , ['math',80]])
df = pd.DataFrame(dataset, columns = ['class','score'])

df

Unnamed: 0,class,score
0,kor,70
1,math,80


### DataFrame 읽고 저장하기

In [9]:
filepath = 'data/cats.csv'

data = pd.read_csv(filepath , na_values= 'NA' , encoding = 'utf8')

1. read_csv() 사용해서 csv 파일을 DataFrame 객체로 읽어 들일 수 있다.
2. csv 파일에서 null값이 빈칸이 아닌 어떠한 string 값으로 저장된 경우 이를 인식하기 위해 na_values 사용. 영어 외의 언어로 작성된 값이 포함된 경우 적절한 형식으로 인코딩 
3. 데이터 프레임을 csv 파일로 저장할때는 DataFrame.to_csv() 함수 사용

In [10]:
# data.to_csv('result.csv', header = True, index = True , encoding= 'utf8')

### DataFrame 출력

head() , tail()함수로 처음 or 마지막 몇줄 출력할 수 있다.

In [11]:
from sklearn.datasets import load_iris
iris = load_iris()
iris = pd.DataFrame(iris.data, columns=iris.feature_names)
iris

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [12]:
iris.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [13]:
iris.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


### DataFrame 요약 통계정보 확인하기

1. 데이터의 내용을 확인했다면 그 다음으로 데이터프레임의 요약,통계정보를 확인. 
- info() 함수를 통해 총 데이터의 건수와 각 컬럼의 데이터 형식과 결측치의 건수 확인
- 수치형 컬럼이 존재하는 경우 describe() 함수를 사용하여 수치형 컬럼들의 n-percentile 분포도와 평균값, 최댓값 등을 확인

In [14]:
iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


- 해석 

150개의 행과 4개의 컬럼을 가지고 있다.

모든 컬럼은 결측값을 가지고 있지 않다. 모든 컬림의 데이터 값은 float64로 실수형 데이터다.

In [15]:
iris.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


iris의 sepal length 컬럼의 범위는 4.3 ~ 7.9이고 petal width 컬럼의 범위는 0.1~2.5로 그 크기가 상당히 차이 난다.

-> 회귀 분석을 수행할 경우 데이터값의 크기가 상대적으로 작은 petal width의 경우 sepal length 등 값의 숫자가 큰 다른 컬럼들에 비해 분석모델에 미치는 영향력이 적을 수 있다.

-> 이는 모델링 전처리 과정에서 변수의 정규화를 수행하는 근거가 될 수 있다.