# 02_DataFrame

- 엑셀의 표 형태로 구성된 데이터 분석의 가장 기본적인 자료구조
- **열**과 **행**으로 구성된다.
    - **열** : column 이나 변수라고도 부름
    - **행** : row 나 index라고도 부름
- `열 > 행` 순으로 값에 접근한다.

## #01. 필수 패키지 참조

### 1) xlsx 파일을 불러오기 위한 의존성 설치
엑셀 파일로 부터 DataFrame을 생성하기 위해서는 pandas 모듈 내의 ExcelFile 클래스가 의존하는 모듈들을 추가적으로 설치해야 한다.
```
pip install --upgrade openpyxl
pip install --upgrade xlrd
```

In [1]:
from pandas import DataFrame
from pandas import read_csv
from pandas import ExcelFile

## #02. 데이터프레임을 생성하기
리턴받을 객체 = DataFrame(데이터, index =[인덱스이름을 위한 리스트], columns= [컬럼이름을ㄹ 위한 인덱스])

### 1) 데이터의 종류
1. 2차원 리스트
1. 리스트를 원소로 갖는 딕셔너리
1. 동일한 구조를 갖는 딕셔너리들이 모인 리스트
1. csv파일
1. xlsx파일

### 2) 2차원 리스트를 활용한 DataFrame생성 

#### 기본생성

각각의 1찰 리스트는 DataFrame에서 하나의 행으로 지정된다.

컬럼과 인덱스 이름은 0부터 순차적으로 일련번호가 부여된다.

> DataFrame에서 빈 값은 None으로 지정한다 <br>
이는 조사과정에서 측정되지 않은 상태를 의미하며 이러한 형태의 빈 값을 **결측값(결측치)** 라고 한다.

In [2]:
source = [
    [1, '남자', 98,88,64] ,
    [2, '여자', 88,90,62,72] ,
    [1, '남자', 92,70,None,None] ,
    [3, '여자', 63,60,31,70] ,
    [4, '남자', 120,50,None,88]
]
df = DataFrame(source)
df

Unnamed: 0,0,1,2,3,4,5
0,1,남자,98,88,64.0,
1,2,여자,88,90,62.0,72.0
2,1,남자,92,70,,
3,3,여자,63,60,31.0,70.0
4,4,남자,120,50,,88.0


#### 컬럼과 인덱스 이름 지정하기

In [3]:
df = DataFrame(source, index=['철수','영희','민수','수현','호영'], columns=['학년','성별','국어','영어','수학','전산'])
df

Unnamed: 0,학년,성별,국어,영어,수학,전산
철수,1,남자,98,88,64.0,
영희,2,여자,88,90,62.0,72.0
민수,1,남자,92,70,,
수현,3,여자,63,60,31.0,70.0
호영,4,남자,120,50,,88.0


### #3) 리스트를  원소로 갖는 딕셔너리를 사용한 DataFrame생성
딕셔너리의 **key**가 **column의 이름**으로 사용되기 때문에 index만 추가적으로 지정한다.

In [4]:
source = {
    '학년' : [1,2,1,3,4],
    '성별' : ['남자','여자','남자','여자','남자'],
    '국어' : [98,88,92,63,120],
    '영어' : [88,90,70,60,50],
    '수학' : [64,62,None,31,None],
    '과학' : [None,72,None,70,88]
}

df = DataFrame(source,index=['철수','영희','민수','수현','호영'])
df

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,98,88,64.0,
영희,2,여자,88,90,62.0,72.0
민수,1,남자,92,70,,
수현,3,여자,63,60,31.0,70.0
호영,4,남자,120,50,,88.0


### 4) 동일한 구조를 갖는 딕셔너리들이 모인 리스트를 사용한 DataFrame생성
딕셔너리의 **key**가 **column의 이름**으로 사용되기 때문에 index만 추가적으로 지정한다.

In [5]:
source = [
    {'학년':1, '성별':'남자', '국어':98, '영어':88,'수학':64,'과학':None},
    {'학년':2, '성별':'여자', '국어':88, '영어':90,'수학':62,'과학':72},
    {'학년':1, '성별':'남자', '국어':92, '영어':70,'수학':None,'과학':None},
    {'학년':3, '성별':'여자', '국어':63, '영어':60,'수학':31,'과학':70},
    {'학년':4, '성별':'남자', '국어':120, '영어':50,'수학':None,'과학':88},
]
df = DataFrame(source,index=['철수','영희','민수','수현','호영'])
df

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,98,88,64.0,
영희,2,여자,88,90,62.0,72.0
민수,1,남자,92,70,,
수현,3,여자,63,60,31.0,70.0
호영,4,남자,120,50,,88.0


### 05) CSV파일을 DataFrame으로 변환하기
#### 리턴받을 객체 = read_csv("파일경로", encoding="euc-kr | utf-8")
* `encoding`의 기본값은 `utf-8`
    - MS-Office 2019 미만 버전에서 ㅅ생ㅅ성한 경우 무조건 `euc-kr`

> 외부에서 csv 나 xlsx 파일을 가져오는 경우 index가 인식되지 않기 때문에 <br>
특정 컬럼값들을 인덱스로 지정하고 그 컬럼을 삭제하는 전처리가 필요하다.(뒤에서 다룬다.)

In [6]:
df1 = read_csv('grade.csv', encoding="euc-kr")
df1 

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


### 서버에서 불러오기(Spring mvc 기준: webapp 안에 resourc 안에 폴더 만들고 데이터 넣기) 

In [9]:
df2 = read_csv("http://localhost:8090/resources/data/grade.csv",encoding="euc-kr")
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


### xlsx 파일을 통한 생성
엑셀 파일을 객체 형태로 가져온다.

In [10]:
!pip install --upgrade openpyxl
!pip install --upgrade xlrd
!pip install --upgrade pandas



In [11]:
xls1 = ExcelFile('grade.xlsx')
xls1

<pandas.io.excel._base.ExcelFile at 0x23af7c37890>

### 2. 가져온 엑셀 객체를 데이터프레임으로 변환하기(sheet이름 또는 인덱스) 

In [12]:
# 인덱스 사용
df = xls1.parse(xls1.sheet_names[0])
df

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [13]:
# sheet 이름 사용
df = df = xls1.parse('grade')
df

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


##  #03. 데이터에 접근하기

### 1) 데이터 개요 확인

#### 데이터의 크기

튜플 타입으로 행, 열의 크기가 반환된다.

In [14]:
size = df.shape # (행,열)
size 

(5, 7)

### 튜플이므로 행과 열을 구성하는 변수로 나눠 저장 가능 

In [15]:
rows, cols = df.shape
print(rows)
print(cols)

5
7


### 2) 상위 5건 확인하기
head() => 파라미터 숫자 만큼 확인 가능, 파라미터 숫자가 없으면 5건 확인

In [16]:
top = df.head(3)
top

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,


### 2) 하위 5건 확인하기
tail() => 파라미터 숫자 만큼 확인 가능, 파라미터 숫자가 없으면 5건 확인

In [17]:
botton = df.tail(3)
botton

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [18]:
# 인덱스 이름 확인 
df.index

RangeIndex(start=0, stop=5, step=1)

In [19]:
# 인덱스 이름을 리스트로 변환
i_list = list(df.index)
i_list

[0, 1, 2, 3, 4]

In [20]:
# 컬럼 이름 확인
df.columns

Index(['이름', '학년', '성별', '국어', '영어', '수학', '과학'], dtype='object')

In [21]:
# 컬럼 = 인덱스이름을 리스트로 반환
c_list = list(df.columns)
c_list

['이름', '학년', '성별', '국어', '영어', '수학', '과학']

In [22]:
# 데이터의 값들만 확인하기
# 2차원 배열로 반환된다.

print(df.values)
print(type(df.values))


[['철수' 1 '남자' 98 nan 88.0 64.0]
 ['영희' 2 '여자' 88 90.0 62.0 72.0]
 ['민수' 1 '남자' 92 70.0 nan nan]
 ['수현' 3 '여자' 63 60.0 31.0 70.0]
 ['호영' 4 '남자' 120 50.0 nan 88.0]]
<class 'numpy.ndarray'>


### 4) 행렬의 전치 구하기

#### 행과 열이 서로 바뀐형태

In [23]:
df_t = df.T
df_t

Unnamed: 0,0,1,2,3,4
이름,철수,영희,민수,수현,호영
학년,1,2,1,3,4
성별,남자,여자,남자,여자,남자
국어,98,88,92,63,120
영어,,90.0,70.0,60.0,50.0
수학,88.0,62.0,,31.0,
과학,64.0,72.0,,70.0,88.0


#### 각 **열**단위 데이터 접근

In [24]:
# 각 열 별로 데이터 타입 확인
print(df.dtypes)

이름     object
학년      int64
성별     object
국어      int64
영어    float64
수학    float64
과학    float64
dtype: object


In [25]:
# 특정 열에 대한 타입과 값 확인하기  (데이텊프레임에서 열은 시리즈이다.)
print(df["국어"])
print("===============")
print(type(df["국어"]))

0     98
1     88
2     92
3     63
4    120
Name: 국어, dtype: int64
<class 'pandas.core.series.Series'>


In [26]:
# 특정 열의 값을 numpy 배열로 변환
arr = df["국어"].values
print(arr)
print("---------------------")
print(type(arr))

[ 98  88  92  63 120]
---------------------
<class 'numpy.ndarray'>


In [None]:
# 특정 열의 값을 list로 변환
lis = list(df["국어"])
print(lis)
print("---------------------")
print(type(lis))

#### 행 단위로 접근하기 

> 반드시 `loc` 이라는 속성을 통해서 접근해야 한다.

In [None]:
cs = df.loc[0]
print(cs)
print("---------------------")
print(type(cs))

In [None]:
# 특정 행을 numpy 배열로 만들자

In [8]:
df

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,98,88,64.0,
영희,2,여자,88,90,62.0,72.0
민수,1,남자,92,70,,
수현,3,여자,63,60,31.0,70.0
호영,4,남자,120,50,,88.0


In [None]:
# 특정 행을 리스트로 만들자