### DataFrame
- 2차원 행렬 데이터를 행렬 형태가 아닌 테이블 형태로 관리할 수 있도록 제공되는 요소
- DataFrame의 컬러 하나는 하느의 Series로 구성되어 있으며 다수의 Series들을 모아 하나의 DataFrame으로 관리한다.
- DataFrame은 데이터의 특성 만큼의 Series로 구성된다.

In [1]:
import numpy as np
import pandas as pd

### 데이터 프레임 생성
- 2차원 리스트
- 리스트를 가지고 있는 딕셔너리
- 딕셔너리를 가지고 있는 리스트
- 외부 파일(csv, xls, spss 등)
- 웹 문서의 table tag
- 데이터 베이스의 테이블
- 기타 등등...

In [7]:
# 2차원 리스트를 통한 생성
# 내부의 각 리스트의 인덱스가 일치하는 것 끼리 모아 Series를 만든다.
list1 = [
    [1, '남자', 90, 80, 70],
    [2, '여자', 91, 81, 71],
    [3, '남자', 92, 82, 72],
    [4, '여자', 93, 83, 73]
]

df1 = pd.DataFrame(list1)
print(df1)
display(df1)

   0   1   2   3   4
0  1  남자  90  80  70
1  2  여자  91  81  71
2  3  남자  92  82  72
3  4  여자  93  83  73


Unnamed: 0,0,1,2,3,4
0,1,남자,90,80,70
1,2,여자,91,81,71
2,3,남자,92,82,72
3,4,여자,93,83,73


In [10]:
# 데이터의 개수가 다르게 되어 있을 경우에는 비어있는 곳을 결측치로 채워진다.
list1 = [
    [1, '남자', 90, 80, 70],
    [2, '여자', 91, 81, 71],
    [3, '남자', 92, 82, 72],
    [4, '여자', 93, 83, 73, 63],
    [5, '남자', 94, 84, 74, 64],
    [6, '여자', 95, 85, 75, 65]
]

df1 = pd.DataFrame(list1)
print(df1)
display(df1)

   0   1   2   3   4     5
0  1  남자  90  80  70   NaN
1  2  여자  91  81  71   NaN
2  3  남자  92  82  72   NaN
3  4  여자  93  83  73  63.0
4  5  남자  94  84  74  64.0
5  6  여자  95  85  75  65.0


Unnamed: 0,0,1,2,3,4,5
0,1,남자,90,80,70,
1,2,여자,91,81,71,
2,3,남자,92,82,72,
3,4,여자,93,83,73,63.0
4,5,남자,94,84,74,64.0
5,6,여자,95,85,75,65.0


In [11]:
# 컬럼 이름에 사용한 이름
column_list = ['번호', '성별', '국어', '영어', '수학', '과학']
# 인덱스에 사용할 이름
index_list = ['학생1', '학생2', '학생3', '학생4', '학생5', '학생6']

In [12]:
# 생성되어 있는 데이터 프레임에 인덱스와 컬럼 이름을 설정한다.
df1.columns = column_list
df1.index = index_list
df1

Unnamed: 0,번호,성별,국어,영어,수학,과학
학생1,1,남자,90,80,70,
학생2,2,여자,91,81,71,
학생3,3,남자,92,82,72,
학생4,4,여자,93,83,73,63.0
학생5,5,남자,94,84,74,64.0
학생6,6,여자,95,85,75,65.0


In [14]:
# 생성시 인덱스와 컬럼 이름을 지정한다.
df2 = pd.DataFrame(list1, columns=column_list, index=index_list)
df2

Unnamed: 0,번호,성별,국어,영어,수학,과학
학생1,1,남자,90,80,70,
학생2,2,여자,91,81,71,
학생3,3,남자,92,82,72,
학생4,4,여자,93,83,73,63.0
학생5,5,남자,94,84,74,64.0
학생6,6,여자,95,85,75,65.0


In [19]:
# 리스트를 가지고 있는 딕셔너리를 통한 생성
# 딕셔너리에 지정한 이름(key)이 컬럼의 이름으로 결정된다.
# 데이터의 수가 다르게 되어 있으면 오류가 발생한다.
data1 = {
    '번호' : [1,2,3,4],
    '성별' : ['남자','여자','남자','여자'],
    '국어' : [90,91,92,93],
    '영어' : [80,81,82,83],
    '수학' : [70,71,72,73],
#     '과학' : [60,61,62,63,64]
#     '한국사' : [50,51,52]
}

df3 = pd.DataFrame(data1)
df3

Unnamed: 0,번호,성별,국어,영어,수학
0,1,남자,90,80,70
1,2,여자,91,81,71
2,3,남자,92,82,72
3,4,여자,93,83,73


In [23]:
# 딕셔너리를 가지고 있는 리스트
# 각 딕셔너리에 이름이 똑같은 것들끼리 모아 하나의 Series로 구성한다.
# key가 다른 원소가 있다면 데이터 프레임에 열에 추가되어 생성된다.

list3 = [
    {'번호': 1, '이름': '홍길동', '국어' : 100},
    {'번호': 2, '이름': '길길동', '국어' : 101},
    {'번호': 3, '이름': '최길동', '국어' : 102},
    {'번호': 4, '이름': '박길동', '국어' : 103},
    {'이름' : '황길동', '국어' : 104, '번호' : 5},
    {'번호' : 6, '이름':'고길동', '귝어': 105},
    {'번호' : 7, '이름':'구길동', '국어': 106, '영어' : 200},
]
df4 = pd.DataFrame(list3)
df4

Unnamed: 0,번호,이름,국어,귝어,영어
0,1,홍길동,100.0,,
1,2,길길동,101.0,,
2,3,최길동,102.0,,
3,4,박길동,103.0,,
4,5,황길동,104.0,,
5,6,고길동,,105.0,
6,7,구길동,106.0,,200.0


In [24]:
# <csv파일>
# 데이터를 쉼표(,)로 구분한 데이터 양식

# <데이터 프레임 생성시 encoding 오류가 발생하거나 생성된 데이터프레임의 한글데이터가 깨질 경우>
# pandas는 기본 인코딩이 utf-8로 설정되어 있다. 허나 한국에서 엑셀을 통해 작업한 csv 파일은 인코딩이 euc-kr로 되어있다.
# csv 파일을 통해 생성시 encoding 오류가 나거나 한글이 깨져서 나오면 encoding을 euc-kr로 설정해서 시도해본다.

# 첫 번째 줄 데이터가 컬럼의 이름으로 결정된다.
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [28]:
# 만약 첫 번째 줄부터 데이터로 되어 있다면
df2 = pd.read_csv('data/grade.csv', header=None, encoding='euc-kr')
df2.columns = ['a1','a2','a3','a4','a5','a6','a7']
df2

Unnamed: 0,a1,a2,a3,a4,a5,a6,a7
0,이름,학년,성별,국어,영어,수학,과학
1,철수,1,남자,98,,88,64
2,영희,2,여자,88,90,62,72
3,민수,1,남자,92,70,,
4,수현,3,여자,63,60,31,70
5,호영,4,남자,120,50,,88


In [26]:
# 만약 3번째 줄의 데이터를 컬럼 이름으로 사용하겠다면
# 단, 컬럼이름으로 지정된 row 위에 있는 데이터는 사라진다. 
df3 = pd.read_csv('data/grade.csv', encoding='euc-kr', header= 2)
df3

Unnamed: 0,영희,2,여자,88,90,62,72
0,민수,1,남자,92,70,,
1,수현,3,여자,63,60,31.0,70.0
2,호영,4,남자,120,50,,88.0


In [27]:
# 엑셀 파일을 통한 데이터 프레임 생성
# sheet_name : 문자열을 넣을 경우 sheet의 이름이 되고 숫자를 넣을 경우
# sheet의 순서(0 부터 시작)을 의미한다.
# 생략시 첫 번째 시트로 설정된다.


# df1 = pd.read_excel('data/grade.xlsx')
# df1 = pd.read_excel('data/grade.xlsx', sheet_name=0)
df1 = pd.read_excel('data/grade.xlsx', sheet_name='grade')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


### 데이터 프레임의 정보를 확인한다.
- 데이터 프레임이 생성이 되었다면 데이터는 구조적인 문제는 없다.
- 데이터 프레임의 정보를 확인한다는 의미는 잘못된 데이터의 존재 여부를 확인함이 목적이다.

<br>

- 결측치 : 측정이 결여된 수치. 측정되지 않은 데이터. 파일에는 빈칸으로 되어있고 데이터 프레임을 출력하면 Na나 NaN으로 표시된다.
- 이상치 : 정상값이 아닌 데이터.

In [29]:
df1 = pd.read_csv('data/train.csv')
df1

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [33]:
# 행과 컬럼의 수를 파악한다.
size = df1.shape
print(size)
print(f'행 : {size[0]}')
print(f'행 : {size[1]}')

(891, 12)
행 : 891
행 : 12


In [34]:
# 상위 5개를 추출한다.
display(df1.head())

# 하위 5개를 추출한다.
display(df1.tail())

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [35]:
# 컬럼의 이름을 가져온다.
a1 = df1.columns
a1

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [37]:
# 인덱스의 이름을 가져온다.
a2 = df1.index
print(list(a2))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197, 198, 199, 200, 201, 202, 203, 204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 216, 217, 218, 219, 220, 221,

In [38]:
# 데이터 프레임의 요약 정보
# 891 entries : row가 891개 있다는 뜻이다.
# total 12 columns : 컬럼이 12개 있다는 뜻이다.
# Column : 데이터 프레임을 구성하는 컬럼의 이름.
# Non-Null Count : 결측치가 아닌 데이터의 수
# Dtype : 컬럼에 저장되어 있는 값의 타입
# int(정수), float(실수), object(문자열), datetime(날짜 시간)

df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [43]:
# 각 컬럼의 결측치 개수를 파악
# isna : 각 컬럼의 데이터를 결측치(NaN or ma)는 True, 결측치가 아닌 것은 False로 된 새로운 데이터 프레임을 생성한다.
# sum : 각 컬럼별 총합을 구한다. 만약 True나 False로 구성되어 있다면 True를 1, False를 0으로 취급하여 합산한다.

df1.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

### 데이터의 종류
- 레이블형, 카테고리형 : 값의 종류가 정해져 있는 값(혈액형, 성별, 지하철 호선 등등)
- 범위형 : 값의 범위(최소와 최대가 존재)하는 값(나이, 키, 몸무게 등등)
- 데이터의 종류에 따라 통계값을 해석해야 한다.


In [52]:
# 요약 통계 정보
# 데이터 프레임 내의 숫자 타입 컬럼들만 모아 요약 통계 정보를 제공한다.
df1.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [53]:
# 범위형 데이터에 대한 요약 통계 정보
# count: 결측치를 제외한 데이터의 개수
# mean: 결측치를 제외한 평균
# std: 결측치를 제외한 표준편차
# min: 결측치를 제외한 최소
# 25%: 최대 최소 범위 안에 25% 위치의 값(존재하지 않을 수도 있다.)
# 50%: 최대 최소 범위 안에 50% 위치의 값(존재하지 않을 수도 있다.)
# 75%: 최대 최소 범위 안에 75% 위치의 값(존재하지 않을 수도 있다.)
# max: 결측치를 제외한 최대

# min과 max를 통해 정상 번위에 벗어나는 데이터가 있는지 확인한다.
df1[['Age', 'Fare']].describe()

Unnamed: 0,Age,Fare
count,714.0,891.0
mean,29.699118,32.204208
std,14.526497,49.693429
min,0.42,0.0
25%,20.125,7.9104
50%,28.0,14.4542
75%,38.0,31.0
max,80.0,512.3292


In [56]:
# 레이블형 데이터
# count: 결측치를 제외한 데이터의 개수
# unique: 값의 종류
# top: 가장 많이 저장되어 있는 값
# freq: 가장 많이 저장되어 있는 값이 몇 개가 저장되어 있는지.
# 요약 통계 정보는 숫자 컬림인 경우에는 범위형 데이터로 취급해 보여주게 되고
# 문자열이라고 하더라도 어떠한 데이터가 저장되어 있는지 알 수 없기 때문에 이상치 존재 여부를 확인하기가 어렵다.
df1['Pclass']

df1['Embarked'].describe()

count     889
unique      3
top         S
freq      644
Name: Embarked, dtype: object

In [59]:
# value_counts: Series 내에 어떠한 값이 몇 개씩 저장되어 있는지 결과를 반환.
display(df1['Pclass'].value_counts())
display(df1['Embarked'].value_counts())

display(df1['Pclass'].value_counts().index)
display(df1['Embarked'].value_counts().index)

3    491
1    216
2    184
Name: Pclass, dtype: int64

S    644
C    168
Q     77
Name: Embarked, dtype: int64

Int64Index([3, 1, 2], dtype='int64')

Index(['S', 'C', 'Q'], dtype='object')

### 특정 위치의 값에 접근한다.
-

In [60]:
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1.index = ['학생1', '학생2', '학생3', '학생4', '학생5']
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
학생1,철수,1,남자,98,,88.0,64.0
학생2,영희,2,여자,88,90.0,62.0,72.0
학생3,민수,1,남자,92,70.0,,
학생4,수현,3,여자,63,60.0,31.0,70.0
학생5,호영,4,남자,120,50.0,,88.0


In [62]:
s1 = df1['국어']
s1

학생1     98
학생2     88
학생3     92
학생4     63
학생5    120
Name: 국어, dtype: int64

In [63]:
# 특정 행을 추출한다(index)
r1 = df1.loc['학생3']
r1

이름      민수
학년       1
성별      남자
국어      92
영어    70.0
수학     NaN
과학     NaN
Name: 학생3, dtype: object

In [64]:
# 특정 행을 추출한다.(순서. 0부터 시작)
r2 = df1.iloc[2]
r2

이름      민수
학년       1
성별      남자
국어      92
영어    70.0
수학     NaN
과학     NaN
Name: 학생3, dtype: object

In [65]:
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
학생1,철수,1,남자,98,,88.0,64.0
학생2,영희,2,여자,88,90.0,62.0,72.0
학생3,민수,1,남자,92,70.0,,
학생4,수현,3,여자,63,60.0,31.0,70.0
학생5,호영,4,남자,120,50.0,,88.0


In [66]:
# 원하는 위치의 값을 가져온다. ([열][행])
v1 = df1['국어']['학생3']
v1

92

In [67]:
# ndarray 마냥 인덱싱을 해보면 되지 않는다.
v2 = df1['국어', '학생3']

KeyError: ('국어', '학생3')

In [69]:
# 행, 열 접근
# loc을 이용한 인덱싱은 [행][열] 이다. 
v3 = df1.loc['학생3']['국어']
v3

92

In [70]:
# [행, 열] 도 됨
v4 = df1.loc['학생3', '국어']
v4

92

In [72]:
# 순서로 인덱싱(iloc))
v5 = df1.iloc[2][3]
v5

92

In [74]:
v6 = df1.iloc[2, 3]
v6

92

In [75]:
# 열 행 접근 방식으로 값을 설정한다.
df1['국어']['학생3'] = 1000
df1

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df1['국어']['학생3'] = 1000


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
학생1,철수,1,남자,98,,88.0,64.0
학생2,영희,2,여자,88,90.0,62.0,72.0
학생3,민수,1,남자,1000,70.0,,
학생4,수현,3,여자,63,60.0,31.0,70.0
학생5,호영,4,남자,120,50.0,,88.0


In [76]:
# 행 열 접근(index)
df1.loc['학생3']['영어'] = 2000
df13

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df1.loc['학생3']['영어'] = 2000


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
학생1,철수,1,남자,98,,88.0,64.0
학생2,영희,2,여자,88,90.0,62.0,72.0
학생3,민수,1,남자,1000,70.0,,
학생4,수현,3,여자,63,60.0,31.0,70.0
학생5,호영,4,남자,120,50.0,,88.0


In [77]:
# 이전에 본 표기 기법은 그것에 해당하는 것들을 추출하여 새로운 데이터 프레임을 생성해서 반환한다.(발췌)
# 아래의 표기 기법은 해당 데이터 프레임에 직접 접근을 한다.
df1.loc['학생3', '영어'] = 2000
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
학생1,철수,1,남자,98,,88.0,64.0
학생2,영희,2,여자,88,90.0,62.0,72.0
학생3,민수,1,남자,1000,2000.0,,
학생4,수현,3,여자,63,60.0,31.0,70.0
학생5,호영,4,남자,120,50.0,,88.0


In [78]:
df1.iloc[2, 5] = 3000
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
학생1,철수,1,남자,98,,88.0,64.0
학생2,영희,2,여자,88,90.0,62.0,72.0
학생3,민수,1,남자,1000,2000.0,3000.0,
학생4,수현,3,여자,63,60.0,31.0,70.0
학생5,호영,4,남자,120,50.0,,88.0
