In [1]:
import numpy as np
import pandas as pd
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

### DataFrame
- 1차원 행렬로 구성된 Series들의 모음
- DataFrame은 데이터 특성(컬럼)만큼의 Series로 구성된다.

### 데이터 프레임 생성
- 2차원 리스트
- 리스트를 가지고 있는 딕셔너리
- 딕셔너리들이 모인 리스트
- 외부 파일(csv, 엑셀, spss 등)
- 클립보드, 데이터베이스, 웹 문서 등등...

In [2]:
# 2차원 리스트를 이용한 생성
# 개수가 다를 경우 부족한 부분은 결측치로 채워진다.
list1 = [
    [1, '남자', np.nan, 80, 70],
    [2, '여자', 91, 81, 71, 61],
    [3, '남자', 92, 82, 72],
    [4, '여자', 93, 83, 73]
]

df1 = pd.DataFrame(list1)

print(df1)
df1

   0   1     2   3   4     5
0  1  남자   NaN  80  70   NaN
1  2  여자  91.0  81  71  61.0
2  3  남자  92.0  82  72   NaN
3  4  여자  93.0  83  73   NaN


Unnamed: 0,0,1,2,3,4,5
0,1,남자,,80,70,
1,2,여자,91.0,81,71,61.0
2,3,남자,92.0,82,72,
3,4,여자,93.0,83,73,


In [3]:
# index 추출
list(df1.index)

[0, 1, 2, 3]

In [4]:
# column 명 추출
list(df1.columns)

[0, 1, 2, 3, 4, 5]

In [5]:
# 인덱스 설정
df1.index = ['홍길동', '김길동', '박길동', '최길동']
df1

Unnamed: 0,0,1,2,3,4,5
홍길동,1,남자,,80,70,
김길동,2,여자,91.0,81,71,61.0
박길동,3,남자,92.0,82,72,
최길동,4,여자,93.0,83,73,


In [6]:
# 컬럼명
df1.columns = ['번호', '성별', '국어', '영어', '수학', '한국사']
df1

Unnamed: 0,번호,성별,국어,영어,수학,한국사
홍길동,1,남자,,80,70,
김길동,2,여자,91.0,81,71,61.0
박길동,3,남자,92.0,82,72,
최길동,4,여자,93.0,83,73,


In [7]:
# 생성시 컬럼명과 인덱스를 지정한다.
list1 = [
    [1, '남자', np.nan, 80, 70],
    [2, '여자', 91, 81, 71, 61],
    [3, '남자', 92, 82, 72],
    [4, '여자', 93, 83, 73]
]

a1 = ['번호', '성별', '국어', '영어', '수학', '한국사']
a2 = ['홍길동', '김길동', '박길동', '최길동']
df1 = pd.DataFrame(list1, columns=a1, index=a2)
df1

Unnamed: 0,번호,성별,국어,영어,수학,한국사
홍길동,1,남자,,80,70,
김길동,2,여자,91.0,81,71,61.0
박길동,3,남자,92.0,82,72,
최길동,4,여자,93.0,83,73,


In [8]:
# 리스트를 가지고 있는 딕셔너리
# 딕셔너리의 이름이 컬럼 이름으로 지정된다.
# 하나의 리스트가 컬럼 하나가 된다.
# 모든 리스트의 개수가 일치해야지만 생성이 가능하다.
a1 = {
    '번호' : [1, 2, 3, 4],
    '성별' : ['남자', '여자', '남자', '여자'],
    '국어' : [80, 81, 82, 83],
    '영어' : [70, 71, 72, 73],
    '수학' : [60, 61, 62, 73]
}

a2 = ['홍길동', '김길동', '최길동', '박길동']
df1 = pd.DataFrame(a1, index=a2)
df1

Unnamed: 0,번호,성별,국어,영어,수학
홍길동,1,남자,80,70,60
김길동,2,여자,81,71,61
최길동,3,남자,82,72,62
박길동,4,여자,83,73,73


In [9]:
# 딕셔너리를 가지고 있는 리스트
# 딕셔너리의 이름이 컬럼명으로 결정된다.
# 하나의 딕셔너리는 행으로 구성되며 다른 딕셔너리에 있는 이름이 없으면
# 결측치로 채워진다.

a1 = [
    {'번호' : 1, '성별' : '남자', '국어' : 90, '영어ㄴ' : 80, '수학' : 70},
    {'번호' : 2, '성별' : '여자', '귝어' : 91, '영어' : 81, '수학' : 71},
    {'번호' : 3, '성별' : '남자', '국어' : 92, '영어' : 82, '수학' : 72},
    {'번호' : 4, '성별' : '여자', '국어' : 93, '영어' : 83, '수학' : 73},
]

a2 = ['홍길동', '김길동', '최길동', '박길동']
df1 = pd.DataFrame(a1, index=a2)
df1

Unnamed: 0,번호,성별,국어,영어ㄴ,수학,귝어,영어
홍길동,1,남자,90.0,80.0,70,,
김길동,2,여자,,,71,91.0,81.0
최길동,3,남자,92.0,,72,,82.0
박길동,4,여자,93.0,,73,,83.0


In [10]:
# csv 파일
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1.index = ['학생1', '학생2', '학생3', '학생4', '학생5']
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
학생1,홍길동,1,남자,98,,88.0,64.0
학생2,김길동,2,여자,88,90.0,62.0,72.0
학생3,최길동,1,남자,92,70.0,,
학생4,박길동,3,여자,63,60.0,31.0,70.0
학생5,이길동,4,남자,120,50.0,,88.0


In [11]:
# csv를 통해 데이터 프레임을 생성하면 첫 번째 줄은 무조건 컬럼이름으로
# 사용한다.
# 만약 첫 번재 줄 부터 데이터에 해당한다면
# header=None을 설정한다.
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr', header=None)
df1

Unnamed: 0,0,1,2,3,4,5,6
0,이름,학년,성별,국어,영어,수학,과학
1,홍길동,1,남자,98,,88,64
2,김길동,2,여자,88,90,62,72
3,최길동,1,남자,92,70,,
4,박길동,3,여자,63,60,31,70
5,이길동,4,남자,120,50,,88


In [12]:
# 만약 특정 행을 지칭하면...
# 2 : 3번째 줄이 컬럼명으로 지정되고 그 이후의 데이터만 데이터로 포함된다.
# 그 위의 데이터들은 포함되지 않는다.
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr', header=2)
df1

Unnamed: 0,김길동,2,여자,88,90,62,72
0,최길동,1,남자,92,70,,
1,박길동,3,여자,63,60,31.0,70.0
2,이길동,4,남자,120,50,,88.0


In [13]:
# 엑셀 파일로부터 데이터를 읽어온다.
# 인코딩 자동 설정된다.
# sheet_name 생략 : 첫 번째 sheet가 지정된다.
df1 = pd.read_excel('data/grade.xlsx')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [14]:
# sheet_name : 숫자를 지정하면 sheet의 순서(0 부터 시작)
df1 = pd.read_excel('data/grade.xlsx', sheet_name=1)
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,홍길동,1,남자,98,,88.0,64.0
1,김길동,2,여자,88,90.0,62.0,72.0
2,박길동,1,남자,92,70.0,,
3,최길동,3,여자,63,60.0,31.0,70.0
4,이길동,4,남자,120,50.0,,88.0


In [15]:
# sheet_name : 문자열. sheet의 이름을 지정한다.
df1 = pd.read_excel('data/grade.xlsx', sheet_name='grade2')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,홍길동,1,남자,98,,88.0,64.0
1,김길동,2,여자,88,90.0,62.0,72.0
2,박길동,1,남자,92,70.0,,
3,최길동,3,여자,63,60.0,31.0,70.0
4,이길동,4,남자,120,50.0,,88.0


### 데이터 프레임의 정보를 확인한다.
- 데이터 프레임이 생성되었다는 것은 데이터는 구조적인 문제는 없다.
- 데이터 내용에 문제가 있을 수도 있다.
- 데이터 프레임의 정보를 확인하는 의미는 잘못된 데이터 존재 여부를 확인함이 목적이다.
- 결측치 : 측정되지 않는 데이터. 파일에는 빈칸으로 되어 있고 데이터 프레임 생성시 문자열 컬럼은 Na나 NaN, 숫자 컬럼은 NaN, 시간 컬럼은 NaT로 표시된다.
- 이상치 : 정상값이 아닌 데이터.

### 데이터의 종류
- 카테고리 데이터(레이블 데이터) : 성별, 혈액형 등과 같이 범위형이 아닌 데이터.
- 범위형 : 최소와 최대가 존재하는 데이터.

In [16]:
df1 = pd.read_csv('data/train.csv')
df1

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [17]:
# 행과 열의 수를 파악한다.
size = df1.shape
size

(891, 12)

In [18]:
# 상위 5개
df1.head()
# 상위 n 개
df1.head(3)
# 하위 5개
df1.tail()
# 하위 3개
df1.tail(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [21]:
# 데이터 프레임의 인덱스를 가져온다.
a1 = df1.index
print(list(a1))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197, 198, 199, 200, 201, 202, 203, 204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 216, 217, 218, 219, 220, 221,

In [22]:
# 컬럼의 이름을 추출한다.
a2 = df1.columns
a2

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [23]:
# 데이터 프레임의 요약 정보
# 891 entries : 행이 891개라는 의미
# total 12 columns : 열이 12개라는 의미
# Non-Null Count : 결측치를 제외한 데이터의 개수
# Dtype : 값의 타입, int(정수), float(실수), bool(불리언),
#         object(문자열), datetime(시간)
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [29]:
# 결측치 확인
# notna() : 결측치가 아닌 것은 True, 결측치인 것은 False로 구성하여 반환한다.
# df1.notna()

# isna() : 결측치가 아닌 것은 False, 결측치인 것은 True로 구성하여 반환한다.
# sum() : 각 컬럼별 총합을 구하는 함수. True를 1, False를 0으로 취급한다.
df1.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [30]:
# 요약 통계 정보
# min, max를 통해 범위형 데이터의 이상치 존재 여부를 확인한다.
df1.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [33]:
# 컬럼의 데이터 종류를 확인하여 카테고리 데이터의 이상치 여부를 확인한다.
df1['Pclass'].value_counts().index

Int64Index([3, 1, 2], dtype='int64')

### 특정 위치에 접근한다.
- [][] : 해당하는 부분의 데이터를 가져와 새로운 데이터 프레임으로 생성한다.
- [, ] : 해당하는 부분에 직접 접근한다.

In [39]:
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
# 이름 컬럼을 인덱스로 지정한다.
df1 = df1.set_index('이름')
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [48]:
# 특정 Series(컬럼)을 추추출한다.
a1 = df1['국어']
a1

이름
철수     98
영희     88
민수     92
수현     63
호영    120
Name: 국어, dtype: int64

In [43]:
# [][] : 열, 행순으로 접근한다.
a1 = df1['국어']['민수']
a1

92

In [44]:
# 인덱스가 민수인 행을 추출한다.
a3 = df1.loc['민수']
a3

학년       1
성별      남자
국어      92
영어    70.0
수학     NaN
과학     NaN
Name: 민수, dtype: object

In [45]:
# 민수행, 국어열
a4 = df1.loc['민수']['국어']
a4

92

In [46]:
# 세번째 행
a5 = df1.iloc[2]
a5

학년       1
성별      남자
국어      92
영어    70.0
수학     NaN
과학     NaN
Name: 민수, dtype: object

In [49]:
# 세번째 행, 국어열
a6 = df1.iloc[2]['국어']
a6

92

In [63]:
a2 = df1.loc['민수', '국어']
a2

3.0

In [57]:
# 국어컬럼에 값을 지정한다.
# 컬럼만 지정할 경우 모든 행의 값을 지정해야 한다.
df1['국어'] = [1, 2, 3, 4, 5]
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,1,,88.0,64.0
영희,2,여자,2,90.0,62.0,72.0
민수,1,남자,3,70.0,,
수현,3,여자,4,60.0,31.0,70.0
호영,4,남자,5,50.0,,88.0


In [58]:
# 특정 행(인덱스)의 값을 변경한다.
# 모든 컬럼의 값을 지정해야 한다.
df1.loc['철수'] = [10, '오징어', 0.1, 0.2, 0.3, 0.4]
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,10,오징어,0.1,0.2,0.3,0.4
영희,2,여자,2.0,90.0,62.0,72.0
민수,1,남자,3.0,70.0,,
수현,3,여자,4.0,60.0,31.0,70.0
호영,4,남자,5.0,50.0,,88.0


In [59]:
# 특정행(순서)의 값을 변경. 컬럼의 수와 일치해야 한다.
df1.iloc[1] = [20, '오징어', 0.1, 0.2, 0.3, 0.4]
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,10,오징어,0.1,0.2,0.3,0.4
영희,20,오징어,0.1,0.2,0.3,0.4
민수,1,남자,3.0,70.0,,
수현,3,여자,4.0,60.0,31.0,70.0
호영,4,남자,5.0,50.0,,88.0


In [60]:
# [][] 방식은 데이터 프레임에서 해당 영역을 새롭게 복제하는 작업이다.
# 따라서 100이 저장되는 위치는 원본 데이터 프레임이 아니라
# 새롭게 생성된 Series가 된다.
# 단, [ , ] 방식은 오로지 행, 열 순서이기 때문에
# 열, 행 순서로 적는 아래 문법에 한정해서
# 원본 데이터 프레임도 값을 저장시켜 준다.
df1['국어']['영희'] = 100
df1

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df1['국어']['영희'] = 100


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,10,오징어,0.1,0.2,0.3,0.4
영희,20,오징어,100.0,0.2,0.3,0.4
민수,1,남자,3.0,70.0,,
수현,3,여자,4.0,60.0,31.0,70.0
호영,4,남자,5.0,50.0,,88.0


In [61]:
# [][] 방식은 데이터 프레임에서 해당 영역을 새롭게 복제하는 작업이다.
# 따라서 100이 저장되는 위치는 원본 데이터 프레임이 아니라
# 새롭게 생성된 Series가 된다.
# 아래의 경우[행][열]는 원본 데이터 프레임에 값을 적용해주지 않는다.
df1.loc['민수']['국어'] = 300
df1

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df1.loc['민수']['국어'] = 300


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,10,오징어,0.1,0.2,0.3,0.4
영희,20,오징어,100.0,0.2,0.3,0.4
민수,1,남자,3.0,70.0,,
수현,3,여자,4.0,60.0,31.0,70.0
호영,4,남자,5.0,50.0,,88.0


In [64]:
# loc[행, 열] 방식만이 원본 데이터 프레임에 직접 접근하게 된다.
# 따라서 아래의 방법을 이용하면 원본 데이터 프레임의 값을 변경할 수 있게 된다.
# 추천~
df1.loc['수현', '국어'] = 400
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,10,오징어,0.1,0.2,0.3,0.4
영희,20,오징어,100.0,0.2,0.3,0.4
민수,1,남자,3.0,70.0,,
수현,3,여자,400.0,60.0,31.0,70.0
호영,4,남자,5.0,50.0,,88.0
