In [1]:
import pandas as pd

### 문자 변수를 이용해 조건에 맞는 행 추출하기
> query()에 전체 조건을 감싸는 따옴표와 추출할 문자를 감싸는 따옴표를 서로 다른 모양으로 입력
```
    '전체 조건'과 "추출할 문자"에 서로 다른 모양 따옴표 입력
```

In [2]:
df = pd.DataFrame({'sex':['F', 'M', 'F', 'M'], 
                   'country':['Korea', 'China', 'Japan', 'USA']})
df

Unnamed: 0,sex,country
0,F,Korea
1,M,China
2,F,Japan
3,M,USA


In [3]:
# 전체 조건에 작은 따옴표, 추출할 문자에 큰 따옴표 사용
df.query('sex == "F" & country == "Korea"')

Unnamed: 0,sex,country
0,F,Korea


In [4]:
# 전체 조건에 큰 따옴표, 추출할 문자에 작은 따옴표 사용
df.query("sex == 'M' & country == 'China'")

Unnamed: 0,sex,country
1,M,China


#### 같은 모양 따옴표 사용하면 에러

In [5]:
# 전체 조건과 추출할 문자에 모두 작은 따옴표 사용
df.query('sex == 'F' & country == 'Korea'')

SyntaxError: invalid syntax. Perhaps you forgot a comma? (558072135.py, line 2)

#### 외부 변수를 이용해 추출하기

In [7]:
exam = pd.read_csv('./input/exam.csv')

# 변수명 앞에 @를 붙여서 조건 입력
var = 3
exam.query('nclass == @var')

Unnamed: 0,id,nclass,math,english,science
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32


# 자료구조

## 스칼라
- 하나의 값으로 구성된 자료구조
- 자료구조를 만드는 가장 작은 기본 단위

In [8]:
# int (정수)
x = 1
print(x)
type(x)

1


int

In [9]:
# float (실수)
x = 1.5
print(x)
type(x)

1.5


float

In [10]:
# str (문자열)
x = 'apple'
print(x)
type(x)

apple


str

In [11]:
# bool (논리형)
x = True    # 참(1)
y = False   # 거짓(0)
print(x, y)
print(type(x), type(y))

True False
<class 'bool'> <class 'bool'>


## 리스트 (list)

In [42]:
x = [1, 2, 'a', 'b']    # 대괄호 사용
print(x)
type(x)

[1, 2, 'a', 'b']


list

In [13]:
# 리스트 추출하기
x[0]    # 0번째 값 추출 (인덱싱)

1

In [14]:
x[-1]   # 맨 마지막 값 추출 (인덱싱)

'b'

In [15]:
x[1:3]  # [시작번호:끝번호+1]  # 1,2번째 값 추출(슬라이싱)

[2, 'a']

### 리스트 수정하기

In [43]:
# 추가하기
x.append(8)     # x의 맨 뒤에 8을 추가
x

[1, 2, 'a', 'b', 8]

In [44]:
# 삭제하기 - 인덱싱으로 삭제
x.pop(2)    # 2번째 값 삭제
x

[1, 2, 'b', 8]

In [45]:
# 삭제하기 - 값으로 삭제
x.remove(2) # 값 2 삭제
x

[1, 'b', 8]

In [46]:
# 변경하기
x[0] = 9    # 0번째 값을 9로 변경
x

[9, 'b', 8]

## 튜플(tuple)
- 튜플은 수정할 수 없음

In [47]:
x = (1, 2, 'a', 'b')    # 소괄호 사용
print(x)
type(x)

(1, 2, 'a', 'b')


tuple

In [48]:
x2 = 1, 2, 'a', 'b' # 소괄호 생략 가능
print(x)
type(x)

(1, 2, 'a', 'b')


tuple

In [49]:
# 튜플 추출하기 - 인덱싱, 슬라이싱 가능
x2[0]

1

In [50]:
x2[1:3]

(2, 'a')

## 딕셔너리 (dict)

In [51]:
x = {'name':'kim'}  # 중괄호 사용 {키:값}
print(x)
type(x)

{'name': 'kim'}


dict

In [55]:
x = {'id':1, 'name':['kim', 'park'], 'nclass':(1, 2, 3)}
print(x)
type(x)

{'id': 1, 'name': ['kim', 'park'], 'nclass': (1, 2, 3)}


dict

### 딕셔너리 추출하기

In [53]:
x['id']     # 키를 가지고 찾아야 함

1

In [56]:
x['name']

['kim', 'park']

In [57]:
x['name'][0]    # name의 0번째 값 추출

'kim'

In [58]:
x['nclass'][1]  # nclass의 1번째 값 추출

2

### 딕셔너리 수정하기

In [59]:
# 추가하기
x['score'] = [5, 6, 7]  # 딕셔너리이름[키이름] = 값
x

{'id': 1, 'name': ['kim', 'park'], 'nclass': (1, 2, 3), 'score': [5, 6, 7]}

In [60]:
# 삭제하기
del x['id']
x

{'name': ['kim', 'park'], 'nclass': (1, 2, 3), 'score': [5, 6, 7]}

In [61]:
del x['name'][1]    # name 키의 1번째 삭제

In [63]:
x

{'name': ['kim'], 'nclass': (1, 2, 3), 'score': [5, 6, 7]}

In [64]:
# 값 변경하기
x['score'] = [7, 8, 9]  # 이미 키가 있으면 변경되고, 없으면 추가됨
x

{'name': ['kim'], 'nclass': (1, 2, 3), 'score': [7, 8, 9]}

In [65]:
x['score'][2] = 99  # score키의 2번째 값 변경
x

{'name': ['kim'], 'nclass': (1, 2, 3), 'score': [7, 8, 99]}

#### 키 변경하기(중요하지 않음)

In [69]:
# 1단계) 기존 키를 새로운 키에 할당
x['math'] = x['score']
x

{'name': ['kim'], 'nclass': (1, 2, 3), 'score': [7, 8, 99], 'math': [7, 8, 99]}

In [70]:
# 2단계) 기준 키 삭제
del x['score']
x

{'name': ['kim'], 'nclass': (1, 2, 3), 'math': [7, 8, 99]}

## 시리즈 (series)
- 여러 값을 나열한 자료구조
- 데이터 프레임을 구성하는 하위 요소
- 데이터 프레임을 다루는 함수는 대부분 시리즈를 이용해서 연산
- pandas 패키지 안에 있음

### 시리즈 만들기

In [73]:
import pandas as pd
x_num = pd.Series([3, 4, 5])
x_num

0    3
1    4
2    5
dtype: int64

In [74]:
type(x_num)

pandas.core.series.Series

In [75]:
# 인덱스 정하기 (기본은 0부터 시작)
x_label = pd.Series([3, 4, 5], index=['kim', 'lee', 'park'])
x_label

kim     3
lee     4
park    5
dtype: int64

### 시리즈 추출하기

In [76]:
x_num[0]

3

In [77]:
x_num[1]

4

In [78]:
x_label[2]  # 2번째 값 추출

  x_label[2]


5

In [79]:
x_label['kim']  # 인덱스 kim의 값 추출

3

### 시리즈 수정하기

In [81]:
# 추가하기
x_num[3] = 9    # 3번째 인덱스에 값 9 할당
x_num

0    3
1    4
2    5
3    9
dtype: int64

In [82]:
x_label['choi'] = 6 # 인덱스 choi에 값 6 할당
x_label

kim     3
lee     4
park    5
choi    6
dtype: int64

In [83]:
# 삭제하기
del x_num[2]    # 인덱스번호 2번째 값 삭제
x_num

0    3
1    4
3    9
dtype: int64

In [84]:
del x_label['park']
x_label

kim     3
lee     4
choi    6
dtype: int64

In [85]:
# 수정하기
x_num[3] = 4    # 인덱스 3의 값을 4로 변경
x_num

0    3
1    4
3    4
dtype: int64

In [86]:
x_label['kim'] = 5  # 인덱스 kim의 값을 5로 변경
x_label

kim     5
lee     4
choi    6
dtype: int64

## 데이터 프레임
- 행과 열로 구성된 사각형 모양의 표처럼 생긴 자료구조
- 데이터를 다룰 때 가장 많이 사용되는 자료구조

In [87]:
df = pd.DataFrame({'val1':[1, 2, 3], 'val2':[4, 5, 6]})
df

Unnamed: 0,val1,val2
0,1,4
1,2,5
2,3,6


In [88]:
type(df)

pandas.core.frame.DataFrame

In [89]:
# 인덱스 정하기
df = pd.DataFrame({'val1':[1, 2, 3], 'val2':[4, 5, 6]},
                  index=['kim', 'lee', 'park'])
df

Unnamed: 0,val1,val2
kim,1,4
lee,2,5
park,3,6


In [90]:
x = df['val1']
x

kim     1
lee     2
park    3
Name: val1, dtype: int64

In [91]:
type(x)

pandas.core.series.Series

#### 데이터 프레임 자료구조 바꾸기

In [92]:
x = [1, 1, 2, 3]    # 리스트
x.mean()    # mean함수는 리스트에 없다

AttributeError: 'list' object has no attribute 'mean'

In [93]:
df_x = pd.DataFrame(x)
type(df_x)

pandas.core.frame.DataFrame

In [94]:
df_x.mean()

0    1.75
dtype: float64

In [96]:
df_x

Unnamed: 0,0
0,1
1,1
2,2
3,3
