In [2]:
import pandas as pd
import numpy as np

# Pandas

## Series

1차원 라벨링된 배열

<br>
Numpy와 유사하지만 index 소유

### 생성/ 추가, 변경, 삭제

- 추가, 변경, 삭제: 기존dictionary과 동일
- 추가
    ```python
    series['영어'] = 100
    ```
    
- 변경
    ```python
    series['국'] = 100
    series.국 = 100

- 삭제
    ```python
    del series['국']

In [2]:
series = pd.Series(
    [90, 85, 80, 75, 70],
    index = ['국', '영', '수', '사', '과'],
)

In [4]:
# 추가
series['데이터 분석'] = 15
series

국         90
영         85
수         80
사         75
과         70
데이터 분석    15
dtype: int64

In [6]:
# 변경
series['데이터 분석'] = 99
series

국         90
영         85
수         80
사         75
과         70
데이터 분석    99
dtype: int64

In [7]:
# 제거 
del series['데이터 분석']
series

국    90
영    85
수    80
사    75
과    70
dtype: int64

### name

name 속성을 통하여 series와 index에 이름 부여 

```python
series.name = '성적'
series.index.name = '과목
```

In [10]:
series = pd.Series(
    [90, 85, 80, 75, 70],
    index = ['국', '영', '수', '사', '과'],
)
series.name = '성적'
series.index.name = '과목'

series

과목
국    90
영    85
수    80
사    75
과    70
Name: 성적, dtype: int64

In [11]:
series.to_frame()

Unnamed: 0_level_0,성적
과목,Unnamed: 1_level_1
국,90
영,85
수,80
사,75
과,70


### indexing

```python
# 1. 특정의 index 번호 혹은 이름 지정
series[0], series['수']
series.국

# 2. 인덱스 순서를 원하는 대로 변경하여 출력
series[[0, 2, 1]]
series[['국', '수', '영']]

# 3. slicing
series[0:3]
# 4. slicing, 끝 점 포함
series['국어':'수학']
```

In [12]:
series = pd.Series(
    [90, 85, 80, 75, 70],
    index = ['국', '영', '수', '사', '과'],
)
series

국    90
영    85
수    80
사    75
과    70
dtype: int64

In [14]:
# 1.
print(series[0])
print(series['국'])
print(series.국)

90
90
90


  print(series[0])


In [20]:
# 2. 
print(series[[0, 2, 1]])
print(series[['수', '영', '과']])


국    90
수    80
영    85
dtype: int64
수    80
영    85
과    70
dtype: int64


  print(series[[0, 2, 1]])


In [21]:
# 3. 
print(series[1:3])

# 4.
print(series['영':'과'])

영    85
수    80
dtype: int64
영    85
수    80
사    75
과    70
dtype: int64


### series 연산

series간의 연산 가능
BUT, 동일 index 끼리의 연산으로써 index 정보가 동일해야 함

In [23]:
series1 = pd.Series(
    [90, 85, 80, 75, 85],
    index=['국', '영', '수', '사', '과'],
)

series2 = pd.Series(
    [90, 85, 80, 75, 85],
    index=['국', '영', '수', '사', '과'],
)

series1 + series2

국    180
영    170
수    160
사    150
과    170
dtype: int64

In [25]:
series1 = pd.Series(
    [90, 75, 85, 85, 80],
    index=['국', '영', '수', '사', '코'],
)

series2 = pd.Series(
    [90, 85, 80, 75, 85],
    index=['국', '영', '수', '사', '과'],
)

series1 + series2

과      NaN
국    180.0
사    160.0
수    165.0
영    160.0
코      NaN
dtype: float64

## DataFrame

- 2 Dimension 행렬에 index와 column을 추가
- 여러 Series의 합

### 생성

- Dictionary 기반

In [26]:
data = {
    'Stu1': [90, 80, 70],
    'Stu2': [95, 85, 75],
    'Stu3': [90, 85, 70],
}
index = ['국', '영', '수']
df = pd.DataFrame(data, index = index)
df

Unnamed: 0,Stu1,Stu2,Stu3
국,90,95,90
영,80,85,85
수,70,75,70


In [28]:
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 90, 85, 80, 75],
    '학생3': [85, 95, 90, 70, 85],
}
pd.DataFrame(data, index=['국', '영', '수', '사', '과'])

Unnamed: 0,학생1,학생2,학생3
국,90,95,85
영,85,90,95
수,80,85,90
사,75,80,70
과,70,75,85


- 배열 기반

In [27]:
data = [
    [90, 80, 70],
    [95, 85, 75],
    [90, 85, 70],
]

index = ['국', '영', '수']
columns = ['Stu1','Stu2', 'Stu3']
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,Stu1,Stu2,Stu3
국,90,80,70
영,95,85,75
수,90,85,70


In [1]:
pd.DataFrame(
    np.array([
        [90, 95, 85],
        [85, 90, 95],
        [80, 85, 90],
        [75, 80, 70],
        [70, 75, 85],
    ]),
    columns=['학생1', '학생2', '학생3'],
    index = ['국', '영', '수', '사', '과']
)

NameError: name 'pd' is not defined

NameError: name 'df' is not defined

In [3]:
data = {
    '학생1': [90, 85, 80, 75, 70],
    '학생2': [95, 90, 85, 80, 75],
    '학생3': [85, 95, 90, 70, 85],
}
df = pd.DataFrame(data, index=['국', '영', '수', '사', '과'])

display(df)

Unnamed: 0,학생1,학생2,학생3
국,90,95,85
영,85,90,95
수,80,85,90
사,75,80,70
과,70,75,85


In [5]:
display(df.학생1%2 == 0)
display(df.loc[df.학생1%2 == 0])
display(df.loc[df.학생1%2 == 0, [True, False, True]])

국     True
영    False
수     True
사    False
과     True
Name: 학생1, dtype: bool

Unnamed: 0,학생1,학생2,학생3
국,90,95,85
수,80,85,90
과,70,75,85


Unnamed: 0,학생1,학생3
국,90,85
수,80,90
과,70,85


In [6]:
df.iloc[1, -1] = 100
display(df)

Unnamed: 0,학생1,학생2,학생3
국,90,95,85
영,85,90,100
수,80,85,90
사,75,80,70
과,70,75,85


In [7]:
df.values

array([[ 90,  95,  85],
       [ 85,  90, 100],
       [ 80,  85,  90],
       [ 75,  80,  70],
       [ 70,  75,  85]], dtype=int64)

In [13]:
df = pd.DataFrame({
    'A': range(1, 6),
    'B': range(10, 0, -2),
    'C C': range(10, 5, -1)
    })

display(df)
# B열 값이 6이상이면서 A열의 값이 3이상인 row 추출
df.query('A >= 3 and B >= 6')   # df.loc[(df.B >= 6) & (df.A >= 3)]
# A열 1 이상 B열 3 이상
df.query('A >= 1 and B >= 3')   # df.loc[(df.B >= 6) & (df.A >= 3)]
# C C열이 8이상이면서 A열이 3이상
df.query('`C C` >= 8 and A >= 3')
# A열이 값이 수학인 것을 추출
df.query('A == "수학"')

Unnamed: 0,A,B,C C
0,1,10,10
1,2,8,9
2,3,6,8
3,4,4,7
4,5,2,6


Unnamed: 0,A,B,C C
2,3,6,8


In [14]:
data = {
    '점수': [90, 85, 80, 75, 70, 95, 80, 70, 80, 95, 85, 95, 90, 70, 85, 85, 95, 90, 95, 85, 95, 95, 95, 100, 85],
    '구분': ['현역']*5 + ['현역']*5 + ['현역']*5 + ['재수']*5 + ['재수']*5
}
df = pd.DataFrame(data)
display(df)

df.groupby(['구분']).mean()


Unnamed: 0,점수,구분
0,90,현역
1,85,현역
2,80,현역
3,75,현역
4,70,현역
5,95,현역
6,80,현역
7,70,현역
8,80,현역
9,95,현역


Unnamed: 0_level_0,점수
구분,Unnamed: 1_level_1
재수,92.0
현역,83.0
