# 판다스 자료구조
- 판다스는 시리즈와 데이터 프레임이라는 구조화된 데이터 형식을 제공
- 서로 다른 종류의 데이터를 한 곳에 담는 그릇이 된다.
- 시리즈는 1차원 배열이고, 데이터 프레임은 2차원 배열이라는 차이가 있다.

In [4]:
!pip install pandas

Collecting pandas
  Obtaining dependency information for pandas from https://files.pythonhosted.org/packages/cd/5f/4dba1d39bb9c38d574a9a22548c540177f78ea47b32f99c0ff2ec499fac5/pandas-2.2.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata
  Downloading pandas-2.2.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (89 kB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m89.9/89.9 kB[0m [31m5.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting numpy>=1.23.2 (from pandas)
  Obtaining dependency information for numpy>=1.23.2 from https://files.pythonhosted.org/packages/b3/dd/2238b898e51bd6d389b7389ffb20d7f4c10066d80351187ec8e303a5a475/numpy-2.2.6-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata
  Downloading numpy-2.2.6-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (62 kB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m62.0/62.0 kB[0m [31m6.7 MB/s

# 시리즈
- 시리즈는 데이터가 순차적으로 나열된 1차원 배열의 형태를 갖는다.
- 딕셔너리, 리스트, 튜플에서 판다스 시리즈로 변환할 수 있다.
```
딕셔너리 -> 시리즈 변환 : pandas.Series(딕셔너리)
```

In [9]:
import pandas as pd

# 딕셔너리를 만든다.
dict_data = {'a': 1, 'b': 2, 'c': 3}

# 딕셔너리를 시리즈로 변환
sr = pd.Series(dict_data)

print(type(sr))
print(sr)

<class 'pandas.core.series.Series'>
a    1
b    2
c    3
dtype: int64


In [11]:
import pandas as pd

# 리스트를 시리즈로 변환
list_data = ['2019-01-02', 3.14, 'ABC', 100, True]
sr = pd.Series(list_data)
print(sr)

0    2019-01-02
1          3.14
2           ABC
3           100
4          True
dtype: object


In [12]:
# 인덱스 배열은 idx에 저장
idx = sr.index
print(idx)

RangeIndex(start=0, stop=5, step=1)


In [13]:
# 데이터 값 배열은 변수 val에 저장
val = sr.values
print(val)

['2019-01-02' 3.14 'ABC' 100 True]


In [14]:
# dtype 속성을 확인하면 시리즈를 구성하는 원소의 자료형을 파악할 수 있다.
print(sr.dtypes)

object


In [15]:
# 시리즈 배열의 크기
print(len(sr))  # 5

5


In [17]:
# shape 속성은 배열의 형태를 나타내며 일반적으로 (행수, 열수) 형식으로 출력된다.
# 하지만 시리즈는 1차원 데이터 구조이므로 shape는 (n,) 형태로 출력된다.
print(sr.shape)

(5,)


In [18]:
# ndim 속성은 배열이나 데이터 구조의 차원 수를 나타낸다.
# 시리즈 객체는 1차원 데이터이므로 실행 결과가 1로 나온다.
print(sr.ndim)

1


# 튜플 시리즈 변환

In [19]:

import pandas as pd

# 튜플을 시리즈로 변환
tup_data = ('영인', '2010-05-01', '여', True)
sr = pd.Series(tup_data, index=['이름', '생년월일', '성별', '학생여부'])
print(sr)

이름              영인
생년월일    2010-05-01
성별               여
학생여부          True
dtype: object


# 시리즈 원소 선택
- 시리즈에서 하나의 원소를 선택할 수도 있고, 여러 원소를 한꺼번에 선택할 수도 있다.
- 파이썬 리스트 슬라이싱 기법과 비슷하게 인덱스 범위를 지정하여 원소를 선택하는 방법도 있다.

In [24]:
# print(sr[0]) # deprecated
print(sr.iloc[0])
print(sr['이름'])

영인
영인


In [31]:
# 인덱스 리스트 사용
print(sr[[1, 2]])
print('\n')
print(sr[['생년월일', '성별']])

생년월일    2010-05-01
성별               여
dtype: object


생년월일    2010-05-01
성별               여
dtype: object


  print(sr[[1,2]])


In [35]:
print(sr[1: 2])
print('\n')
print(sr['생년월일': '성별'])

생년월일    2010-05-01
dtype: object


생년월일    2010-05-01
성별               여
dtype: object


In [36]:
# 빈 배열 형태를 갖는 시리즈 객체를 만든다.
pd.Series()

Series([], dtype: object)

In [37]:
# 판다스 Series함수에 인자로 상수를 입력하면 원소를 1개 갖는 시리즈 객체를 만든다.
pd.Series(5)

0    5
dtype: int64

In [38]:
# 판다스 Series 함수에 상수를 입력하고 인덱스 배열을 함께 전달하면 인덱스 배열의 크기만큼 상수 값이 복제되는 방식으로 시리즈 객체를 만든다.
pd.Series(5, index=['a', 'b', 'c'])

a    5
b    5
c    5
dtype: int64

# 데이터 프레임
- 데이터 프레임은 2차원 배열이다.
- 데이터 프레임을 만들 때는 DataFrame() 함수를 사용한다.
    - 딕서녀리 -> 데이터프레임 변환 : pandas.DataFrame(딕셔너리 객체)

In [43]:
import pandas as pd

# 열이름을 key로 하고, 리스트를 value로 갖는 딕셔너리 정의
dict_data = {'c0': [1, 2, 3], 'c1': [4, 5, 6], 'c2': [7, 8, 9], 'c3': [10, 11, 12], 'c4': [13, 14, 15]}
df = pd.DataFrame(dict_data)
print(type(df))
print(df)

<class 'pandas.core.frame.DataFrame'>
   c0  c1  c2  c3  c4
0   1   4   7  10  13
1   2   5   8  11  14
2   3   6   9  12  15


## 행 인덱스/열 이름 지정
```
행 인덱스/열 이름 설정 : pandas.DataFrame(2차원배열, index=행 인덱스 배열, columns=열 이름 배열)
```

In [46]:
import pandas as pd

df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']],
                  index=['준서', '예은'],
                  columns=['나이', '성별', '학교'])
print(df)

    나이 성별   학교
준서  15  남  덕영중
예은  17  여  수리중


In [49]:
print(df.index)
print(df.columns)
print(df.values)

Index(['준서', '예은'], dtype='object')
Index(['나이', '성별', '학교'], dtype='object')
[[15 '남' '덕영중']
 [17 '여' '수리중']]


## index 및 columns 이름 변경

In [52]:
df.index = ['학생1', '학생2']
df.columns = ['연령', '남녀', '소속']

print(df)
print(df.index)
print(df.columns)

     연령 남녀   소속
학생1  15  남  덕영중
학생2  17  여  수리중
Index(['학생1', '학생2'], dtype='object')
Index(['연령', '남녀', '소속'], dtype='object')


In [64]:
import pandas as pd

df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']],
                  index=['준서', '예은'],
                  columns=['나이', '성별', '학교'])

# rename 메서드로 열 이름과 행 인덱스를 변경할 수 있다.
df = df.rename(columns={'나이': '연령', '성별': '남녀', '학교': '소속'})
print(df)

df = df.rename(index={'준서': '학생1', '예은': '학생2'})
print(df)

    연령 남녀   소속
준서  15  남  덕영중
예은  17  여  수리중
     연령 남녀   소속
학생1  15  남  덕영중
학생2  17  여  수리중


# 행열 삭제
- 행을 삭제할 때는 축(axis) 옵션으로 axis=0 또는 axis="index"를 입력하거나 별도로 입력하지 않는다.
- 열을 삭제할 때는 축(axis) 옵션으로 axis=1또는 axis="columns"를 입력한다.
- 동시에 여러 개의 행 또는 열을 삭제하려면 리스트 형태로 함수 인자에 입력한다.
- drop() 메서드는 기존 객체를 변경하지 않고 새로운 객체를 반환한다는 점에 유의한다.
- 행삭제 : DataFrame 객체.drop(행 인덱스 또는 배열, axis=0 또는 axis="index")
- 열삭제 : DataFrame 객체.drop(열 이름 또는 배열, axis=1 또는 axis="columns")

In [78]:
import pandas as pd

exam_data = {'수학': [90, 80, 70], '영어': [98, 89, 95], '음악': [85, 95, 100], '체육': [100, 90, 90]}
df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
print(df)


    수학  영어   음악   체육
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90
    수학  영어   음악   체육
서준  90  98   85  100
인아  70  95  100   90
    수학  영어  음악   체육
서준  90  98  85  100
    수학  영어  음악   체육
서준  90  98  85  100
    수학  영어   음악   체육
서준  90  98   85  100
인아  70  95  100   90
    수학   체육
서준  90  100
우현  80   90
인아  70   90


In [82]:
df2 = df.copy()
df2 = df2.drop('우현')
print(df2)

    수학  영어   음악   체육
서준  90  98   85  100
인아  70  95  100   90


In [81]:
df3 = df.copy()
df3 = df3.drop(['우현', '인아'], axis=0)
print(df3)

    수학  영어  음악   체육
서준  90  98  85  100


In [80]:
df4 = df.copy()
df4 = df4.drop(['우현', '인아'], axis="index")
print(df4)

    수학  영어  음악   체육
서준  90  98  85  100


In [79]:
df5 = df.copy()
df5 = df5.drop(index=['우현'])
print(df5)

    수학  영어   음악   체육
서준  90  98   85  100
인아  70  95  100   90


In [85]:
import pandas as pd

exam_data = {'수학': [90, 80, 70], '영어': [98, 89, 95], '음악': [85, 95, 100], '체육': [100, 90, 90]}
df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
print(df)

    수학  영어   음악   체육
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90


In [87]:
df2 = df.copy()
df2 = df2.drop('수학', axis=1)
print(df2)

    영어   음악   체육
서준  98   85  100
우현  89   95   90
인아  95  100   90


In [83]:
df3 = df.copy()
df3 = df3.drop(['영어', '음악'], axis=1)
print(df3)

    수학   체육
서준  90  100
우현  80   90
인아  70   90


In [90]:
df4 = df.copy()
df4 = df4.drop(['영어', '음악'], axis='columns')
print(df4)

    수학   체육
서준  90  100
우현  80   90
인아  70   90


In [92]:
df5 = df.copy()
df5 = df5.drop(columns=['수학'])
print(df5)

    영어   음악   체육
서준  98   85  100
우현  89   95   90
인아  95  100   90


# 행 선택
- 데이터 프레임의 행 데이터를 선택하기 위해서는 loc과 iloc 인덱서를 사용한다.
- 인덱스 이름을 기준으로 행을 선택할 때는 loc를 이용하고
- 정수형 위치 인덱스를 사용할 때는 iloc을 사용한다.

In [97]:
import pandas as pd

exam_data = {'수학': [90, 80, 70], '영어': [98, 89, 95], '음악': [85, 95, 100], '체육': [100, 90, 90]}
df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
print(df)

    수학  영어   음악   체육
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90


In [93]:
label1 = df.loc['서준']
positional = df.iloc[0]
print(label1)
print('\n')
print(positional)

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64


수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64


In [95]:
label2 = df.loc[['서준', '우현']]
positional2 = df.iloc[[0, 1]]
print(label2)
print('\n')
print(positional2)

    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90


    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90


In [96]:
label3 = df.loc['서준':'우현']
positional3 = df.iloc[0: 1]
print(label3)
print('\n')
print(positional3)

    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90


    수학  영어  음악   체육
서준  90  98  85  100


# 열 선택
- 열을 선택하기 위해서는 대괄호([])안에 열 이름을 따옴표와 함께 입력하거나, 도트 다음에 열 이름을 입력하는 두가지 방식을 사용한다.
```
열 1개 선택(시리즈 생성) : DataFrame 객체["열 이름"] 또는 DataFrame 객체.열 이름
```

In [100]:
import pandas as pd

exam_data = {'이름': ['서준', '우현', '인아'],
             '수학': [90, 80, 70],
             '영어': [95, 39, 49],
             '음악': [85, 95, 100],
             '체육': [100, 90, 90]}

df = pd.DataFrame(exam_data)
print(df)
print('\n')
print(type(df))

   이름  수학  영어   음악   체육
0  서준  90  95   85  100
1  우현  80  39   95   90
2  인아  70  49  100   90


<class 'pandas.core.frame.DataFrame'>


In [103]:
math1 = df['수학']
print(math1)
print('\n')
print(type(math1))

0    90
1    80
2    70
Name: 수학, dtype: int64


<class 'pandas.core.series.Series'>


In [105]:
english = df.영어
print(english)
print('\n')
print(type(english))

0    95
1    39
2    49
Name: 영어, dtype: int64


<class 'pandas.core.series.Series'>


In [107]:
music_gym = df[['음악', '체육']]
print(music_gym)
print('\n')
print(type(music_gym))  # 데이터 프레임이 반환된다.

    음악   체육
0   85  100
1   95   90
2  100   90


<class 'pandas.core.frame.DataFrame'>


In [109]:
math2 = df[['수학']]
print(math2)
print('\n')
print(type(math2))  # 데이터 프레임이 반환된다.

   수학
0  90
1  80
2  70


<class 'pandas.core.frame.DataFrame'>


# 원소 선택
- 데이터 프레임의 원소를 선택하기 위해 행 인덱스와 열 이름을 [행, 열] 형식의 2차원 좌표로 입력하여 원소 위치를 지정하는 방법이다.

In [110]:
import pandas as pd

exam_data = {'이름': ['서준', '우현', '인아'],
             '수학': [90, 80, 70],
             '영어': [95, 39, 49],
             '음악': [85, 95, 100],
             '체육': [100, 90, 90]}

df = pd.DataFrame(exam_data)

# 이름 열을 새로운 인덱스로 지정하고 df 객체에 변경 사항 반영
df = df.set_index('이름')
print(df)

    수학  영어   음악   체육
이름                  
서준  90  95   85  100
우현  80  39   95   90
인아  70  49  100   90


In [112]:
a = df.loc['서준', '음악']
print(a)
b = df.iloc[0, 2]
print(b)

85
85


In [119]:
c = df.loc['서준', ['음악', '체육']]
print(c)
d = df.iloc[0, [2, 3]]
print(d)
e = df.loc['서준', '음악':'체육']
print(e)

음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64


In [125]:
g = df.loc[['서준', '우현'], ['음악', '체육']]
print(g)
h = df.iloc[[0, 1], [2, 3]]
print(h)
i = df.loc['서준':'우현', '음악':'체육']
print(i)
j = df.iloc[0:2, 2:]
print(j)

    음악   체육
이름         
서준  85  100
우현  95   90
    음악   체육
이름         
서준  85  100
우현  95   90
    음악   체육
이름         
서준  85  100
우현  95   90
    음악   체육
이름         
서준  85  100
우현  95   90


# 열 추가
- 열 추가 : Data Frame 객체['추가하려는 열 이름'] = 데이터 값

In [127]:
import pandas as pd

exam_data = {'이름': ['서준', '우현', '인아'],
             '수학': [90, 80, 70],
             '영어': [95, 39, 49],
             '음악': [85, 95, 100],
             '체육': [100, 90, 90]}

df = pd.DataFrame(exam_data)

df['국어'] = 80
print(df)

   이름  수학  영어   음악   체육  국어
0  서준  90  95   85  100  80
1  우현  80  39   95   90  80
2  인아  70  49  100   90  80


In [129]:
df['미술'] = [80, 90, 100]
print(df)

   이름  수학  영어   음악   체육  국어   미술
0  서준  90  95   85  100  80   80
1  우현  80  39   95   90  80   90
2  인아  70  49  100   90  80  100


# 행추가
- 행 추가 : DataFrame객체.loc['새로운 행 이름'] = 데이터 값 (또는 배열)


In [131]:
import pandas as pd

exam_data = {'이름': ['서준', '우현', '인아'],
             '수학': [90, 80, 70],
             '영어': [95, 39, 49],
             '음악': [85, 95, 100],
             '체육': [100, 90, 90]}

df = pd.DataFrame(exam_data)
print(df)

   이름  수학  영어   음악   체육
0  서준  90  95   85  100
1  우현  80  39   95   90
2  인아  70  49  100   90
   이름  수학  영어   음악   체육
0  서준  90  95   85  100
1  우현  80  39   95   90
2  인아  70  49  100   90
3   0   0   0    0    0


In [133]:
df.loc[3] = 0
print(df)

   이름  수학  영어   음악   체육
0  서준  90  95   85  100
1  우현  80  39   95   90
2  인아  70  49  100   90
3   0   0   0    0    0
4  동규  90  80   70   60


In [132]:
df.loc[4] = ['동규', 90, 80, 70, 60]
print(df)

   이름  수학  영어   음악   체육
0  서준  90  95   85  100
1  우현  80  39   95   90
2  인아  70  49  100   90
3   0   0   0    0    0
4  동규  90  80   70   60


In [134]:
df.loc['행5'] = df.loc[3]
print(df)

    이름  수학  영어   음악   체육
0   서준  90  95   85  100
1   우현  80  39   95   90
2   인아  70  49  100   90
3    0   0   0    0    0
4   동규  90  80   70   60
행5   0   0   0    0    0


# 원소 값 변경
- 원소 값 변경 : DataFrame 객체의 일부분 또는 원소를 선택 = 새로운 값


In [138]:
import pandas as pd

exam_data = {'이름': ['서준', '우현', '인아'],
             '수학': [90, 80, 70],
             '영어': [95, 39, 49],
             '음악': [85, 95, 100],
             '체육': [100, 90, 90]}

df = pd.DataFrame(exam_data)

df = df.set_index('이름')
print(df)

df.iloc[0][3] = 80  # 판다스 3.0에선 deprecated 예정
print(df)

df.loc['서준']['체육'] = 90  # 판다스 3.0에선 deprecated 예정
print(df)

df.loc['서준', '체육'] = 100
print(df)

    수학  영어   음악   체육
이름                  
서준  90  95   85  100
우현  80  39   95   90
인아  70  49  100   90
    수학  영어   음악  체육
이름                 
서준  90  95   85  80
우현  80  39   95  90
인아  70  49  100  90
    수학  영어   음악  체육
이름                 
서준  90  95   85  90
우현  80  39   95  90
인아  70  49  100  90
    수학  영어   음악   체육
이름                  
서준  90  95   85  100
우현  80  39   95   90
인아  70  49  100   90


You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  df.iloc[0][3] = 80
  df.iloc[0][3] = 80
You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or

In [141]:
df.loc['서준', ['음악', '체육']] = 50
print(df)

df.loc['서준', ['음악', '체육']] = 100, 50
print(df)

    수학  영어   음악  체육
이름                 
서준  90  95   50  50
우현  80  39   95  90
인아  70  49  100  90
    수학  영어   음악  체육
이름                 
서준  90  95  100  50
우현  80  39   95  90
인아  70  49  100  90


# 행 열 위치 바꾸기
- 데이터 프레임의 행과 열을 서로 맞바꾸는 방법이다.
- 선형대수학의 전치행렬과 같은 개념이다.
- 전치의 결과로 새로운 객체를 반환하므로 기존 객체를 변환하기 위해서는 df = df.transpose()
- 또는 df = df.T와 같이 기존 객체에 새로운 객체를 할당해주는 과정이 필요하다.
```python
행열 바꾸기: DataFrame 객체.transpose() 또는 DataFrame 객체.T
```

In [143]:
import pandas as pd

exam_data = {'이름': ['서준', '우현', '인아'],
             '수학': [90, 80, 70],
             '영어': [95, 39, 49],
             '음악': [85, 95, 100],
             '체육': [100, 90, 90]}

df = pd.DataFrame(exam_data)

df = df.transpose()
print(df)

df = df.T
print(df)

      0   1    2
이름   서준  우현   인아
수학   90  80   70
영어   95  39   49
음악   85  95  100
체육  100  90   90
   이름  수학  영어   음악   체육
0  서준  90  95   85  100
1  우현  80  39   95   90
2  인아  70  49  100   90


# 인덱스 활용
## 특정 열을 행 인덱스로 설정
- set_index() 메소드를 사용하여 데이터 프레임의 특정 열을 행 인덱스로 설정한다.
- 단 원본 데이터 프레임을 바꾸지 않고 새로운 데이터 프레임 객체를 반환한다는 점에 유의한다.
- set_index() 메서드를 사용하여 행 인덱스를 새로 지정하면 기존 행 인덱스는 삭제된다.

In [150]:
import pandas as pd

exam_data = {'이름': ['서준', '우현', '인아'],
             '수학': [90, 80, 70],
             '영어': [95, 39, 49],
             '음악': [85, 95, 100],
             '체육': [100, 90, 90]}

df = pd.DataFrame(exam_data)
print(df)

ndf = df.set_index(['이름'])
print(ndf)

ndf2 = ndf.set_index('음악')
print(ndf2)

ndf3 = ndf.set_index(['수학', '음악'])
print(ndf3)

   이름  수학  영어   음악   체육
0  서준  90  95   85  100
1  우현  80  39   95   90
2  인아  70  49  100   90
    수학  영어   음악   체육
이름                  
서준  90  95   85  100
우현  80  39   95   90
인아  70  49  100   90
     수학  영어   체육
음악              
85   90  95  100
95   80  39   90
100  70  49   90
        영어   체육
수학 음악          
90 85   95  100
80 95   39   90
70 100  49   90


## 행 인덱스 재배열
- reindex() 메서드를 사용하면 데이터프레임의 행 인덱스를 새로운 배열로 재지정할 수 있다.
```
새로운 배열로 행 인덱스를 재지정: DataFrame 객체.reindex(새로운 인덱스 배열)
```

In [152]:
import pandas as pd

dict_data = {'c0': [1, 2, 3], 'c1': [4, 5, 6], 'c2': [7, 8, 9], 'c3': [10, 11, 12], 'c4': [13, 14, 15]}

df = pd.DataFrame(dict_data, index=['r0', 'r1', 'r2'])
print(df)

new_index = ['r0', 'r1', 'r2', 'r3', 'r4']
ndf = df.reindex(new_index)
print(ndf)

new_index = ['r0', 'r1', 'r2', 'r3', 'r4']
ndf2 = df.reindex(new_index, fill_value=0)
print(ndf2)


    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15
     c0   c1   c2    c3    c4
r0  1.0  4.0  7.0  10.0  13.0
r1  2.0  5.0  8.0  11.0  14.0
r2  3.0  6.0  9.0  12.0  15.0
r3  NaN  NaN  NaN   NaN   NaN
r4  NaN  NaN  NaN   NaN   NaN
    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15
r3   0   0   0   0   0
r4   0   0   0   0   0


## 행 인덱스 초기화
- reset_index() 메서드를 활용하여 행 인덱스를 정수형 위치 인덱스로 초기화 한다.
- 이때 기존 행 인덱스는 열로 이동한다.
- 새로운 데이터 프레임 객체를 반환한다.
```
정수형 위치 인덱스로 초기화 : DataFrame 객체.reset_index()
```



In [157]:
import pandas as pd

dict_data = {'c0': [1, 2, 3], 'c1': [4, 5, 6], 'c2': [7, 8, 9], 'c3': [10, 11, 12], 'c4': [13, 14, 15]}

df = pd.DataFrame(dict_data, index=['r1', 'r2', 'r3'])
print(df)

ndf = df.reset_index()
print(ndf)

ndf = df.reset_index(names=['C00'])
print(ndf)

# 기존 행 인덱스가 필요 없을 때는 drop=True 속성 지정
ndf = df.reset_index(drop=True)
print(ndf)

    c0  c1  c2  c3  c4
r1   1   4   7  10  13
r2   2   5   8  11  14
r3   3   6   9  12  15
  index  c0  c1  c2  c3  c4
0    r1   1   4   7  10  13
1    r2   2   5   8  11  14
2    r3   3   6   9  12  15
  C00  c0  c1  c2  c3  c4
0  r1   1   4   7  10  13
1  r2   2   5   8  11  14
2  r3   3   6   9  12  15
   c0  c1  c2  c3  c4
0   1   4   7  10  13
1   2   5   8  11  14
2   3   6   9  12  15


## 행인덱스를 기준으로 데이터 프레임 정렬
- sort_index() 메서드를 활용하여 행 인덱스를 기준으로 데이터 프레임의 값을 정렬한다.
- ascending=False 옵션을 사용하여 내림차순 정렬한다.

In [159]:
import pandas as pd

dict_data = {'c0': [1, 2, 3], 'c1': [4, 5, 6], 'c2': [7, 8, 9], 'c3': [10, 11, 12], 'c4': [13, 14, 15]}

df = pd.DataFrame(dict_data, index=['r1', 'r2', 'r3'])
print(df)

# 내림차순 정렬
ndf = df.sort_index(ascending=False)
print(ndf)

# 오름차순 정렬
ndf2 = df.sort_index(ascending=True)
print(ndf2)

    c0  c1  c2  c3  c4
r1   1   4   7  10  13
r2   2   5   8  11  14
r3   3   6   9  12  15
    c0  c1  c2  c3  c4
r3   3   6   9  12  15
r2   2   5   8  11  14
r1   1   4   7  10  13
    c0  c1  c2  c3  c4
r1   1   4   7  10  13
r2   2   5   8  11  14
r3   3   6   9  12  15


## 특정 열의 데이터 기준으로 데이터프레임 정렬
```
열 기준 정렬 : DataFrame 객체.sort_values()
```


In [165]:
import pandas as pd

dict_data = {'c0': [1, 2, 3], 'c1': [4, 5, 6], 'c2': [7, 8, 9], 'c3': [10, 11, 12], 'c4': [13, 14, 15]}

df = pd.DataFrame(dict_data, index=['r1', 'r2', 'r3'])
print(df)

# c1 열을 기준으로 내림차순 정렬
ndf = df.sort_values(by='c1', ascending=False)
print(ndf)

# c1 열을 기준으로 내림차순 정렬
ndf = df.sort_values(by='c1', ascending=True)
print(ndf)

    c0  c1  c2  c3  c4
r1   1   4   7  10  13
r2   2   5   8  11  14
r3   3   6   9  12  15
    c0  c1  c2  c3  c4
r3   3   6   9  12  15
r2   2   5   8  11  14
r1   1   4   7  10  13
    c0  c1  c2  c3  c4
r1   1   4   7  10  13
r2   2   5   8  11  14
r3   3   6   9  12  15


In [168]:
ndf = df.sort_values(by=['c3', 'c4'], ascending=[False, True])
print(ndf)

    c0  c1  c2  c3  c4
r3   3   6   9  12  15
r2   2   5   8  11  14
r1   1   4   7  10  13


# 산술연산
## 시리즈 연산
- 시리즈 객체에 어떤 숫자를 더하면 시리즈의 개별 원소에 각각 숫자를 더하고 계산한 결과를 시리즈 객체로 반환한다.

In [170]:
import pandas as pd

student1 = pd.Series({'국어': 100, '영어': 90, '수학': 80})
print(student1)

percent = student1 / 200

print(percent)
print(type(percent))

국어    100
영어     90
수학     80
dtype: int64
국어    0.50
영어    0.45
수학    0.40
dtype: float64
<class 'pandas.core.series.Series'>


## 시리즈 vs 시리즈
- 시리즈와 시리즈 사이의 사칙연산을 처리하는 방법이다.
- 어느 한쪽에만 인덱스가 존재하고 다른 쪽에는 짝을 지울 수 있는 동일한 인덱스가 없는 경우 정상적으로 연산을 처리할 수 없다.
- 판다스는 유효한 값이 존재하지 않는다는 의미로 NAN을 사용하는데, 연산결과도 NAN으로 처리한다.


In [176]:
import pandas as pd

student1 = pd.Series({'국어': 100, '영어': 90, '수학': 80})
student2 = pd.Series({'영어': 100, '국어': 80, '수학': 80})

print(student1)
print('\n')
print(student2)
print('\n')

addition = student1 + student2
print(addition)
print(type(addition))

국어    100
영어     90
수학     80
dtype: int64


영어    100
국어     80
수학     80
dtype: int64


국어    180
수학    160
영어    190
dtype: int64
<class 'pandas.core.series.Series'>


In [177]:
substraction = student1 - student2
print(substraction)
print(type(substraction))

국어    20
수학     0
영어   -10
dtype: int64
<class 'pandas.core.series.Series'>


In [178]:
multiplication = student1 * student2
print(multiplication)

국어    8000
수학    6400
영어    9000
dtype: int64


In [179]:
division = student1 / student2
print(division)

국어    1.25
수학    1.00
영어    0.90
dtype: float64


In [181]:
import pandas as pd
import numpy as np

student1 = pd.Series({'국어': np.nan, '영어': 80, '수학': 90})
student2 = pd.Series({'수학': 80, '국어': 90})

print(student1)
print(student2)

addition = student1 + student2
print(addition)

국어     NaN
영어    80.0
수학    90.0
dtype: float64
수학    80
국어    90
dtype: int64
국어      NaN
수학    170.0
영어      NaN
dtype: float64


## 연산 메서드
- 객체 사이에 공통 인덱스가 없는 경우 연산 결과는 NAN으로 반환된다. 이런 사황을 피하려면 연산 메서드에 fill_value 옵션을 설정하여 적용한다.

In [183]:
import pandas as pd
import numpy as np

student1 = pd.Series({'국어': np.nan, '영어': 80, '수학': 90})
student2 = pd.Series({'수학': 80, '국어': 90})

# fill_value 옵션을 사용하면 모든 NAN이 0으로 치환된다.
addition = student1.add(student2, fill_value=0)
print(addition)

국어     90.0
수학    170.0
영어     80.0
dtype: float64


## 데이터 프레임 연산
### 데이터프레임 vs 숫자

In [184]:
!pip install seaborn

Collecting seaborn
  Obtaining dependency information for seaborn from https://files.pythonhosted.org/packages/83/11/00d3c3dfc25ad54e731d91449895a79e4bf2384dc3ac01809010ba88f6d5/seaborn-0.13.2-py3-none-any.whl.metadata
  Using cached seaborn-0.13.2-py3-none-any.whl.metadata (5.4 kB)
Collecting matplotlib!=3.6.1,>=3.4 (from seaborn)
  Obtaining dependency information for matplotlib!=3.6.1,>=3.4 from https://files.pythonhosted.org/packages/e7/e3/c82963a3b86d6e6d5874cbeaa390166458a7f1961bab9feb14d3d1a10f02/matplotlib-3.10.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata
  Downloading matplotlib-3.10.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (11 kB)
Collecting contourpy>=1.0.1 (from matplotlib!=3.6.1,>=3.4->seaborn)
  Obtaining dependency information for contourpy>=1.0.1 from https://files.pythonhosted.org/packages/c2/f3/20c5d1ef4f4748e52d60771b8560cf00b69d5c6368b5c2e9311bcfa2a08b/contourpy-1.3.2-cp311-cp311-manylinux_2_17_x86_64.many

In [189]:
import pandas as pd
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']]
print(df.head())
print('\n')
print(type(df))

addition = df + 10
print(addition.head())



    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500


<class 'pandas.core.frame.DataFrame'>
    age     fare
0  32.0  17.2500
1  48.0  81.2833
2  36.0  17.9250
3  45.0  63.1000
4  45.0  18.0500


### 데이터프레임 vs 데이터프레임
- 각 데이터프레임의 같은 행, 같은 열 위치에 있는 원소끼리 계산한다.
- 데이터 프레임 중에서 어느 한쪽에 원소가 존재하지 않거나 NAN이면 연산 결과는 NAN으로 처리된다.


In [194]:
import pandas as pd
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']]
print(df.tail())
print('\n')
print(type(df))
print('\n')

addition = df + 10
print(df.tail())
print('\n')

subtraction = addition - df
print(subtraction.tail())


      age   fare
886  27.0  13.00
887  19.0  30.00
888   NaN  23.45
889  26.0  30.00
890  32.0   7.75


<class 'pandas.core.frame.DataFrame'>


      age   fare
886  27.0  13.00
887  19.0  30.00
888   NaN  23.45
889  26.0  30.00
890  32.0   7.75


      age  fare
886  10.0  10.0
887  10.0  10.0
888   NaN  10.0
889  10.0  10.0
890  10.0  10.0


- 연산 메서드에 fill_value 옵션을 설정하여 누락 데이터를 대체할 수 있다.

In [200]:
sample1 = addition.tail()
# fillna를 사용해서 nan을 치환할 수도 있다.
sample2 = subtraction.tail().fillna(0.0)

print(sample1)
print(sample2)

result = sample1.add(sample2, fill_value=0.0)
print(result)

      age   fare
886  37.0  23.00
887  29.0  40.00
888   NaN  33.45
889  36.0  40.00
890  42.0  17.75
      age  fare
886  10.0  10.0
887  10.0  10.0
888   0.0  10.0
889  10.0  10.0
890  10.0  10.0
      age   fare
886  47.0  33.00
887  39.0  50.00
888   0.0  43.45
889  46.0  50.00
890  52.0  27.75


# 필터링
## 불린 인덱싱
- 불린 시리즈를 데이터 프레임에 대입하면 조건에 만족하는 행들만 선택할 수 있다.
```
데이터프레임의 불린 인덱싱 : DataFrame객체[불린시리즈]
```


In [203]:
import pandas as pd
import seaborn as sns

titanic = sns.load_dataset('titanic')
# 행 인덱스 0~9 범위에서 age, fare 2개 열을 선택하여 데이터 프레임 만들기
df = titanic.loc[0:9, ['age','fare']]

print(df['age'] < 20)

# 데이터 프레임에 대입
print(df[df['age'] < 20])
# loc를 사용할 수도 있다.
print(df.loc[df['age'] < 20])

0    False
1    False
2    False
3    False
4    False
5    False
6    False
7     True
8    False
9     True
Name: age, dtype: bool
    age     fare
7   2.0  21.0750
9  14.0  30.0708
    age     fare
7   2.0  21.0750
9  14.0  30.0708
