# `Pandas 🐼`

## 특징
- 표(테이블) 데이터를 다루는 데 특화
- 다양한 외부 소스에서 데이터 가져오기 (csv, excel, SQL db)
- 데이터 정제, 변환, 분석에 필요한 기능 다수
- 결측치, 그룹화, 병합 작업에 효율

In [2]:
%pip install pandas

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.3.1 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [3]:
import numpy as np
import pandas as pd

# Numpy 배열
np_array = np.arange(1, 10).reshape(3, 3)
print(np_array)

# Pandas 데이터프레임
df = pd.DataFrame(np_array, columns=['A', 'B', 'C'])
print(df)


[[1 2 3]
 [4 5 6]
 [7 8 9]]
   A  B  C
0  1  2  3
1  4  5  6
2  7  8  9


## Series
- 1차원 배열 (벡터) with 레이블

In [4]:
import pandas as pd

# 기본 Series 생성 (별말 없으면 숫자 index)
s1 = pd.Series([1, 3, 5, 7, 9])
print(s1)

# 인덱스 지정
s2 = pd.Series([1, 3, 5, 7, 9], index=['a', 'b', 'c', 'd', 'e'])
print(s2)

# dict로 생성
d = {'a': 1, 'b': 2, 'c': 3}
s3 = pd.Series(d)
print(s3)

# 단일값(스칼라)으로 Series 생성
s4 = pd.Series(5, index=['a', 'b', 'c'])
print(s4)

0    1
1    3
2    5
3    7
4    9
dtype: int64
a    1
b    3
c    5
d    7
e    9
dtype: int64
a    1
b    2
c    3
dtype: int64
a    5
b    5
c    5
dtype: int64


In [5]:
print(s2)
# 값
print(s2.values)
# 인덱스
print(s2.index)
# 데이터타입
print(s2.dtype)
# 차원
print(s2.ndim)
# 크기
print(s2.size)
# 모양
print(s2.shape)

# 앞에 2개
print(s2.head(2))
# 뒤에 3개
print(s2.tail(3))
# 통계 요약
print(s2.describe())

a    1
b    3
c    5
d    7
e    9
dtype: int64
[1 3 5 7 9]
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
int64
1
5
(5,)
a    1
b    3
dtype: int64
c    5
d    7
e    9
dtype: int64
count    5.000000
mean     5.000000
std      3.162278
min      1.000000
25%      3.000000
50%      5.000000
75%      7.000000
max      9.000000
dtype: float64


## Dataframe
- 2차원(매트릭스) with Label.
- 행(row)과 열(col) 모두에 Label 설정.

In [6]:
# 딕셔너리로부터 DataFrame 생성
data = {
    '이름': ['김철수', '이영희', '박민수', '정지영'],
    '나이': [25, 28, 22, 30],
    '성별': ['남', '여', '남', '여'],
    '점수': [85, 92, 78, 90]
}
df1 = pd.DataFrame(data)
print("딕셔너리로부터 DataFrame 생성:")
print(df1)

# 리스트의 리스트로부터 DataFrame 생성
data_list = [
    ['김철수', 25, '남', 85],
    ['이영희', 28, '여', 92],
    ['박민수', 22, '남', 78],
    ['정지영', 30, '여', 90]
]
df2 = pd.DataFrame(data_list, columns=['이름', '나이', '성별', '점수'])
print("\n리스트로부터 DataFrame 생성:")
print(df2)

딕셔너리로부터 DataFrame 생성:
    이름  나이 성별  점수
0  김철수  25  남  85
1  이영희  28  여  92
2  박민수  22  남  78
3  정지영  30  여  90

리스트로부터 DataFrame 생성:
    이름  나이 성별  점수
0  김철수  25  남  85
1  이영희  28  여  92
2  박민수  22  남  78
3  정지영  30  여  90


In [7]:
# Column 정보
print(df1.columns)
# 인덱스 (Row 정보)
print(df1.index)
# 값
print(df1.values)
# 데이터 타입
print(df1.dtypes)
# 크기
print(df1.size)
# 모양
print(df1.shape)

Index(['이름', '나이', '성별', '점수'], dtype='object')
RangeIndex(start=0, stop=4, step=1)
[['김철수' 25 '남' 85]
 ['이영희' 28 '여' 92]
 ['박민수' 22 '남' 78]
 ['정지영' 30 '여' 90]]
이름    object
나이     int64
성별    object
점수     int64
dtype: object
16
(4, 4)


In [8]:
print(df1.head(2))

print(df1.tail(2))

print(df1.describe())

print(df1['점수'].describe)

    이름  나이 성별  점수
0  김철수  25  남  85
1  이영희  28  여  92
    이름  나이 성별  점수
2  박민수  22  남  78
3  정지영  30  여  90
          나이         점수
count   4.00   4.000000
mean   26.25  86.250000
std     3.50   6.238322
min    22.00  78.000000
25%    24.25  83.250000
50%    26.50  87.500000
75%    28.50  90.500000
max    30.00  92.000000
<bound method NDFrame.describe of 0    85
1    92
2    78
3    90
Name: 점수, dtype: int64>


In [9]:
# Index(데이터 레코드 별 PK)는 Pandas의 핵심 기능

# 인덱스 재설정 (0 ~ N으로 인덱스 설정)
df_reset = df1.reset_index()
print(df_reset)

# 인덱스 설정
df_set = df1.set_index('이름')
print(df_set)

# 다중 인덱스 설정
df_multi = df1.set_index(['성별', '이름'])
print(df_multi)

# 인덱스 이름 변경
df_renamed = df_set.rename_axis('학생명')
print(df_renamed)

   index   이름  나이 성별  점수
0      0  김철수  25  남  85
1      1  이영희  28  여  92
2      2  박민수  22  남  78
3      3  정지영  30  여  90
     나이 성별  점수
이름            
김철수  25  남  85
이영희  28  여  92
박민수  22  남  78
정지영  30  여  90
        나이  점수
성별 이름         
남  김철수  25  85
여  이영희  28  92
남  박민수  22  78
여  정지영  30  90
     나이 성별  점수
학생명           
김철수  25  남  85
이영희  28  여  92
박민수  22  남  78
정지영  30  여  90


## 데이터 접근 및 선택
### 열 선택과 인덱스 접근

In [None]:
# DF에서 단일 열(col) 선택

name_col = df1['이름']
print(name_col)  #Series가 나온다.

# 다중 열 선택
subset = df1[['이름', '점수']]
print(subset)  # Dataframe이 나온다.

# key 접근이 아니라 속성(주어.속성) 방식 접근 - 공백/특수문자 없을 경우
df1.나이

0    김철수
1    이영희
2    박민수
3    정지영
Name: 이름, dtype: object
    이름  점수
0  김철수  85
1  이영희  92
2  박민수  78
3  정지영  90


0    25
1    28
2    22
3    30
Name: 나이, dtype: int64