# Pandas 데이터 프레임
- 데이터 분석을 위해 가장 많이 사용되는 패키지로 행과 열로 구성된 테이블 형식의 데이터를 다루는데 효과적이다.
- 판다스의 시리즈(Series), 데이터프레임(Data Frame) 객체는 다양한 자료형의 데이터를 담을 수 있으며, 손쉽게 데이터 결합과 분리가 가능

#### 판다스의 자료형
- 자료형     : python / pandas
- 정수      : int / int64
- 실수      : float / float64
- 문자열     : string / object
- 시간 데이터 : 없음 / datetime64

#### 시리즈(Series)
- 1차원 배열 형태 구조
- 열의 이름(인덱스)을 지정할 수 있는 점에서 파이썬의 딕셔너리와 유사
- 배열의 각 원소는 서로 다른 자료형을 넣을 수 있고, 다차원 배열도 원소로 넣을 수 있다.

#### 데이터 프레임(Data Frame)
- 2차원 테이블 형태의 구조
- 여러 개의 열과 행을 가지며, 각 열은 서로 다른 자료형을 가질 수 있다.

##### Series 만들고 사용하기


In [15]:
import pandas as pd

# 넘파이의 ndarray의 1차원 배열을 기본으로 정수와 문자열 인덱스를 사용한다.
# series 객체 생성을 위해 Series 함수를 사용한다.

sr1 = pd.Series([10,30,20,40,60])   # 리스트를 시리즈 객체로 생성
print(sr1)
print(sr1.values)
print(sr1.index)
print(sr1[4])

0    10
1    30
2    20
3    40
4    60
dtype: int64
[10 30 20 40 60]
RangeIndex(start=0, stop=5, step=1)
60


In [None]:
# 시리즈 객체의 인덱스 설정하기
sr1 = pd.Series([10,20,30,40,60], index= ['a','b','c','d','e'])
# print(sr1[2])
print(sr1[['b','c']])

print(sr1[0:5])     # 5는 포함 x
print(sr1['a':'e']) # 'e' 도 포함

b    20
c    30
dtype: int64
a    10
b    20
c    30
d    40
e    60
dtype: int64
a    10
b    20
c    30
d    40
e    60
dtype: int64


#### 데이터 프레임 만들고 사용하기

In [None]:
# 2차원 배열로 데이터 프레임 객체 생성하기
import pandas as pd

df1 = pd.DataFrame([[10,20,30],[40,50,60]])
print(df1)

    0   1   2
0  10  20  30
1  40  50  60


In [28]:
# 딕셔너리를 이용한 데이터 프레임 객체 생성하기
dic1 = {'fruit': ['사과','배','감','귤','바나나'],
        'price': [100,200,150,50,20],
        'qty' : [10,20,30,20,15]}
df2 = pd.DataFrame(dic1)
print(df2)

  fruit  price  qty
0    사과    100   10
1     배    200   20
2     감    150   30
3     귤     50   20
4   바나나     20   15


In [29]:
# 데이터프레임 객체의 인덱스(행)/열이름 설정하기
df3 = pd.DataFrame(dic1, index=['a','b','c','d','e'])
print(df3)

  fruit  price  qty
a    사과    100   10
b     배    200   20
c     감    150   30
d     귤     50   20
e   바나나     20   15


In [32]:
# 생성된 데이터프레임의 인덱스와 칼럼명 변경 -> rename() 메소드를 이용
# inplace = True 옵션이 생략되면, 새로운 객체를 반환함
df3.rename(columns = {'fruit':'과일','price':'가격','qty':'수량'}, inplace = True)
df3.rename(index = {'a':'01','b':'02','c':'03','d':'04','e':'05'}, inplace = True)
print(df3)

     과일   가격  수량
01   사과  100  10
02    배  200  20
03    감  150  30
04    귤   50  20
05  바나나   20  15


#### 데이터 프레임 살펴보기
- 데이터프레임 객체는 크기, 구성항목, 자료형, 통계 수치 등 여러 정보를 확인할 수 있는 속성과 메소드 제공


In [58]:
import pandas as pd

df = pd.read_csv('../csv/df_sample.csv')
# df.head(5)
df.tail(5)

Unnamed: 0,학번,중간,기말,리포트,퀴즈
5,S06,71,75,16,16
6,S07,60,80,18,18
7,S08,72,65,14,14
8,S09,65,65,14,14
9,S10,85,78,10,10


##### 데이터 요약 정보 확인하기

In [37]:
print(df.shape)
df.info()

(10, 5)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   학번      10 non-null     object
 1   중간      10 non-null     int64 
 2   기말      10 non-null     int64 
 3   리포트     10 non-null     int64 
 4   퀴즈      10 non-null     int64 
dtypes: int64(4), object(1)
memory usage: 528.0+ bytes


In [38]:
# 열별 데이터 수
df.count()

학번     10
중간     10
기말     10
리포트    10
퀴즈     10
dtype: int64

##### 주요 기술 통계 - describe(inclue='all')
- count : 각 열에 있는 NaN이 아닌 값의 개수
- unique : 중복값을 제외한 고유한 값의 개수
- top : 가장 많이 나타나는 데이터 값
- freq : 가장 많이 나타나는 데이터 값 빈도
- mean : 평균, std : 표준 편차, min : 최소값, max : 최대값
- 20%, 50%, 75% : 전체 데이터의 1/4지점, 1/2지점, 3/4지점의 데이터값

In [None]:
# df.describe()
df.describe(include='all')

Unnamed: 0,학번,중간,기말,리포트,퀴즈
count,10,10.0,10.0,10.0,10.0
unique,10,,,,
top,S01,,,,
freq,1,,,,
mean,,77.6,78.5,15.0,15.0
std,,10.616549,9.663793,3.559026,3.559026
min,,60.0,65.0,10.0,10.0
25%,,71.25,75.0,12.5,12.5
50%,,79.0,78.0,15.0,15.0
75%,,84.25,82.25,18.0,18.0


##### 통계함수 적용하기

In [49]:
print(df['중간'].mean())
print(df[['중간', '기말']].mean())
print(df['리포트'].median())

77.6
중간    77.6
기말    78.5
dtype: float64
15.0


In [50]:
# 표준 편차 std(), 분산 var()
print("표준편차 :")
print(df[['중간','기말']].std())
print("편차 :")
print(df[['중간','기말']].var())

표준편차 :
중간    10.616549
기말     9.663793
dtype: float64
편차 :
중간    112.711111
기말     93.388889
dtype: float64


In [53]:
# 고유값 세기
df['퀴즈'].value_counts()

퀴즈
18    3
10    2
14    2
20    1
12    1
16    1
Name: count, dtype: int64

In [59]:
# 상관계수 구하기 : corr()
df[['중간','기말']].corr()
df1 = df.drop(columns='학번')
df1.corr()

Unnamed: 0,중간,기말,리포트,퀴즈
중간,1.0,0.707196,-0.129388,-0.129388
기말,0.707196,1.0,0.33921,0.33921
리포트,-0.129388,0.33921,1.0,1.0
퀴즈,-0.129388,0.33921,1.0,1.0


##### 데이터프레임 조작하기

In [None]:
# 특정 열을 행 인덱스로 설정 - set_indx()
# 학번과 같이 전체 행을 대표하는 열을 인덱스로 지정
# 지정한 열은 인덱스 역할을 하기 때문에 열 이름으로 접근할 수 없음
df.set_index('학번')

Unnamed: 0_level_0,중간,기말,리포트,퀴즈
학번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
S01,90,95,20,20
S02,82,83,18,18
S03,80,78,18,18
S04,78,75,10,10
S05,93,91,12,12
S06,71,75,16,16
S07,60,80,18,18
S08,72,65,14,14
S09,65,65,14,14
S10,85,78,10,10


In [68]:
df1.index = df['학번']
df1
df2 = df1.reset_index()
df2


Unnamed: 0,학번,중간,기말,리포트,퀴즈
0,S01,90,95,20,20
1,S02,82,83,18,18
2,S03,80,78,18,18
3,S04,78,75,10,10
4,S05,93,91,12,12
5,S06,71,75,16,16
6,S07,60,80,18,18
7,S08,72,65,14,14
8,S09,65,65,14,14
9,S10,85,78,10,10


##### 원소 선택
- loc 또는 iloc 인덱서를 사용해 주어진 행 인덱스나 열이름으로 특정 원소를 선택할 수 있다.
- loc : 행인덱스와 열이름을 사용해서 선택
- iloc : 행번호와 열번호를 사용해서 선택

In [None]:
df.set_index('학번', inplace=True)
print(df)
print(df.loc['S01','기말'])
print(df.iloc[0,1])

     중간  기말  리포트  퀴즈
학번                  
S01  90  95   20  20
S02  82  83   18  18
S03  80  78   18  18
S04  78  75   10  10
S05  93  91   12  12
S06  71  75   16  16
S07  60  80   18  18
S08  72  65   14  14
S09  65  65   14  14
S10  85  78   10  10
95
95


In [None]:
# 행 선택 -> 인덱스명(loc)이나 인덱스 번호(iloc)를 사용해서 해당 행 전체를 선택할 수 있다.
print(df.loc['S01'])
print(df.iloc[3])

중간     90
기말     95
리포트    20
퀴즈     20
Name: S01, dtype: int64
중간     78
기말     75
리포트    10
퀴즈     10
Name: S04, dtype: int64


In [83]:
# 열 선택 -> df['열 이름'] or df[['열 1', '열 2']]
df['중간']

학번
S01    90
S02    82
S03    80
S04    78
S05    93
S06    71
S07    60
S08    72
S09    65
S10    85
Name: 중간, dtype: int64

In [None]:
# 행과 열의 삭제 - drop()
# 기본 설정은 행 삭제 (asis = 0), 열 삭제 (asis = 1)
df1 = df.drop(0)    # 0행 삭제
df2 = df.drop('퀴즈', axis=1)

##### 데이터프레임 정렬 - sort_index()
- 행 기준
- 먼저 정렬하려는 칼럼으로 인덱스를 설정한 뒤 정렬 시행

In [95]:
df1 = df.reset_index()          # 학번을 인덱스에서 빼주고
df1 = df1.set_index('중간')      # 중간 점수를 인덱스로 설정
df1 = df1.sort_index(ascending=True)                # 인덱스를 기준으로 정렬

print(df1)

     학번  기말  리포트  퀴즈
중간                  
60  S07  80   18  18
65  S09  65   14  14
71  S06  75   16  16
72  S08  65   14  14
78  S04  75   10  10
80  S03  78   18  18
82  S02  83   18  18
85  S10  78   10  10
90  S01  95   20  20
93  S05  91   12  12


In [98]:
df2 = df.sort_values(by='기말')
df2

Unnamed: 0_level_0,중간,기말,리포트,퀴즈
학번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
S08,72,65,14,14
S09,65,65,14,14
S04,78,75,10,10
S06,71,75,16,16
S03,80,78,18,18
S10,85,78,10,10
S07,60,80,18,18
S02,82,83,18,18
S05,93,91,12,12
S01,90,95,20,20


##### 날짜 데이터 변환

In [None]:
df['입사일'] = pd.to_datetime(df['입사일'])                         # 날짜 형식 변환
df['근속일수'] = pd.Timestamp.today().year - df['입사일'].dt.year   # 근속 연수 계산

##### 그룹화(groupby)

In [18]:
df_group = df.groupby('직업')['연봉'].mean()    # 직업별 평균 연봉
print(df_group)

직업
개발자        5000.0
기획자        5500.0
데이터 분석가    6000.0
디자이너       4000.0
Name: 연봉, dtype: float64


##### pivot table
- 데이터를 그롭화하고 특정 기준에 따라 집계하는데 사용
- index : 그룹화할 기준 열(행 기준)
- columns : 열로 표시할 기준 (옵션)
- values = 집계할 값
- aggfunc : 집계 방식(mean, max, min, sum, count)
- fill_value : NaN 값을 대체할 값 (옵션)


In [None]:
df_pivot = df.pivot_table(index='직업', values='연봉', aggfunc= 'mean') # 직업별 평균 연봉
print(df_pivot)

             연봉
직업             
개발자      5000.0
기획자      5500.0
데이터 분석가  6000.0
디자이너     4000.0


##### 데이터 집계(agg)
- 여러 개의 집계 함수를 한 번에 적용할 때 사용됨

In [21]:
df_agg = df.groupby('직업').agg({'연봉':['mean', 'max', 'min'], '나이' : ['max']})    # 연봉의 평균, 최대, 최소 계산
print(df_agg)

             연봉              나이
           mean   max   min max
직업                             
개발자      5000.0  5000  5000  25
기획자      5500.0  5500  5500  30
데이터 분석가  6000.0  6000  6000  28
디자이너     4000.0  4000  4000  22


#### 결측치 처리

In [None]:
df.fillna(0)        # NaN 값을 0으로 채우기
df.dropna()         # NaN이 있는 행 제거
df.dropna(axis=1)   # NaN이 있는 열 제거

##### 중복 데이터 제거

In [None]:
df.drop_duplicates()    

##### apply()
- 행/열 단위로 함수 적용

In [24]:
df = pd.DataFrame({
    '이름' : ['철수', '영희', '민수'],
    '국어' : [80, 90, 85],
    '수학' : [75, 95, 88]
})

# 각 학생의 평균 점수 계산
df['평균'] = df[['국어','수학']].apply(lambda x: x.mean(), axis=1)  # axis=1 이면 row 단위, axis=1 이면 col 단위 연산
print(df)

   이름  국어  수학    평균
0  철수  80  75  77.5
1  영희  90  95  92.5
2  민수  85  88  86.5


##### map()
- 한 개의 열(Series)의 각 요소에 함수 적용

In [None]:
# df['이름_대문자'] = df['이름'].map(str.upper)
df['이름_대문자'] = df['이름'].apply(str.upper)
print(df)

   이름  국어  수학    평균 이름_대문자
0  철수  80  75  77.5     철수
1  영희  90  95  92.5     영희
2  민수  85  88  86.5     민수


In [27]:
df[['국어','수학']] = df[['국어','수학']].applymap(lambda x:x+5)
print(df)

   이름  국어   수학    평균 이름_대문자
0  철수  85   80  77.5     철수
1  영희  95  100  92.5     영희
2  민수  90   93  86.5     민수


  df[['국어','수학']] = df[['국어','수학']].applymap(lambda x:x+5)


# Numpy
- 데이터 분석과 산술 연산에 사용하는 기본 패키지
- 다차원 배열을 정의하고 처리하는데 필요한 다양한 기능을 제공
- 동일한 자료형만 담을 수 있다.

## ndarray 객체
- 다차원 배열을 지원하는 객체
- array() : ndarray 객체 생성
- random.randn() : 정규 분포를 갖는 난수(랜덤수) 생성
- zeros(), ones() : 객체 생성 후 0 또는 1로 초기화
- arange() : 내장 함수인 range()와 동일한 기능
- reshape() : ndarray의 차원을 재구성
- sum(), mean(), min(), max()
- argmax() : 열 또는 행의 요소 중 최대 값을 가지는 요소의 인덱스 반환
- argmin() : 열 또는 행의 요소 중 최소 값을 가지는 요소의 인덱스 반환
- where() : 조건식에 따라 배열의 요소 값을 특정 값으로 변경
- sort() : 배열을 오름차순으로 정렬

#### 배열 생성

In [4]:
import numpy as np

arr = np.array([1,2,3,4,5])             # ndarray 생성
arr1 = np.array([[1,2,3], [4,5,6]])     # 2차원 행렬 생성
arr2 = np.random.randn(2,3)             # 난수를 이용한 배열 객체 생성
arr3 = np.ones((1,2))

arr4 = np.arange(20, 200, 10)
arr5 = arr4.reshape(3,6)

print(arr4)
print(arr5)

[ 20  30  40  50  60  70  80  90 100 110 120 130 140 150 160 170 180 190]
[[ 20  30  40  50  60  70]
 [ 80  90 100 110 120 130]
 [140 150 160 170 180 190]]


##### 배열 다루기

In [None]:
import numpy as np

ar1 = np.array([[5,7,9], [-7,-6,19], [6,9,11]])
print(ar1.max(axis = 0))    # [6, 9, 19]
print(ar1.max(axis = 1))    # [9, 19,11]

[ 6  9 19]
[ 9 19 11]


##### 조건식을 사용한 연산

In [9]:
ar2 = np.where(ar1 < 0, 0, ar1)
print(ar2)

[[ 5  7  9]
 [ 0  0 19]
 [ 6  9 11]]


##### 배열의 정렬

In [10]:
print(ar1)
ar1.sort(0) # 열 단위로 원소를 정렬
print(ar1)
ar1.sort(1)  # 행 단위로 원소를 정렬
print(ar1)

[[ 5  7  9]
 [-7 -6 19]
 [ 6  9 11]]
[[-7 -6  9]
 [ 5  7 11]
 [ 6  9 19]]
[[-7 -6  9]
 [ 5  7 11]
 [ 6  9 19]]


#### 기본 연산

# scikit-learn
- 머신 러닝

In [13]:
!pip install scikit-learn

Defaulting to user installation because normal site-packages is not writeable
Collecting scikit-learn
  Downloading scikit_learn-1.6.1-cp39-cp39-macosx_12_0_arm64.whl.metadata (31 kB)
Collecting scipy>=1.6.0 (from scikit-learn)
  Using cached scipy-1.13.1-cp39-cp39-macosx_12_0_arm64.whl.metadata (60 kB)
Collecting joblib>=1.2.0 (from scikit-learn)
  Using cached joblib-1.4.2-py3-none-any.whl.metadata (5.4 kB)
Collecting threadpoolctl>=3.1.0 (from scikit-learn)
  Downloading threadpoolctl-3.6.0-py3-none-any.whl.metadata (13 kB)
Downloading scikit_learn-1.6.1-cp39-cp39-macosx_12_0_arm64.whl (11.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m11.1/11.1 MB[0m [31m20.7 MB/s[0m eta [36m0:00:00[0m [36m0:00:01[0m
[?25hUsing cached joblib-1.4.2-py3-none-any.whl (301 kB)
Using cached scipy-1.13.1-cp39-cp39-macosx_12_0_arm64.whl (30.3 MB)
Downloading threadpoolctl-3.6.0-py3-none-any.whl (18 kB)
Installing collected packages: threadpoolctl, scipy, joblib, scikit-learn
S

In [15]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_diabetes

# 데이터 로드
data = load_diabetes()
X, y = data.data, data.target

# 훈련 데이터와 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size = 0.2, random_state=42)

# 선형 회귀 모델 학습
model = LinearRegression()
model.fit(X_train, y_train)

# 예측 및 평가
predictions = model.predict(X_test)
print(y_test[:5])
print(predictions[:5])

[219.  70. 202. 230. 111.]
[139.5475584  179.51720835 134.03875572 291.41702925 123.78965872]
