# Pandas

#### 데이터프레임 생성 및 기본 조작

In [17]:
import pandas as pd

# 샘플 데이터 생성
data = {
    '이름': ['철수', '영희', '민수', '지수'],
    '나이': [25, 22, 30, 28],
    '직업': ['개발자', '디자이너', '기획자', '데이터 분석가'],
    '연봉': [5000, 4000, 5500, 6000]
}
# pd.read_csv('data.csv')
df = pd.DataFrame(data)
print(df.head())

   이름  나이       직업    연봉
0  철수  25      개발자  5000
1  영희  22     디자이너  4000
2  민수  30      기획자  5500
3  지수  28  데이터 분석가  6000


#### 컬럼 선택 및 필터링

In [4]:
print(df['이름'])           # 특정 컬럼 선택
print(df['나이'] > 23)
print(df[df['나이'] > 23])  # 특정 조건 필터링

0    철수
1    영희
2    민수
Name: 이름, dtype: object
0     True
1    False
2     True
Name: 나이, dtype: bool
   이름  나이   직업
0  철수  25  개발자
2  민수  30  기획자


#### 데이터 추가 및 수정

In [6]:
df['연봉'] = [5000,4000,5500]   # 새로운 칼럼 추가
df.loc[1, '나이'] = 23          # 특정 칼럼 수정
df

Unnamed: 0,이름,나이,직업,연봉
0,철수,25,개발자,5000
1,영희,23,디자이너,4000
2,민수,30,기획자,5500


In [None]:
df['연봉'] = df['연봉'] * 1.1   # 연봉을 10% 증가
df['이름'] = df['이름'].str.upper() # 이름을 대문자로 변환

##### 날짜 데이터 변환

In [None]:
df['입사일'] = pd.to_datetime(df['입사일'])                         # 날짜 형식 변환
df['근속일수'] = pd.Timestamp.today().year - df['입사일'].dt.year   # 근속 연수 계산

##### 그룹화(groupby)

In [18]:
df_group = df.groupby('직업')['연봉'].mean()    # 직업별 평균 연봉
print(df_group)

직업
개발자        5000.0
기획자        5500.0
데이터 분석가    6000.0
디자이너       4000.0
Name: 연봉, dtype: float64


##### pivot table
- 데이터를 그롭화하고 특정 기준에 따라 집계하는데 사용
- index : 그룹화할 기준 열(행 기준)
- columns : 열로 표시할 기준 (옵션)
- values = 집계할 값
- aggfunc : 집계 방식(mean, max, min, sum, count)
- fill_value : NaN 값을 대체할 값 (옵션)


In [None]:
df_pivot = df.pivot_table(index='직업', values='연봉', aggfunc= 'mean') # 직업별 평균 연봉
print(df_pivot)

             연봉
직업             
개발자      5000.0
기획자      5500.0
데이터 분석가  6000.0
디자이너     4000.0


##### 데이터 집계(agg)
- 여러 개의 집계 함수를 한 번에 적용할 때 사용됨

In [21]:
df_agg = df.groupby('직업').agg({'연봉':['mean', 'max', 'min'], '나이' : ['max']})    # 연봉의 평균, 최대, 최소 계산
print(df_agg)

             연봉              나이
           mean   max   min max
직업                             
개발자      5000.0  5000  5000  25
기획자      5500.0  5500  5500  30
데이터 분석가  6000.0  6000  6000  28
디자이너     4000.0  4000  4000  22


#### 결측치 처리

In [None]:
df.fillna(0)        # NaN 값을 0으로 채우기
df.dropna()         # NaN이 있는 행 제거
df.dropna(axis=1)   # NaN이 있는 열 제거

##### 중복 데이터 제거

In [None]:
df.drop_duplicates()    

##### apply()
- 행/열 단위로 함수 적용

In [24]:
df = pd.DataFrame({
    '이름' : ['철수', '영희', '민수'],
    '국어' : [80, 90, 85],
    '수학' : [75, 95, 88]
})

# 각 학생의 평균 점수 계산
df['평균'] = df[['국어','수학']].apply(lambda x: x.mean(), axis=1)  # axis=1 이면 row 단위, axis=1 이면 col 단위 연산
print(df)

   이름  국어  수학    평균
0  철수  80  75  77.5
1  영희  90  95  92.5
2  민수  85  88  86.5


##### map()
- 한 개의 열(Series)의 각 요소에 함수 적용

In [None]:
# df['이름_대문자'] = df['이름'].map(str.upper)
df['이름_대문자'] = df['이름'].apply(str.upper)
print(df)

   이름  국어  수학    평균 이름_대문자
0  철수  80  75  77.5     철수
1  영희  90  95  92.5     영희
2  민수  85  88  86.5     민수


In [27]:
df[['국어','수학']] = df[['국어','수학']].applymap(lambda x:x+5)
print(df)

   이름  국어   수학    평균 이름_대문자
0  철수  85   80  77.5     철수
1  영희  95  100  92.5     영희
2  민수  90   93  86.5     민수


  df[['국어','수학']] = df[['국어','수학']].applymap(lambda x:x+5)


# Numpy
- 수치 연산 및 배열

#### 배열 생성

In [7]:
import numpy as np

arr = np.array([1,2,3,4,5])
print(arr)

[1 2 3 4 5]


#### 행렬 생성

In [8]:
matrix = np.array([[1,2],[3,4]])
print(matrix)

[[1 2]
 [3 4]]


#### 기본 연산

In [None]:
print(arr + 10)     # 모든 원소에 10 더하기
print(np.mean(arr)) # 평균
print(np.sum(arr))  # 합계

# scikit-learn
- 머신 러닝

In [13]:
!pip install scikit-learn

Defaulting to user installation because normal site-packages is not writeable
Collecting scikit-learn
  Downloading scikit_learn-1.6.1-cp39-cp39-macosx_12_0_arm64.whl.metadata (31 kB)
Collecting scipy>=1.6.0 (from scikit-learn)
  Using cached scipy-1.13.1-cp39-cp39-macosx_12_0_arm64.whl.metadata (60 kB)
Collecting joblib>=1.2.0 (from scikit-learn)
  Using cached joblib-1.4.2-py3-none-any.whl.metadata (5.4 kB)
Collecting threadpoolctl>=3.1.0 (from scikit-learn)
  Downloading threadpoolctl-3.6.0-py3-none-any.whl.metadata (13 kB)
Downloading scikit_learn-1.6.1-cp39-cp39-macosx_12_0_arm64.whl (11.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m11.1/11.1 MB[0m [31m20.7 MB/s[0m eta [36m0:00:00[0m [36m0:00:01[0m
[?25hUsing cached joblib-1.4.2-py3-none-any.whl (301 kB)
Using cached scipy-1.13.1-cp39-cp39-macosx_12_0_arm64.whl (30.3 MB)
Downloading threadpoolctl-3.6.0-py3-none-any.whl (18 kB)
Installing collected packages: threadpoolctl, scipy, joblib, scikit-learn
S

In [15]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_diabetes

# 데이터 로드
data = load_diabetes()
X, y = data.data, data.target

# 훈련 데이터와 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size = 0.2, random_state=42)

# 선형 회귀 모델 학습
model = LinearRegression()
model.fit(X_train, y_train)

# 예측 및 평가
predictions = model.predict(X_test)
print(y_test[:5])
print(predictions[:5])

[219.  70. 202. 230. 111.]
[139.5475584  179.51720835 134.03875572 291.41702925 123.78965872]
