In [None]:
import pandas as pd

# 데이터 프레임 생성
df = pd.DataFrame({
    'col1': ['one', 'two', 'three', 'four', 'five'],
    'col2': [6,7,8,9,10]
})

print(df)

    col1  col2
0    one     6
1    two     7
2  three     8
3   four     9
4   five    10


In [2]:
# 데이터 타입 확인

print(df['col1'].dtype)
print(df['col2'].dtype)

object
int64


In [None]:
# 빈 데이터 프레임 생성 예제

my_df = pd.DataFrame({
    '실수': pd.Series(dtype='float'),
    '정수': pd.Series(dtype='int'),
    '범주형': pd.Series(dtype='category'),
    '논리': pd.Series(dtype='bool'),
    '문자열': pd.Series(dtype='str')
})

# series: 1차원 배열과 유사하지만, 각 요소에 대한 index를 가지고 있어 데이터에 대한 설명을 추가할 수 있음
# 데이터 프레임의 각 열은 series로 구성
print(my_df)
print(my_df.dtypes)

Empty DataFrame
Columns: [실수, 정수, 범주형, 논리, 문자열]
Index: []
실수      float64
정수        int64
범주형    category
논리         bool
문자열      object
dtype: object


In [4]:
# 데이터 프레임 생성

my_df = pd.DataFrame({
    'name': ['issac', 'bomi'],
    'birthmonth': [5, 4]
})

print(my_df)
print(my_df.dtypes)

    name  birthmonth
0  issac           5
1   bomi           4
name          object
birthmonth     int64
dtype: object


In [5]:
# csv 파일로 읽어오기 (URL)
# url을 사용해서 바로 읽어오기
url = 'https://raw.githubusercontent.com/YoungjinBD/data/main/examscore.csv'
mydata = pd.read_csv(url)

# 데이터의 위쪽 행들을 확인
print(mydata.head())

# 데이터 프레임의 차원(행과 열 개수)을 출력
print(mydata.shape)

   student_id gender  midterm  final
0           1      F       38     46
1           2      M       42     67
2           3      F       53     56
3           4      M       48     54
4           5      M       46     39
(30, 4)


In [7]:
# 접근 방식: [ ]연산자를 사용하여 데이터 프레임의 특정 열에 접근 가능

my_df['name'] # 특정 열 접근
my_df[['name', 'birthmonth']] # 여러 컬럼 선택

# iloc[] 필터링 : 인덱싱 접근
my_df.iloc[:,0] # 첫 번째 열에 접근
my_df.iloc[1,0] # 두 번째 항, 첫 번째 열에 접근

# loc[] 필터링: 라벨 기반 인덱싱
mydata[mydata['midterm'] <= 15]

Unnamed: 0,student_id,gender,midterm,final
19,20,M,9,33
21,22,M,15,12


In [8]:
# loc[] 필터링: 라벨 기반 인덱싱
mydata[mydata['midterm'] <= 15]
mydata.loc[mydata['midterm'] <= 15] # 위 결과와 동일
mydata.loc[mydata['midterm'] <= 15, :] # 특정 열 지정하지 않을 경우 전체 열 선택

Unnamed: 0,student_id,gender,midterm,final
19,20,M,9,33
21,22,M,15,12


In [9]:
# 조건을 만족하는 행과 열을 함께 필터링 가능

mydata.loc[mydata['midterm'] <= 15, ['student_id', 'final']]

Unnamed: 0,student_id,final
19,20,33
21,22,12


In [14]:
# isin[]: 특정 값이 데이터 프레임 내에 존재확인
mydata[mydata['midterm'].isin([28, 38, 52])].head()

Unnamed: 0,student_id,gender,midterm,final
0,1,F,38,46
8,9,M,28,25
9,10,M,38,59
23,24,M,28,55
27,28,F,52,66


In [15]:
# 특정 값이 포함된 행을 필터링 후 열 선택
mydata.loc[mydata['midterm'].isin([28, 38, 52]), ['student_id', 'final']].head()

Unnamed: 0,student_id,final
0,1,46
8,9,25
9,10,59
23,24,55
27,28,66


In [16]:
# ~isin: 제외(부정)

mydata.loc[~mydata['midterm'].isin([28, 38, 52])].head()

Unnamed: 0,student_id,gender,midterm,final
1,2,M,42,67
2,3,F,53,56
3,4,M,48,54
4,5,M,46,39
5,6,M,51,74


#### 정리


In [21]:
import numpy as np
import pandas as pd

# 예제 데이터 프레임 생성

mydata = pd.DataFrame({
    'student_id': [1,2,3,4,5],
    'gender': ['F', 'M', 'F', 'M','M'],
    'midterm': [38, 42, 53, 48, 46],
    'final': [46,67,56,54,39]
})

# 일부 데이터를 NA 설정
mydata.iloc[0, 1] = np.nan
mydata.iloc[4, 0] = np.nan
print(mydata.head())

   student_id gender  midterm  final
0         1.0    NaN       38     46
1         2.0      M       42     67
2         3.0      F       53     56
3         4.0      M       48     54
4         NaN      M       46     39


In [22]:
# isna()함수 : 칸이 들어있는 부분 열별 체크

print('gender 컬럼 빈칸 확인', mydata['gender'].isna().sum())
print('student_id 빈칸 확인', mydata['student_id'].isna().sum())

gender 컬럼 빈칸 확인 1
student_id 빈칸 확인 1


In [23]:
# 빈 칸을 포함하지 않는 완전한 행을 원할 경우 dropna() 메서드
# Dropna: 꽉 채워져 있는 행만 출력

complete_row = mydata.dropna()
print('완전한 행의 수:', len(complete_row))
print(complete_row)

완전한 행의 수: 3
   student_id gender  midterm  final
1         2.0      M       42     67
2         3.0      F       53     56
3         4.0      M       48     54


### 구성원소 추가 / 삭제 / 변경

In [24]:
mydata['total'] = mydata['midterm'] + mydata['final']
print(mydata.iloc[0:3, [3,4]])

   final  total
0     46     84
1     67    109
2     56    109


In [None]:
# pd.concat() : 새로운 열 추가 

mydata = pd.concat([mydata, (mydata['total']/2).rename('average')], axis=1)
print(mydata.head())

   student_id gender  midterm  final  total  average  total
0         1.0    NaN       38     46     84     42.0   42.0
1         2.0      M       42     67    109     54.5   54.5
2         3.0      F       53     56    109     54.5   54.5
3         4.0      M       48     54    102     51.0   51.0
4         NaN      M       46     39     85     42.5   42.5


In [None]:
# rename
mydata.rename(columns= {'average': 'my_average'}, inplace=True)
print(mydata.head())

   student_id gender  midterm  final  total  my_average  total
0         1.0    NaN       38     46     84        42.0   42.0
1         2.0      M       42     67    109        54.5   54.5
2         3.0      F       53     56    109        54.5   54.5
3         4.0      M       48     54    102        51.0   51.0
4         NaN      M       46     39     85        42.5   42.5


In [None]:
# del 사용한 삭제 
# 동일한 이름 컬럼이 있을 경우 첫번째 값부터 삭제 
del mydata['gender']
print(mydata.head())

   student_id  midterm  final  total  my_average  total
0         1.0       38     46     84        42.0   42.0
1         2.0       42     67    109        54.5   54.5
2         3.0       53     56    109        54.5   54.5
3         4.0       48     54    102        51.0   51.0
4         NaN       46     39     85        42.5   42.5


In [None]:
# pd.concat() 함수

import pandas as pd

df1  = pd.DataFrame({
    'A': ['A0', 'A1', 'A2'],
    'B': ['B0', 'B1', 'B2']
})

df2 = pd.DataFrame({
    'A': ['A3', 'A4', 'A5'],
    'B': ['B3', 'B4', 'B5']
})

result = pd.concat([df1, df2])
print(result)

 # 기본은 axis=0 (행) 방향으로 연결

    A   B
0  A0  B0
1  A1  B1
2  A2  B2
0  A3  B3
1  A4  B4
2  A5  B5


In [30]:
# 열 방향으로 연결

df3 = pd.DataFrame({
    'C': ['C0', 'C1', 'C2'],
    'D': ['D0', 'D1', 'D2']
})

result = pd.concat([df1, df3], axis = 1)
print(result)

    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2


In [31]:
# 기본 설정 행 방향으로 합쳤을 경우 행 번호가 중복되어 출력되는 것을 확인할 수 있음.
# ignore_index = True : 행번호 정리

result = pd.concat([df1, df2])
print(result)


result = pd.concat([df1, df2],ignore_index= True)
print(result)

    A   B
0  A0  B0
1  A1  B1
2  A2  B2
0  A3  B3
1  A4  B4
2  A5  B5
    A   B
0  A0  B0
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4
5  A5  B5


In [32]:
# 공통된 열만 합치기 (inner)

df4 = pd.DataFrame({
    'A': ['A2', 'A3', 'A4'],
    'B': ['B2', 'B3', 'B4'],
    'C': ['C2', 'C3', 'C4']
})
print(df1)
print(df4)

    A   B
0  A0  B0
1  A1  B1
2  A2  B2
    A   B   C
0  A2  B2  C2
1  A3  B3  C3
2  A4  B4  C4


In [None]:
# 공통된 열만 합치기 (inner)
result = pd.concat([df1, df4], join='inner')
print(result)

    A   B
0  A0  B0
1  A1  B1
2  A2  B2
0  A2  B2
1  A3  B3
2  A4  B4


In [34]:
# 모든 열을 포함시키는 외부 결합 ( 하나의 프레임에만 존재하는 값은 NaN으로 채움) (outer)

import pandas as pd

df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2'],
    'B': ['B0', 'B1', 'B2']
})
df4 = pd.DataFrame({
    'A': ['A2', 'A3', 'A4'],
    'B': ['B2', 'B3', 'B4'],
    'C': ['C2', 'C3', 'C4']
})

# 데이터 프레임 출력
print(df1)
print(df4)

result = pd.concat([df1, df4], join='outer')
print(result)

    A   B
0  A0  B0
1  A1  B1
2  A2  B2
    A   B   C
0  A2  B2  C2
1  A3  B3  C3
2  A4  B4  C4
    A   B    C
0  A0  B0  NaN
1  A1  B1  NaN
2  A2  B2  NaN
0  A2  B2   C2
1  A3  B3   C3
2  A4  B4   C4


In [None]:
# keys 옵션
print(df1)
print(df2)

    A   B
0  A0  B0
1  A1  B1
2  A2  B2
    A   B
0  A3  B3
1  A4  B4
2  A5  B5


In [36]:
# df1 df2 같은 컬럼 A, B를 가지고 있는 데이터 프레임, 이것들을 합칠 때 각 행이 어느 데이터 프레임에서 왔는지 기록할 경우 keys 옵션 사용

result = pd.concat([df1, df2], keys= ['key1', 'key2'])
print(result)

         A   B
key1 0  A0  B0
     1  A1  B1
     2  A2  B2
key2 0  A3  B3
     1  A4  B4
     2  A5  B5


In [37]:
# key2에 해당하는 데이터 프레임의 2번째 3번째 행 선택
df1_rows = result.loc['key2'].iloc[1:3]
print(df1_rows)

    A   B
1  A4  B4
2  A5  B5


### pandas 메서드

In [39]:
import pandas as pd

# 팔머 펭귄 데이터 불러오기
df = pd.read_csv('https://raw.githubusercontent.com/YoungjinBD/data/main/penguins.csv')

In [40]:
# head
df.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


In [41]:
# tail
df.tail()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
339,Gentoo,Biscoe,,,,,
340,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,Female
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,Male
342,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,Female
343,Gentoo,Biscoe,49.9,16.1,213.0,5400.0,Male


In [43]:
# describe

df.describe()

Unnamed: 0,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g
count,342.0,342.0,342.0,342.0
mean,43.92193,17.15117,200.915205,4201.754386
std,5.459584,1.974793,14.061714,801.954536
min,32.1,13.1,172.0,2700.0
25%,39.225,15.6,190.0,3550.0
50%,44.45,17.3,197.0,4050.0
75%,48.5,18.7,213.0,4750.0
max,59.6,21.5,231.0,6300.0


In [44]:
# info
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            344 non-null    object 
 1   island             344 non-null    object 
 2   bill_length_mm     342 non-null    float64
 3   bill_depth_mm      342 non-null    float64
 4   flipper_length_mm  342 non-null    float64
 5   body_mass_g        342 non-null    float64
 6   sex                333 non-null    object 
dtypes: float64(4), object(3)
memory usage: 18.9+ KB


In [47]:
# sort_values(): 디폴트: 오름차순

sorted_df = df.sort_values(by='bill_length_mm', ascending=False)
sorted_df.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
253,Gentoo,Biscoe,59.6,17.0,230.0,6050.0,Male
169,Chinstrap,Dream,58.0,17.8,181.0,3700.0,Female
321,Gentoo,Biscoe,55.9,17.0,228.0,5600.0,Male
215,Chinstrap,Dream,55.8,19.8,207.0,4000.0,Male
335,Gentoo,Biscoe,55.1,16.0,230.0,5850.0,Male


In [48]:
# 두 개의 열 기준으로 데이터 프레임 정렬

# bill_length_mm 내림차순, bill_depth_mm 오름차순

sorted_df = df.sort_values(
    by=['bill_length_mm', 'bill_depth_mm'], # 같은 length에서 depth를 오름차순 정렬
    ascending= [False, True]
)

sorted_df.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
253,Gentoo,Biscoe,59.6,17.0,230.0,6050.0,Male
169,Chinstrap,Dream,58.0,17.8,181.0,3700.0,Female
321,Gentoo,Biscoe,55.9,17.0,228.0,5600.0,Male
215,Chinstrap,Dream,55.8,19.8,207.0,4000.0,Male
335,Gentoo,Biscoe,55.1,16.0,230.0,5850.0,Male


In [None]:
# idxmax(), idxmin(): 데이터 프레임에서 최댓값과 최솟값을 가지는 첫 번째 인덱스 반환

max_idx = df['bill_length_mm'].idxmax()


int

In [None]:
df.iloc[max_idx] # 인덱스가 숫자 형태이기 때문에 가능

species              Gentoo
island               Biscoe
bill_length_mm         59.6
bill_depth_mm          17.0
flipper_length_mm     230.0
body_mass_g          6050.0
sex                    Male
Name: 253, dtype: object

In [None]:
df.loc[max_idx] # 정석

species              Gentoo
island               Biscoe
bill_length_mm         59.6
bill_depth_mm          17.0
flipper_length_mm     230.0
body_mass_g          6050.0
sex                    Male
Name: 253, dtype: object

In [53]:
# bill_length_mm 열에서 최솟값을 가지는 행의 인덱스를 찾기
min_idx = df['bill_length_mm'].idxmin()
print(min_idx)
df.loc[min_idx]

142


species              Adelie
island                Dream
bill_length_mm         32.1
bill_depth_mm          15.5
flipper_length_mm     188.0
body_mass_g          3050.0
sex                  Female
Name: 142, dtype: object

In [56]:
# sort_values()와 idxmax()의 결과 비교

# bill_length_mm 열을 기준으로 데이터 프레임 정렬
sorted_df = df.sort_values(by='bill_length_mm', ascending= False)

# 정렬된 데이터 프레임의 첫 번째 행과 idxmax()로 찾은 행이 같은지 확인해보기
sorted_max_value_row = sorted_df.iloc[0]
print('\nFirst row of the sorted DataFrame:')
print(sorted_max_value_row)


First row of the sorted DataFrame:
species              Gentoo
island               Biscoe
bill_length_mm         59.6
bill_depth_mm          17.0
flipper_length_mm     230.0
body_mass_g          6050.0
sex                    Male
Name: 253, dtype: object


In [57]:
# bill_length_mm 열에서 최댓값을 가지는 행의 인덱스를 찾기
max_idx = df['bill_length_mm'].idxmax()
max_value_row = df.loc[max_idx]
print(max_value_row)

species              Gentoo
island               Biscoe
bill_length_mm         59.6
bill_depth_mm          17.0
flipper_length_mm     230.0
body_mass_g          6050.0
sex                    Male
Name: 253, dtype: object


In [58]:
# 같음..

In [None]:
# groupby

# species 열을 기준으로 그룹화하여 평균 계산 (수치형 열만 선택)
grouped_df = df.groupby('species').mean(numeric_only=True) # numeric_only=True: 수치형 데이터만 선택하여 연산
print(grouped_df)

           bill_length_mm  bill_depth_mm  flipper_length_mm  body_mass_g
species                                                                 
Adelie          38.791391      18.346358         189.953642  3700.662252
Chinstrap       48.833824      18.420588         195.823529  3733.088235
Gentoo          47.504878      14.982114         217.186992  5076.016260


In [None]:
# mean() # 각 열의 평균을 계산
print(df.mean(numeric_only=True))

bill_length_mm         43.921930
bill_depth_mm          17.151170
flipper_length_mm     200.915205
body_mass_g          4201.754386
dtype: float64


In [None]:
# pd.merge() # 열 기준 병합

# 예제 데이터프레임 생성
df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value': [1,2,3]})
df2 = pd.DataFrame({'key': ['A', 'B', 'D'], 'value': [4,5,6]})

# 두 데이터 프레임 병합
merged_df = pd.merge(df1, df2, on='key', how='inner')
print(merged_df)

  key  value_x  value_y
0   A        1        4
1   B        2        5


In [65]:
# 두 데이터 프레임을 outer join으로 병합
merged_df_outer = pd.merge(df1, df2, on='key', how='outer')
merged_df_outer

Unnamed: 0,key,value_x,value_y
0,A,1.0,4.0
1,B,2.0,5.0
2,C,3.0,
3,D,,6.0


In [67]:
df1

Unnamed: 0,key,value
0,A,1
1,B,2
2,C,3


In [66]:
df2

Unnamed: 0,key,value
0,A,4
1,B,5
2,D,6


### 데이터 재구조화

#### pd.melt(): 데이터를 넓은 형식에서 긴 형식으로 변환
- frame: 재구조화할 데이터 프레임
- id_vars: 변환하지 않고 그대로 유지될 컬럼 지정
- value_vars: 변환할 컬럼 지정 (지정하지 않으면 id_vars를 제외한 모든 컬럼이 선택)
- var_name: value_vars의 컬럼명이 저장될 컬럼의 컬럼명 지정 (기본값:variable)
- value_name: value_vars의 값이 저장될 컬럼명 지정 (기본값: value)

In [68]:
# 예제 데이터 생성
import pandas as pd
data = {
    'Date' : ['2024-07-01', '2024-07-02', '2024-07-03', '2024-07-03'],
    'Temperature': [10, 20, 25, 20],
    'Humidity': [60, 65, 70, 21]
}
df = pd.DataFrame(data)
print(df)

         Date  Temperature  Humidity
0  2024-07-01           10        60
1  2024-07-02           20        65
2  2024-07-03           25        70
3  2024-07-03           20        21


In [69]:
# pd.melt를 사용해 긴 형식 변환

df_melted = pd.melt(df,
                    id_vars=['Date'],
                    value_vars=['Temperature', 'Humidity'],
                    var_name = 'Variable',
                    value_name='Value')
print(df_melted)

         Date     Variable  Value
0  2024-07-01  Temperature     10
1  2024-07-02  Temperature     20
2  2024-07-03  Temperature     25
3  2024-07-03  Temperature     20
4  2024-07-01     Humidity     60
5  2024-07-02     Humidity     65
6  2024-07-03     Humidity     70
7  2024-07-03     Humidity     21


#### pivot()
- 긴 형식에서 넓은 형식으로 변환
- index: 새 데이터 프레임에서 행 인덱스로 사용할 컬럼명 지정
- columns: 새 데이터 프레임에서 열로 사용할 컬럼명 지정
- values: 새 데이터 프레임에서 각 인덱스-열 조합에 대해 채워질 값으로 사용할 컬럼명 지정

In [None]:
# pd.melt() 메서드로 변환된 데이터를 pivot()을 활용하여 재변환

df_pivoted = df_melted.pivot(index= 'Date',
                             columns='Variable',
                             values = 'Value').reset_index()

print(df_pivoted)

# pivot() 메서드는 각 행을 고유하게 식별할 수 있는 인덱스 필요 - index로 설정한 date가 겹침

ValueError: Index contains duplicate entries, cannot reshape

In [72]:
df_melted2 = pd.melt(df.reset_index(),
                    id_vars=['index'],
                    value_vars=['Temperature', 'Humidity'],
                    var_name = 'Variable',
                    value_name='Value')
print(df_melted2)

   index     Variable  Value
0      0  Temperature     10
1      1  Temperature     20
2      2  Temperature     25
3      3  Temperature     20
4      0     Humidity     60
5      1     Humidity     65
6      2     Humidity     70
7      3     Humidity     21


In [73]:
df_pivoted = df_melted2.pivot(index= 'index',
                             columns='Variable',
                             values = 'Value')

print(df_pivoted)

Variable  Humidity  Temperature
index                          
0               60           10
1               65           20
2               70           25
3               21           20


#### pivot_table()
- data: 피벗할 데이터 프레임
- values: 집계할 데이터 값의 컬럼명 지정
- index: 행 인덱스로 사용할 컬럼명 지정
- columns: 열로 사용할 컬럼명 지정
- aggfunc: 집계 함수 (ex) mean, sum, count 등) 지정 (기본값: mean)

In [None]:
df_pivot_table = df_melted.pivot_table(index = 'Date',
                                       columns = 'Variable',
                                       values = 'Value').reset_index()

print(df_pivot_table)

# pivot()을 사용할 경우 date가 겹쳐서 오류가 발생하였지만 pivot_table같은 경우 두 값의 집계함수를 이용해서 계산

Variable        Date  Humidity  Temperature
0         2024-07-01      60.0         10.0
1         2024-07-02      65.0         20.0
2         2024-07-03      45.5         22.5


In [79]:
# 데이터 불러오기

import pandas as pd

df = pd.read_csv('https://raw.githubusercontent.com/YoungjinBD/data/main/dat.csv')

In [81]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 366 entries, 0 to 365
Data columns (total 11 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   school    366 non-null    object 
 1   sex       366 non-null    object 
 2   paid      366 non-null    object 
 3   famrel    366 non-null    int64  
 4   freetime  366 non-null    int64  
 5   goout     356 non-null    float64
 6   Dalc      366 non-null    int64  
 7   Walc      366 non-null    int64  
 8   health    366 non-null    int64  
 9   absences  366 non-null    int64  
 10  grade     366 non-null    int64  
dtypes: float64(1), int64(7), object(3)
memory usage: 31.6+ KB


In [None]:
# rename: 컬럼 이름 변경

df = df.rename(columns= {'Dalc' : 'dalc', 'Walc': 'walc'})
print(df.columns)

Index(['school', 'sex', 'paid', 'famrel', 'freetime', 'goout', 'dalc', 'walc',
       'health', 'absences', 'grade'],
      dtype='object')


In [85]:
# astype(): 데이터 타입 변경

print(df.astype({'famrel': 'object', 'dalc': 'float64'}).info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 366 entries, 0 to 365
Data columns (total 11 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   school    366 non-null    object 
 1   sex       366 non-null    object 
 2   paid      366 non-null    object 
 3   famrel    366 non-null    object 
 4   freetime  366 non-null    int64  
 5   goout     356 non-null    float64
 6   dalc      366 non-null    float64
 7   walc      366 non-null    int64  
 8   health    366 non-null    int64  
 9   absences  366 non-null    int64  
 10  grade     366 non-null    int64  
dtypes: float64(2), int64(5), object(4)
memory usage: 31.6+ KB
None


#### assign()
-  파생변수와 같은 새로운 칼럼을 생성하거나 특정 컬럼 값을 변경하는 데 사용


In [88]:
# famrel 칼럼의 특정 값을 기준으로 'Low', 'Medium', 'High'로 구분

# 사용자 함수 정의

def classify_famrel(famrel):
    if famrel <= 2:
        return 'Low'
    elif famrel <= 4:
        return 'Medium'
    else:
        return 'High'
    
# apply()를 통해 정의한 함수 적용 famrel_quality 컬럼 생성

df1 = df.copy()
df1 = df1.assign(famrel_quality = df1['famrel'].apply(classify_famrel))

print(df1[['famrel', 'famrel_quality']].head())

   famrel famrel_quality
0       4         Medium
1       5           High
2       4         Medium
3       3         Medium
4       4         Medium


In [89]:
# 기존에 있던 famrel 컬럼 값 변경
df2 = df.copy()
df2 = df2.assign(famrel=df2['famrel'].apply(classify_famrel))

print(df2[['famrel']].head())

   famrel
0  Medium
1    High
2  Medium
3  Medium
4  Medium


#### select_dtypes()
- 데이터 프레임에서 특정 데이터 타입을 가진 컬럼만 선택하는 데 사용하는 메서드
- number: 모든 수치형 데이터 타입을 포함
- float: 부동 소수점 숫자
- int: 정수
- complex: 복소수
- object: 일반적인 객체 타입 (보통 문자열)
- bool: 불리언
- category: 범주형 데이터 타입
- datetime: 날짜 및 시간

In [91]:
# 수치형 컬럼만 선택
print(df.select_dtypes('number').head(2))

   famrel  freetime  goout  dalc  walc  health  absences  grade
0       4         3    4.0     1     1       3         6      1
1       5         3    3.0     1     1       3         4      1


In [92]:
# 범주형 컬럼 선택
print(df.select_dtypes('object').head(2))

  school sex paid
0     GP   F   no
1     GP   F   no


In [93]:
# 임의의 함수 정의 후 수치형 컬럼 적용

def standardize(x):
    return (x - np.nanmean(x)/ np.std(x))

df.select_dtypes('number').apply(standardize).head(2)

Unnamed: 0,famrel,freetime,goout,dalc,walc,health,absences,grade
0,-0.41557,-0.242302,1.192457,-0.677095,-0.789321,0.408977,5.310415,-0.639516
1,0.58443,-0.242302,0.192457,-0.677095,-0.789321,0.408977,3.310415,-0.639516


#### 컬럼명 패턴을 활용하여 특정 컬럼 선택
1. str.startwith()

In [98]:
# str.startwith()

# 컬럼명이 'f'로 시작하는 경우 True, 그 외에는 False

print(df.columns)
print(df.columns.str.startswith('f'))
print(df.loc[:, df.columns.str.startswith('f')].head())

Index(['school', 'sex', 'paid', 'famrel', 'freetime', 'goout', 'dalc', 'walc',
       'health', 'absences', 'grade'],
      dtype='object')
[False False False  True  True False False False False False False]
   famrel  freetime
0       4         3
1       5         3
2       4         3
3       3         2
4       4         3


In [100]:
# str.endswith()

print(df.columns.str.endswith('c'))
print(df.loc[:, df.columns.str.endswith('c')].head())

[False False False False False False  True  True False False False]
   dalc  walc
0     1     1
1     1     1
2     2     3
3     1     1
4     1     2


In [101]:
# str.contains()

print(df.columns.str.contains('f'))
print(df.loc[:, df.columns.str.contains('f')].head())

[False False False  True  True False False False False False False]
   famrel  freetime
0       4         3
1       5         3
2       4         3
3       3         2
4       4         3


In [102]:
print(df.loc[:, df.columns.str.contains('f')].apply(standardize).head())

    famrel  freetime
0 -0.41557 -0.242302
1  0.58443 -0.242302
2 -0.41557 -0.242302
3 -1.41557 -1.242302
4 -0.41557 -0.242302


In [103]:
### 데이터 불러오기

import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/YoungjinBD/data/main/grade.csv')

In [None]:
# 1
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   student_id  10 non-null     int64  
 1   name        10 non-null     object 
 2   gender      10 non-null     object 
 3   midterm     9 non-null      float64
 4   final       9 non-null      float64
 5   assignment  9 non-null      float64
dtypes: float64(3), int64(1), object(2)
memory usage: 608.0+ bytes


In [None]:
# 2
df[df['midterm'] >= 85]

Unnamed: 0,student_id,name,gender,midterm,final,assignment
0,1,Alice,F,85.0,88.0,95.0
2,3,Charlie,M,92.0,94.0,87.0
3,4,David,M,88.0,90.0,85.0
5,6,Frank,M,95.0,97.0,98.0
6,7,Grace,F,89.0,91.0,84.0
7,8,Hannah,F,90.0,92.0,


In [None]:
# 3
df.sort_values('final', ascending=False).head()

Unnamed: 0,student_id,name,gender,midterm,final,assignment
5,6,Frank,M,95.0,97.0,98.0
2,3,Charlie,M,92.0,94.0,87.0
7,8,Hannah,F,90.0,92.0,
6,7,Grace,F,89.0,91.0,84.0
3,4,David,M,88.0,90.0,85.0


In [None]:
# 4
df.groupby('gender').mean(numeric_only=True)

Unnamed: 0_level_0,student_id,midterm,final,assignment
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
F,5.25,85.0,87.5,85.333333
M,5.666667,86.0,88.2,86.833333


In [115]:
# 5
df_test5 = df.astype({'student_id': 'object'})
df_test5.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   student_id  10 non-null     object 
 1   name        10 non-null     object 
 2   gender      10 non-null     object 
 3   midterm     9 non-null      float64
 4   final       9 non-null      float64
 5   assignment  9 non-null      float64
dtypes: float64(3), object(3)
memory usage: 608.0+ bytes


In [125]:
# 6

print(df.loc[df['assignment'].idxmax()]) # 최댓값
print('')
print(df.loc[df['assignment'].idxmin()]) # 최솟값

student_id        6
name          Frank
gender            M
midterm        95.0
final          97.0
assignment     98.0
Name: 5, dtype: object

student_id       5
name           Eve
gender           F
midterm       76.0
final         79.0
assignment    77.0
Name: 4, dtype: object


In [127]:
# 7

df_7 = pd.concat([df, ((df['midterm'] + df['final'] + df['assignment']) / 3).rename('average')], axis=1)
print(df_7)

   student_id     name gender  midterm  final  assignment    average
0           1    Alice      F     85.0   88.0        95.0  89.333333
1           2      Bob      M     78.0   74.0        82.0  78.000000
2           3  Charlie      M     92.0   94.0        87.0  91.000000
3           4    David      M     88.0   90.0        85.0  87.666667
4           5      Eve      F     76.0   79.0        77.0  77.333333
5           6    Frank      M     95.0   97.0        98.0  96.666667
6           7    Grace      F     89.0   91.0        84.0  88.000000
7           8   Hannah      F     90.0   92.0         NaN        NaN
8           9     Ivan      M     77.0    NaN        81.0        NaN
9          10     Jack      M      NaN   86.0        88.0        NaN


In [130]:
# 8 

df_drop_na = df.dropna()
df_drop_na.info()
df_drop_na

<class 'pandas.core.frame.DataFrame'>
Index: 7 entries, 0 to 6
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   student_id  7 non-null      int64  
 1   name        7 non-null      object 
 2   gender      7 non-null      object 
 3   midterm     7 non-null      float64
 4   final       7 non-null      float64
 5   assignment  7 non-null      float64
dtypes: float64(3), int64(1), object(2)
memory usage: 392.0+ bytes


Unnamed: 0,student_id,name,gender,midterm,final,assignment
0,1,Alice,F,85.0,88.0,95.0
1,2,Bob,M,78.0,74.0,82.0
2,3,Charlie,M,92.0,94.0,87.0
3,4,David,M,88.0,90.0,85.0
4,5,Eve,F,76.0,79.0,77.0
5,6,Frank,M,95.0,97.0,98.0
6,7,Grace,F,89.0,91.0,84.0


In [141]:
# 9

additional_data = {
    'student_id': ['1','3','5','7','9'],
    'club': ['Art', 'Science', 'Math', 'Music', 'Drama']
}
df_additional = pd.DataFrame(additional_data)

df_additional = df_additional.astype({'student_id':'int64'})

pd.merge(df, df_additional, on='student_id')

Unnamed: 0,student_id,name,gender,midterm,final,assignment,club
0,1,Alice,F,85.0,88.0,95.0,Art
1,3,Charlie,M,92.0,94.0,87.0,Science
2,5,Eve,F,76.0,79.0,77.0,Math
3,7,Grace,F,89.0,91.0,84.0,Music
4,9,Ivan,M,77.0,,81.0,Drama


In [None]:
# 10
df_7.head()

Unnamed: 0,student_id,name,gender,midterm,final,assignment,average
0,1,Alice,F,85.0,88.0,95.0,89.333333
1,2,Bob,M,78.0,74.0,82.0,78.0
2,3,Charlie,M,92.0,94.0,87.0,91.0
3,4,David,M,88.0,90.0,85.0,87.666667
4,5,Eve,F,76.0,79.0,77.0,77.333333


### pd.melt()
- 넓은 형식에서 긴 형식으로 변환
- 시각화 좋음
- 열이 적고 행이 많아짐


In [148]:
# 예제 데이터 생성
import pandas as pd
data = {
    'Date' : ['2024-07-01', '2024-07-02', '2024-07-03', '2024-07-03'],
    'Temperature': [10, 20, 25, 20],
    'Humidity': [60, 65, 70, 21]
}
df = pd.DataFrame(data)
df

Unnamed: 0,Date,Temperature,Humidity
0,2024-07-01,10,60
1,2024-07-02,20,65
2,2024-07-03,25,70
3,2024-07-03,20,21


In [150]:
df_melted = pd.melt(df,
                    id_vars=['Date'],
                    value_vars= ['Temperature', 'Humidity'],
                    var_name='Variable',
                    value_name='Value')
df_melted

Unnamed: 0,Date,Variable,Value
0,2024-07-01,Temperature,10
1,2024-07-02,Temperature,20
2,2024-07-03,Temperature,25
3,2024-07-03,Temperature,20
4,2024-07-01,Humidity,60
5,2024-07-02,Humidity,65
6,2024-07-03,Humidity,70
7,2024-07-03,Humidity,21


#### pivot_table
- 긴 형식에서 넓은 형식으로
- 사람 보기 편함
- 열이 많고 행이 적음

In [None]:
df_pivot_table = df_melted.pivot_table(index = 'Date',
                                       columns = 'Variable',
                                       values = 'Value').reset_index()

print(df_pivot_table)

# pivot()을 사용할 경우 date가 겹쳐서 오류가 발생하였지만 pivot_table같은 경우 두 값의 집계함수를 이용해서 계산

In [None]:
# 10 
pivot_table = df_7.pivot_table(values='average', index='gender', columns='student_id')
print(pivot_table)

student_id          1     2     3          4          5          6     7
gender                                                                  
F           89.333333   NaN   NaN        NaN  77.333333        NaN  88.0
M                 NaN  78.0  91.0  87.666667        NaN  96.666667   NaN


In [146]:
df.head()

Unnamed: 0,student_id,name,gender,midterm,final,assignment
0,1,Alice,F,85.0,88.0,95.0
1,2,Bob,M,78.0,74.0,82.0
2,3,Charlie,M,92.0,94.0,87.0
3,4,David,M,88.0,90.0,85.0
4,5,Eve,F,76.0,79.0,77.0


In [None]:
# 11
df['average'] = df[['midterm', 'final', 'assignment']].mean(axis =1)

melted_df = pd.melt(df, id_vars= ['student_id,', 'name', 'gender'], value_vars)