In [None]:
import numpy as np
import pandas as pd

## 1. Data Load
- `pd.read_csv(file_name,header,usecols,index_col)`
> - `header`: 열의 이름 설정 (디폴트: 첫번째 행)_ header=0: 첫 번째 행을 열 이름으로 사용, header=2: 3번째 행을 열 이름으로 사용
> - `usecols`: 추출할 열을 지정 (디폴트: 전체 열)
> - `index_col`: 행의 이름이 될 열을 지정함 (디폴트: None)

In [None]:
pd.read_csv('sample.csv')

Unnamed: 0,Name,Country,Age,Salary,Purchased
0,James,France,44.0,72000.0,No
1,Tim,Spain,27.0,48000.0,Yes
2,Sarah,Germany,30.0,54000.0,No
3,Robert,Spain,38.0,61000.0,No
4,Emma,Germany,40.0,,Yes
5,Jennifer,France,35.0,58000.0,Yes
6,Linda,Spain,,52000.0,No
7,Thomas,France,48.0,79000.0,Yes
8,Ben,Germany,50.0,83000.0,No
9,Scarlett,France,37.0,67000.0,Yes


In [None]:
# header=None: 첫번째 행도 데이터 값으로 로드함. 즉,첫 번째 행을 열 이름으로 사용하지 않음
# 각 열의 이름은 정수형으로 대체됨
pd.read_csv('sample.csv',header=None)

Unnamed: 0,0,1,2,3,4
0,Name,Country,Age,Salary,Purchased
1,James,France,44,72000,No
2,Tim,Spain,27,48000,Yes
3,Sarah,Germany,30,54000,No
4,Robert,Spain,38,61000,No
5,Emma,Germany,40,,Yes
6,Jennifer,France,35,58000,Yes
7,Linda,Spain,,52000,No
8,Thomas,France,48,79000,Yes
9,Ben,Germany,50,83000,No


In [None]:
pd.read_csv('sample.csv',header=2)

#header=2: 3번째 행을 열 이름으로 사용
# 원래의 0행과 1행의 james와 tim은 없어짐

Unnamed: 0,Tim,Spain,27,48000,Yes
0,Sarah,Germany,30.0,54000.0,No
1,Robert,Spain,38.0,61000.0,No
2,Emma,Germany,40.0,,Yes
3,Jennifer,France,35.0,58000.0,Yes
4,Linda,Spain,,52000.0,No
5,Thomas,France,48.0,79000.0,Yes
6,Ben,Germany,50.0,83000.0,No
7,Scarlett,France,37.0,67000.0,Yes


In [None]:
pd.read_csv('sample.csv',usecols=['Age','Salary'])
# 특정 열만 선택해서 읽기



Unnamed: 0,Age,Salary
0,44.0,72000.0
1,27.0,48000.0
2,30.0,54000.0
3,38.0,61000.0
4,40.0,
5,35.0,58000.0
6,,52000.0
7,48.0,79000.0
8,50.0,83000.0
9,37.0,67000.0


In [None]:
df = pd.read_csv('sample.csv',index_col='Name') ## 'Name' 열을 행 인덱스로 사용
df
#특정 열을 인덱스로 사용
#point! index_col로 설정한 열은 일반 데이터 열에서 제외됨
#header와 index_col 조합: index_col로 지정하는 열은 usecols로 선택된 열 중에 있어야함

Unnamed: 0_level_0,Country,Age,Salary,Purchased
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
James,France,44.0,72000.0,No
Tim,Spain,27.0,48000.0,Yes
Sarah,Germany,30.0,54000.0,No
Robert,Spain,38.0,61000.0,No
Emma,Germany,40.0,,Yes
Jennifer,France,35.0,58000.0,Yes
Linda,Spain,,52000.0,No
Thomas,France,48.0,79000.0,Yes
Ben,Germany,50.0,83000.0,No
Scarlett,France,37.0,67000.0,Yes


## 2. index, columns, values
- `DataFrame.index`: 행의 이름
- `DataFrame.columns`: 열의 이름
- `DataFrame.values`: `index`와 `columns`를 제외한 값 (**`ndarray`**)

In [None]:
print(df.index) # 인덱스를 Name 열로 설정 df_indexed = df.set_index('Name')
print(df.columns)
print(df.values)

Index(['James', 'Tim', 'Sarah', 'Robert', 'Emma', 'Jennifer', 'Linda',
       'Thomas', 'Ben', 'Scarlett'],
      dtype='object', name='Name')
Index(['Country', 'Age', 'Salary', 'Purchased'], dtype='object')
[['France' 44.0 72000.0 'No']
 ['Spain' 27.0 48000.0 'Yes']
 ['Germany' 30.0 54000.0 'No']
 ['Spain' 38.0 61000.0 'No']
 ['Germany' 40.0 nan 'Yes']
 ['France' 35.0 58000.0 'Yes']
 ['Spain' nan 52000.0 'No']
 ['France' 48.0 79000.0 'Yes']
 ['Germany' 50.0 83000.0 'No']
 ['France' 37.0 67000.0 'Yes']]


## 3. info와 describe
- `DataFrame.info()`: 행(Index)과 열(Columns) 등에 관련한 정보
1. 데이터 크기 확인: 데이터셋이 어느 정도의 크기인지 (행, 열) 파악합니다.
2. 데이터 타입 확인: 각 열이 숫자형인지, 문자형인지 확인하여 이후 분석 방법을 결정하는 데 도움을 줍니다.
3. 결측값(Null 값) 탐지: Non-Null Count가 전체 행 개수보다 적은 열을 찾아, 결측값이 어디에 있는지 파악

- `DataFrame.describe()`: 통계 정보

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, James to Scarlett
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Country    10 non-null     object 
 1   Age        9 non-null      float64
 2   Salary     9 non-null      float64
 3   Purchased  10 non-null     object 
dtypes: float64(2), object(2)
memory usage: 400.0+ bytes


In [None]:
df.describe()
#count: 결측값이 아닌 데이터의 개수
#mean: 평균값
#std: 표준편차 (데이터가 평균에서 얼마나 퍼져있는지)
#min: 최솟값
#25%: 1사분위수 (하위 25%의 값)
#50%: 중앙값 (2사분위수)
#75%: 3사분위수 (하위 75%의 값)
#max: 최댓값

Unnamed: 0,Age,Salary
count,9.0,9.0
mean,38.777778,63777.777778
std,7.693793,12265.579662
min,27.0,48000.0
25%,35.0,54000.0
50%,38.0,61000.0
75%,44.0,72000.0
max,50.0,83000.0


## 4. indexing과 slicing
- `DataFrame.loc`: 행의 이름과 열의 이름을 사용_ 끝 범위 포함 ('a':'c' → a, b, c 모두 포함)
- `DataFrame.iloc`: 행과 열의 정수형 index를 사용_ 끝 범위 미포함 (0:3 → 0, 1, 2만 포함)

In [None]:
df

Unnamed: 0_level_0,Country,Age,Salary,Purchased
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
James,France,44.0,72000.0,No
Tim,Spain,27.0,48000.0,Yes
Sarah,Germany,30.0,54000.0,No
Robert,Spain,38.0,61000.0,No
Emma,Germany,40.0,,Yes
Jennifer,France,35.0,58000.0,Yes
Linda,Spain,,52000.0,No
Thomas,France,48.0,79000.0,Yes
Ben,Germany,50.0,83000.0,No
Scarlett,France,37.0,67000.0,Yes


In [None]:
df.loc['Ben','Salary']

#행과 열의 이름(Label)을 사용하여 접근. 인덱스나 컬럼 이름이 숫자가 아니라 문자열이거나, 특정 값으로 설정되어 있을 때 유용
#가장 큰 특징: 범위를 지정할 때 끝 값이 포함
#끝 범위 포함 ('a':'c' → a, b, c)
#df.loc[행_인덱서, 열_인덱서]

np.float64(83000.0)

In [None]:
df.iloc[8,2]

#행과 열의 순서를 나타내는 정수(0-based index) 를 사용하여 접근. 데이터의 실제 이름(index, column name)과 상관없이 "첫 번째 행", "두 번째 열"과 같이 위치로 접근할 때 사용
#가장 큰 특징: 범위를 지정할 때 끝 값이 포함되지 않. (Python의 리스트 슬라이싱과 동일)
#끝 범위 미포함 (0:3 → 0, 1, 2)
#df.iloc[행_위치, 열_위치]

np.float64(83000.0)

- `DataFrame.loc[a:b,c:d]` -> b행과 d열 포함
- `DataFrame.iloc[a:b,c:d]` -> b행과 d열 제외

In [None]:
df.loc['Tim':'Emma','Age':'Salary']


Unnamed: 0_level_0,Age,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Tim,27.0,48000.0
Sarah,30.0,54000.0
Robert,38.0,61000.0
Emma,40.0,


In [None]:
df.iloc[1:5,1:3]

Unnamed: 0_level_0,Age,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Tim,27.0,48000.0
Sarah,30.0,54000.0
Robert,38.0,61000.0
Emma,40.0,


In [None]:
print(df.loc['Tim':'Emma'])
#행 슬라이싱: 인덱스 'tim'부터 'emma'까지 (tim, emma포함!)

        Country   Age   Salary Purchased
Name                                    
Tim       Spain  27.0  48000.0       Yes
Sarah   Germany  30.0  54000.0        No
Robert    Spain  38.0  61000.0        No
Emma    Germany  40.0      NaN       Yes


- `DataFrame`의 행과 열 지정
> - **행**: `df.loc[행이름]`, `df.iloc[행index]`, `df.loc[행이름,:]`, `df.iloc[행index,:]`
> - **열**: `df[열이름]`, `df.loc[:,열이름]`, `df.iloc[:,열index]`

In [None]:
print(df.loc['Tim'])
print(df.iloc[1])
print(df.loc['Tim',:])
print(df.iloc[1,:])

Country        Spain
Age             27.0
Salary       48000.0
Purchased        Yes
Name: Tim, dtype: object
Country        Spain
Age             27.0
Salary       48000.0
Purchased        Yes
Name: Tim, dtype: object
Country        Spain
Age             27.0
Salary       48000.0
Purchased        Yes
Name: Tim, dtype: object
Country        Spain
Age             27.0
Salary       48000.0
Purchased        Yes
Name: Tim, dtype: object


In [None]:
print(df['Age'])
print(df.loc[:,'Age'])
print(df.iloc[:,1])

Name
James       44.0
Tim         27.0
Sarah       30.0
Robert      38.0
Emma        40.0
Jennifer    35.0
Linda        NaN
Thomas      48.0
Ben         50.0
Scarlett    37.0
Name: Age, dtype: float64
Name
James       44.0
Tim         27.0
Sarah       30.0
Robert      38.0
Emma        40.0
Jennifer    35.0
Linda        NaN
Thomas      48.0
Ben         50.0
Scarlett    37.0
Name: Age, dtype: float64
Name
James       44.0
Tim         27.0
Sarah       30.0
Robert      38.0
Emma        40.0
Jennifer    35.0
Linda        NaN
Thomas      48.0
Ben         50.0
Scarlett    37.0
Name: Age, dtype: float64
