- 캔바 자료 다시!

---

# 데이터 불러오기

- `CSV 파일`을 읽고 pandas를 사용하여 DataFrame 형태로 데이터를 처리하는 방법

## 1. CSV 파일 불러오기
- CSV comma-separated-values, 파일은 쉼표로 구분된 텍스트 파일이며, `첫 줄에 컬럼 이름(헤더)`이 있고 그 뒤에 데이터가 이어진다.
- CSV 파일을 불러오기 위해 `pandas의 read_csv()` 함수를 사용한다.

- header 있는 CSV 불러오기

In [1]:
import pandas as pd
burger_df = pd.read_csv('../data/burger.csv')
burger_df.head(3)

Unnamed: 0,product_name,calories,carb,protein,fat,sodium,category
0,Whopper,660,49,28,40,1.0,Burgers
1,Cheese Whopper,740,50,32,46,1.3,Burgers
2,Double Whopper,900,49,48,58,1.0,Burgers


## 2. header 없는 CSV 불러오기
- 만약 CSV 파일에 헤더가 없는 경우, `header=None`을 지정해 줘야 한다.
- 이렇게 하면 첫 줄을 데이터로 인식하고, 엉뚱한 값이 컬럼 이름으로 들어가는 문제를 해결할 수 있다.


In [2]:
burger_df_2 = pd.read_csv('../data/burger2.csv') # 첫 줄에 데이터가 들어가버린 문제 발생!
burger_df_2.head(3)

Unnamed: 0,Whopper,660,49,28,40,1.0,Burgers
0,Cheese Whopper,740,50,32,46,1.3,Burgers
1,Double Whopper,900,49,48,58,1.0,Burgers
2,Double Cheese Whopper,980,50,52,64,1.4,Burgers


In [4]:
burger_df_2 = pd.read_csv('../data/burger2.csv', header=None)
burger_df_2.head(3)

Unnamed: 0,0,1,2,3,4,5,6
0,Whopper,660,49,28,40,1.0,Burgers
1,Cheese Whopper,740,50,32,46,1.3,Burgers
2,Double Whopper,900,49,48,58,1.0,Burgers


## 3. 컬럼명 설정하기
- 헤더가 없는 CSV 파일의 경우, `names 파라미터를 사용하여 직접 컬럼 이름을 설정`할 수 있다.
- `names`에 리스트로 컬럼명을 지정해 주면, DataFrame에 컬럼명이 반영된다.

In [5]:
burger_df.columns

Index(['product_name', 'calories', 'carb', 'protein', 'fat', 'sodium',
       'category'],
      dtype='object')

In [6]:
burger_df_2 = pd.read_csv('../data/burger2.csv', header=None,
                          names=['product_name', 'calories', 'carb', 'protein', 'fat', 'sodium',
       'category'])
burger_df_2.head(3)

Unnamed: 0,product_name,calories,carb,protein,fat,sodium,category
0,Whopper,660,49,28,40,1.0,Burgers
1,Cheese Whopper,740,50,32,46,1.3,Burgers
2,Double Whopper,900,49,48,58,1.0,Burgers


## 4. 인덱스 설정하기
- DataFrame의 인덱스는 기본적으로 0, 1, 2, 3… 순서로 `자동으로 할당`된다.
- 특정 컬럼을 인덱스로 사용하고 싶다면, `index_col 파라미터`를 사용한다.
- 만약 `인덱스로 사용하려는 컬럼에 중복되는 값이 있다면 오류가 발생`하므로 주의해야 한다.

In [7]:
# ‘product_name’ 컬럼이 인덱스가 된다.
burger_df = pd.read_csv('../data/burger.csv', index_col='product_name')
burger_df.head(3)

Unnamed: 0_level_0,calories,carb,protein,fat,sodium,category
product_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Whopper,660,49,28,40,1.0,Burgers
Cheese Whopper,740,50,32,46,1.3,Burgers
Double Whopper,900,49,48,58,1.0,Burgers


## 5. 인덱스로 첫 번째 컬럼 사용하기
- 첫 번째 컬럼을 인덱스로 사용하고 싶다면, `index_col=0`이라고 지정할 수 있다.
- 만약 두 번째 컬럼을 인덱스로 사용하고 싶다면, index_col=1이라고 설정하면 된다.

In [4]:
burger_df = pd.read_csv('../data/burger.csv', index_col=0)
burger_df.head(3)

Unnamed: 0_level_0,calories,carb,protein,fat,sodium,category
product_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Whopper,660,49,28,40,1.0,Burgers
Cheese Whopper,740,50,32,46,1.3,Burgers
Double Whopper,900,49,48,58,1.0,Burgers


## 6. 데이터프레임 정보 살펴보기

1. `info()`: 데이터프레임 구조 및 기본 정보 확인
    - 컬럼의 이름, 데이터 타입, 비어 있지 않은 값의 개수, 메모리 사용량 등을 확인할 수 있어, 데이터의 전반적인 구성을 파악하는 데 유용합니다.

2. `dtypes`: 컬럼별 데이터 타입 확인 
    - 이를 통해 컬럼들이 정수형, 실수형, 문자열형 등의 어떤 타입으로 이루어져 있는지 알 수 있어, 
    - 데이터 타입을 변경하거나 타입에 맞는 처리를 할 때 참고할 수 있습니다.

3. `describe()`: 기초 통계 정보 확인 
    - 숫자형 데이터에 대해 평균, 표준편차, 최소값, 사분위수, 최대값 등의 통계량을 확인할 수 있으며, 
    - 데이터를 이해하고 이상치를 식별하는 데 유용합니다.

In [8]:
burger_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 15 entries, Whopper to Spicy Chicken Nuggets
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calories  15 non-null     int64  
 1   carb      15 non-null     int64  
 2   protein   15 non-null     int64  
 3   fat       15 non-null     int64  
 4   sodium    14 non-null     float64
 5   category  15 non-null     object 
dtypes: float64(1), int64(4), object(1)
memory usage: 840.0+ bytes


In [12]:
# 결측치 개수
burger_df.isna()

Unnamed: 0_level_0,calories,carb,protein,fat,sodium,category
product_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Whopper,False,False,False,False,False,False
Cheese Whopper,False,False,False,False,False,False
Double Whopper,False,False,False,False,False,False
Double Cheese Whopper,False,False,False,False,False,False
Whopper Junior,False,False,False,False,False,False
Bacon King,False,False,False,False,False,False
Single Stacker King,False,False,False,False,False,False
Double Stacker King,False,False,False,False,True,False
Hamburger,False,False,False,False,False,False
Cheeseburger,False,False,False,False,False,False


In [13]:
# 결측치 개수
burger_df.isna().sum()

calories    0
carb        0
protein     0
fat         0
sodium      1
category    0
dtype: int64

In [9]:
burger_df.dtypes

calories      int64
carb          int64
protein       int64
fat           int64
sodium      float64
category     object
dtype: object

In [10]:
burger_df.describe()

Unnamed: 0,calories,carb,protein,fat,sodium
count,15.0,15.0,15.0,15.0,14.0
mean,586.666667,36.866667,29.4,36.266667,0.907143
std,331.073291,15.160412,18.337316,23.085143,0.539892
min,170.0,11.0,8.0,10.0,0.3
25%,295.0,26.5,14.0,16.5,0.45
50%,660.0,48.0,23.0,40.0,0.8
75%,820.0,49.0,41.5,52.0,1.25
max,1150.0,54.0,61.0,79.0,2.2
