## 데이터 분석 기본 - 데이터 처리
  - 데이터 처리 기본 - Pandas

### [학습 목표]
 - Pandas가 무엇인지 이해합니다.
 - 기본적인 실습을 통해 Pandas를 이해해 봅니다.
 - Pandas에서 데이터를 불러오고 저장하는 것을 알아봅니다.

### [학습 내용]
  - (1) Pandas는 무엇일까요?
  - (2) 기본 자료 구조(데이터프레임, 시리즈)
  - (3) 데이터 불러오기 및 저장하기
  - (4) 데이터 탐색 기본(shape, columns, head(), tail(), info(), describe() )
  - (5) 기본적인 데이터 처리
     - 데이터 프레임의 열 추가, 삭제
     - 결측치 처리(dropna(), fillna())

### (1) Pandas는 무엇일까요?

- Pandas는 Python에서 사용되는 중요한 데이터 분석 라이브러리.
- 데이터 구조 Pandas는 두 가지 주요 데이터 구조인 Series와 DataFrame을 제공.
  - Series는 1차원 배열과 유사하며, 인덱싱된 데이터를 보유.
  - DataFrame은 2차원 테이블 형태의 데이터 구조로, SQL의 테이블과 유사.
- 데이터 불러오기/내보내기 : Pandas를 사용하면 CSV, Excel, SQL 데이터베이스 등 다양한 소스로부터 데이터를 불러올 수 있습니다.
- 데이터 처리 : 데이터 정제, 행/열 선택, 결측치 처리, 데이터 병합, 그룹연산 등 다양한 데이터 처리 기능을 제공
- 통합 분석 환경 : Pandas는 NumPy, Matplotlib 등 다른 데이터 분석 도구들과 잘 통합되어 강력한 분석 환경을 제공

### 라이브러리 불러오기

In [2]:
import pandas as pd

### (2) 기본 자료 구조(데이터프레임, 시리즈)

In [3]:
# 데이터프레임(DataFrame) 생성
data = { 'Name': ['Alice', 'Bob', 'Charlie', 'David'],
         'Age': [25, 30, 35, 40],
         'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']  }

df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,Los Angeles
2,Charlie,35,Chicago
3,David,40,Houston


In [4]:
# 시리즈(Series) 생성
df = [25, 30, 35, 40]

df_s = pd.Series(df)
print(df_s)
print( type(df_s))

0    25
1    30
2    35
3    40
dtype: int64
<class 'pandas.core.series.Series'>


### (3) 데이터 불러오기 및 저장하기

In [5]:
### 데이터 불러오기 저장
import os

# CSV 파일 불러오기
# pd.read_csv( )
# /content/sample_data/california_housing_train.csv
# read_xlsx
df = pd.read_csv("/content/sample_data/california_housing_train.csv")
df.head()


Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0
1,-114.47,34.4,19.0,7650.0,1901.0,1129.0,463.0,1.82,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0
4,-114.57,33.57,20.0,1454.0,326.0,624.0,262.0,1.925,65500.0


In [6]:
# CSV 파일 저장하기
df.to_csv("myfile.csv", index=False)

# 파일 리스트 확인
os.listdir()


['.config', 'myfile.csv', 'sample_data']

### (4) 데이터 탐색 기본

- shape, columns, head(), tail(), info(), describe()

In [8]:
### 데이터 탐색
import seaborn as sns

In [9]:
# Seaborn의 tips 데이터셋 불러오기
tips_df = sns.load_dataset('tips')
tips_df

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [10]:
# 데이터프레임의 구조 확인
print("Shape:", tips_df.shape)

# 열 이름 확인
print("Columns:", tips_df.columns)

Shape: (244, 7)
Columns: Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size'], dtype='object')


In [11]:
# 처음 몇 개 행 출력
print("처음 몇 행:")
print(tips_df.head())

print()

# 마지막 몇 개 행 출력
print("최종 몇 행:")
print(tips_df.tail())

처음 몇 행:
   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4

최종 몇 행:
     total_bill   tip     sex smoker   day    time  size
239       29.03  5.92    Male     No   Sat  Dinner     3
240       27.18  2.00  Female    Yes   Sat  Dinner     2
241       22.67  2.00    Male    Yes   Sat  Dinner     2
242       17.82  1.75    Male     No   Sat  Dinner     2
243       18.78  3.00  Female     No  Thur  Dinner     2


In [12]:
# 데이터프레임 정보 출력
print("Info:")
print(tips_df.info())

Info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
dtypes: category(4), float64(2), int64(1)
memory usage: 7.4 KB
None


In [13]:
# 기술 통계량 출력
print("기술 통계량 :")
print(tips_df.describe())


기술 통계량 :
       total_bill         tip        size
count  244.000000  244.000000  244.000000
mean    19.785943    2.998279    2.569672
std      8.902412    1.383638    0.951100
min      3.070000    1.000000    1.000000
25%     13.347500    2.000000    2.000000
50%     17.795000    2.900000    2.000000
75%     24.127500    3.562500    3.000000
max     50.810000   10.000000    6.000000


### (5) 기본적인 데이터 처리

  - 데이터 프레임의 열 추가, 삭제
  - 결측치 처리(dropna(), fillna())

In [14]:
# 라이브러리 불러오기
import seaborn as sns

# Seaborn의 tips 데이터셋 불러오기
tips_df = sns.load_dataset('tips')
tips_df


Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [15]:
# 열 추가
tips_df['개인별비용'] = tips_df['total_bill'] / tips_df['size']
tips_df


Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,개인별비용
0,16.99,1.01,Female,No,Sun,Dinner,2,8.495000
1,10.34,1.66,Male,No,Sun,Dinner,3,3.446667
2,21.01,3.50,Male,No,Sun,Dinner,3,7.003333
3,23.68,3.31,Male,No,Sun,Dinner,2,11.840000
4,24.59,3.61,Female,No,Sun,Dinner,4,6.147500
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,9.676667
240,27.18,2.00,Female,Yes,Sat,Dinner,2,13.590000
241,22.67,2.00,Male,Yes,Sat,Dinner,2,11.335000
242,17.82,1.75,Male,No,Sat,Dinner,2,8.910000


In [16]:
# 열 삭제
tips_df.drop(columns=['size'], inplace=True)
tips_df


Unnamed: 0,total_bill,tip,sex,smoker,day,time,개인별비용
0,16.99,1.01,Female,No,Sun,Dinner,8.495000
1,10.34,1.66,Male,No,Sun,Dinner,3.446667
2,21.01,3.50,Male,No,Sun,Dinner,7.003333
3,23.68,3.31,Male,No,Sun,Dinner,11.840000
4,24.59,3.61,Female,No,Sun,Dinner,6.147500
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,9.676667
240,27.18,2.00,Female,Yes,Sat,Dinner,13.590000
241,22.67,2.00,Male,Yes,Sat,Dinner,11.335000
242,17.82,1.75,Male,No,Sat,Dinner,8.910000


In [19]:
# 하나의 결측치를 3행~5행으로 강제로 만든다.
tips_df.loc[ 2:5  ,'개인별비용' ] =  None


# 변경된 데이터프레임 확인
tips_df.head(7)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,개인별비용
0,16.99,1.01,Female,No,Sun,Dinner,8.495
1,10.34,1.66,Male,No,Sun,Dinner,3.446667
2,21.01,3.5,Male,No,Sun,Dinner,
3,23.68,3.31,Male,No,Sun,Dinner,
4,24.59,3.61,Female,No,Sun,Dinner,
5,25.29,4.71,Male,No,Sun,Dinner,
6,8.77,2.0,Male,No,Sun,Dinner,4.385


In [18]:
tips_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   개인별비용       240 non-null    float64 
dtypes: category(4), float64(3)
memory usage: 7.4 KB


In [20]:
# 결측치 처리
tips_df.dropna(inplace=True)

print(tips_df.info())
tips_df.head(7)

<class 'pandas.core.frame.DataFrame'>
Index: 240 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  240 non-null    float64 
 1   tip         240 non-null    float64 
 2   sex         240 non-null    category
 3   smoker      240 non-null    category
 4   day         240 non-null    category
 5   time        240 non-null    category
 6   개인별비용       240 non-null    float64 
dtypes: category(4), float64(3)
memory usage: 9.0 KB
None


Unnamed: 0,total_bill,tip,sex,smoker,day,time,개인별비용
0,16.99,1.01,Female,No,Sun,Dinner,8.495
1,10.34,1.66,Male,No,Sun,Dinner,3.446667
6,8.77,2.0,Male,No,Sun,Dinner,4.385
7,26.88,3.12,Male,No,Sun,Dinner,6.72
8,15.04,1.96,Male,No,Sun,Dinner,7.52
9,14.78,3.23,Male,No,Sun,Dinner,7.39
10,10.27,1.71,Male,No,Sun,Dinner,5.135


In [None]:
#