### 데이터 분석 주요 단계
1. **문제 정의**: 무엇을 알고 싶은지, 어떤 문제를 해결할지 결정
2. **데이터 수집**: 필요한 데이터를 모으기 (DB, API, 로그, 엑셀, 설문 등)
3. **데이터 전처리**: 데이터 정리(결측치·이상치 처리, 형식 통일 등)
4. **탐색적 분석(EDA)**: 시각화, 통계, 기초 분석으로 패턴 확인
5. **모델링/통계 분석**: 예측, 분류, 군집화 등 기계학습·통계 기법 적용
6. **해석 및 의사결정**: 결과를 보고 문제 해결책 도출

### 데이터 전처리
1. **결측치 처리**: 값이 비어 있는 데이터 → 평균/중앙값 대체, 삭제 등
2. **이상치 처리**: 너무 크거나 작은 값, 잘못 입력된 값 정리
3. **데이터 형식 변환**: 날짜/문자열 → 숫자형 변환
4. **스케일링/정규화**: 값의 범위를 맞추기
5. **중복 제거**: 같은 행이 여러 번 들어간 경우 정리
6. **인코딩**: 문자 데이터를 숫자로 변환 (예: 성별 "남/여" → 0/1)

- 피처 = 열 = 컬럼

In [2]:
import pandas as pd

print(pd.__version__)

2.3.2


### Series(시리즈)

- 1차원 배열 형태의 자료구조
- 값들의 모음에 각각 인덱스가 붙어있는 구조
- 인덱스를 별도로 지정하지 않으면 기본적으로 0부터 시작

In [3]:
# Series
score = pd.Series([90,80,85,95])
subjects = pd.Series([90, 80, 85, 95], index=['국어','영어','수학','과학'])
print(score)
print(subjects)

0    90
1    80
2    85
3    95
dtype: int64
국어    90
영어    80
수학    85
과학    95
dtype: int64


In [5]:
subjects.values

array([90, 80, 85, 95])

In [6]:
subjects.index

Index(['국어', '영어', '수학', '과학'], dtype='object')

### Dataframe

- 2차원 표 형태의 자료구조
- 행과 열로 구성

In [7]:
data = {
    '이름': ['Alice', 'Bob', 'Charlie'],
    '나이': [25, 30, 35],
    '도시': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)

        이름  나이           도시
0    Alice  25     New York
1      Bob  30  Los Angeles
2  Charlie  35      Chicago


In [8]:
df.columns

Index(['이름', '나이', '도시'], dtype='object')

In [9]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [10]:
df.shape # 데이터 행 개수, 데이터 컬럼 수

(3, 3)

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      3 non-null      object
 1   나이      3 non-null      int64 
 2   도시      3 non-null      object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes


In [14]:
df.describe()

Unnamed: 0,나이
count,3.0
mean,30.0
std,5.0
min,25.0
25%,27.5
50%,30.0
75%,32.5
max,35.0


In [15]:
df['이름'].dtype #dtype('O') -> object type

dtype('O')

---

### 데이터 불러오기 및 저장

#### CSV 파일 읽기 (```pd.read_csv```)와 쓰기 (```DataFrame.to_csv```)

In [4]:
orders = pd.read_csv('../data/superstore_orders.csv')

In [19]:
orders

Unnamed: 0,Row ID,Order ID,Order Date,Ship Date,Ship Mode,Customer ID,Customer Name,Segment,Country,City,State,Postal Code,Region,Product ID,Category,Sub-Category,Product Name,Sales
0,1,CA-2017-152156,08/11/2017,11/11/2017,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,Kentucky,42420.0,South,FUR-BO-10001798,Furniture,Bookcases,Bush Somerset Collection Bookcase,261.9600
1,2,CA-2017-152156,08/11/2017,11/11/2017,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,Kentucky,42420.0,South,FUR-CH-10000454,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.9400
2,3,CA-2017-138688,12/06/2017,16/06/2017,Second Class,DV-13045,Darrin Van Huff,Corporate,United States,Los Angeles,California,90036.0,West,OFF-LA-10000240,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...,14.6200
3,4,US-2016-108966,11/10/2016,18/10/2016,Standard Class,SO-20335,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,33311.0,South,FUR-TA-10000577,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table,957.5775
4,5,US-2016-108966,11/10/2016,18/10/2016,Standard Class,SO-20335,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,33311.0,South,OFF-ST-10000760,Office Supplies,Storage,Eldon Fold 'N Roll Cart System,22.3680
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9795,9796,CA-2017-125920,21/05/2017,28/05/2017,Standard Class,SH-19975,Sally Hughsby,Corporate,United States,Chicago,Illinois,60610.0,Central,OFF-BI-10003429,Office Supplies,Binders,"Cardinal HOLDit! Binder Insert Strips,Extra St...",3.7980
9796,9797,CA-2016-128608,12/01/2016,17/01/2016,Standard Class,CS-12490,Cindy Schnelling,Corporate,United States,Toledo,Ohio,43615.0,East,OFF-AR-10001374,Office Supplies,Art,"BIC Brite Liner Highlighters, Chisel Tip",10.3680
9797,9798,CA-2016-128608,12/01/2016,17/01/2016,Standard Class,CS-12490,Cindy Schnelling,Corporate,United States,Toledo,Ohio,43615.0,East,TEC-PH-10004977,Technology,Phones,GE 30524EE4,235.1880
9798,9799,CA-2016-128608,12/01/2016,17/01/2016,Standard Class,CS-12490,Cindy Schnelling,Corporate,United States,Toledo,Ohio,43615.0,East,TEC-PH-10000912,Technology,Phones,Anker 24W Portable Micro USB Car Charger,26.3760


In [None]:
# 읽기
df1 = pd.read_csv("파일명")
df2 = pd.read_json("파일명")
df3 = pd.read_excel("파일명")

# 저장
df1.to_csv('파일경로', index=False)
df2.to_json('파일경로', orient='records')
df3.to_excel('파일경로', index=False)

### 데이터 인덱싱과 슬라이싱

#### ```loc``` - 라벨(label) 기반 인덱싱

`DataFrame.loc[행 조건(또는 인덱스), 열 선택]`

In [7]:

df = pd.DataFrame({'val': [10, 20, 30, 40], 'test': [1,2,3,4]}, index=['a','b','c','d'])
df

Unnamed: 0,val,test
a,10,1
b,20,2
c,30,3
d,40,4


In [29]:
df.loc['a':'c']

Unnamed: 0,val,test
a,10,1
b,20,2
c,30,3


In [32]:
df.loc['a':'c', 'val']

a    10
b    20
c    30
Name: val, dtype: int64

#### ```.iloc``` - 정수 위치(integer position) 기반 인덱싱

- 끝 인덱스를 포함하지 않음

In [33]:
df

Unnamed: 0,val,test
a,10,1
b,20,2
c,30,3
d,40,4


In [34]:
df.iloc[0:2]

Unnamed: 0,val,test
a,10,1
b,20,2


In [36]:
df.iloc[0:3, 1]

a    1
b    2
c    3
Name: test, dtype: int64

In [37]:
df

Unnamed: 0,val,test
a,10,1
b,20,2
c,30,3
d,40,4


In [43]:
# .loc
df.loc['c':,'val']

# .iloc
df.iloc[2:,0]

c    30
d    40
Name: val, dtype: int64

In [44]:
tips = pd.read_csv('../data/tips.csv')
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


각 열의 의미:

- **total_bill:** 총 청구금액 (달러)
- **tip:** 팁으로 낸 금액 (달러)
- **sex:** 고객의 성별
- **smoker:** 흡연자 여부
- **day:** 요일 (Thu, Fri, Sat, Sun 중 하나)
- **time:** 식사 시간 (Lunch 또는 Dinner)
- **size:** 일행의 규모 (인원 수)

In [45]:
# 팁(tip) 금액이 $5 초과인 경우를 필터링
tips['tip'] > 5

0      False
1      False
2      False
3      False
4      False
       ...  
239     True
240    False
241    False
242    False
243    False
Name: tip, Length: 244, dtype: bool

In [47]:
tips[tips['tip'] > 5] # True인 행만 싹 뽑힘

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
23,39.42,7.58,Male,No,Sat,Dinner,4
44,30.4,5.6,Male,No,Sun,Dinner,4
47,32.4,6.0,Male,No,Sun,Dinner,4
52,34.81,5.2,Female,No,Sun,Dinner,4
59,48.27,6.73,Male,No,Sat,Dinner,4
85,34.83,5.17,Female,No,Thur,Lunch,4
88,24.71,5.85,Male,No,Thur,Lunch,2
116,29.93,5.07,Male,No,Sun,Dinner,4
141,34.3,6.7,Male,No,Thur,Lunch,6
155,29.85,5.14,Female,No,Sun,Dinner,5


In [50]:
# 일요일이고 팁(tip) 금액이 $5 초과인 경우를 필터링
cond = (tips['day']=='Sun') & (tips['tip']>5)
cond

0      False
1      False
2      False
3      False
4      False
       ...  
239    False
240    False
241    False
242    False
243    False
Length: 244, dtype: bool

In [51]:
tips[cond]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
44,30.4,5.6,Male,No,Sun,Dinner,4
47,32.4,6.0,Male,No,Sun,Dinner,4
52,34.81,5.2,Female,No,Sun,Dinner,4
116,29.93,5.07,Male,No,Sun,Dinner,4
155,29.85,5.14,Female,No,Sun,Dinner,5
172,7.25,5.15,Male,Yes,Sun,Dinner,2
181,23.33,5.65,Male,Yes,Sun,Dinner,2
183,23.17,6.5,Male,Yes,Sun,Dinner,4


#### 데이터 정렬 (```sort_values```와 ```sort_index```)

In [52]:
#  팁 데이터에서 팁 금액이 큰 순서대로 상위 몇 개 행을 보고 싶다면:
sorted_tips = tips.sort_values(by='tip', ascending=False)
sorted_tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
170,50.81,10.00,Male,Yes,Sat,Dinner,3
212,48.33,9.00,Male,No,Sat,Dinner,4
23,39.42,7.58,Male,No,Sat,Dinner,4
59,48.27,6.73,Male,No,Sat,Dinner,4
141,34.30,6.70,Male,No,Thur,Lunch,6
...,...,...,...,...,...,...,...
0,16.99,1.01,Female,No,Sun,Dinner,2
236,12.60,1.00,Male,Yes,Sat,Dinner,2
111,7.25,1.00,Female,No,Sat,Dinner,1
67,3.07,1.00,Female,Yes,Sat,Dinner,1


In [55]:
tips.sort_index()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


##### 컬럼명 정리
- ```DataFrame.rename()``` : 컬럼명 일괄 변경
- ```DataFrame.rename(colums = {'바꿀 값' : '바뀐 값'})```

In [59]:
cities = pd.Series([' new york', 'Los Angeles ', 'Chicago', ' new york'])
cleaned = cities.str.strip().str.title()    
print(cleaned)
print(cleaned.unique()) # <--- 특정값 하나만 출력

0       New York
1    Los Angeles
2        Chicago
3       New York
dtype: object
['New York' 'Los Angeles' 'Chicago']


In [60]:
orders['Ship Mode'].unique()

array(['Second Class', 'Standard Class', 'First Class', 'Same Day'],
      dtype=object)

##### 불필요한 컬럼 제거
- ```DataFrame.drop(axis = 속성인덱스)``` 
- ```DataFrame.drop(columns = ['속성명'])``` 
- ```inplace=True```는 선택

In [78]:
print(orders)
orders = orders.drop(columns=['Row ID'])
print(orders)

      Row ID        Order ID  Order Date   Ship Date       Ship Mode  \
0          1  CA-2017-152156  08/11/2017  11/11/2017    Second Class   
1          2  CA-2017-152156  08/11/2017  11/11/2017    Second Class   
2          3  CA-2017-138688  12/06/2017  16/06/2017    Second Class   
3          4  US-2016-108966  11/10/2016  18/10/2016  Standard Class   
4          5  US-2016-108966  11/10/2016  18/10/2016  Standard Class   
...      ...             ...         ...         ...             ...   
9795    9796  CA-2017-125920  21/05/2017  28/05/2017  Standard Class   
9796    9797  CA-2016-128608  12/01/2016  17/01/2016  Standard Class   
9797    9798  CA-2016-128608  12/01/2016  17/01/2016  Standard Class   
9798    9799  CA-2016-128608  12/01/2016  17/01/2016  Standard Class   
9799    9800  CA-2016-128608  12/01/2016  17/01/2016  Standard Class   

     Customer ID     Customer Name    Segment        Country             City  \
0       CG-12520       Claire Gute   Consumer  United 

### 결측치 처리 : 삭제 / 대치
#### 보통 빈 값, NULL, NaN(Not a Number) 등의 형태로 표현

- ```isnull()```/```notnull()```

In [62]:
import numpy as np

df_miss = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, np.nan, 30],
    'city': ['New York', 'Los Angeles', np.nan]
})
print(df_miss)

      name   age         city
0    Alice  25.0     New York
1      Bob   NaN  Los Angeles
2  Charlie  30.0          NaN


In [63]:
df_miss.isnull() # True -> null

Unnamed: 0,name,age,city
0,False,False,False
1,False,True,False
2,False,False,True


In [64]:
df_miss.isnull().sum()

name    0
age     1
city    1
dtype: int64

#### 결측치 삭제 (```dropna```)

In [65]:
print(df_miss.dropna())

    name   age      city
0  Alice  25.0  New York


In [67]:
df_miss # 원본은 바뀌지 않는다!

Unnamed: 0,name,age,city
0,Alice,25.0,New York
1,Bob,,Los Angeles
2,Charlie,30.0,


In [69]:
df_miss.dropna(subset=['age']) # 'age'열을 특정해서 결측값 행 삭제

Unnamed: 0,name,age,city
0,Alice,25.0,New York
2,Charlie,30.0,


In [70]:
df_miss.dropna(axis=1) # 행을 특정해서 결측값 열 삭제

Unnamed: 0,name
0,Alice
1,Bob
2,Charlie


#### 결측치 대체 (```fillna```)
- 고정값 대체
- 통계값 대체

In [None]:
df_filled = df_miss.copy()
df_filled['age'].fillna(df_filled['age'].mean(), inplace=True)
df_filled['city'].fillna('Unknown', inplace=True)
print(df_filled)

#### 중복제거 (```duplicated()```)

중복데이터란,</br>
데이터셋에서 완전히 동일한 행이 반복되는 경우나 특정 기준으로 볼 때 중복인 데이터 포인트

- **duplicated()** : 각 행이 이전에 나타난 적이 있는지 여부를 True/False로 표시한 불리언 Series를 반환
- **drop_duplicates()** : 중복 행을 제거

In [72]:
df_dup = pd.DataFrame({'A': [1, 1, 2, 3], 'B': [5, 5, 6, 7]})
df_dup

Unnamed: 0,A,B
0,1,5
1,1,5
2,2,6
3,3,7


In [73]:
print("Duplicates:\n", df_dup.duplicated())

Duplicates:
 0    False
1     True
2    False
3    False
dtype: bool


In [74]:
print(df_dup.drop_duplicates())

   A  B
0  1  5
2  2  6
3  3  7
