## 데이터 분석 기본 - 데이터 처리
  - 데이터 처리 기본 - Pandas

### [학습 목표]
 - Pandas를 활용하여 데이터의 행과 열을 선택하는 것을 알아봅니다.
 - 데이터를 필터링하고, 그룹화하는 것에 대해 알아봅니다.

### [학습 내용]
   - (1) 기본적인 데이터 처리
     - 열과 행의 선택
     - 조건에 따른 데이터 필터링

   - (2) 데이터 결합 및 병합하기
        - 여러 개의 데이터 셋을 결합하기

   - (3) 데이터 그룹화 및 정렬
        - 데이터를 그룹으로 묶어 통계 확인 및 분석 수행

### (1) 기본적인 데이터 처리
  - 열과 행의 선택
  - 조건에 따른 데이터 필터링

In [1]:
### 열과 행의 선택
import seaborn as sns

# Seaborn의 tips 데이터셋 불러오기
tips_df = sns.load_dataset('tips')
tips_df.columns

Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size'], dtype='object')

In [2]:
# 열 선택
sel = ['total_bill', 'tip', 'sex']
sel_data = tips_df[sel]
sel_data

Unnamed: 0,total_bill,tip,sex
0,16.99,1.01,Female
1,10.34,1.66,Male
2,21.01,3.50,Male
3,23.68,3.31,Male
4,24.59,3.61,Female
...,...,...,...
239,29.03,5.92,Male
240,27.18,2.00,Female
241,22.67,2.00,Male
242,17.82,1.75,Male


In [5]:
# 행 선택 (인덱스 범위 지정)
sel_row = tips_df.loc[ 5:15, ['day', 'time'] ]
sel_row


Unnamed: 0,day,time
5,Sun,Dinner
6,Sun,Dinner
7,Sun,Dinner
8,Sun,Dinner
9,Sun,Dinner
10,Sun,Dinner
11,Sun,Dinner
12,Sun,Dinner
13,Sun,Dinner
14,Sun,Dinner


In [11]:
### 조건에 따른 데이터 필터링
# 조건에 따른 데이터 필터링 (성별이 여성인 데이터만 선택)
sel_data = tips_df.loc[tips_df['smoker']=='Yes', : ]
sel_data

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
56,38.01,3.00,Male,Yes,Sat,Dinner,4
58,11.24,1.76,Male,Yes,Sat,Dinner,2
60,20.29,3.21,Male,Yes,Sat,Dinner,2
61,13.81,2.00,Male,Yes,Sat,Dinner,2
62,11.02,1.98,Male,Yes,Sat,Dinner,2
...,...,...,...,...,...,...,...
234,15.53,3.00,Male,Yes,Sat,Dinner,2
236,12.60,1.00,Male,Yes,Sat,Dinner,2
237,32.83,1.17,Male,Yes,Sat,Dinner,2
240,27.18,2.00,Female,Yes,Sat,Dinner,2


In [12]:
# 조건에 따른 데이터 필터링 (팁이 5달러 이상인 데이터만 선택)
sel_data = tips_df.loc[tips_df['tip'] >= 5]
sel_data


Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
11,35.26,5.0,Female,No,Sun,Dinner,4
23,39.42,7.58,Male,No,Sat,Dinner,4
39,31.27,5.0,Male,No,Sat,Dinner,3
44,30.4,5.6,Male,No,Sun,Dinner,4
46,22.23,5.0,Male,No,Sun,Dinner,2
47,32.4,6.0,Male,No,Sun,Dinner,4
52,34.81,5.2,Female,No,Sun,Dinner,4
59,48.27,6.73,Male,No,Sat,Dinner,4
73,25.28,5.0,Female,Yes,Sat,Dinner,2
83,32.68,5.0,Male,Yes,Thur,Lunch,2


### (2) 데이터 결합 및 병합하기

In [14]:
### 행 방향으로 데이터 셋 결합
import pandas as pd

In [15]:
# 샘플 데이터프레임1
data1 = {'A' : [1,2,3],
         'B' : [4,5,6] }

df1 = pd.DataFrame(data1)
df1


Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [16]:
# 샘플 데이터프레임2
data2 = {'A' : [7,8,9],
         'B' : [10,11,12] }

df2 = pd.DataFrame(data2)
df2


Unnamed: 0,A,B
0,7,10
1,8,11
2,9,12


In [17]:
# 샘플 데이터프레임3
data3 = {'A' : [13,14,15],
         'B' : [16,17,18] }

df3 = pd.DataFrame(data3)
df3


Unnamed: 0,A,B
0,13,16
1,14,17
2,15,18


In [18]:
# 세 개의 데이터프레임을 행 방향으로 결합하기
all_df = pd.concat([df1, df2, df3], axis=0)
all_df

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6
0,7,10
1,8,11
2,9,12
0,13,16
1,14,17
2,15,18


In [19]:
all_df = pd.concat([df1, df2, df3], axis=1)
all_df

Unnamed: 0,A,B,A.1,B.1,A.2,B.2
0,1,4,7,10,13,16
1,2,5,8,11,14,17
2,3,6,9,12,15,18


In [20]:
### 열 방향으로 결합.
import seaborn as sns
import pandas as pd

# Seaborn의 iris 데이터셋 불러오기
iris_df = sns.load_dataset('iris')
iris_df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [21]:
# Seaborn의 iris 데이터셋 불러오기
iris_df2 = sns.load_dataset('iris')

# 두 데이터셋을 열 방향으로 결합하기 (행 개수가 같은 경우)
all_df = pd.concat([iris_df, iris_df2], axis=1)
all_df


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,sepal_length.1,sepal_width.1,petal_length.1,petal_width.1,species.1
0,5.1,3.5,1.4,0.2,setosa,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica,6.2,3.4,5.4,2.3,virginica


### (3) 데이터 그룹화 및 정렬

In [22]:
import pandas as pd

# Sample DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Alice', 'Bob', 'Charlie'],
        'Score': [85, 72, 90, 88, 91, 77, 83],
        'Subject': ['Math', 'Math', 'Math', 'Math', 'Science', 'Science', 'Science']}

df = pd.DataFrame(data)
df

Unnamed: 0,Name,Score,Subject
0,Alice,85,Math
1,Bob,72,Math
2,Charlie,90,Math
3,David,88,Math
4,Alice,91,Science
5,Bob,77,Science
6,Charlie,83,Science


In [23]:
# 데이터를 'Name' 열을 기준으로 그룹화하여 각 그룹의 평균 점수 확인
group_df = df.groupby('Name')['Score'].mean()
print("이름별 평균", group_df)


이름별 평균 Name
Alice      88.0
Bob        74.5
Charlie    86.5
David      88.0
Name: Score, dtype: float64


In [24]:
# 데이터를 'Subject' 열을 기준으로 그룹화하여 각 그룹의 평균 점수 확인
group_df = df.groupby('Subject')['Score'].mean()
print("과목별 평균", group_df)

과목별 평균 Subject
Math       83.750000
Science    83.666667
Name: Score, dtype: float64


In [25]:
### 데이터 정렬
import pandas as pd

# 샘플 데이터프레임 생성
data = {
    'name': ['John', 'Anna', 'Peter', 'Linda'],
    'age': [28, 34, 29, 32]
}
df = pd.DataFrame(data)

# 'age' 컬럼으로 오름차순 정렬
sort_df = df.sort_values(by='age')
sort_df

Unnamed: 0,name,age
0,John,28
2,Peter,29
3,Linda,32
1,Anna,34


In [26]:
# 'age' 컬럼으로 내림차순 정렬
sort_df = df.sort_values(by='age', ascending=False)
sort_df


Unnamed: 0,name,age
1,Anna,34
3,Linda,32
2,Peter,29
0,John,28


In [27]:
# 샘플 데이터프레임의 인덱스를 무작위로 변경
df = df.sample(frac=1)
df

Unnamed: 0,name,age
3,Linda,32
0,John,28
2,Peter,29
1,Anna,34


In [28]:
# 인덱스로 오름차순 정렬
sort_idx_df = df.sort_index()
print(sort_idx_df)

    name  age
0   John   28
1   Anna   34
2  Peter   29
3  Linda   32


In [29]:
# 인덱스로 내림차순 정렬
sort_idx_df = df.sort_index(ascending=False)
print(sort_idx_df)

    name  age
3  Linda   32
2  Peter   29
1   Anna   34
0   John   28


In [None]:
#
#