## PART 02) 데이터 다루기

### 1절. Series와 DataFrame
#### 1. Series(시리즈)

In [1]:
import pandas as pd
import numpy as np

In [2]:
# series 생성

series1 = pd.Series(['a', 'b', 'c'])
print(series1)

0    a
1    b
2    c
dtype: object


In [7]:
series2 = pd.Series(range(5))
print(series2)

0    0
1    1
2    2
3    3
4    4
dtype: int64


In [9]:
# 인덱스 지정
idx = ['A', 'B', 'C', 'D', 'E']
series3 = pd.Series(range(5), idx)
print(series3)

A    0
B    1
C    2
D    3
E    4
dtype: int64


In [12]:
dict = {1: '이유리', 2:'최민준', 3:None}
series4 = pd.Series(dict)
print(series4)

1     이유리
2     최민준
3    None
dtype: object


In [13]:
series4.values

array(['이유리', '최민준', None], dtype=object)

In [14]:
series4.index

Int64Index([1, 2, 3], dtype='int64')

In [17]:
series4.size

3

In [20]:
series2.dtypes

dtype('int64')

In [21]:
series1.index = [1, 2, 3]
print(series1)

1    a
2    b
3    c
dtype: object


In [22]:
# 인덱싱/슬라이싱
series3[:3]

A    0
B    1
C    2
dtype: int64

In [25]:
series3[0]

0

In [26]:
series3[2]

2

In [27]:
series3

A    0
B    1
C    2
D    3
E    4
dtype: int64

In [28]:
series3.index[0]

'A'

In [29]:
series3.values[0]

0

In [30]:
print(series3.values[0] == series3[0])

True


In [31]:
series3['A']

0

#### 시리즈의 통계 메소드

In [34]:
sr_1 = pd.Series(range(100)) # 시리즈 생성

# describe()
# 시리즈객체의 요약 통계량에 대한 정보
# 총 객체수, 평균, 표준편차, 최솟값, 제1사분위수, 중앙값, 제3사분위수, 최댓값, 데이터타입
sr_1.describe()

count    100.000000
mean      49.500000
std       29.011492
min        0.000000
25%       24.750000
50%       49.500000
75%       74.250000
max       99.000000
dtype: float64

In [35]:
# describe에서 각 통계량 가져오기
print(sr_1.describe()['count'])
print(sr_1.describe()['max'])

100.0
99.0


In [42]:
# .count()
# 시리즈객체의 총 객체수
sr_1.count()

100

In [44]:
sr_1[:5]

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [49]:
# 특정값 개수 세기
sr_2 = pd.Series({1:'a', 2:'a', 3:'b', 4:'c', 5:'z', 6:'s', 7:'s', 8:'c', 9:'c'})
sr_2.count()

9

In [51]:
sr_2.value_counts()['a']

2

In [52]:
sr_2.value_counts().get('x', 0)          # .get(a, default): a의 개수를 가져옴. 없을 경우 0 리턴

0

In [55]:
sr_2.value_counts().get('c', 0)/len(sr_2)      

0.3333333333333333

In [56]:
# .mean()
# 시리즈객체의 평균
sr_1.mean()        # sum(sr_1)/len(sr_1)

49.5

In [63]:
# .var()
# 시리즈객체의 분산
print(sr_1.var())

# .std()
# 시리즈객체의 표준편차 = 분산의 제곱근(√분산)
print(sr_1.std())

# .min()
# 시리즈객체의 최솟값
print(sr_1.min())

# .max()
# 시리즈객체의 최댓값
print(sr_1.max())

# .median()
# 시리즈객체의 중앙값
print(sr_1.median())

841.6666666666666
29.011491975882016
0
99
49.5


In [66]:
# .quantile()
# 시리즈객체의 q*100% 백분위수

sr_1.quantile()        # 디폴트 = 중앙값(q2)

49.5

In [67]:
sr_1.median()

49.5

In [70]:
print(sr_1.quantile(q=0.25))       # q1
print(sr_1.quantile(q=0.75))       # q3

IQR = sr_1.quantile(q=0.75)-sr_1.quantile(q=0.25)
print(IQR)   
      
# 이상치
# Q1-1.5*IQR < x or x > Q3+1.5*IQR
print(sr_1.quantile(q=0.25)-1.5*IQR)
print(sr_1.quantile(q=0.75)+1.5*IQR)

24.75
74.25
49.5
-49.5
148.5


In [80]:
sr_2 = pd.Series(['a','b','b','b','c','c','d']) # 시리즈 생성

# describe()
# 총 객체수, 유일값, 최빈값, 최빈값의 빈도
print(sr_2.describe())
print()

# .unique()
# 시리즈객체의 유일값을 1d-array로 반환
print(sr_2.unique())
print(set(sr_2))           # set은 순서를 보장하지 않음. 웬만하면 unique()를 쓰자

# .mode()
# 시리즈객체의 최빈값을 시리즈로 반환
print(sr_2.mode())
print(max(sr_2.value_counts()))

count     7
unique    4
top       b
freq      3
dtype: object

['a' 'b' 'c' 'd']
{'c', 'd', 'b', 'a'}
0    b
dtype: object
3


#### 2. DataFrame(데이터프레임)

In [88]:
obj = np.array([['class 1', 30, 'a 교수'],
               ['class 2', 50, 'b 교수'],
               ['class 3', 25, 'c 교수'],
               ['class 4', 20, 'a 교수']])
               
df = pd.DataFrame(obj)
df

Unnamed: 0,0,1,2
0,class 1,30,a 교수
1,class 2,50,b 교수
2,class 3,25,c 교수
3,class 4,20,a 교수


In [90]:
df = pd.DataFrame(obj, columns=['수업', '정원', '교수'], index = range(1, 5))
df

Unnamed: 0,수업,정원,교수
1,class 1,30,a 교수
2,class 2,50,b 교수
3,class 3,25,c 교수
4,class 4,20,a 교수


In [92]:
print(df.index)
print(df.values)
print(df.size)
print(df.dtypes)
print(df.shape)

RangeIndex(start=1, stop=5, step=1)
[['class 1' '30' 'a 교수']
 ['class 2' '50' 'b 교수']
 ['class 3' '25' 'c 교수']
 ['class 4' '20' 'a 교수']]
12
수업    object
정원    object
교수    object
dtype: object
(4, 3)


In [93]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 1 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   수업      4 non-null      object
 1   정원      4 non-null      object
 2   교수      4 non-null      object
dtypes: object(3)
memory usage: 228.0+ bytes


In [95]:
df.head(2)

Unnamed: 0,수업,정원,교수
1,class 1,30,a 교수
2,class 2,50,b 교수


In [97]:
df.head(-2)      # 뒤에서 2개 제외한 행 출력

Unnamed: 0,수업,정원,교수
1,class 1,30,a 교수
2,class 2,50,b 교수


In [98]:
df.head(-1)

Unnamed: 0,수업,정원,교수
1,class 1,30,a 교수
2,class 2,50,b 교수
3,class 3,25,c 교수


In [101]:
df.tail()            # 하위 5개 출력

Unnamed: 0,수업,정원,교수
1,class 1,30,a 교수
2,class 2,50,b 교수
3,class 3,25,c 교수
4,class 4,20,a 교수


In [102]:
df.tail(1)

Unnamed: 0,수업,정원,교수
4,class 4,20,a 교수


In [103]:
df.tail(-1)             # 상위 1개를 제외한 행 출력

Unnamed: 0,수업,정원,교수
2,class 2,50,b 교수
3,class 3,25,c 교수
4,class 4,20,a 교수


In [104]:
df.tail(-2)

Unnamed: 0,수업,정원,교수
3,class 3,25,c 교수
4,class 4,20,a 교수


#### 데이터 정렬

In [129]:
# 데이터프레임 생성
obj = {'Name' : ['Olivia', 'Lucas', 'Sophia', 'Zoe', 'Ava', 'Elliot'],
       'Sex' : ['Female', 'Male', 'Female', 'Female', 'Female', 'Male'],
       'Age' : [22, 32, 27, 18, 38, 19],
       'Score' : [100, 95, 60, 77, 83, 84]
       }

df = pd.DataFrame(obj) # 데이터 프레임 생성

In [108]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    6 non-null      object
 1   Sex     6 non-null      object
 2   Age     6 non-null      int64 
 3   Score   6 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 320.0+ bytes


In [109]:
df.describe()

Unnamed: 0,Age,Score
count,6.0,6.0
mean,26.0,83.166667
std,7.874008,14.133884
min,18.0,60.0
25%,19.75,78.5
50%,24.5,83.5
75%,30.75,92.25
max,38.0,100.0


In [121]:
# sort_values(): 값을 기준으로 정렬, 디폴트는 오름차순
print(df.sort_values('Name'))
print()
print(df.sort_values('Score', ascending=False))

     Name     Sex  Age  Score
4     Ava  Female   38     83
5  Elliot    Male   19     84
1   Lucas    Male   32     95
0  Olivia  Female   22    100
2  Sophia  Female   27     60
3     Zoe  Female   18     77

     Name     Sex  Age  Score
0  Olivia  Female   22    100
1   Lucas    Male   32     95
5  Elliot    Male   19     84
4     Ava  Female   38     83
3     Zoe  Female   18     77
2  Sophia  Female   27     60


In [123]:
# 정렬 기준 컬럼 여러개 설정 가능
print(df.sort_values(['Score', 'Name'], ascending=[False, True]))    # Score 기준 내림차순 정렬하고, 같은 Score는 Name을 기준으로 오름차순 정렬

     Name     Sex  Age  Score
0  Olivia  Female   22    100
1   Lucas    Male   32     95
5  Elliot    Male   19     84
4     Ava  Female   38     83
3     Zoe  Female   18     77
2  Sophia  Female   27     60


In [130]:
# Zoe와 같은 성적인 학생 Jack 추가
df = df.append({'Name':'Jack', 'Sex':'Male', 'Age':25, 'Score':77}, ignore_index = True)     

  df = df.append({'Name':'Jack', 'Sex':'Male', 'Age':25, 'Score':77}, ignore_index = True)


In [131]:
df

Unnamed: 0,Name,Sex,Age,Score
0,Olivia,Female,22,100
1,Lucas,Male,32,95
2,Sophia,Female,27,60
3,Zoe,Female,18,77
4,Ava,Female,38,83
5,Elliot,Male,19,84
6,Jack,Male,25,77


In [132]:
df.sort_values(['Score', 'Name'], ascending = [False, True])

Unnamed: 0,Name,Sex,Age,Score
0,Olivia,Female,22,100
1,Lucas,Male,32,95
5,Elliot,Male,19,84
4,Ava,Female,38,83
6,Jack,Male,25,77
3,Zoe,Female,18,77
2,Sophia,Female,27,60


In [135]:
# sort_index(): 인덱스를 기준으로 정렬, 디폴트는 오름차순
rownm = ['Olivia', 'Lucas', 'Sophia', 'Zoe', 'Ava', 'Elliot']

obj = {'Score' : [100, 95, 60, 77, 83, 84],
       'Age' : [22, 22, 27, 18, 18, 19],
       }
df = pd.DataFrame(obj, index = rownm)

In [136]:
df

Unnamed: 0,Score,Age
Olivia,100,22
Lucas,95,22
Sophia,60,27
Zoe,77,18
Ava,83,18
Elliot,84,19


In [140]:
df.sort_index()        # axis = 0

Unnamed: 0,Score,Age
Ava,83,18
Elliot,84,19
Lucas,95,22
Olivia,100,22
Sophia,60,27
Zoe,77,18


In [141]:
# 열 인덱스에 대해 오름차순 정렬 = 즉, 컬럼 기준 오름차순 정렬
df.sort_index(axis=1)

Unnamed: 0,Age,Score
Olivia,22,100
Lucas,22,95
Sophia,27,60
Zoe,18,77
Ava,18,83
Elliot,19,84


#### 데이터 순위

In [144]:
# 데이터 프레임 생성
obj = {'Score' : [100, 95, 60, 77, 83, 85, 90, 90, 88, 75, 90, 54, 48, 84, 73],
       'Age' : [22, 22, 27, 18, 18, 19, 24, 26, 30, 27, 25, 21, 20, 17, 20]
       }
df = pd.DataFrame(obj)
df.head()

Unnamed: 0,Score,Age
0,100,22
1,95,22
2,60,27
3,77,18
4,83,18


In [145]:
df.sort_values('Score', ascending=False, inplace=True)

In [146]:
df

Unnamed: 0,Score,Age
0,100,22
1,95,22
6,90,24
7,90,26
10,90,25
8,88,30
5,85,19
13,84,17
4,83,18
3,77,18


In [156]:
# case1. 동점자 평균 순위
df['rank_average1'] = df['Score'].rank()

# case2. 동점자 평균 순위(가장 큰 값이 1위)
# Score가 90인 경우가 3개로, 3~5위의 평균인 4위
df['rank_average2'] = df['Score'].rank(ascending=False)

# case3. 동점자에게 가장 낮은 순위를 부여(가장 작은 값이 1위)
# Score가 90인 경우가 3개로, 3~5위 중 가장 낮은 3위 
df['rank_min'] = df['Score'].rank(method='min', ascending=False)

# case4. 동점자에게 가장 높은 순위를 부여(가장 큰 값이 1위)
# Score가 90인 경우가 3개로, 3~5위 중 가장 높은 5위 
df['rank_max'] = df['Score'].rank(method='max', ascending=False)

In [157]:
df

Unnamed: 0,Score,Age,rank_average1,rank_average2,rank_min,rank_max
0,100,22,15.0,1.0,1.0,1.0
1,95,22,14.0,2.0,2.0,2.0
6,90,24,12.0,4.0,3.0,5.0
7,90,26,12.0,4.0,3.0,5.0
10,90,25,12.0,4.0,3.0,5.0
8,88,30,10.0,6.0,6.0,6.0
5,85,19,9.0,7.0,7.0,7.0
13,84,17,8.0,8.0,8.0,8.0
4,83,18,7.0,9.0,9.0,9.0
3,77,18,6.0,10.0,10.0,10.0
