# Pandas

In [1]:
import numpy as np
import pandas as pd

### 1. Series

- 시리즈 생성

In [2]:
s = pd.Series([9904312, 3448737, 2890451, 2466052])
s

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64

In [3]:
s = pd.Series([9904312, 3448737, 2890451, 2466052],
              index=['서울','부산','인천','대구'])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

- 시리즈 인덱싱

In [5]:
s[1], s['부산']

(3448737, 3448737)

In [6]:
s[[1, 3]]

부산    3448737
대구    2466052
dtype: int64

In [7]:
s[['부산','대구']]

부산    3448737
대구    2466052
dtype: int64

- 시리즈 연산

In [8]:
s/1000000

서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
dtype: float64

- 시리즈와 딕셔너리

In [10]:
for key, value in s.items():
    print(f'key: {key}, value: {value}')

key: 서울, value: 9904312
key: 부산, value: 3448737
key: 인천, value: 2890451
key: 대구, value: 2466052


In [11]:
d = {'a':100, 'b':200, 'c':300}
pd.Series(d)

a    100
b    200
c    300
dtype: int64

In [12]:
# 인덱스값이 다른 데이터는 - 연산이 안됨
# 연산이 안되는 것의 결과는 NaN(Not a Number, 결측치)
# np.nan 의 데이터 타입은 실수
s2 = pd.Series({"서울":9631482,"부산":3393191,"인천":2632035,"대전":1490158})
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

- 주요 속성과 메소드

In [13]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [14]:
s.values

array([9904312, 3448737, 2890451, 2466052])

In [16]:
# 엘리먼트의 갯수를 세는 method
s.count()

4

In [17]:
s2.count()

4

In [18]:
ds.count()          # NaN은 갯수로 치지 않는다.

3

In [19]:
# 카테고리의 값 세는 method
s.value_counts()

2466052    1
2890451    1
3448737    1
9904312    1
dtype: int64

In [20]:
import seaborn as sns
iris = sns.load_dataset('iris')

In [23]:
iris.head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa


In [22]:
iris['species'].value_counts()

setosa        50
versicolor    50
virginica     50
Name: species, dtype: int64

In [24]:
# 카테고리 이름이 몇개인지를 알려주는 메소드
iris['species'].unique()

array(['setosa', 'versicolor', 'virginica'], dtype=object)

In [25]:
# 카테고리 갯수
iris['species'].nunique()

3

In [27]:
# 합계/평균을 구하는 메소드
s.sum(), s.mean()

(18709552, 4677388.0)

In [28]:
# 정렬하는 메소드
s.sort_values()

대구    2466052
인천    2890451
부산    3448737
서울    9904312
dtype: int64

In [29]:
# 내림차순
s.sort_values(ascending=False)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [30]:
s.sort_index()

대구    2466052
부산    3448737
서울    9904312
인천    2890451
dtype: int64

### 2. 데이터프레임 생성

In [31]:
data = {
    '국어': [80, 90, 70, 30],
    '영어': [90, 70, 60, 40],
    '수학': [90, 60, 80, 70]
}

In [33]:
df = pd.DataFrame(data, index=["춘향", "몽룡", "향단", "방자"])
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [34]:
df.columns

Index(['국어', '영어', '수학'], dtype='object')

In [35]:
# 열이 먼저 선택되고, 그 이후에 행 인덱스가 나옴
df['국어']['몽룡']

90

In [36]:
np.random.seed(2021)
df = pd.DataFrame(np.random.randint(60,100,12).reshape(4,3),
                  columns=['kor','eng','math'],
                  index=['james','maria','brian','alice'])
df

Unnamed: 0,kor,eng,math
james,81,60,90
maria,82,87,89
brian,81,89,84
alice,72,66,98


### 3. 데이터프레임 파일 입출력

In [43]:
%%writefile sample1.csv
c1,c2,c3
1, 1.15, one
2, 2.23, two
3, 3.32, three

Overwriting sample1.csv


In [44]:
# 파일로부터 읽을 때
df = pd.read_csv('sample1.csv')
df

Unnamed: 0,c1,c2,c3
0,1,1.15,one
1,2,2.23,two
2,3,3.32,three


In [46]:
df['c4'] = df['c2'] / df['c1']
df

Unnamed: 0,c1,c2,c3,c4
0,1,1.15,one,1.15
1,2,2.23,two,1.115
2,3,3.32,three,1.106667


In [50]:
# 파일에 쓸 때
df.to_csv('sample2.tsv', sep='\t')

In [51]:
df2 = pd.read_csv('sample2.tsv', sep='\t')
df2

Unnamed: 0.1,Unnamed: 0,c1,c2,c3,c4
0,0,1,1.15,one,1.15
1,1,2,2.23,two,1.115
2,2,3,3.32,three,1.106667


In [52]:
# 파일에 쓸 때 index를 제거함
df.to_csv('sample3.tsv', sep='\t', index=False)

In [53]:
df3 = pd.read_csv('sample3.tsv', sep='\t')
df3

Unnamed: 0,c1,c2,c3,c4
0,1,1.15,one,1.15
1,2,2.23,two,1.115
2,3,3.32,three,1.106667


### 4. 데이터 프레임 인덱싱

In [54]:
df

Unnamed: 0,c1,c2,c3,c4
0,1,1.15,one,1.15
1,2,2.23,two,1.115
2,3,3.32,three,1.106667


In [55]:
# 개별 값
df['c2'][1], df.c2[1]

(2.23, 2.23)

In [56]:
# 하나의 컬럼 - 시리즈
df['c3']

0       one
1       two
2     three
Name: c3, dtype: object

In [57]:
df['c3'][:2]

0     one
1     two
Name: c3, dtype: object

In [58]:
# 부분 데이터프레임 - Selection
df[['c1','c3']]

Unnamed: 0,c1,c3
0,1,one
1,2,two
2,3,three


In [59]:
df[['c3']]      # 선택한 열이 하나라도, 리스트안에 넣어주면 데이터프레임으로 표시됨

Unnamed: 0,c3
0,one
1,two
2,three


- loc 인덱서: 행인덱스, 열인덱스

In [60]:
df.loc[1, 'c3']

' two'

In [61]:
df.loc[1:, 'c3']

1       two
2     three
Name: c3, dtype: object

- iloc 인덱서: numpy array indexing 방법대로 사용

In [62]:
df.iloc[1,3]

1.115

In [64]:
df.iloc[1:,2:]

Unnamed: 0,c3,c4
1,two,1.115
2,three,1.106667


### 5. 데이터프레임 데이터 조작

- 탐색

In [65]:
titanic = sns.load_dataset('titanic')

In [66]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [67]:
titanic.tail(3)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [68]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.6+ KB


In [70]:
# 수치형 데이터에 대해서 기초통계량을 보여줌
titanic.describe()

Unnamed: 0,survived,pclass,age,sibsp,parch,fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


- sum 메소드

In [71]:
df

Unnamed: 0,c1,c2,c3,c4
0,1,1.15,one,1.15
1,2,2.23,two,1.115
2,3,3.32,three,1.106667


In [72]:
df.sum()        # axis = 0 이 default

c1                 6
c2               6.7
c3     one two three
c4           3.37167
dtype: object

- mean 메소드

In [73]:
df.mean()       # axis = 0 이 default

c1    2.000000
c2    2.233333
c4    1.123889
dtype: float64

- 결측치 처리

In [74]:
# 결측치를 확인할 때
titanic.isna().sum()        # isna 대신에 isnull 을 사용할 수 있음

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

In [75]:
titanic.isnull().sum().sum()

869

In [77]:
# age 컬럼의 NaN 값을 평균값으로 대체
dft = titanic['age'].fillna(titanic['age'].mean())
dft.tail()

886    27.000000
887    19.000000
888    29.699118
889    26.000000
890    32.000000
Name: age, dtype: float64

In [78]:
# titanic 데이터의 내용을 변경하고자 할 경우에는 inplace=True 로 세팅해야 함
titanic['age'].fillna(titanic['age'].mean(), inplace=True)
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,29.699118,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [79]:
# 결측치를 없앨 때
titanic['embarked'].dropna()

0      S
1      C
2      S
3      S
4      S
      ..
886    S
887    S
888    S
889    C
890    Q
Name: embarked, Length: 889, dtype: object

- 타입 변경

In [80]:
df

Unnamed: 0,c1,c2,c3,c4
0,1,1.15,one,1.15
1,2,2.23,two,1.115
2,3,3.32,three,1.106667


In [82]:
df['c1'] = df['c1'].astype(float)
df

Unnamed: 0,c1,c2,c3,c4
0,1.0,1.15,one,1.15
1,2.0,2.23,two,1.115
2,3.0,3.32,three,1.106667
