# Pandas 데이터 입출력
## CSV 포맷 입출력
- csv 파일 포맷은 데이터 값이 콤마(comma)로 구분되는 텍스트 파일

In [5]:
import pandas as pd
df=pd.DataFrame(data={'c1': [1,2,'누락'],
                        'c2': [1.11,'',3.33],
                        'c3': ['one','two','three']})
df

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


### 데이터 출력
- 데이터를 csv 파일로 출력할 땐 **to_csv()** 메서드 활용 
> 첫 인자: 파일 이름
- row 인덱스를 빼고 출력할때는 **index=False** 키워드 활용 

In [6]:
df.to_csv('sample1.csv',index=False)
# notebook_dir로 설정한 c:\python 경로에 해당 파일 생성됨

- column 인덱스를 빼고 출력할때는 **header=Flase** 키워드 활용

In [7]:
df.to_csv('sample2.csv',index=False,header=False)

- **sep인수** 로 구분자를 바꿀 수 있음 

In [32]:
df_na_val=pd.read_csv('sample1.csv',na_values=['누락'])
df_na_val.to_csv('sample5.txt',sep='|')

- **na_rep** 키워드 인수를 사용해서 NaN 표시값을 바꿀 수 있음

In [33]:
df_na_val.to_csv('sample6.csv',na_rep="누락")

### 데이터 입력
- csv 파일로부터 데이터를 불러올 땐 **read_csv()** 메서드 활용
> 첫 인자:파일 이름

In [10]:
df_read=pd.read_csv('sample1.csv')
df_read

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


- column 인덱스 정보가 없는 경우에는 **names=[]** 키워드 활용

In [11]:
pd.read_csv('sample2.csv',names=['c1','c2','c3'])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


- 공백으로 구분된 txt 파일 입력 

In [12]:
%%writefile sample3.txt
c1        c2        c3        c4
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

Overwriting sample3.txt


In [13]:
pd.read_table('sample3.txt',sep='\s+')

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


- 상단에 부가적인 텍스트를 건너뛰고 가져오는 경우에는 **skiprows=[]** 키워드 활용

In [14]:
%%writefile sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting sample4.txt


In [15]:
pd.read_csv('sample4.txt',skiprows=[0,1]) # list 아닌 range 활용 가능

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


- 자료 중 특정 값을 NaN으로 취급하고 싶을 때 **na_values=[]** 인수에 NaN 값으로 취급할 값을 넣음

In [16]:
df_na_val=pd.read_csv('sample1.csv',na_values=['누락'])
df_na_val

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


In [17]:
titanic=pd.read_csv('train.csv')

In [18]:
titanic

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone
0,0,male,22.0,1,0,7.2500,Third,unknown,Southampton,n
1,1,female,38.0,1,0,71.2833,First,C,Cherbourg,n
2,1,female,26.0,0,0,7.9250,Third,unknown,Southampton,y
3,1,female,35.0,1,0,53.1000,First,C,Southampton,n
4,0,male,28.0,0,0,8.4583,Third,unknown,Queenstown,y
...,...,...,...,...,...,...,...,...,...,...
622,0,male,28.0,0,0,10.5000,Second,unknown,Southampton,y
623,0,male,25.0,0,0,7.0500,Third,unknown,Southampton,y
624,1,female,19.0,0,0,30.0000,First,B,Southampton,y
625,0,female,28.0,1,2,23.4500,Third,unknown,Southampton,n


In [19]:
titanic.head(10)

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone
0,0,male,22.0,1,0,7.25,Third,unknown,Southampton,n
1,1,female,38.0,1,0,71.2833,First,C,Cherbourg,n
2,1,female,26.0,0,0,7.925,Third,unknown,Southampton,y
3,1,female,35.0,1,0,53.1,First,C,Southampton,n
4,0,male,28.0,0,0,8.4583,Third,unknown,Queenstown,y
5,0,male,2.0,3,1,21.075,Third,unknown,Southampton,n
6,1,female,27.0,0,2,11.1333,Third,unknown,Southampton,n
7,1,female,14.0,1,0,30.0708,Second,unknown,Cherbourg,n
8,1,female,4.0,1,1,16.7,Third,G,Southampton,n
9,0,male,20.0,0,0,8.05,Third,unknown,Southampton,y


In [20]:
titanic.tail(10)

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone
617,1,female,15.0,0,0,7.225,Third,unknown,Cherbourg,y
618,0,male,20.0,0,0,9.8458,Third,unknown,Southampton,y
619,0,male,19.0,0,0,7.8958,Third,unknown,Southampton,y
620,0,male,28.0,0,0,7.8958,Third,unknown,Southampton,y
621,0,female,22.0,0,0,10.5167,Third,unknown,Southampton,y
622,0,male,28.0,0,0,10.5,Second,unknown,Southampton,y
623,0,male,25.0,0,0,7.05,Third,unknown,Southampton,y
624,1,female,19.0,0,0,30.0,First,B,Southampton,y
625,0,female,28.0,1,2,23.45,Third,unknown,Southampton,n
626,0,male,32.0,0,0,7.75,Third,unknown,Queenstown,y


# DataFrame 고급 인덱싱
- loc: label 값 기반의 2차원 인덱싱
- iloc: 순서를 나타내는 정수 기반의 2차원 인덱싱

## loc[row 인덱싱값, column 인덱싱값]
- row 인덱싱 값: 정수 또는 row index 데이터
- column 인덱싱 값: label 문자열 또는 숫자
- True/False 값도 인덱싱 값으로 넣을 수 있음

In [21]:
titanic.loc[626,'survived':'age']

survived       0
sex         male
age         32.0
Name: 626, dtype: object

In [22]:
import numpy as np
df=pd.DataFrame(data=np.arange(10,22).reshape(3,4),index=['a','b','c'],columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [23]:
df.loc['a']

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [24]:
# 영어로 된 column 레이블은 속성으로 접근 가능 
df.A > 15

a    False
b    False
c     True
Name: A, dtype: bool

In [25]:
def select_rows(df,num):
    return df.A >num

In [26]:
select_rows(df,10)

a    False
b     True
c     True
Name: A, dtype: bool

In [27]:
df.loc[select_rows(df,10)]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


# Series 데이터 개수 세기
- Series.count(): NaN 값을 포함하지 않고 반환
- len(Series): NaN 값 상관 없이 반환
# DataFrame 데이터 개수 세기
- df.count(): 각 column마다의 데이터 개수를 세고(NaN값 제외) 그 결과를 Series로 반환- **값이 누락된 부분을 찾을 때 유용함**

In [28]:

np.random.seed(2)
df=pd.DataFrame(np.random.randint(5,size=(4,4)))
df[0][2]=None
df

Unnamed: 0,0,1,2,3
0,0.0,0,3,2
1,3.0,0,2,1
2,,2,4,4
3,4.0,3,4,2


In [29]:
df.count()

0    3
1    4
2    4
3    4
dtype: int64

In [30]:
import seaborn as sns
titanic=sns.load_dataset('titanic')
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [31]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

# Series 카테고리 값 세기
- Series 값이 정수, 문자열, 카테고리 값인 경우에는 **value_counts()** 메서드로 각각의 값이 나온 횟수를 셀 수 있습니다. 

In [34]:
np.random.seed(1)
s2=pd.Series(np.random.randint(6,size=100))
s2.tail()

95    4
96    5
97    2
98    4
99    3
dtype: int32

In [44]:
s2.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

# DataFrame 카테고리 값 세기
- **value_counts(column 레이블)** - column 레이블이 정수형일 경우에 리스트로 묶어서 전달 -> NaN 값은 안셈
- 또는 **df[column 레이블].value_counts()**

In [38]:
np.random.seed(2)

In [39]:
df=pd.DataFrame(np.random.randint(5,size=(4,4)))
df

Unnamed: 0,0,1,2,3
0,0,0,3,2
1,3,0,2,1
2,3,2,4,4
3,4,3,4,2


In [40]:
df[0].value_counts()

3    2
0    1
4    1
Name: 0, dtype: int64

In [41]:
df.value_counts([0])

3    2
0    1
4    1
dtype: int64

In [42]:
df.value_counts([0,2]).sort_index()

0  2
0  3    1
3  2    1
   4    1
4  4    1
dtype: int64

# Series 정렬 
- **sort_index()**: index 순으로 정렬
- **sort_values()**: value 기준으로 정렬 / NaN값이 가장 나중으로 위치
- 기본은 오름차순, 내림차순은 ascending = False 키워드 인자 활용

# DataFrame 정렬
- **sort_values(by=정렬 기준이 되는 column)** : 기준이 되는 column과 같이 다른 column도 모두 정렬됨
- by 키워드 인수에 전달할 값으로 **리스트 자료형** 형태로 지정 가능, 이때는 요소의 순서대로 정렬 기준의 **우선 순위**가 됨 

In [47]:
df.sort_values(by=2)

Unnamed: 0,0,1,2,3
1,3,0,2,1
0,0,0,3,2
2,3,2,4,4
3,4,3,4,2


In [49]:
df.sort_values(by=[2,3])

Unnamed: 0,0,1,2,3
1,3,0,2,1
0,0,0,3,2
3,4,3,4,2
2,3,2,4,4


### 연습문제
```
타이타닉호 승객에 대해 성별(sex) 인원수, 나이별(age) 인원수, 선실별(class) 인원수, 
사망/생존(alive) 인원수를 구하고 sort_values 메서드를 사용하여 내림차순으로 정렬해보세요.
```

In [45]:
print(titanic.value_counts('sex').sort_values(ascending=False))
print()
print(titanic.value_counts('age').sort_values(ascending=False))
print()
print(titanic.value_counts('class').sort_values(ascending=False))
print()
print(titanic.value_counts('alive').sort_values(ascending=False))

sex
male      577
female    314
dtype: int64

age
24.00    30
22.00    27
18.00    26
30.00    25
28.00    25
         ..
0.42      1
66.00     1
70.50     1
74.00     1
80.00     1
Length: 88, dtype: int64

class
Third     491
First     216
Second    184
dtype: int64

alive
no     549
yes    342
dtype: int64


# DataFrame 행/열 합계
- row와 column의 합계를 구할 때는 sum(axis) 메서드를 사용
- axis 인수에는 합계로 인해 없어지는 방향축(0=row, 1=column)을 지정
- **row의 집계(인덱스 레이블의 집계)** 를 구할때는 sum(axis=1)메서드를 사용 
- **column의 집계(행 레이블의 집계)** 를 구할때는 sum()메서드를 사용 

In [50]:
np.random.seed(1)
df2=pd.DataFrame(np.random.randint(10,size=(4,8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [51]:
df2.sum(axis=0)

0    24
1    33
2    25
3    24
4    15
5    10
6     5
7    16
dtype: int64

In [52]:
df2.sum(axis=1)

0    35
1    34
2    41
3    42
dtype: int64

# Mean() 메서드
- 평균을 구하며 axis 인수에는 집계로 인해 없어지는 방향축(0=row, 1=column)을 지정함

In [54]:
df2.loc['ColMean',:]=df2.mean()
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0
ColMean,6.0,8.25,6.25,6.0,3.75,2.5,1.25,4.0


In [56]:
df2['RowMean']=df2.mean(axis=1)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowMean
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,4.375
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,4.25
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,5.125
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,5.25
ColMean,6.0,8.25,6.25,6.0,3.75,2.5,1.25,4.0,4.75


### 연습문제

In [57]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [58]:
round(titanic['age'].mean(),1)

29.7

In [64]:
# bool 타입의 Series를 인덱싱(filter 기능처럼)
titanic[titanic.sex=='female']['age'].mean()
# round(titanic[titanic['sex']=="female"]['age'].mean(),1)

27.915708812260537

In [68]:
titanic[(titanic.pclass==1) & (titanic.sex=='female')]['age'].mean()

34.61176470588235