# Chapter 3 판다스 데이터 프레임과 시리즈

데이터 프렝미과 시리즈는 리스트나 딕셔너리와 비슷하지만 데이터를 다루는 데 더 특화되어 있다. 리스트와 딕셔너리는 많은양의 데이터를 저장하거나 데이터를 조작할 수 있는 메서드가 많지 않지만 판다스의 데이터 프레임과 시리즈는 많은 양의 데이터를 저장 가능하다. 또한, 엑셀처럼 행과 열 단위로 원하는 데이터를 조작할수 있는 다양한 **속성**과 **메서드**를 제공한다. 목차는 다음과 같다.

 - 3-1 나만의 데이터 만들기
 - 3-2 시리즈 다루기 - 기초
 - 3-3 시리즈 다루기 - 응용
 - 3-4 데이터프레임 다루기
 - 3-5 시리즈와 데이터프레임의 데이터 처리하기
 - 3-6 데이터 저장하고 불러오기

## 3-1 나만의 데이터 만들기

#### 1. 시리즈 만들기 

판다스의 Series 메서드에 리스트럴 전달하여 시리즈를 생성 한다.

In [5]:
import pandas as pd

In [6]:
s = pd. Series(['banana', 42])
s

0    banana
1        42
dtype: object

In [7]:
s = pd.Series(['Wes McKinney', 'Creator of Pandas'])
s

0         Wes McKinney
1    Creator of Pandas
dtype: object

#### 2. 
series를 생설할 때 문자열을 인덱스로 지정할 수도 있다. 문자열을 인덱스로 지정하려면 Series메서드의 index 인자를 통해 인덱스로 사용하고자 하는 문자열을 리스트에 담아 전달하면 된다.

In [8]:
s = pd.Series(['Wes McKinney', 'Creator of Pandas'], index=['Person', 'Who'])
s

Person         Wes McKinney
Who       Creator of Pandas
dtype: object

#### 3. 데이터프레임 생성

데이터프레임을 만들기 위해서든 딕셔너리를 DataFrame 클래스에 전달 한다.

In [9]:
scientists = pd.DataFrame({
    'Name': ['Rosaline Franklin', 'William Gosset'],
    'Occupation' : ['Chemist', 'Statistician'],
    'Born': ['1920-07-05', '1876-06-13'],
    'Died': ['1958-04-16', '1937-10-16'],
    'Age': [37,61]}
)
scientists

Unnamed: 0,Name,Occupation,Born,Died,Age
0,Rosaline Franklin,Chemist,1920-07-05,1958-04-16,37
1,William Gosset,Statistician,1876-06-13,1937-10-16,61


#### 4.
시리즈와 마찬가지로 데이터프레임도 인덱스를 따로 지증하지 않으면 인덱스를 0부터 자동으로 생성한다. 인덱스를 따로 지정하려면 index 인자에 리스트를 전달하면 된다. 또한, columns인자를 사용하면 데이터프레임의 열 순서를 지정할 수 있다.

In [10]:
scientists = pd.DataFrame(
    data={'Occupation' : ['Chemist', 'Statistician'],
    'Born': ['1920-07-05', '1876-06-13'],
    'Died': ['1958-04-16', '1937-10-16'],
    'Age': [37,61]},
    index=['Rosaline Franklin', 'William Gosset'],
    columns=['Occupation', 'Born', 'Age', 'Died']
)

scientists

Unnamed: 0,Occupation,Born,Age,Died
Rosaline Franklin,Chemist,1920-07-05,37,1958-04-16
William Gosset,Statistician,1876-06-13,61,1937-10-16


## 3-2 시리즈 다루기 - 기초

판다스의 데이터 구성 기본 단위는 시리즈이다. 시리즈에 대해 알아보자.

### 데이터프레임에서 시리즈 선택
#### 1 

우선 변수 scientists에 데이터프레임을 준비 하자

In [11]:
scientists = pd.DataFrame(
    data={'Occupation' : ['Chemist', 'Statistician'],
    'Born': ['1920-07-05', '1876-06-13'],
    'Died': ['1958-04-16', '1937-10-16'],
    'Age': [37,61]},
    index=['Rosaline Franklin', 'William Gosset'],
    columns=['Occupation', 'Born', 'Age', 'Died']
)

scientists

Unnamed: 0,Occupation,Born,Age,Died
Rosaline Franklin,Chemist,1920-07-05,37,1958-04-16
William Gosset,Statistician,1876-06-13,61,1937-10-16


#### 2 
데이터프레임에서 시리즈를 선택하려면 loc속성에 인덱스를 전달하면 된다. 

In [12]:
first_row = scientists.loc['William Gosset']

type(first_row)

pandas.core.series.Series

In [13]:
first_row

Occupation    Statistician
Born            1876-06-13
Age                     61
Died            1937-10-16
Name: William Gosset, dtype: object

### 시리즈 속성과 메서드 사용 - index, values, keys

#### 1. index 속성 사용

In [14]:
first_row.index

Index(['Occupation', 'Born', 'Age', 'Died'], dtype='object')

#### 2. values 속성 사용

In [15]:
first_row.values

array(['Statistician', '1876-06-13', 61, '1937-10-16'], dtype=object)

#### 3. key 메서드 사용

keys는 속성이 아니라 메서드라는 표현을 사용했다. keys 메서드는 index속성과 같은 역할은 한다. 즉, 과정1의 결과와 동일한 결과값을 얻을 수 있다.

In [16]:
first_row.keys()

Index(['Occupation', 'Born', 'Age', 'Died'], dtype='object')

#### 4. index 속성 응용

In [17]:
first_row.index[0]

'Occupation'

#### 5. keys 메서드 응용

In [18]:
first_row.keys()[0]

'Occupation'

### 시리즈의 기초 통계 메서드 사용

시리즈에는 keys메서드 외에도 다양한 메서드가 있다. mean, min, max, std메서드의 사용방법을 알아보자.

#### 1. 
scientists의 Ages열을 추출 해보자.

In [19]:
ages = scientists['Age']
ages

Rosaline Franklin    37
William Gosset       61
Name: Age, dtype: int64

#### 2. 

시리즈를 구성하는 데이터가 정수이면 mean, min, max, std와 같은 통계 메서드를 사용할 수 있다.

In [20]:
print(ages.mean()) # ages 평균
print(ages.min()) # ages 최소값
print(ages.max()) # ages 최대값
print(ages.std()) # age 표준편차

49.0
37
61
16.97056274847714


#### 시리즈 메서드 정리
|시리즈 메서드|설명|
|:-:|:-:|
|append|2개 이상의 시리즈 연결|
|describe|요약 통계량 계산|
|drop_duplicates|중복값이 없는 시리즈 변환|
|equals|시리즈에 해당 값을 가진 요소가 있는지 확인|
|get_values|시리즈 값 구하기(values 속성과 동일)|
|isin|시리즈에 포함관 값이 있는지 확인|
|min|최소값|
|max|최대값|
|mean|평균값|
|median|중간값|
|replace|특정 값을 가진 시리즈 값을 교체|
|sample|시리즈에서 임의의 값을 변환|
|sort_values|값을 정렬|
|to_frame|시리즈를 데이터프레임으로 변환|

## 3-3 시리즈 다루기 - 응용

### 시리즈와 불린 추출

불린 추출에 대해 알아보자. 불린 추출은 특정 조건을 만족하는 값만 추출할 수 있다.

### 시리즈와 불린 추출 사용

#### 1. 
sceintists.csv를 불러와서 시작 하자

In [21]:
scientists = pd.read_csv("./data/scientists.csv")

#### 2. 

In [22]:
ages = scientists['Age']

print(ages.max())
print(ages.mean())

90
59.125


#### 3.

이제 불린 추출 사용법을 알아보자. 예로 평균 나이보다 나이가 많은 사람의 데이터를 추출하기 위해선 다음의 코드를 사용하면 된다.

In [23]:
print(ages[ages < ages.mean()])

0    37
4    56
5    45
6    41
Name: Age, dtype: int64


#### 4. 
이번에는 이 값을 TF로 표현을 해보자

In [24]:
print(ages > ages.mean())

0    False
1     True
2     True
3     True
4    False
5    False
6    False
7     True
Name: Age, dtype: bool


#### 5. 
위에서 보듯이 리스트 형태로 True/False를 시리즈에 전달 하면 True만 필터링 해서 추출을 하는데 이것을 불린 추출이라고 한다.

In [25]:
manual_bool_values = [True, True, False, False, True, True, False, True]

ages[manual_bool_values]

0    37
1    61
4    56
5    45
7    77
Name: Age, dtype: int64

### 시리즈와 브로드캐스팅 

시리즈나 데이터프레임에 있는 모든 데이터에 대해 한 번에 연산하는 것을 브로드캐스팅(Broadcasting)이라고 한다. 시리즈처럼 여러 개의 값을 가진 데이터를 벡터라고 하고 단순 크기를 나타내는 데이터는 스칼라라고 한다.

### 벡터와 스칼라로 브로드캐스팅 수행

#### 1. 
다음은 같은 길이의 벡터로 더하기 연산과 곱하기 연산을 수행한 것이다.

In [26]:
ages + ages

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64

In [27]:
ages * ages

0    1369
1    3721
2    8100
3    4356
4    3136
5    2025
6    1681
7    5929
Name: Age, dtype: int64

#### 2. 
이번에는 벡터에 스칼라를 연산해보자.

In [28]:
ages + 100

0    137
1    161
2    190
3    166
4    156
5    145
6    141
7    177
Name: Age, dtype: int64

In [29]:
ages * 2

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64

#### 3. 
길이가 서로 다른 벡터를 연산하려면? 시리즈와 시리즈를 연산하는 경우 같은 인덱스의 값만 계산하게 된다. 다음은 데이터의 개수가 2개인 시리즈와 8개인 시리즈를 더한것이다. 결과값을 보면 인덱스가 일치한 상위두개의 값만 계산을 하였고 나머지는 누락값(NaN)으로 처리가 된다.

In [30]:
pd.Series([1,100])

0      1
1    100
dtype: int64

In [31]:
ages + pd.Series([1,100])

0     38.0
1    161.0
2      NaN
3      NaN
4      NaN
5      NaN
6      NaN
7      NaN
dtype: float64

#### 4. 
다음은 sort_index 메서드를 사용한 것이다. 이때 ascending 인자로 False를 전달하여 인덱스 역순으로 데이터를 정렬한 결과이다.

In [32]:
rev_ages = ages.sort_index(ascending=False)
rev_ages

7    77
6    41
5    45
4    56
3    66
2    90
1    61
0    37
Name: Age, dtype: int64

#### 5. 

이번에는 인덱스를 역순으로 구성한 rev_age와 ages를 더하고, 동시에 ages에 2를 곱한 값을 비교해보자. 결과는 같을텐데, ages의 인덱스와 rev_ages의 인덱스가 일치하는 값끼리 연산을 수행했기 때문이다

In [33]:
print(ages * 2)
print(ages + rev_ages)

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64
0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64


## 3-4 데이터프레임 다루기

데이프레임도 시리즈와 마찬가지로 불린 추출과 브로드캐스팅이 가능하다. 불린 추출부터 하나씩 알아보자.

### 불린 추출과 브로드캐스팅

#### 1. 불린 추출하기
데이터프레임도 불린추출이 가능하다. 다음은 데이터프레임의 Age열에서 Age열의 평균보다 높은 행만 출력하는 코드이다.

In [34]:
scientists[scientists['Age'] > scientists['Age'].mean()]

Unnamed: 0,Name,Born,Died,Age,Occupation
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


#### 2. 브로드캐스팅 하기

데이터프레임에 스칼라 연산을 적용하면 어떻게 될까? scientists에 2를 곱하면 정수는 두배, 문자열은 두배로 늘어나게 된다.

In [44]:
scientists * 2

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline FranklinRosaline Franklin,1920-07-251920-07-25,1958-04-161958-04-16,74,ChemistChemist
1,William GossetWilliam Gosset,1876-06-131876-06-13,1937-10-161937-10-16,122,StatisticianStatistician
2,Florence NightingaleFlorence Nightingale,1820-05-121820-05-12,1910-08-131910-08-13,180,NurseNurse
3,Marie CurieMarie Curie,1867-11-071867-11-07,1934-07-041934-07-04,132,ChemistChemist
4,Rachel CarsonRachel Carson,1907-05-271907-05-27,1964-04-141964-04-14,112,BiologistBiologist
5,John SnowJohn Snow,1813-03-151813-03-15,1858-06-161858-06-16,90,PhysicianPhysician
6,Alan TuringAlan Turing,1912-06-231912-06-23,1954-06-071954-06-07,82,Computer ScientistComputer Scientist
7,Johann GaussJohann Gauss,1777-04-301777-04-30,1855-02-231855-02-23,154,MathematicianMathematician


## 3-5 시리즈와 데이터프레임의 데이터 처리

### 시리즈와 데이터 프레임의 데이터 처리 하기

#### 1. 열의 자료형 바꾸기와 새로운 열 추가하기

scientists 데이터프레임의 Born과 Died열의 자료형을 확인해보자. 각각의 자료형은 문자열(Object)이다.

In [45]:
print(scientists['Born'].dtype)

print(scientists['Died'].dtype)

object
object


#### 2. 

날짜 데이터는 문자열보다는 datetime이라는 자료형으로 변환 하는것이 좋다. 다음을 확인하자.

In [47]:
born_datetime = pd.to_datetime(scientists['Born'], format='%Y-%m-%d')

print(born_datetime)

died_datetime = pd.to_datetime(scientists['Died'], format='%Y-%m-%d')

print(died_datetime)

0   1920-07-25
1   1876-06-13
2   1820-05-12
3   1867-11-07
4   1907-05-27
5   1813-03-15
6   1912-06-23
7   1777-04-30
Name: Born, dtype: datetime64[ns]
0   1958-04-16
1   1937-10-16
2   1910-08-13
3   1934-07-04
4   1964-04-14
5   1858-06-16
6   1954-06-07
7   1855-02-23
Name: Died, dtype: datetime64[ns]


#### 3. 

과정 2에서 데이터의 자료형을 각각 datetime으로 바꿔보았다. 이제 이 바꾼 데이터를 기존 데이터프레임에 추가 해보자.

In [48]:
scientists['born_dt'], scientists['died_dt'] = (born_datetime, died_datetime)
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25,1958-04-16
1,William Gosset,1876-06-13,1937-10-16,61,Statistician,1876-06-13,1937-10-16
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse,1820-05-12,1910-08-13
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist,1867-11-07,1934-07-04
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist,1907-05-27,1964-04-14
5,John Snow,1813-03-15,1858-06-16,45,Physician,1813-03-15,1858-06-16
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist,1912-06-23,1954-06-07
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician,1777-04-30,1855-02-23


#### 4. 

이렇게 datetime자료형의 born_dt, died_dt를 추가 했으니 이를 연산 해보도록 하자. 각각의 데이터과학자의 died_dt에서 born_dt를 뺀 후 age_days_dt값으로 나타낸 결과 이다.

In [50]:
scientists['age_days_dt'] = (scientists['died_dt'] - scientists['born_dt'])
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt,age_days_dt
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25,1958-04-16,13779 days
1,William Gosset,1876-06-13,1937-10-16,61,Statistician,1876-06-13,1937-10-16,22404 days
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse,1820-05-12,1910-08-13,32964 days
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist,1867-11-07,1934-07-04,24345 days
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist,1907-05-27,1964-04-14,20777 days
5,John Snow,1813-03-15,1858-06-16,45,Physician,1813-03-15,1858-06-16,16529 days
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist,1912-06-23,1954-06-07,15324 days
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician,1777-04-30,1855-02-23,28422 days


#### 5. 시리즈, 데이터프레임의 데이터 섞기
가끔은 데이터를 적당히 섞어야 하는 경우도 있다. 판다스는 시리즈나 데이터프레임의 데이터를 무작위로 섞어볼 수도 있다. 먼저 Age값을 살펴 보자

In [51]:
scientists['Age']

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64

#### 6. 
Age 열의 데이터를 셖으려면 random 라이브러리를 사용하면 된다. random라이브러리에는 데이터를 섞어주는 shuffle 메서드가 있다. shuffle메서드에 Age열을 전달하여 데이터를 섞어보자. Age열을 출력해 보면 인덱스에 0~7에 해당하는 값이 잘 섞여 있음을 알 수 있다.

In [54]:
import random

random.seed(42)
random.shuffle(scientists['Age'])
scientists['Age']

0    77
1    90
2    37
3    61
4    41
5    45
6    66
7    56
Name: Age, dtype: int64

#### 7. 데이터프레임의 열 삭제 

데이터프레임에서 열을 삭제하기 위해서는 데이터프레임의 drop메서드를 사용한다. shuffle 메서드로 섞은 Age열을 삭제해보자. drop메서드의 첫 번째 인자에 열 이름을 리스트에 담아 전달하고 두 번재 인자에는 axis=1을 전달하면 age 열을 삭제할 수 있다.

In [57]:
print(scientists.columns)

scientists_dropped = scientists.drop(['Age'], axis=1)

print(scientists_dropped.columns)

Index(['Name', 'Born', 'Died', 'Age', 'Occupation', 'born_dt', 'died_dt',
       'age_days_dt'],
      dtype='object')
Index(['Name', 'Born', 'Died', 'Occupation', 'born_dt', 'died_dt',
       'age_days_dt'],
      dtype='object')


## 3-6 데이터 저장하고 불러오기

### 데이터를 피클, csv, tsv파일로 저장하고 불러오기

#### 1. 피클로 저장하기 

피클은 데이터를 바이너리 형태로 직렬화한 오브젝트를 저장하는 방법이다. 피클로 저장하면 스프레드시트보다 더 작은 용량으로 데이터를 저장할 수 있어 매우 편리하다. 시리즈를 피클로 저장하려면 to_pickle메서드를 사용하면 되는데, 이때 저장 경로를 문자열로 전달해야 한다.

In [59]:
names = scientists['Name']
names.to_pickle("./output/scientists_names_series.pickle")

#### 2. 
데이터프레임 또한 피클로 저장이 가능하다.

In [60]:
scientists.to_pickle("./output/scientists_df.pickle")

#### 3. 
피클은 바이너리 형태의 오브젝트이기 때문에 저장된 피클 데이터를 편집기와 같은 프로그램으로 열어보면 이상한 문자가 나타낸다. 따라서, 피클데이터는 **read_pickle**메서드로 읽어야 한다.

In [63]:
scientist_names_from_pickle = pd.read_pickle("./output/scientists_names_series.pickle")
print(scientist_names_from_pickle)

scientists_from_pickle = pd.read_pickle("./output/scientists_df.pickle")
print(scientists_from_pickle)

0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object
                   Name        Born        Died  Age          Occupation  \
0     Rosaline Franklin  1920-07-25  1958-04-16   77             Chemist   
1        William Gosset  1876-06-13  1937-10-16   90        Statistician   
2  Florence Nightingale  1820-05-12  1910-08-13   37               Nurse   
3           Marie Curie  1867-11-07  1934-07-04   61             Chemist   
4         Rachel Carson  1907-05-27  1964-04-14   41           Biologist   
5             John Snow  1813-03-15  1858-06-16   45           Physician   
6           Alan Turing  1912-06-23  1954-06-07   66  Computer Scientist   
7          Johann Gauss  1777-04-30  1855-02-23   56       Mathematician   

     born_dt    died_dt age_days_dt  
0 1920-07-25 1958-04-16  13779 days  
1 187

#### 4. csv파일과 tsv파일로 저장

csv는 (comma separated values)의 약자로 콤마로 구분된 파일이고, tsv는 (tab separated values)의 약자로 tab로 구분된 파일이다. 이를 각각 to_csv메서드로 사용해 csv,tsv로 구분 지어 보자.  

In [65]:
names.to_csv("./output/scientist_names_series.csv")
scientists.to_csv("./output/scientists_df.tsv", sep="\t")