# 03-1 나만의 데이터 만들기
### 시리즈와 데이터프레임 직접 만들기
1. 시리즈 만들기

In [1]:
import pandas as pd
s = pd.Series(['banana', 42])
print(s)

0    banana
1        42
dtype: object


2. 문자열을 인덱스로 지정하기 : Series 메서드의 index 인자

In [2]:
s = pd.Series(['Wes WcKinney', 'Creator of Pandas'])
print(s)

0         Wes WcKinney
1    Creator of Pandas
dtype: object


In [3]:
s = pd.Series(['Wes McKinney', 'Creator of Pandas'], index=['Person', 'Who'])
print(s)

Person         Wes McKinney
Who       Creator of Pandas
dtype: object


3. 데이터프레임 만들기 : DataFrame 클래스에 전달

In [4]:
scientists = pd.DataFrame({
    'Name' : ['Rosaline Frnaklin', 'William Gosset'],
    'Occupation' : ['Chemist', 'Statistician'],
    'Born' : ['1920-07-25', '1876-06-13'],
    'Died' : ['1958-04-16', '1937-10-16'],
    'Age' : [37, 61]
})

print(scientists)

                Name    Occupation        Born        Died  Age
0  Rosaline Frnaklin       Chemist  1920-07-25  1958-04-16   37
1     William Gosset  Statistician  1876-06-13  1937-10-16   61


4. 인덱스 지정하기 : index 인자에 리스트 전달 <br/> 데이터프레임의 열 순서 지정하기 : columns 인자

In [5]:
scientists = pd.DataFrame(
    data = {'Occupation' : ['Chemist', 'Statistician'],
            'Born' : ['1920-07-25', '1876-06-13'],
            'Died' : ['1958-04-16', '1937-10-16'],
            'Age' : [37, 61]},
    index = ['Rosaline Franklin', 'William Gosset'],
    columns = ['Occupation', 'Born', 'Age', 'Died'] # 열 순서 지정
)

print(scientists)

                     Occupation        Born  Age        Died
Rosaline Franklin       Chemist  1920-07-25   37  1958-04-16
William Gosset     Statistician  1876-06-13   61  1937-10-16


5. 순서가 보장된 딕셔너리를 전달하기 : OrderedDict 클래스

In [2]:
from collections import OrderedDict

scientists = pd.DataFrame(OrderedDict([
    ('Name', ['Rosaline Franklin', 'William Gosset']),
    ('Occupation', ['Chemist', 'Statistician']),
    ('Born', ['1920-07-25', '1876-06-13']),
    ('Died', ['1958-04-16', '1937-10-16']),
    ('Age', [37, 61])
])
)

print(scientists)

                Name    Occupation        Born        Died  Age
0  Rosaline Franklin       Chemist  1920-07-25  1958-04-16   37
1     William Gosset  Statistician  1876-06-13  1937-10-16   61


# 03-2 시리즈 다루기 - 기초
### 데이터프레임에서 시리즈 선택하기
1. 데이터프레임 준비

In [4]:
scientists = pd.DataFrame(
    data = {'Occupation' : ['Chemist', 'Statistician'],
            'Born' : ['1920-07-25', '1876-06-13'],
            'Died' : ['1958-04-16', '1937-10-16'],
            'Age' : [37, 61]},
    index = ['Rosaline Franklin', 'William Gosset'],
    columns = ['Occupation', 'Born', 'Age', 'Died']
)

2. 데이터프레임에서 시리즈 선택 : loc 속성에 인덱스를 전달

In [5]:
first_row = scientists.loc['William Gosset']
type(first_row)

pandas.core.series.Series

3. 데이터프레임을 만들 때 정수형 리스트를 전달해도 시리즈의 자료형을 오브젝트로 인식한다.

In [10]:
print(first_row)

Occupation    Statistician
Born            1876-06-13
Age                     61
Died            1937-10-16
Name: William Gosset, dtype: object


## 시리즈 속성과 메서드 사용하기 - index, values, keys

### index, values 속성과 keys 메서드 이용하기
1. index 속성 이용하기

In [7]:
first_row.index

Index(['Occupation', 'Born', 'Age', 'Died'], dtype='object')

2. values 속성 이용하기

In [8]:
first_row.values

array(['Statistician', '1876-06-13', 61, '1937-10-16'], dtype=object)

3. keys 메서드 사용하기 : index 속성과 같은 역할

In [9]:
first_row.keys()

Index(['Occupation', 'Born', 'Age', 'Died'], dtype='object')

4. index 속성 응용하기 : index 속성의 값 추출

In [10]:
first_row.index[0]

'Occupation'

5. keys 메서드 응용하기 : 인덱스 값 추출

In [11]:
first_row.keys()[0]

'Occupation'

## 시리즈의 기초 통계 메서드 사용하기
### 시리즈의 mean, min, max, std 메서드 사용하기
1. scientists의 Age 열 추출

In [12]:
ages = scientists['Age']
ages

Rosaline Franklin    37
William Gosset       61
Name: Age, dtype: int64

2. 시리즈를 구성하는 데이터가 정수라면 통계 메서드를 사용할 수 있다.

In [13]:
ages.mean()

49.0

In [14]:
ages.min()

37

In [15]:
ages.max()

61

In [16]:
ages.std()

16.97056274847714

# 03-3 시리즈 다루기 - 응용
## 시리즈와 불린 추출
### 시리즈와 불린 추출 사용하기
1. 데이터 불러오기

In [3]:
scientists = pd.read_csv('scientists.csv')

2. 통계 수치의 결괏값을 이용하여 불린 추출

In [4]:
ages = scientists['Age']
ages.max()

90

In [5]:
ages.mean()

59.125

3. 조건에 맞는 데이터 출력

In [6]:
ages[ages > ages.mean()]

1    61
2    90
3    66
7    77
Name: Age, dtype: int64

4. 조건식 살펴보기

In [8]:
ages > ages.mean()

0    False
1     True
2     True
3     True
4    False
5    False
6    False
7     True
Name: Age, dtype: bool

In [9]:
type(ages > ages.mean())

pandas.core.series.Series

5. 불린 추출 : 리스트 형태로 참이나 거짓을 담아 시리즈에 전달하여 참인 인덱스의 데이터를 추출

In [10]:
manual = [True, True, False, False, True, True, False, True]
ages[manual]

0    37
1    61
4    56
5    45
7    77
Name: Age, dtype: int64

## 시리즈와 브로드캐스팅
브로드캐스팅(Breoadcating) : 시리즈나 데이터프레임에 있는 모든 데이터에 대해 한 번에 연산하는 것

### 벡터와 스칼라로 브로드캐스팅 수행하기
1. 같은 길이의 벡터로 더하기 연산과 곱하기 연산을 수행하기

In [11]:
ages + ages

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64

In [12]:
ages * ages

0    1369
1    3721
2    8100
3    4356
4    3136
5    2025
6    1681
7    5929
Name: Age, dtype: int64

2. 벡터에 스칼라 연산하기

In [13]:
ages + 100

0    137
1    161
2    190
3    166
4    156
5    145
6    141
7    177
Name: Age, dtype: int64

In [14]:
ages * 2

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64

3. 길이가 서로 다른 벡터 연산 : 시리즈-시리즈 연산의 경우 같은 인덱스의 값만 계산

In [15]:
pd.Series([1, 100])

0      1
1    100
dtype: int64

In [16]:
# 인덱스가 일치한 값만 계산하고 나머지는 계산이 불가능하므로 누락값(NaN) 처리
ages + pd.Series([1, 100])

0     38.0
1    161.0
2      NaN
3      NaN
4      NaN
5      NaN
6      NaN
7      NaN
dtype: float64

4. 데이터 정렬 : sort_index 메서드 

In [17]:
# 인덱스 역순으로 정렬
rev_ages = ages.sort_index(ascending = False)
rev_ages

7    77
6    41
5    45
4    56
3    66
2    90
1    61
0    37
Name: Age, dtype: int64

5. 벡터-벡터 연산은 일치하는 **인덱스** 값끼리 계산하므로 `ages * 2`와 `ages + rev_ages`의 값은 동일하다.

In [18]:
ages * 2

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64

In [19]:
ages + rev_ages

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64

# 03-4 데이터프레임 다루기
### 불린 추출과 브로드캐스팅
1. 불린 추출하기

In [5]:
print(scientists[scientists['Age'] > scientists['Age'].mean()])

                   Name        Born        Died  Age     Occupation
1        William Gosset  1876-06-13  1937-10-16   61   Statistician
2  Florence Nightingale  1820-05-12  1910-08-13   90          Nurse
3           Marie Curie  1867-11-07  1934-07-04   66        Chemist
7          Johann Gauss  1777-04-30  1855-02-23   77  Mathematician


2. bool 벡터 : 참, 거짓을 담은 리스트

In [7]:
# bool 벡터의 길이가 데이터프레임의 행 길이보다 짧으면 bool 벡터의 길이만큼만 연산...됐었으나 지금은 안 되나 봄.
# print(scientists.loc[[True, True, False, True]])

3. 브로드캐스팅하기 : 스칼라 연산

In [8]:
# 정수 데이터는 2를 곱한 숫자가 되고 문자열 데이터는 문자열이 2배로 늘어난다.
scientists * 2

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline FranklinRosaline Franklin,1920-07-251920-07-25,1958-04-161958-04-16,74,ChemistChemist
1,William GossetWilliam Gosset,1876-06-131876-06-13,1937-10-161937-10-16,122,StatisticianStatistician
2,Florence NightingaleFlorence Nightingale,1820-05-121820-05-12,1910-08-131910-08-13,180,NurseNurse
3,Marie CurieMarie Curie,1867-11-071867-11-07,1934-07-041934-07-04,132,ChemistChemist
4,Rachel CarsonRachel Carson,1907-05-271907-05-27,1964-04-141964-04-14,112,BiologistBiologist
5,John SnowJohn Snow,1813-03-151813-03-15,1858-06-161858-06-16,90,PhysicianPhysician
6,Alan TuringAlan Turing,1912-06-231912-06-23,1954-06-071954-06-07,82,Computer ScientistComputer Scientist
7,Johann GaussJohann Gauss,1777-04-301777-04-30,1855-02-231855-02-23,154,MathematicianMathematician


In [9]:
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


# 03-5 시리즈와 데이터프레임의 데이터 처리하기
### 시리즈와 데이터프레임의 데이터 처리하기
1. 열의 자료형 바꾸기와 새로운 열 추가하기


In [4]:
scientists['Born'].dtype # Object type

dtype('O')

In [5]:
scientists['Died'].dtype # Object type

dtype('O')

2. 날짜 데이터 : datetime 자료형

In [6]:
born_datetime = pd.to_datetime(scientists['Born'], format='%Y-%m-%d')
born_datetime

0   1920-07-25
1   1876-06-13
2   1820-05-12
3   1867-11-07
4   1907-05-27
5   1813-03-15
6   1912-06-23
7   1777-04-30
Name: Born, dtype: datetime64[ns]

In [7]:
died_datetime = pd.to_datetime(scientists['Died'], format='%Y-%m-%d')
died_datetime

0   1958-04-16
1   1937-10-16
2   1910-08-13
3   1934-07-04
4   1964-04-14
5   1858-06-16
6   1954-06-07
7   1855-02-23
Name: Died, dtype: datetime64[ns]

3. scientists 데이터프레임에 born_dt, died_dt 열을 추가하기

In [8]:
scientists['born_dt'], scientists['died_dt'] = (born_datetime, died_datetime)
scientists.head()

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25,1958-04-16
1,William Gosset,1876-06-13,1937-10-16,61,Statistician,1876-06-13,1937-10-16
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse,1820-05-12,1910-08-13
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist,1867-11-07,1934-07-04
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist,1907-05-27,1964-04-14


In [9]:
scientists.shape

(8, 7)

4. 얼마 동안 과학자들이 살았는지 계산해보기

In [10]:
scientists['age_days_dt'] = (scientists['died_dt'] - scientists['born_dt'])
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt,age_days_dt
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25,1958-04-16,13779 days
1,William Gosset,1876-06-13,1937-10-16,61,Statistician,1876-06-13,1937-10-16,22404 days
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse,1820-05-12,1910-08-13,32964 days
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist,1867-11-07,1934-07-04,24345 days
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist,1907-05-27,1964-04-14,20777 days
5,John Snow,1813-03-15,1858-06-16,45,Physician,1813-03-15,1858-06-16,16529 days
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist,1912-06-23,1954-06-07,15324 days
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician,1777-04-30,1855-02-23,28422 days


5. 시리즈, 데이터프레임의 데이터 섞기 : 기존 데이터 값 살펴보기

In [11]:
scientists['Age']

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64

6. random 라이브러리 불러오기 & shuffle 메서드를 사용하여 데이터 섞기

In [12]:
import random

random.seed(42)
random.shuffle(scientists['Age'])
scientists['Age']

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  x[i], x[j] = x[j], x[i]


0    66
1    56
2    41
3    77
4    90
5    45
6    37
7    61
Name: Age, dtype: int64

7. 데이터프레임의 열 삭제하기 : 기존 열 확인

In [13]:
scientists.columns

Index(['Name', 'Born', 'Died', 'Age', 'Occupation', 'born_dt', 'died_dt',
       'age_days_dt'],
      dtype='object')

8. 데이터프레임의 열 삭제하기 : drop 메서드

In [14]:
scientists_dropped = scientists.drop(['Age'], axis=1)
scientists_dropped.columns

Index(['Name', 'Born', 'Died', 'Occupation', 'born_dt', 'died_dt',
       'age_days_dt'],
      dtype='object')

# 03-6 데이터 저장하고 불러오기
### 데이터를 피클, CSV, TSV 파일로 저장하고 불러오기
1. 피클로 저장하기 : 데이터를 바이너리 형태로 직렬화한 오브젝트를 저장하는 방법

In [4]:
names = scientists['Name']
names.to_pickle('Data//scientists_name_series.pickle')

2. 데이터프레임도 피클로 저장할 수 있다.

In [5]:
scientists.to_pickle('Data//scientists_df.pickle')

3. 피클은 바이너리 형태의 오브젝이기 때문에 반드시 `read_pickle` 메서드로 읽어야 한다.

In [7]:
scientist_names_from_pickle = pd.read_pickle('Data//scientists_name_series.pickle')
scientist_names_from_pickle

0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object

In [8]:
scientists_from_pickle = pd.read_pickle('Data//scientists_df.pickle')
scientists_from_pickle

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


4. CSV 파일과 TSV 파일로 저장하기 <br/>
CSV 파일 : 데이터를 쉼표로 구분하여 저장한 파일 <br/>
TSV 파일 : 데이터를 탭으로 구분하여 저장한 파일


5. `to_csv` 메서드로 시리즈와 데이터프레임을 CSV 파일로 저장할 수 있다. <br/>
`sep` 인자를 추가하여 `\t`를 지정하고 파일 확장자를 `.tsv`로 지정하면 TSV 파일로 저장할 수 있다.

In [9]:
names.to_csv('Data//scientist_name_series.csv')
scientists.to_csv('Data//scientists_df.tsv', sep='\t')

#### 시리즈와 데이터프레임을 엑셀 파일로 저장하기
시리즈는 `to_frame`이라는 메서드를 사용해 데이터프레임으로 변환한 다음 엑셀 파일로 저장해야 한다. <br/>
데이터프레임은 `xlwt` 라이브러리나 `openpyxl` 라이브러리를 이용하여 엑셀 파일로 바로 저장할 수 있다.

In [10]:
import xlwt
import openpyxl

In [11]:
names_df = names.to_frame()

names_df.to_excel('Data//scientists_names_series_df.xls')

names_df.to_excel('Data//scientists_names_series_df.xlsx')