<a href="https://colab.research.google.com/github/IlTACK-OH/pandas_practice/blob/main/day1/03_practice.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 시리즈 만들기

- 시리즈를 직접 생성하여 본다.

In [1]:
import pandas as pd
import numpy as np
s = pd.Series(['banna',42])
s

0    banna
1       42
dtype: object

앞 서 2장에서 인덱스는 보통 0부터 시작한다고 했다. 하지만 시리즈를 생성할 때 문자열을 인덱스로 지정할 수도 있다.<br><br>
문자열을 인덱스로 지정하려면 `series`메서드이 `index`인자를 통해 인덱스로 사용하고자 하는 문자열을 리스트에 담아 전달하면 된다.

In [2]:
s = pd.Series(['Wes McKinney','Create of Pandas'])
print(s)
print("\n")
s = pd.Series(['Wes McKinney','Create of Pandas'], index = ['Person','Who'])
s

0        Wes McKinney
1    Create of Pandas
dtype: object




Person        Wes McKinney
Who       Create of Pandas
dtype: object

# 데이터프레임 만들기

데이터프레임을 만들기 위해서는 딕셔너리를 DataFrame클래스에 전달해야 한다.

In [3]:
scientists = pd.DataFrame({
    'Name':['Rosline Franklin', 'William Gosset'],
    'Occupation':['Chemis','Statistician'],
    'Born':['1920-07-25','1876-06-13'],
    'Died':['1958-04-16','1937-10-16'],
    'Age':['37','61']
})
scientists

Unnamed: 0,Name,Occupation,Born,Died,Age
0,Rosline Franklin,Chemis,1920-07-25,1958-04-16,37
1,William Gosset,Statistician,1876-06-13,1937-10-16,61


시리즈와 마찬가지로 데이터프레임도 인덱스를 따로 지정하지 않으면 인덱스를 0부터 자동으로 생성한다.<br>
인덱스를 따로 지정하려면 `index`인자에 리스트를 전달하면 된다.<br> 또 columns인자를 사용하면 데이터프레임의 열 순서를 지정할 수 있다.

In [4]:
scientists = pd.DataFrame(
    data = {'Name':['Rosline Franklin', 'Wililam Gosset'],
    'Occupation':['Chemis','Statistician'],
    'Born':['1920-07-25','1876-06-13'],
    'Died':['1958-04-16','1937-10-16'],
    'Age':['37','61']},
    index = ['Rosaline Franklin','William Gosset'],
    columns = ['Occupation','Born','Age','Died']
)
scientists

Unnamed: 0,Occupation,Born,Age,Died
Rosaline Franklin,Chemis,1920-07-25,37,1958-04-16
William Gosset,Statistician,1876-06-13,61,1937-10-16


데이터프레임을 만들 때 딕셔너리를 전달한다고 했다. 그런데 딕셔너리는 데이터의 순서를 보장하지 않는다.<br>
만약 순서가 보장된 딕셔너리를 전달하려면 OrderedDict클래스를 사용해야 한다.

In [5]:
from collections import OrderedDict

scientists = pd.DataFrame(OrderedDict([
    ('Name',['Rosline Franklin', 'William Gosset']),
    ('Occupation',['Chemis','Statistician']),
    ('Born',['1920-07-25','1876-06-13']),
    ('Died',['1958-04-16','1937-10-16']),
    ('Age',['37','61'])
])
)

scientists

Unnamed: 0,Name,Occupation,Born,Died,Age
0,Rosline Franklin,Chemis,1920-07-25,1958-04-16,37
1,William Gosset,Statistician,1876-06-13,1937-10-16,61


# 데이터프레임에서 시리즈 선택하기

먼저 앞 서 사용한 데이터프레임을 준비한다.

In [16]:
scientists = pd.DataFrame(
    data = {'Name':['Rosline Franklin', 'William Gosset'],
    'Occupation':['Chemis','Statistician'],
    'Born':['1920-07-25','1876-06-13'],
    'Died':['1958-04-16','1937-10-16'],
    'Age':[37,61]},
    index = ['Rosaline Franklin','William Gosset'],
    columns = ['Occupation','Born','Age','Died']
)

데이터프레임에서 시리즈를 선택하려면 loc속성에 인덱스를 전달하면 된다.

In [7]:
first_row = scientists.loc['William Gosset']
type(first_row)

pandas.core.series.Series

In [8]:
first_row

Occupation    Statistician
Born            1876-06-13
Age                     61
Died            1937-10-16
Name: William Gosset, dtype: object

# index, values, keys 사용하기

먼저, index속성을 사용해 본다.

In [9]:
first_row.index

Index(['Occupation', 'Born', 'Age', 'Died'], dtype='object')

values속성에는 시리즈의 데이터가 저장되어 있다.

In [10]:
first_row.values

array(['Statistician', '1876-06-13', '61', '1937-10-16'], dtype=object)

keys는 속성이 아니라 `메서드`이다.<br>
keys메서드의 기능은 index속성과 같은 역활을 한다.

In [11]:
first_row.keys()

Index(['Occupation', 'Born', 'Age', 'Died'], dtype='object')

만약 index 속성의 첫 번째 값을 추출하려면 다음과 같이 코드를 작성하면 된다.

In [12]:
first_row.index[0]

'Occupation'

keys메서드의 결괏값을 이용하여 인덱스의 첫 번재 값을 추출하는 방법은 다음과 같다.first_row

In [13]:
first_row.keys()[0]

'Occupation'

# 시리즈의 mean, min, max, std 메서드 사용하기

이번에는 기초 통계 메서드에 대해서 실습한다.<br>
먼저, 앞에서 사용한 scientists의 Age열을추출해보겠다.

In [19]:
ages = scientists['Age']
ages

Rosaline Franklin    37
William Gosset       61
Name: Age, dtype: int64

만약 시리즈를 구성하는 데이터가 정수라면 `mean`, `min`, `max`, `std`와 같은 통계 메서드를 사용할 수 있다.

In [21]:
print(ages.mean())
print(ages.min())
print(ages.max())
print(ages.std())

49.0
37
61
16.97056274847714


# 시리즈와 불린 추출 사용하기

추출할 데이터의 정확한 인덱스를 모르는 경우에 사용하는 방법이 불린 추출이다.<br>
불린 추출은 특정 조건을 만족하는 값만 추출할 수 있다.<br><br>
우선 사용할 데이터 파일을 불러오자.

In [22]:
from google.colab import files
files.upload();

Saving scientists.csv to scientists.csv


In [23]:
scientists = pd.read_csv('scientists.csv')

이제 불러온 데이터를 통하여, 통계 수치의 결과값을 이용하여 불린 추출을 진행해보겠다.

In [24]:
ages = scientists['Age']
print(ages.max())
print(ages.mean())

90
59.125


이제 불린 추출을 사용할 차례이다. 평균 나이보다 나이가 많은 사람의 데이터를 추출하려면 다음과 같은 code를 실행하면 된다.

In [25]:
ages[ages>ages.mean()]

1    61
2    90
3    66
7    77
Name: Age, dtype: int64

왜 이렇게 출력되는지 알아보기 위해서 `ages>ages.mean()`만 실행하여 보면 다음과 같다.

In [27]:
ages>ages.mean()

0    False
1     True
2     True
3     True
4    False
5    False
6    False
7     True
Name: Age, dtype: bool

즉, 리스트 형태로 참이나 거짓을 담아 시리즈에 전달하면 참인 인덱스의 데이터만 추출할 수 있다. 바로 이것이 불린 추출이다.

# 시리즈와 브로드캐스팅

**Broadcasting(브로드캐스팅)**<br>
시리즈나 데이터프레임에 있는 모든 데이터에 대해 한 번에 연산하는 것.
- 벡터: 시리즈처럼 여러 개의 값을 가진 데이터.
- 스칼라: 단순 크기를 나타내는 데이터
<br><br>
벡터끼리 더하기 연산과 곱하기 연산이 가능하며 다음과 같이 출력된다.

In [28]:
print(ages)
print("")
print(ages+ages)
print("")
print(ages*ages)

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64

0    1369
1    3721
2    8100
3    4356
4    3136
5    2025
6    1681
7    5929
Name: Age, dtype: int64


시리즈의 크기는 변하지 않는 것을 확인할 수 있다.<br><br>
벡터에 스칼라를 연산할 경우는 벡터의 모든 값에 스칼라가 적용되어 브로드캐스팅한 결과가 출력된다.

In [30]:
print(ages+100)
print(ages*2)

0    137
1    161
2    190
3    166
4    156
5    145
6    141
7    177
Name: Age, dtype: int64
0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64


길이가 다른 벡터를 연산하면 인덱스가 일치하는 값만 계산한 후 나머지는 결측치로 처리한다.

In [34]:
print(pd.Series([1,100]))
print("")
print(ages + pd.Series([1,100]))

0      1
1    100
dtype: int64

0     38.0
1    161.0
2      NaN
3      NaN
4      NaN
5      NaN
6      NaN
7      NaN
dtype: float64


다음은 sort_index 메서드를 사용하여 본다. ascending인자로 False를 전달하면 `인덱스 기준`으로 내림차순으로 정렬한다.

In [36]:
rev_ages = ages.sort_index(ascending=False)
rev_ages

7    77
6    41
5    45
4    56
3    66
2    90
1    61
0    37
Name: Age, dtype: int64

역으로 정렬한 데이터와 원래의 데이터와 더하면 `*2`한 결과와 동일한 결과가 출력된다.<br>
이는 연산 시에 동일한 인덱스끼리 연산을 진행하기 때문이다.

In [37]:
print(ages + rev_ages)
print(ages*2)

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64
0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64


# 데이터프레임과 불린 추출

데이터 프레임도 불린 추출을 할 수 있다. Age열에서 Age열의 평균보다 높은 행만 출력하면 다음과 같다.

In [39]:
scientists[scientists['Age']>scientists['Age'].mean()]

Unnamed: 0,Name,Born,Died,Age,Occupation
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


참, 거짓을 담은 리스트를 bool벡터라고 부른다. 만약 bool벡터의 길이가 데이터프레임의 행 길이보다 짧으면 bool벡터의 길이만큼만 연산한다. 다음 예시로 알아보자.

In [42]:
#scientists.loc[[True,True,False,True]]
# 책에서는 시행이 되지만 현재는 행의 수와 bool벡터의 수와 같아야 출력된다고 함.

# 데이터프레임과 브로드캐스팅

데이터프레임에 스칼라 연산을 적용하면 시리즈와 마찬가지로 모든 데이터에 연산된다.

In [44]:
scientists*2

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline FranklinRosaline Franklin,1920-07-251920-07-25,1958-04-161958-04-16,74,ChemistChemist
1,William GossetWilliam Gosset,1876-06-131876-06-13,1937-10-161937-10-16,122,StatisticianStatistician
2,Florence NightingaleFlorence Nightingale,1820-05-121820-05-12,1910-08-131910-08-13,180,NurseNurse
3,Marie CurieMarie Curie,1867-11-071867-11-07,1934-07-041934-07-04,132,ChemistChemist
4,Rachel CarsonRachel Carson,1907-05-271907-05-27,1964-04-141964-04-14,112,BiologistBiologist
5,John SnowJohn Snow,1813-03-151813-03-15,1858-06-161858-06-16,90,PhysicianPhysician
6,Alan TuringAlan Turing,1912-06-231912-06-23,1954-06-071954-06-07,82,Computer ScientistComputer Scientist
7,Johann GaussJohann Gauss,1777-04-301777-04-30,1855-02-231855-02-23,154,MathematicianMathematician


# 열의 자료형 바꾸기와 새로운 열 추가하기

이번에는 시리즈와 데이터 프레임에 있는 데이터를 처리하는 방법에 대해 알아보겠다.<br>먼저 Born과 Died열의 자료형을 확인해보겠다.

In [45]:
print(scientists['Born'].dtype)
print(scientists['Died'].dtype)

object
object


날짜의 경우 시간 관련 작업을 할 수 있도록 datetime자료형으로 바꾸는 것이 좋다.<br><br>
자료형을 datetime이라는 자료형으로 바꾼 다음 format속성을 '%Y-%m-%d'로 지정하여 날짜 형식을 지정하여 보도록 하겠다.

In [47]:
born_datetime = pd.to_datetime(scientists['Born'],format = '%Y-%m-%d')
print(born_datetime)

died_datetime = pd.to_datetime(scientists['Died'],format = '%Y-%m-%d')
print(died_datetime)

0   1920-07-25
1   1876-06-13
2   1820-05-12
3   1867-11-07
4   1907-05-27
5   1813-03-15
6   1912-06-23
7   1777-04-30
Name: Born, dtype: datetime64[ns]
0   1958-04-16
1   1937-10-16
2   1910-08-13
3   1934-07-04
4   1964-04-14
5   1858-06-16
6   1954-06-07
7   1855-02-23
Name: Died, dtype: datetime64[ns]


이제 데이터 자료형을 바꿨으므로 이를 데이터프레임에 추가하여 보도록하겠다.

In [48]:
scientists['born_dt'], scientists['died_dt'] = (born_datetime, died_datetime)
scientists.head()

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25,1958-04-16
1,William Gosset,1876-06-13,1937-10-16,61,Statistician,1876-06-13,1937-10-16
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse,1820-05-12,1910-08-13
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist,1867-11-07,1934-07-04
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist,1907-05-27,1964-04-14


데이터 프레임에 새로운 columns가 생긴 것을 확인할 수 있다.<br><br>
이제 이를 이용해 시간을 계산하여 보겠다. died_dt열에서 born_dt를 빼면 과학자가 얼마 동안 세상을 살다가 떠났는지 계산할 수 있다.

In [49]:
scientists['age_days_dt'] =(scientists['died_dt']-scientists['born_dt'])
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt,age_days_dt
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25,1958-04-16,13779 days
1,William Gosset,1876-06-13,1937-10-16,61,Statistician,1876-06-13,1937-10-16,22404 days
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse,1820-05-12,1910-08-13,32964 days
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist,1867-11-07,1934-07-04,24345 days
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist,1907-05-27,1964-04-14,20777 days
5,John Snow,1813-03-15,1858-06-16,45,Physician,1813-03-15,1858-06-16,16529 days
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist,1912-06-23,1954-06-07,15324 days
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician,1777-04-30,1855-02-23,28422 days


# 시리즈, 데이터프레임의 데이터 섞어보기

가끔은 데이터를 적당히 섞어야 하는 경우도 있다. 판다스는 시리즈나 데이터프레임의 데이터를 무작위로 섞어볼 수 있다.

In [50]:
scientists['Age']

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64

위 열을 섞으려면 `random`라이브러리를 불러와야 한다. `random`라이브러리에는 데이터를 섞어주는 shuffle메서드가 있다. 이를 이용하여 섞어보도록 하겠다.

In [53]:
import random

random.seed(42); #seed메서드는 컴퓨터가 생성하는 난수의 기준값을 정하기 위해 사용한다.
random.shuffle(scientists['Age']);
scientists['Age']

0    77
1    90
2    37
3    61
4    41
5    45
6    66
7    56
Name: Age, dtype: int64

잘 섞여있는 것을 확인할 수 있다.

# 데이터프레임의 열 삭제하기

때로는 열을 통째로 삭제해야하는 경우도 있다. 먼저 scientists데이터프레임의 열을 확인해 보겠다.

In [54]:
scientists.columns

Index(['Name', 'Born', 'Died', 'Age', 'Occupation', 'born_dt', 'died_dt',
       'age_days_dt'],
      dtype='object')

데이터프레임에서 열을 삭제하려면 데이터프레임의 drop메서드를 사용해야 한다. shuffle메서드로 섞은 Age 열을 삭제해 보겠다.<br>
drop메서드의 첫 번째 인자에 열 이름을 리스트에 담아 전달하고 두 번째 인자에는 axis=1을 전달하며 Age열을 삭제할 수 있다.

In [56]:
scientists_dropped = scientists.drop(['Age'], axis=1)
scientists_dropped.columns

Index(['Name', 'Born', 'Died', 'Occupation', 'born_dt', 'died_dt',
       'age_days_dt'],
      dtype='object')

`Age`가 삭제된 것을 확인할 수 있다.

# 피클 형식으로 저장하기

`pickle`은 데이터를 바이너리 형태로 직렬화한 오브젝트를 저장하는 방법이다.<br>
피클로 저장하면 스프레드시트보다 더 작은 용량으로 데이터를 저장할 수 있어 매우 편리하다.<br>
피클로 저장하기 위해 사용하는 명령어는 `to_pickle`메서드를 사용하면 된다. 이때, 저장 경로를 문자열로 전달한다.

In [60]:
names = scientists['Name']
names.to_pickle('C:\\')

데이터프레임도 피클로 저장할 수 있다.

In [59]:
scientists.to_pickle('C:\\2')

피클은 바이너리 형태의 오브젝트이기 때문에 저장된 피클 데이터를 편집기와 같은 프로그램으로 열어보면 이상한 문자가 나타난다. 피클 데이터는 반드시 read_pickle메서드로 읽어 들여야 한다.

In [66]:
scientists_names_from_pickle = pd.read_pickle("C:\\")
display(scientists_names_from_pickle)

scientists_from_pickle = pd.read_pickle('C:\\2')
display(scientists_from_pickle)

0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt,age_days_dt
0,Rosaline Franklin,1920-07-25,1958-04-16,77,Chemist,1920-07-25,1958-04-16,13779 days
1,William Gosset,1876-06-13,1937-10-16,90,Statistician,1876-06-13,1937-10-16,22404 days
2,Florence Nightingale,1820-05-12,1910-08-13,37,Nurse,1820-05-12,1910-08-13,32964 days
3,Marie Curie,1867-11-07,1934-07-04,61,Chemist,1867-11-07,1934-07-04,24345 days
4,Rachel Carson,1907-05-27,1964-04-14,41,Biologist,1907-05-27,1964-04-14,20777 days
5,John Snow,1813-03-15,1858-06-16,45,Physician,1813-03-15,1858-06-16,16529 days
6,Alan Turing,1912-06-23,1954-06-07,66,Computer Scientist,1912-06-23,1954-06-07,15324 days
7,Johann Gauss,1777-04-30,1855-02-23,56,Mathematician,1777-04-30,1855-02-23,28422 days


# CSV 불러오기

`CSV`파일은 데이터를 쉼표로 구분하여 저장한 파일이고, `TSV`파일은 데이터를 탭으로 구분하여 저장한 파일이다. 두 파일 모두 텍스트 편집기(ex.메모장)로 살펴볼 수 있다.<br><br>
`to_csv`메서드로 시리즈와 데이터프레임을 CSV파일로 저장할 수 있다.<br>
이때, seq 인자를 추가하여 '\t`를 지정하고 파일의 확장자를 '.tsv'로 지정하면 TSV파일로 저장할 수 있다.

In [67]:
#예시 코드
names.to_csv("C:\\3")
scientists.to_csv('C:\\4',sep = '\t')

# 알아두면 좋아요!

- **시리즈와 데이터프레임을 엑셀 파일로 저장하기**

시리즈는 엑셀 구조와 맞지 않기 때문에 엑셀 파일로 저장할 수 없다. 엑셀 파일로 저장할 수 있는 데이터프레임으로 변환해야한다. 물론 데이터프레임은 엑셀 파일로 바로 저장할 수 있다.<br>
단, xls파일로 저장하기 위해선 xlwt라이브러리가 필요하고, xlsx 파일로 저장하려면 openpyxl라이브러가 필요하다. 이 라이브러리를 추가적으로 설치할 경우 다음 Code를 입력하여 실행하면된다.

In [None]:
#pip install xlwt
#pip install openpyxl

시리즈는 `to_frame`이라는 메서드를 사용해 데이터프레임으로 변환한 다음 엑셀 파일로 저장해야 한다. 다음 code는 시리즈를 데이터프레임으로 변환 후 엑셀파일로 저장한 것이다.

In [70]:
names_df = names.to_frame()

import xlwt
names_df.to_excel('C:\\5')

import openpyxl
names_df.to_excel('C:\\6')