In [1]:
import pandas as pd

### 시리즈 만들기

In [2]:
## 시리즈 만들기
s = pd.Series(['banana',42])
print(s)

0    banana
1        42
dtype: object


In [6]:
## 시리즈를 생성할때 문자열을 인덱스로 지정할수도 있다.
s=pd.Series(['apple','banana'], index=['person','Who'])
print(s)

person     apple
Who       banana
dtype: object


### 데이터프레임 만들기

In [9]:
scientists = pd.DataFrame({
    'Name':['Rosaline','Lee'],
    'age' :[30,25],
    'Born':['20-12-21','96-10-22']
})
scientists

Unnamed: 0,Name,age,Born
0,Rosaline,30,20-12-21
1,Lee,25,96-10-22


In [10]:
# 인덱스를 따로 지정하려면 index 인자에 리스트를 전달
# columns 인자를 사용하면 데이터프레임의 열 순서를 지정할 수 있다.
scientists = pd.DataFrame(
    data = {
    'Name':['Rosaline','Lee'],
    'age' :[30,25],
    'Born':['20-12-21','96-10-22']
            },
    index=['Rosa','William'],
    columns=['age','Name','Born']
)
scientists

Unnamed: 0,age,Name,Born
Rosa,30,Rosaline,20-12-21
William,25,Lee,96-10-22


In [14]:
# 순서가 보장된 딕셔너리를 전달하려면 OrderDict를 사용해야함
# 데이터 순서를 그대로 유지하면서 데이터프레임을 만들수 있음
from collections import OrderedDict

scientists = pd.DataFrame(OrderedDict([
    ('Name',['Lee','Kim']),
    ('age',[25,22]),
    ('Born',['96-10-22','99-06-23'])
])
)
scientists

Unnamed: 0,Name,age,Born
0,Lee,25,96-10-22
1,Kim,22,99-06-23


### 시리즈 다루기 - 기초

In [15]:
scientists = pd.DataFrame(
    data = {
    'Name':['Rosaline','Lee'],
    'age' :[30,25],
    'Born':['20-12-21','96-10-22']
            },
    index=['Rosa','William'],
    columns=['age','Name','Born']
)

In [19]:
# 시리즈를 선택하려면 loc 속성에 인덱스를 전달
first_row = scientists.loc['Rosa']
print(type(first_row))
print(first_row)

<class 'pandas.core.series.Series'>
age           30
Name    Rosaline
Born    20-12-21
Name: Rosa, dtype: object


#### index, values 속성과 keys 메서드 사용하기

In [22]:
print(first_row.index) # 시리즈의 인덱스가 들어 있음
print(first_row.values) # 시리즈의 데이터가 저장
print(first_row.keys()) # index와 같은 기능을함

Index(['age', 'Name', 'Born'], dtype='object')
[30 'Rosaline' '20-12-21']
Index(['age', 'Name', 'Born'], dtype='object')


In [24]:
## index, keys 속성 응용하기
print(first_row.index[0])
print(first_row.keys()[0])

age
age


### 시리즈의 기초 통계 메서드 사용하기

In [25]:
ages = scientists['age']
print(ages)

Rosa       30
William    25
Name: age, dtype: int64


In [27]:
print(ages.mean()) # 평균
print(ages.min()) # 최소
print(ages.max()) # 최대
print(ages.std()) # 표준편차

27.5
25
30
3.5355339059327378


### 시리즈 메서드 정리

In [None]:
# append : 2개 이상의 시리즈 연결
# describe : 요약 통계량 계산
# drop_duplicates : 중복값이 없는 시리즈 변환
# equals : 시리즈에 해당 값을 가진 요소가 있는지 확인
# get_values : 시리즈 값 구하기 (values 속성과 동일))
# isin : 시리즈에 포함된 값이 있는지 확인
# min : 최솟값 반환
# max : 최댓값 반환
# mean : 산술 평균 반환
# median : 중간값 반환
# replace : 특정 값을 가진 시리즈 값을 교체
# sample : 시리즈에서 임의의 값을 반환
# sort_valuesd : 값을 정렬
# to_frame : 시리즈를 데이터프레임으로 변환

### 시리즈 다루기 - 응용

In [29]:
scient = pd.read_csv('data/scientists.csv')
scient

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [31]:
# Age 컬럼값을 ages에 저장
ages = scient['Age']

print(ages.max()) # 최댓값
print(ages.mean()) # 평균값

90
59.125


In [36]:
# 불린 추출 사용
print(ages>ages.mean())

0    False
1     True
2     True
3     True
4    False
5    False
6    False
7     True
Name: Age, dtype: bool


In [37]:
print(ages[ages>ages.mean()])

1    61
2    90
3    66
7    77
Name: Age, dtype: int64


In [None]:
# 브로드 캐스팅 : 시리즈나 데이터프레임에 있는 모든 데이터에 대해 한 번에 연산하는 것
# 벡터 : 시리즈처럼 여러 개의 값을 가진 데이터
# 스칼라 : 단순 크기를 나타내는 데이터

In [38]:
# 같은 길이의 벡터로 더하기 연산
print(ages + ages)

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64


In [39]:
# 벡터에 스칼라를 연산
print(ages + 100)

0    137
1    161
2    190
3    166
4    156
5    145
6    141
7    177
Name: Age, dtype: int64


In [40]:
# 길이가 서로 다른 벡터 연산 => 같은 인덱스의 값만 계산
print(ages + pd.Series([1,100]))

0     38.0
1    161.0
2      NaN
3      NaN
4      NaN
5      NaN
6      NaN
7      NaN
dtype: float64


In [41]:
# 인덱스 역순으로 데이터 정렬
rev_ages = ages.sort_index(ascending=False)
print(rev_ages)

7    77
6    41
5    45
4    56
3    66
2    90
1    61
0    37
Name: Age, dtype: int64


In [42]:
# 결과값 동일 => 벡터와 벡터의 연산은 일치하는 인덱스의 값끼리 수행
print(ages + rev_ages)
print(ages*2)

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64
0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64


### 데이터프레임 다루기

In [44]:
## 1. 불린 추출하기
scient[scient['Age'] > scient['Age'].mean()]

Unnamed: 0,Name,Born,Died,Age,Occupation
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


### 시리즈와 데이터프레임의 데이터 처리하기

In [53]:
print(scient['Born'].dtype)
print(scient['Died'].dtype)

object
object


In [56]:
# 문자형을 datetime 자료형으로 변경
born_datetime = pd.datetime(scient['Born'], format='%Y-%m-%d')
print(born_datetime)

TypeError: cannot convert the series to <class 'int'>