In [1]:
import pandas as pd

# 3. 판다스 데이터프레임과 시리즈
### 3-1 나만의 데이터 만들기

In [2]:
# 시리즈 만들기
s1 = pd.Series(['banana',42])
print('{}\n'.format(s1))

# 문자열을 인덱스로 지정하여 시리즈 만들기
s2 = pd.Series(['구경민','산업공학과'], index=['이름','학과'])
print('{}\n'.format(s2))

0    banana
1        42
dtype: object

이름      구경민
학과    산업공학과
dtype: object



#### 데이터프레임
> 데이터프레임을 만들기 위해서 dictionary를 DataFrame 클래스에 전달해야 한다.

In [3]:
# 데이터프레임 만드기 
subject = pd.DataFrame(
    data={
    'Name':['데이터마이닝','6시그마'],
    'Field': ['IS','QM'],
    'Appraisal': ['상대평가','절대평가'],
    'Achievement': [90.4, 95.6],},
index= ['1st','2nd'], # 인덱스 지정옵션
columns=['Name', 'Appraisal', 'Field', 'Achievement'] # 열순서 지정옵션
)
print('{}\n'.format(subject))

       Name Appraisal Field  Achievement
1st  데이터마이닝      상대평가    IS         90.4
2nd    6시그마      절대평가    QM         95.6



> 순서가 보장된 데이터프레임 즉, 순서가 보장된 dictionary를 전달하려면 orderdict사용

In [4]:
from collections import OrderedDict

subject_o = pd.DataFrame(OrderedDict([
    ('Name', ['데이터마이닝','6시그마']),
    ('Field', ['IS','QM']),
    ('Appraisal', ['상대평가','절대평가'])
]))
print(subject_o)

     Name Field Appraisal
0  데이터마이닝    IS      상대평가
1    6시그마    QM      절대평가


### 3-2 시리즈 다루기 - 기초

In [5]:
# 데이터프레임에서 시리즈 선택하기
first_r = subject.loc['1st']
print('{}\n'.format(type(first_r)))
print('{}\n'.format(first_r))

<class 'pandas.core.series.Series'>

Name           데이터마이닝
Appraisal        상대평가
Field              IS
Achievement      90.4
Name: 1st, dtype: object



In [6]:
# 시리즈 속성과 메소드 사용하기 
print('{}\n'.format(first_r.index)) # index속성에는 시리즈의 인덱스가 들어있음
print('{}\n'.format(first_r.values)) # values속성에는 시리즈의 데이터가 저장되어 있음

print('{}\n'.format(first_r.keys())) # keys는 메서드로 index속성과 같은 역할을 함

print('{}\n'.format(first_r.index[0])) # index속성의 첫 번째 값 추출
print('{}\n'.format(first_r.keys()[0])) # 위와 동일

Index(['Name', 'Appraisal', 'Field', 'Achievement'], dtype='object')

['데이터마이닝' '상대평가' 'IS' 90.4]

Index(['Name', 'Appraisal', 'Field', 'Achievement'], dtype='object')

Name

Name



In [7]:
# 시리즈의 기초 통계 메서드 사용하기 
achievement = subject['Achievement']
print('{}\n'.format(achievement))

# 산술평균 
print('평균: {}\n'.format(achievement.mean()))
# 최소값 최대값 
print('최소: {}\n최대: {}\n'.format(achievement.min(), achievement.max()))
# 시그마값 
print('Sigma: {}\n'.format(achievement.std()))
# 요약통게량 
print('Summary: {}\n'.format(achievement.describe()))

1st    90.4
2nd    95.6
Name: Achievement, dtype: float64

평균: 93.0

최소: 90.4
최대: 95.6

Sigma: 3.676955262170039

Summary: count     2.000000
mean     93.000000
std       3.676955
min      90.400000
25%      91.700000
50%      93.000000
75%      94.300000
max      95.600000
Name: Achievement, dtype: float64



#### 이외 메서드 
> append() : 2개 이상의 시리즈 연결 <br>
drop_duplicates(): 중복값이 없는 시리즈 반환 <br>
euqals():  시리즈에 해당 값을 가진 요소가 있는지 확인 <br>
get_values(): 시리즈 값 구하기(= values) <br>
isin(): 시리즈에 포함된 값이 있는지 확인 <br>
median(): 중앙값 <br>
replace(): 특정 값을 가진 시리즈 갓을 교체 <br>
sample(): 시리즈에서 임의의 값을 반환 <br>
sort_values(): 값을 정렬 <br>
to_frame(): 시리즈를 데이터프레임으로 변환

### 3-3 시리즈 다루기 - 응용

In [10]:
scions = pd.read_csv('./scientists.csv')
ages = scions['Age'] 
print('maximum: {}\n'.format(ages.max()))
print('mean: {}\n'.format(ages.mean()))

# boolean 
print('{}\n'.format(ages>ages.mean())) # 평균 나이보다 나이 많은 사람의 데이터 추출
print('{}\n'.format(type(ages>ages.mean()))) # 데이터 속성은 시리즈가 나옴
print('{}\n'.format(ages[ages>ages.mean()])) # boolean이 true인 것만 출력

maximum: 90

mean: 59.125

0    False
1     True
2     True
3     True
4    False
5    False
6    False
7     True
Name: Age, dtype: bool

<class 'pandas.core.series.Series'>

1    61
2    90
3    66
7    77
Name: Age, dtype: int64



#### Series and Broadcasting 
> Broadcasting: 시리즈나 데이터프레임에 있는 모든 데이터에 대해 한 번에 연산하는 것 <br>
Vector: series처럼 여러 개의 값을 가진 데이터 <br>
Scalar: 단순 크기를 나타내는 데이터 <br>

In [13]:
# Series and Broadcasting 
print('{}\n'.format(ages+ages))

# vector에 스칼라 연산 
print('ages*3: {}\n'.format(ages*3))

# 길이가 서로 다른 벡터 연산 
# 시리즈와 시리즈 = 같은 인덱스의 값만 계산 
print('{}\n'.format(ages+pd.Series([1,100]))) 

# 데이터 역순정렬 sort_index(ascending=False)
rev_age = ages.sort_index(ascending=False)
print(ages+rev_age) # 인덱스가 일치한 값끼리 연산함

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64

ages*3: 0    111
1    183
2    270
3    198
4    168
5    135
6    123
7    231
Name: Age, dtype: int64

0     38.0
1    161.0
2      NaN
3      NaN
4      NaN
5      NaN
6      NaN
7      NaN
dtype: float64

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64


### 3-4 데이터프레임 다루기 

In [22]:
# Boolean select & Broadcasting
# Boolean select
print('Boolean select\n{}\n'.format(scions[scions['Age']>scions['Age'].mean()]))

# bool vector: 참, 거짓을 담은 리스트
# print(scions.loc[[True,True,False,True]])

# Broadcasting
print(scions*2) # 정수데이터 2곱한 수, 문자열은 문자열이 2배 늘어남

Boolean select
                   Name        Born        Died  Age     Occupation
1        William Gosset  1876-06-13  1937-10-16   61   Statistician
2  Florence Nightingale  1820-05-12  1910-08-13   90          Nurse
3           Marie Curie  1867-11-07  1934-07-04   66        Chemist
7          Johann Gauss  1777-04-30  1855-02-23   77  Mathematician

                                       Name                  Born  \
0        Rosaline FranklinRosaline Franklin  1920-07-251920-07-25   
1              William GossetWilliam Gosset  1876-06-131876-06-13   
2  Florence NightingaleFlorence Nightingale  1820-05-121820-05-12   
3                    Marie CurieMarie Curie  1867-11-071867-11-07   
4                Rachel CarsonRachel Carson  1907-05-271907-05-27   
5                        John SnowJohn Snow  1813-03-151813-03-15   
6                    Alan TuringAlan Turing  1912-06-231912-06-23   
7                  Johann GaussJohann Gauss  1777-04-301777-04-30   

                   Die

### 3-5 시리즈와 데이터프레임의 데이터 처리하기

In [28]:
# series와 dataframe의 데이터 처리하기 
# 열의 자료형 바꾸기와 새로운 열 추가하기 
# 날짜인 문자열을 datetime자료형으로 바꾸기 
born_date = pd.to_datetime(scions['Born'], format='%Y-%m-%d')
died_date = pd.to_datetime(scions['Died'], format='%Y-%m-%d')

# 새로운 열 추가
scions['Born_dt'], scions['Died_dt'] = (born_date,died_date)
print('{}\n'.format(scions.head()))
print('{}\n'.format(scions.shape))

#계산 
scions['Age_days'] = scions['Died_dt']-scions['Born_dt']
print('{}\n'.format(scions['Age_days']))

                   Name        Born        Died  Age    Occupation    Born_dt  \
0     Rosaline Franklin  1920-07-25  1958-04-16   37       Chemist 1920-07-25   
1        William Gosset  1876-06-13  1937-10-16   61  Statistician 1876-06-13   
2  Florence Nightingale  1820-05-12  1910-08-13   90         Nurse 1820-05-12   
3           Marie Curie  1867-11-07  1934-07-04   66       Chemist 1867-11-07   
4         Rachel Carson  1907-05-27  1964-04-14   56     Biologist 1907-05-27   

     Died_dt  
0 1958-04-16  
1 1937-10-16  
2 1910-08-13  
3 1934-07-04  
4 1964-04-14  

(8, 7)

0   13779 days
1   22404 days
2   32964 days
3   24345 days
4   20777 days
5   16529 days
6   15324 days
7   28422 days
Name: Age_days, dtype: timedelta64[ns]



In [29]:
# series, dataframe의 data 섞기
import random as rd 
rd.seed(71)
rd.shuffle(scions['Age'])
print(scions['Age'])

0    61
1    66
2    77
3    90
4    37
5    41
6    56
7    45
Name: Age, dtype: int64


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  x[i], x[j] = x[j], x[i]


In [33]:
# dataframe의 column 삭제하기 
print('{}\n'.format(scions.columns))

scions_ad = scions.drop(['Age'],axis=1) # axis=1은 열삭제 
print('{}\n'.format(scions_ad.columns))

Index(['Name', 'Born', 'Died', 'Age', 'Occupation', 'Born_dt', 'Died_dt',
       'Age_days'],
      dtype='object')

Index(['Name', 'Born', 'Died', 'Occupation', 'Born_dt', 'Died_dt', 'Age_days'], dtype='object')



### 3-6 데이터 저장하기 불러오기

<pre>
    pickle: data를 binary 형태로 serialization한 object를 저장한 방법,
            spreadsheet보다 더 작은 용량으로 저장 가능 
    csv: 데이터를 쉼표로 구분하여 저장한 파일 
    tsv: 데이터를 tab으로 구분하여 저장한 파일 
</pre>

In [34]:
# pickle저장 
# scions.to_pickle('URL root/scions.pickle') # 읽을 땐 pd.read_pickle 사용

# csv 저장 
# scions.to_csv('URL root/scions.csv') 

# tsv 저장
# scions.to_csv('URL root/scions.tsv',sep=\t) # to_csv를 쓰지만 확장자명은 tsv, sep인자 추가하여 '\t'지정

# Excel 저장
# prompt : pip install xlwt // pip install openpyxl 
# 데이터 프레임 형태의 테이블을
# import xlwt 
# df.to_excel('URL root/df.xls')
# import openpysl 
# df.to_excel('URL root/df.xlsx')