## Series

Series는 생성시 인덱스를 지정하지 않으면 정수형 인덱스가 자동 생성된다.
Series는 생성시 인덱스로 문자열을 지정하여 사용할 수 있다.

In [2]:
import pandas as pd
s = pd.Series(['banana',42])
s #인덱스 0,1이 자동 생생된다

0    banana
1        42
dtype: object

In [3]:
s = pd.Series(['Wes McKinney', 'Creator of Pandas'], index=['Person','Who'])
s

Person         Wes McKinney
Who       Creator of Pandas
dtype: object

## Dataframe

데이터프레임 생성시 딕셔너리를 DataFrame 클래스에 전달한다.

딕셔너리는 순서를 보장하지 않는다. (dictionary과 같은 hashtable 유형의 자료구조는 set이기 때문에 element들의 순서를 determine할 수 없다.)

그러나 만약 순서가 보장된 딕셔너리를 전달하려면! OrderedDict를 사용하면된다.
OrderedDict는 dictionary에 입력되었던 keys의 순서를 기억해두고 그 순서를 보존한다.

In [8]:
scientists = pd.DataFrame({
    'Name':['Rosaline Franklin','William Gosset'],
    'Occupation': ['Chemist','Statistician'],
    'Born':['1920-07-25','1876-06-13'],
    'Died':['1958-04-16','1937-10-16'],
    'Age':[37, 61]
})
print(scientists)

                Name    Occupation        Born        Died  Age
0  Rosaline Franklin       Chemist  1920-07-25  1958-04-16   37
1     William Gosset  Statistician  1876-06-13  1937-10-16   61


In [14]:
print(scientists.iloc[0])
type(scientists.iloc[0])

Name          Robin Williams
Occupation    Comedian/Actor
Born              1951-07-21
Died              2014-08-11
Age                       46
Name: 0, dtype: object


pandas.core.series.Series

In [12]:
scientists.iloc[:,[0,2]]

Unnamed: 0,Name,Born
0,Robin Williams,1951-07-21
1,Rosaline Franklin,1920-07-25
2,William Gosset,1876-06-13


In [17]:
from collections import OrderedDict #순서보장 딕셔너리

# 괄호 표기에 주의!! 
# 보통 딕션어리에서는 (key: value)형태로 입력하지만, 
# ordered 딕션어리에서는 (key, value)와 같이 tuple 형태로 값들을 입력한다.
scientists = pd.DataFrame(OrderedDict([
    ('Name',['Robin Williams','Rosaline Franklin','William Gosset']),
    ('Occupation', ['Comedian/Actor','Chemist', 'Statistician']),
    ('Born',['1951-07-21','1920-07-25','1876-06-13']),
    ('Died',['2014-08-11','1958-04-16','1937-10-16']),
    ('Age',[46,37,61])
])
) 

#시리즈와 마찬가지로 데이터프레임도 인덱스를 지정하지 않으면 자동으로 정수형 인덱스가 생성된다
print(scientists)

                Name      Occupation        Born        Died  Age
0     Robin Williams  Comedian/Actor  1951-07-21  2014-08-11   46
1  Rosaline Franklin         Chemist  1920-07-25  1958-04-16   37
2     William Gosset    Statistician  1876-06-13  1937-10-16   61


In [18]:
#인덱스를 따로 지정할 수 있다.
scientists = pd.DataFrame( 
    data={'Occupation': ['Chemist', 'Statistician'], 
          'Born': ['1920-07-25', '1876-06-13'], 
          'Died': ['1958-04-16', '1937-10-16'],
          'Age': [37, 61]},
    index=['Rosaline Franklin', 'William Gosset'],
    columns=['Occupation', 'Born', 'Age', 'Died'])  #columns 열 순서가 유지된다.
print(scientists)

                     Occupation        Born  Age        Died
Rosaline Franklin       Chemist  1920-07-25   37  1958-04-16
William Gosset     Statistician  1876-06-13   61  1937-10-16


### 데이터 프레임에서 시리즈 선택하기
위에서 만든 데이터프레임 scientists에서 시리즈를 선택하려면 loc속성에 인덱스(이름)를 전달한다.

데이터프레임의 age 컬럼의 데이터 타입은 정수였지만 시리즈로 선택해올때 age 데이터 타입은 무시되어 object로 인식한다.

In [19]:
first_row = scientists.loc['William Gosset']
print(first_row)

Occupation    Statistician
Born            1876-06-13
Age                     61
Died            1937-10-16
Name: William Gosset, dtype: object


In [20]:
type(first_row)

pandas.core.series.Series

### 시리즈 속성과 메소드 사용하기

index 속성은 시리즈의 인덱스가 들어있고, keys 메서드와 비슷하다.

values속성에는 시리즈의 데이터가 들어있다.

In [21]:
first_row.index

Index(['Occupation', 'Born', 'Age', 'Died'], dtype='object')

In [22]:
first_row.index[0]

'Occupation'

In [23]:
first_row.keys()

Index(['Occupation', 'Born', 'Age', 'Died'], dtype='object')

In [24]:
first_row.keys()[0]

'Occupation'

In [25]:
type(first_row.keys())

pandas.core.indexes.base.Index

In [41]:
type(first_row.keys()[0])

str

In [42]:
first_row.index[2]

'Age'

In [43]:
first_row.values

array(['Statistician', '1876-06-13', 61, '1937-10-16'], dtype=object)

In [44]:
type(first_row.values)

numpy.ndarray

### 시리즈의 기초 통계 메서드 사용하기
시리즈의 mean, min, max, std 메서드 사용하기
scientists의 age 열을 추출한다.
시리즈를 구성하는 데이터가 정수라면 mean, min, max, std등 통계 메서드를 사용할 수 있다

In [26]:
ages = scientists['Age']
print(ages)

Rosaline Franklin    37
William Gosset       61
Name: Age, dtype: int64


In [27]:
print(ages.mean())
print(ages.min())
print(ages.max())
print(ages.std())
print(ages.median())

49.0
37
61
16.97056274847714
49.0


**다른 시리즈 메서드:**

append: 2개 이상의 시리즈 연결

describe: 요약 통계량 계산

drop_duplicates: 중복값이 없는 시리즈 반환

equals: 시리즈에 해당 값을 가진 요소가 있는지 확인

get_values: 시리즈 값 구하기 (values 속성과 동일)

isin: 시리즈에 포함된 값이 있는지 확인

replace: 특정 값을 가진 시리즈 값을 교체

sample: 시리즈에 임의의 값을 반환

sort_values: 값을 정렬

to_frame: 시리즈를 데이터프레임으로 변환

### 시리즈와 boolean 추출

데이터 추출시 인덱스를 지정하여 추출한다. 그러나 추출할 데이터의 인덱스를 모르는 경우 사용하는 방법이 boolean 추출이다.
boolean추출은 특정 조건을 만족하는 값만 추출할 수 있다.

boolean추출이란 참이나 거짓의 boolean값을 시리즈에 전달하면 참인 인덱스의 데이터만 추출할 수 있다.

In [28]:
scientists = pd.read_csv(r'C:\Study\Python\notebook\data2\scientists.csv')
ages = scientists['Age']

print(ages.max())
print(ages.mean())

90
59.125


In [29]:
print(ages > ages.mean())

0    False
1     True
2     True
3     True
4    False
5    False
6    False
7     True
Name: Age, dtype: bool


In [30]:
ages[ages>ages.mean()]

1    61
2    90
3    66
7    77
Name: Age, dtype: int64

In [41]:
type(ages[ages>ages.mean()])

pandas.core.series.Series

In [33]:
###############################################################################
#연습 
#boolean추출 방식으로 gapminder.tsv에서 lifeExp의 avg값보다 작은 lifeExp 값을 가진 행을 추출하기
demographics_info = pd.read_csv('../data2/gapminder.tsv',sep='\t')

In [64]:
expectancy = demographics_info['lifeExp']
expectancy[expectancy<expectancy.mean()]

0       28.801
1       30.332
2       31.997
3       34.020
4       36.088
         ...  
1696    55.635
1697    57.674
1701    46.809
1702    39.989
1703    43.487
Name: lifeExp, Length: 809, dtype: float64

In [65]:
#그런데, 위와같이 행번호만 보면 어디 무슨나라인지 알수가없다..
#gapminder.tsv 파일의 데이터를 모두 받아온 데이터프레임에서 lifeExp avg값을 찾고,
# avg보다 작은 행들을  먼저 추출하고, 결과를 확인할 수 있게 groupby를 통해 정리해보자.

avgExp = demographics_info.lifeExp.mean()
avgExp

59.474439366197174

In [73]:
sub_df = demographics_info.loc[demographics_info['lifeExp']<avgExp]
sub_df

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1696,Zimbabwe,Africa,1972,55.635,5861135,799.362176
1697,Zimbabwe,Africa,1977,57.674,6642107,685.587682
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


In [76]:
grouped_sub_df = sub_df.groupby(['continent','country'])['lifeExp'].mean()
print(grouped_sub_df)

continent  country               
Africa     Algeria                   50.167333
           Angola                    37.883500
           Benin                     48.779917
           Botswana                  51.924333
           Burkina Faso              44.694000
                                       ...    
Europe     Albania                   57.255000
           Bosnia and Herzegovina    56.135000
           Montenegro                59.164000
           Serbia                    57.996000
           Turkey                    51.020600
Name: lifeExp, Length: 105, dtype: float64


In [77]:
grouped_sub_df2 = sub_df.groupby(['year','continent','country'])['lifeExp'].mean()
print(grouped_sub_df2)

year  continent  country     
1952  Africa     Algeria         43.077
                 Angola          30.015
                 Benin           38.223
                 Botswana        47.622
                 Burkina Faso    31.975
                                  ...  
2007  Africa     Togo            58.420
                 Uganda          51.542
                 Zambia          42.384
                 Zimbabwe        43.487
      Asia       Afghanistan     43.828
Name: lifeExp, Length: 809, dtype: float64


In [52]:
sub_df = demographics_info.groupby(['continent','country'])['lifeExp'].mean()
sub_df

continent  country       
Africa     Algeria           59.030167
           Angola            37.883500
           Benin             48.779917
           Botswana          54.597500
           Burkina Faso      44.694000
                               ...    
Europe     Switzerland       75.565083
           Turkey            59.696417
           United Kingdom    73.922583
Oceania    Australia         74.662917
           New Zealand       73.989500
Name: lifeExp, Length: 142, dtype: float64

### 시리즈와 브로드캐스팅(Broadcasting)

브로드캐스팅 : 시리즈나 데이터프레임에 있는 모든 데이터에 대해 한 번에 연산을 하는 것을 말한다.

**Vector 백터 :** 시리즈 처럼 여러개의 값을 가진 데이터를 백터라 한다.

**Scalar 스칼라 :** 단순 크기를 나타내는 데이터를 스칼라 한다.

In [85]:
ages = scientists['Age']
print(ages)
type(ages)

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64


pandas.core.series.Series

In [86]:
#같은 길이의 백터로 더하기, 곱하기 연산은 같은 길이의 백터가 출력된다.
v1 = ages + ages #백터 + 백터, 시리즈는 백터의 한 종류이다.
print(v1)
type(v1)

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64


pandas.core.series.Series

In [87]:
v2 = ages*ages #백터 * 백터 
print(v2)
type(v2)

0    1369
1    3721
2    8100
3    4356
4    3136
5    2025
6    1681
7    5929
Name: Age, dtype: int64


pandas.core.series.Series

백터와 스카라 연산하면 백터의 모든값에 스칼라를 적용하여 브로드캐스팅한다.

In [88]:
bc1 = ages+100
print(bc1)
type(bc1)

0    137
1    161
2    190
3    166
4    156
5    145
6    141
7    177
Name: Age, dtype: int64


pandas.core.series.Series

In [89]:
bc2 = ages*100
print(bc2)
type(bc2)

0    3700
1    6100
2    9000
3    6600
4    5600
5    4500
6    4100
7    7700
Name: Age, dtype: int64


pandas.core.series.Series

길이가 서로 다른 백터를 연산하면 같은 인덱스의 값만 계산한다.

데이터의 개수가 2, 8인 시리즈를 더하면 일치하는 0,1만 계산된다.

나머지 인덱스(2~7)는 누락값(NaN)으로 처리된다.

In [90]:
pd.Series([1,100]) 

0      1
1    100
dtype: int64

In [91]:
ages + pd.Series([1,100]) #인덱스가 같은것들만 계산이된다.

0     38.0
1    161.0
2      NaN
3      NaN
4      NaN
5      NaN
6      NaN
7      NaN
dtype: float64

In [92]:
ages.sort_index(ascending=False)

7    77
6    41
5    45
4    56
3    66
2    90
1    61
0    37
Name: Age, dtype: int64

In [93]:
ages.sort_values()

0    37
6    41
5    45
4    56
1    61
3    66
7    77
2    90
Name: Age, dtype: int64

In [94]:
ages.sort_values(ascending=False)

2    90
7    77
3    66
1    61
4    56
5    45
6    41
0    37
Name: Age, dtype: int64

### 데이터프레임도 시리즈와 마찬가지로 boolean 추출과 broadcasting을 할 수 있다.

In [95]:
#boolean 추출
#scientists 데이터프레임에서 Age 값이 전체의 average Age 값보다 큰 행만 추출한다.
scientists[scientists['Age'] > scientists['Age'].mean()]

Unnamed: 0,Name,Born,Died,Age,Occupation
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [64]:
#인덱스가 True인 데이터만 추출
scientists.loc[[True, True, False, True, True, False, True, True]] 
#인덱스가 true인 0, 1, 3, 4, 6,7 값만 뽑아온다

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


#### 브로드캐스팅

데이터프레임에 스카라 연산하기
데이터프레임에 * 2를 하면 정수 데이터는 2를 곱하고 문자열 데이터는
문자열이 두배로 늘어난다.

In [65]:
scientists*2
# Age 값은 두배로 곱해졌고, 나머지 문자열값들은 두변출력된다.

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline FranklinRosaline Franklin,1920-07-251920-07-25,1958-04-161958-04-16,74,ChemistChemist
1,William GossetWilliam Gosset,1876-06-131876-06-13,1937-10-161937-10-16,122,StatisticianStatistician
2,Florence NightingaleFlorence Nightingale,1820-05-121820-05-12,1910-08-131910-08-13,180,NurseNurse
3,Marie CurieMarie Curie,1867-11-071867-11-07,1934-07-041934-07-04,132,ChemistChemist
4,Rachel CarsonRachel Carson,1907-05-271907-05-27,1964-04-141964-04-14,112,BiologistBiologist
5,John SnowJohn Snow,1813-03-151813-03-15,1858-06-161858-06-16,90,PhysicianPhysician
6,Alan TuringAlan Turing,1912-06-231912-06-23,1954-06-071954-06-07,82,Computer ScientistComputer Scientist
7,Johann GaussJohann Gauss,1777-04-301777-04-30,1855-02-231855-02-23,154,MathematicianMathematician


In [96]:
scientists 

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


### Series와 DataFrame의 데이터 처리(추가, 변경 또는 삭제)하기

열의 자료형 바꾸기와 새로운 열 추가하기
데이터프레임의 object 타입은 파이썬에서 문자열을 나타낸다.
 
scientists의 Born, Died열의 자료형 확인하고 datetime 자료형으로 변경하여 새로운 변수에 저장
format 속성을 '%Y-%m-%d'로 지정하여 날짜형식을 만든다.

In [97]:
print(scientists['Born'].dtype)
print(scientists['Died'].dtype)

object
object


In [98]:
#위에서 확인된 object 자료형에서 datetime자료형으로 변환한다.
born_datetime = pd.to_datetime(scientists['Born'], format='%Y-%m-%d')
print(born_datetime)

0   1920-07-25
1   1876-06-13
2   1820-05-12
3   1867-11-07
4   1907-05-27
5   1813-03-15
6   1912-06-23
7   1777-04-30
Name: Born, dtype: datetime64[ns]


In [99]:
died_datetime = pd.to_datetime(scientists['Died'], format='%Y-%m-%d')
print(died_datetime)

0   1958-04-16
1   1937-10-16
2   1910-08-13
3   1934-07-04
4   1964-04-14
5   1858-06-16
6   1954-06-07
7   1855-02-23
Name: Died, dtype: datetime64[ns]


In [100]:
# 데이터프레임의 열 추가하기

#datatime으로 변경하여 저장된 변수 born_datetime , died_datetime를 데이터프레임의 새로운 열로 추가한다.
(scientists['born_dt'],scientists['died_dt']) = (born_datetime, died_datetime)
print(scientists.head())

                   Name        Born        Died  Age    Occupation    born_dt  \
0     Rosaline Franklin  1920-07-25  1958-04-16   37       Chemist 1920-07-25   
1        William Gosset  1876-06-13  1937-10-16   61  Statistician 1876-06-13   
2  Florence Nightingale  1820-05-12  1910-08-13   90         Nurse 1820-05-12   
3           Marie Curie  1867-11-07  1934-07-04   66       Chemist 1867-11-07   
4         Rachel Carson  1907-05-27  1964-04-14   56     Biologist 1907-05-27   

     died_dt  
0 1958-04-16  
1 1937-10-16  
2 1910-08-13  
3 1934-07-04  
4 1964-04-14  


In [None]:
# 또는 아래와 같이 하나씩 assign해서 새로운 열을 추가할 수 있다.
scientists['born_dt'] = born_datetime
scientists['died_dt'] = deid_datetime

**데이터프레임의 행과 열 삭제하기**

행과열을 삭제하려면 drop 메서드를 사용해야 한다.

drop메서드에서 : 

첫번째 인자는 열이름, 
두번째 인자는 **axis=1은 칼럼의 레이블**을 의미하고 **axis=0은 인덱스**를 의미한다.

In [117]:
scientists.columns

Index(['Name', 'Born', 'Died', 'Age', 'Occupation', 'born_dt', 'died_dt'], dtype='object')

In [118]:
scientists_dropped = scientists.drop(['Age'], axis=1)

In [119]:
print(scientists_dropped.columns) #scientists_dropped  dataframe에는 Ages 열이 없어진것을 확인
print(scientists.columns) #기존 dataframe은 그대로

Index(['Name', 'Born', 'Died', 'Occupation', 'born_dt', 'died_dt'], dtype='object')
Index(['Name', 'Born', 'Died', 'Age', 'Occupation', 'born_dt', 'died_dt'], dtype='object')


In [120]:
print(scientists.index)
print(scientists_dropped.index)

RangeIndex(start=0, stop=8, step=1)
RangeIndex(start=0, stop=8, step=1)


In [121]:
scientists_dropped = scientists.drop([0], axis=0) #인덱스로 행삭제
print(scientists_dropped.index)

Int64Index([1, 2, 3, 4, 5, 6, 7], dtype='int64')


In [122]:
scientists_dropped = scientists_dropped.drop([6], axis=0)

In [123]:
scientists_dropped  #Rosaline이 담겼던 첫번째 행과 일곱번째 행(인덱스=0,6)이 삭제되어서 없다.

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt
1,William Gosset,1876-06-13,1937-10-16,61,Statistician,1876-06-13,1937-10-16
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse,1820-05-12,1910-08-13
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist,1867-11-07,1934-07-04
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist,1907-05-27,1964-04-14
5,John Snow,1813-03-15,1858-06-16,45,Physician,1813-03-15,1858-06-16
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician,1777-04-30,1855-02-23


### 데이터 저장하고 불러오기

데이터를 피클, CSV, TSV파일 저장하고 불러오기

**1. 데이터를 피클 저장하기 불러오기**

피클은 데이터를 바이너리 형태로 직렬화한 오브젝트를 저장하는 방법이다. 작은 용량으로 데이터를 저장할 수 있다. 

python 객체(dict, list, tuple등)을 직렬화(serialize)한 다음 binary 형태로 파일에 저장한다. 먼저 python object를 character steam으로 변환시키고 이 character stream 안에 나중에 다시 python object로 변환시키는데에 필요한 모든 정보를 담는다. 

사용 메서드:
**to_pickle** 메서드로 저장하고, **read_pickle** 메서드로 읽어온다.

In [130]:
names = scientists['Name']
print(names)
type(names)

0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object


pandas.core.series.Series

In [125]:
names.to_pickle(r'C:\Study\Python\notebook\data2\scientists_names_series.pickle')

In [126]:
scientists_names_from_pickle = pd.read_pickle(r'C:\Study\Python\notebook\data2\scientists_names_series.pickle')

In [127]:
print(scientists_names_from_pickle)
type(scientists_names_from_pickle) # series를 pickle로 저장했다가 다시 읽어와서 보면 series임을 확인

0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object


pandas.core.series.Series

In [132]:
scientists.to_pickle(r'C:\Study\Python\notebook\data2\scientists_df.pickle')
scientists_from_pickle = pd.read_pickle(r'C:\Study\Python\notebook\data2\scientists_df.pickle')
print(scientists_from_pickle)
type(scientists_from_pickle) #dataframe도 마찬가지

                   Name        Born        Died  Age          Occupation  \
0     Rosaline Franklin  1920-07-25  1958-04-16   37             Chemist   
1        William Gosset  1876-06-13  1937-10-16   61        Statistician   
2  Florence Nightingale  1820-05-12  1910-08-13   90               Nurse   
3           Marie Curie  1867-11-07  1934-07-04   66             Chemist   
4         Rachel Carson  1907-05-27  1964-04-14   56           Biologist   
5             John Snow  1813-03-15  1858-06-16   45           Physician   
6           Alan Turing  1912-06-23  1954-06-07   41  Computer Scientist   
7          Johann Gauss  1777-04-30  1855-02-23   77       Mathematician   

     born_dt    died_dt  
0 1920-07-25 1958-04-16  
1 1876-06-13 1937-10-16  
2 1820-05-12 1910-08-13  
3 1867-11-07 1934-07-04  
4 1907-05-27 1964-04-14  
5 1813-03-15 1858-06-16  
6 1912-06-23 1954-06-07  
7 1777-04-30 1855-02-23  


pandas.core.frame.DataFrame

**2. CSV 파일과 TSV 파일로 저장하기**
쉼표로 구분하여 저장한 파일이 CSV파일이고, 탭으로 구분하여 저장한 파일이 TSV 파일이다.
to_csv 메소드로 시리즈와 데이터프레임을 CSV파일로 저장할 수 있다.
sep인자를 추가하여 '\t'를 지정하고 파일확장자를 '.tsv'로 하면 TSV파일로도 저장된다.

In [99]:
names.to_csv(r'C:\Study\Python\notebook\data2\scientists_names_series.csv') #csv파일로 저장 (csv: comma-separated values)

In [97]:
scientists.to_csv(r'C:\Study\Python\notebook\data2\scientists_df.tsv', sep='\t') #tsv파일로 저장 (tsv: tab-separated values)

In [98]:
scientists.to_csv(r'C:\Study\Python\notebook\data2\scientists_df_no_index.csv', index=False) #index는 저장안함

**3. 시리즈와 데이터프레임을 엑셀로 저장하기**

시리즈를 to_frame으로 데이터프레임으로 변환할 수 있다.

xls로저장하려면 xlwt라이브러리가 필요하고, xlsx파일로 저장하려면 openpyxl라이브러리가 필요하다.

In [100]:
!pip list

Package                       Version
----------------------------- -------------------
alabaster                     0.7.12
appdirs                       1.4.4
argh                          0.26.2
astroid                       2.5
async-generator               1.10
atomicwrites                  1.4.0
attrs                         20.3.0
autopep8                      1.5.6
Babel                         2.9.0
backcall                      0.2.0
bcrypt                        3.2.0
beautifulsoup4                4.9.3
black                         19.10b0
bleach                        3.3.0
brotlipy                      0.7.0
bs4                           0.0.1
certifi                       2020.12.5
cffi                          1.14.5
chardet                       4.0.0
click                         7.1.2
cloudpickle                   1.6.0
colorama                      0.4.4
cryptography                  3.4.7
cx-Oracle                     8.1.0
cycler                        0.10.0
deco

In [133]:
names_df = names.to_frame()

In [103]:
import xlwt
names_df.to_excel(r'C:\Study\Python\notebook\data2\scientists_names_series_df.xls')

  


In [134]:
import openpyxl
names_df.to_excel(r'C:\Study\Python\notebook\data2\scientists_names_series_df.xlsx')

In [135]:
names_df.to_excel('../data2/scientists_names_series_df2.xlsx')