# Pandas의 자료구조-Series


Pandas는 2개의 자료구조(**<span style = "color:red">Series</span>** , **<span style = "color:red">DataFrame</span>**)를 가지고 있습니다.  

![image.png](attachment:99e057b7-7e08-4426-b48d-bf47a406c7d1.png)

Series는 1차원 데이터 구조, DataFrame은 2차원 데이터 구조를 나타냅니다.  
 - [Series](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html?highlight=series)

다룰 내용

- Series 데이터의 생성
- Series 데이터의 조회
- Series 산술 연산
- Series 통계

### 설치

In [1]:
! pip install pandas

Collecting pandas
  Downloading pandas-1.5.2-cp310-cp310-win_amd64.whl (10.4 MB)
     --------------------------------------- 10.4/10.4 MB 81.8 MB/s eta 0:00:00
Installing collected packages: pandas
Successfully installed pandas-1.5.2


# 1. Series

Series란?

- 1차원 데이터  --> numpy
- Index 와 Value 로 구성(Python의 사전데이터와 유사)

In [2]:
import numpy as np

In [3]:
# pandas library import
import pandas as pd

In [4]:
from pandas import Series, DataFrame

## 1.1 Series 데이터 생성

- Python 자료형으로 생성가능(리스트, 튜플, 사전)
- numpy array 자료형으로 생성가능

### 리스트로 Series 생성

In [5]:
data = pd.Series([1,2,3,4])
data

0    1
1    2
2    3
3    4
dtype: int64

In [6]:
data = pd.Series(['하나','둘','셋','넷'])
data

0    하나
1     둘
2     셋
3     넷
dtype: object

In [7]:
data = pd.Series([1,'둘',3,'넷'])
data

0    1
1    둘
2    3
3    넷
dtype: object

In [8]:
data = pd.Series((1,'둘',3,'넷'))
data

0    1
1    둘
2    3
3    넷
dtype: object

In [9]:
print(data)

0    1
1    둘
2    3
3    넷
dtype: object


In [10]:
data.dtypes

dtype('O')

In [11]:
type(data)

pandas.core.series.Series

### 튜플로 Series 생성

In [None]:
data = pd.Series((1,2,3,4))
data

In [None]:
data.index

In [16]:
data.dtypes

dtype('O')

In [17]:
print(data)

0    1
1    둘
2    3
3    넷
dtype: object


### numpy.array로 Series 생성

In [18]:
import numpy as np
data = pd.Series(np.array([1,2,3,4]))
data

0    1
1    2
2    3
3    4
dtype: int32

In [19]:
data = pd.Series(np.arange(100))
data

0      0
1      1
2      2
3      3
4      4
      ..
95    95
96    96
97    97
98    98
99    99
Length: 100, dtype: int32

### 딕트타입으로 Series 생성

In [37]:
d = {'one':1, 'two':2, 'three':3, 'four':4}
d

{'one': 1, 'two': 2, 'three': 3, 'four': 4}

In [38]:
pd.Series(range(1,20))

0      1
1      2
2      3
3      4
4      5
5      6
6      7
7      8
8      9
9     10
10    11
11    12
12    13
13    14
14    15
15    16
16    17
17    18
18    19
dtype: int64

In [39]:
data = pd.Series({'one':1, 
                  'two':2, 'three':3, 'four':4})
data

one      1
two      2
three    3
four     4
dtype: int64

In [40]:
# index 값 가져 오기
data.index

Index(['one', 'two', 'three', 'four'], dtype='object')

In [41]:
# value 값 가져 오기
data.values

array([1, 2, 3, 4], dtype=int64)

In [24]:
data.dtypes

dtype('int64')

### 여러 자료형으로 Series 생성

In [25]:
# 여러 자료형으로 Series 생성
data2 = pd.Series(["pandas", {'하나':'one'}, 34])
data2

0           pandas
1    {'하나': 'one'}
2               34
dtype: object

In [47]:
data.shape

(4,)

In [26]:
data2.dtypes

dtype('O')

In [48]:
data.size

4

### 속성

In [42]:
# index 값 가져 오기
data2.index

RangeIndex(start=0, stop=3, step=1)

In [43]:
# value 값 가져 오기
data2.values

array(['pandas', {'하나': 'one'}, 34], dtype=object)

In [46]:
data2.index[0]

0

In [29]:
data2.dtypes

dtype('O')

In [30]:
type(data2)

pandas.core.series.Series

In [44]:
data2.ndim

1

In [32]:
data2.size

3

In [33]:
len(data2)

3

### 메서드

In [49]:
data2.value_counts()

pandas           1
{'하나': 'one'}    1
34               1
dtype: int64

In [50]:
data = pd.Series(np.array([1,2,3,4,4,5,2,-1,3]))
data

0    1
1    2
2    3
3    4
4    4
5    5
6    2
7   -1
8    3
dtype: int32

In [54]:
data.values

array([ 1,  2,  3,  4,  4,  5,  2, -1,  3])

In [51]:
data.values

array([ 1,  2,  3,  4,  4,  5,  2, -1,  3])

In [55]:
data.value_counts() #빈도수 카운트

 2    2
 3    2
 4    2
 1    1
 5    1
-1    1
dtype: int64

In [57]:
data[0]

1

In [59]:
data.get(0)

1

In [56]:
data2.get(1)

{'하나': 'one'}

In [60]:
data = pd.Series(['Python', 'is', 'is','python','good','good'])
data

0    Python
1        is
2        is
3    python
4      good
5      good
dtype: object

In [65]:
a=data.value_counts()
a

is        2
good      2
Python    1
python    1
dtype: int64

## 1.2 Series의 index

- dict형으로 Series를 생성하면 dict의 key값이 index로 저장
- Series 생성할 때 index를 명시적으로 입력 가능
- index 지정이 없다면 0부터 순서대로 번호를 부여  

### Series 를 dict로 생성

In [None]:
data = pd.Series({'국어':100, '영어':80, '수학':90})
data

In [None]:
data.dtypes

### Series 생성시에 Index명 입력

In [None]:
data3 = pd.Series(["토트넘", "손흥민" , 30], index = ["팀명","선수명","Goal수"])
data3

In [None]:
data3.index

### 이미 생성되어 있는 Series의 index명 변경

In [None]:
data3.index = ["도시명", "사는사람" , "나이"]
data3.index

In [None]:
data3

In [None]:
# 인덱스 크기가 같아야 한다.
data3.index = ["도시명", "사는사람"]

In [66]:
# 인덱스 크기가 같아야 한다.
data3.index = [1,2,3]
data3

NameError: name 'data3' is not defined

In [67]:
data3.values

NameError: name 'data3' is not defined

In [68]:
data3.values = ['a','b','c']

NameError: name 'data3' is not defined

### 인덱스 인스턴스

In [69]:
data3.index = pd.Index(range(1,4))
data3

NameError: name 'data3' is not defined

### `.idxmax()`, `.idxmin()` 메서드

최소 값 / 최대 값 인덱스 라벨을 반환한다.

In [70]:
data = pd.Series(np.arange(100, 200))
data

0     100
1     101
2     102
3     103
4     104
     ... 
95    195
96    196
97    197
98    198
99    199
Length: 100, dtype: int32

In [71]:
data.max(), data.min()

(199, 100)

In [72]:
data.idxmin(), data.idxmax()

(0, 99)

In [73]:
data[40], data[88]

(140, 188)

In [75]:
data = pd.Series([400,200,300,100], index=['2022-01-02','2022-01-03','2022-01-04','2021-12-31'])
data

2022-01-02    400
2022-01-03    200
2022-01-04    300
2021-12-31    100
dtype: int64

In [76]:
data.max(), data.min()

(400, 100)

In [77]:
data.index

Index(['2022-01-02', '2022-01-03', '2022-01-04', '2021-12-31'], dtype='object')

In [78]:
data.argmax(), data.argmin()

(0, 3)

### 이미 생성되어 있는 Series의 데이터 변경

In [79]:
data3.values

NameError: name 'data3' is not defined

In [80]:
data3.values = [1,2,3]

NameError: name 'data3' is not defined

## 1.3 Series의 조회(색인)

인덱싱 기법

 - 전통적 `[index]` 속성
 - 슬라이싱
 - 팬시 인덱싱
 - 불링언 인덱셍

인덱싱 방법:

 - `[INDEX]` : 전통적 인덱스 방법
 - `.iloc[]`: 인덱스 위치
 - `.loc[]` : 인덱스 라벨

> iloc, loc 이전
> - at[] : 인덱스 라벨
> - ix[] : 인덱스 위치
> - get() : 인덱스 위치


In [81]:
data = [1,2,3,4,5,6,7,8,9,10]
index = ["서울","대전","대구","부산","광주","인천", "세종","충주","경주","성남"]

data4 = pd.Series( data, index=index)
data4

서울     1
대전     2
대구     3
부산     4
광주     5
인천     6
세종     7
충주     8
경주     9
성남    10
dtype: int64

### index 기준으로 조회 : 전통적 방법

`Series[index]`

In [82]:
data4

서울     1
대전     2
대구     3
부산     4
광주     5
인천     6
세종     7
충주     8
경주     9
성남    10
dtype: int64

In [83]:
data4[7]      # 인덱스 위치 -> 인덱스 (번호)

8

In [84]:
data4["충주"]  # 인덱스 라벨

8

#### `.iloc[]`  인덱스 번호(위치)

In [85]:
data4.iloc[7]

8

In [86]:
data4.iloc["충주"]

TypeError: Cannot index by location index with a non-integer key

#### `.get()` 메서드

`.get()` 인덱스를 제공하고 값을 반환받는다.

In [87]:
data4.get(0)

1

### index Label 조회

`.loc[]`, `.at[]`

In [92]:
data4['충주']

8

In [93]:
#서울 데이터 조회
data4.loc["충주"] # index 값 조회

8

In [94]:
data4.at["서울"]

1

### 인덱스 라벨과 위치?

In [88]:
data44 = pd.Series([1,2,3,4,5,6,7,8,9])
data44

0    1
1    2
2    3
3    4
4    5
5    6
6    7
7    8
8    9
dtype: int64

In [89]:
data44[1]   # lable???    position????

2

In [90]:
data44.iloc[8]   # position

9

In [91]:
data44.loc[8]   # label

9

### 팬시 인덱스 조회

In [None]:
data4

In [95]:
#서울, 부산 데이터 조회
data4[["부산","서울"]]

부산    4
서울    1
dtype: int64

In [96]:
data4[[0,3]]

서울    1
부산    4
dtype: int64

In [97]:
data4.iloc[[0,3]]

서울    1
부산    4
dtype: int64

In [98]:
data4.loc[["부산","서울"]]

부산    4
서울    1
dtype: int64

index의 위치값!!!

In [99]:
# 위에서 부터 2개 Data
data4[0:2]

서울    1
대전    2
dtype: int64

In [100]:
# 끝에서 3개 Data
data4[-3:]

충주     8
경주     9
성남    10
dtype: int64

In [101]:
data4[:-1]

서울    1
대전    2
대구    3
부산    4
광주    5
인천    6
세종    7
충주    8
경주    9
dtype: int64

In [102]:
data4[::-1]

성남    10
경주     9
충주     8
세종     7
인천     6
광주     5
부산     4
대구     3
대전     2
서울     1
dtype: int64

iloc 적용해서 slicing 을 연습!

In [103]:
data4.iloc[0:2]

서울    1
대전    2
dtype: int64

In [105]:
data4.loc['대전':'인천']

대전    2
대구    3
부산    4
광주    5
인천    6
dtype: int64

###  index 조건 색인  -> Boolean Indexing

In [106]:
data4.values

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10], dtype=int64)

In [107]:
data4.index.isin(["서울","대전", "대구"])

array([ True,  True,  True, False, False, False, False, False, False,
       False])

In [108]:
# 인덱스 조건 검색: 서울, 대전 ,대구 데이터 조회
# isin 함수에 인자에 해당하는 index 만 True값을 가지고, True값만 출력
data4[data4.index.isin(["서울","대전", "대구"])]

서울    1
대전    2
대구    3
dtype: int64

In [109]:
data4.loc[ data4 > 3 ]

부산     4
광주     5
인천     6
세종     7
충주     8
경주     9
성남    10
dtype: int64

In [None]:
data44 = pd.Series([1,2,3,4,5,6,7,8,9])

In [110]:
# 3이상인 데이터만 조회하는 방법
# 1. 각 데이터가 3보다 큰지 확인
data44 > 3

0    False
1    False
2    False
3     True
4     True
5     True
6     True
7     True
8     True
dtype: bool

In [111]:
# 2. True 인 데이터만 조회
data44[ data44 > 3 ]

3    4
4    5
5    6
6    7
7    8
8    9
dtype: int64

In [112]:
data44.loc[data44 > 3]

3    4
4    5
5    6
6    7
7    8
8    9
dtype: int64

In [113]:
# 인덱스 위치는?
data44.iloc[ data44 > 3 ]

NotImplementedError: iLocation based boolean indexing on an integer type is not available

In [114]:
data44.loc[ data44 > 3 ]

3    4
4    5
5    6
6    7
7    8
8    9
dtype: int64

In [115]:
data44 = pd.Series([1,2,3,4,5,6,7,8,9])
data44 > 3

0    False
1    False
2    False
3     True
4     True
5     True
6     True
7     True
8     True
dtype: bool

In [116]:
data44.loc[data44 > 3]

3    4
4    5
5    6
6    7
7    8
8    9
dtype: int64

### 인덱스, 값 나열

In [117]:
data4.keys()

Index(['서울', '대전', '대구', '부산', '광주', '인천', '세종', '충주', '경주', '성남'], dtype='object')

In [118]:
for i, v in data4.items():
    print(i, v)

서울 1
대전 2
대구 3
부산 4
광주 5
인천 6
세종 7
충주 8
경주 9
성남 10


In [None]:
data4

In [None]:
for i, v in data4.items() :
    print('%s : %d' % (i, v))

### 원소 추출 / 제거 

`pop()` 메소드 인덱스 라벨로 추출하고 제거한다.

In [119]:
data4

서울     1
대전     2
대구     3
부산     4
광주     5
인천     6
세종     7
충주     8
경주     9
성남    10
dtype: int64

In [120]:
data4.pop('성남')  # queue

10

In [121]:
data4

서울    1
대전    2
대구    3
부산    4
광주    5
인천    6
세종    7
충주    8
경주    9
dtype: int64

In [122]:
data4.iloc[8]

9

In [123]:
del data4.iloc[8]

AttributeError: __delitem__

In [126]:
del data4[5]

KeyError: 5

In [124]:
del data4["경주"]   # 인덱스 라벨로 del

In [125]:
del data4.loc['충주']

AttributeError: __delitem__

## 1.4 Series의 산술 연산 및 통계

### 상수와의 연산

In [127]:
data4

서울    1
대전    2
대구    3
부산    4
광주    5
인천    6
세종    7
충주    8
dtype: int64

In [None]:
data4 = pd.Series([1,2,3,4,5,6,7,8,9,10],index = ["서울","대전","대구","부산","광주","인천", "세종","충주","경주","성남"])

In [None]:
data4

In [None]:
# data4의 모든 데이터에 10 더하기
data4 + 10

In [None]:
# add 함수를 이용해 더하기
data4.add(10)

In [None]:
data4 * 100

In [None]:
data4.mul(100)

In [None]:
data4 - 40

In [None]:
data4.sub(40)

In [None]:
data4 % 3

다음 예제를 사용해 사칙연산을 수행해 보자.

In [None]:
student1 = pd.Series({'국어':100, '영어':80, '수학':90})
student1

In [None]:
student1 + 10

### Series 끼리의 연산

- 두 Series의 같은 index 끼리 연산함
- 같은 index가 없을 경우 NaN으로 저장됨

연산을 위해 새로운 Series 생성

In [128]:
data4.values, data4.index

(array([1, 2, 3, 4, 5, 6, 7, 8], dtype=int64),
 Index(['서울', '대전', '대구', '부산', '광주', '인천', '세종', '충주'], dtype='object'))

In [129]:
data5 = pd.Series([10,20,30],index = ["서울","대전","대구"])
data5

서울    10
대전    20
대구    30
dtype: int64

In [130]:
data6 = data4 + data5
data6

광주     NaN
대구    33.0
대전    22.0
부산     NaN
서울    11.0
세종     NaN
인천     NaN
충주     NaN
dtype: float64

In [131]:
data4 - data5

광주     NaN
대구   -27.0
대전   -18.0
부산     NaN
서울    -9.0
세종     NaN
인천     NaN
충주     NaN
dtype: float64

In [132]:
data4 * data5

광주     NaN
대구    90.0
대전    40.0
부산     NaN
서울    10.0
세종     NaN
인천     NaN
충주     NaN
dtype: float64

다음 2개의 객체를 이용해 시험 성적을 계산해 보자

In [133]:
student1 = pd.Series({'국어':100, '영어':80, '수학':90})
student2 = pd.Series({'수학':80, '국어':90, '영어':80})

In [134]:
student1 + student2
student1 - student2
student1 * student2
student1 / student2

국어    1.111111
수학    1.125000
영어    1.000000
dtype: float64

다른 과목과 연산

In [137]:
student3 = pd.Series({'수학':80, '국어':90, '영어':80, '과학':86 })

In [138]:
student1 + student3

과학      NaN
국어    190.0
수학    170.0
영어    160.0
dtype: float64

### 인덱스가 다른 객체 사이의 논리연산

In [139]:
student1 > 80

국어     True
영어    False
수학     True
dtype: bool

In [140]:
# 서로 다른 인덱스
student1 > student2

ValueError: Can only compare identically-labeled Series objects

In [141]:
# 같은 인덱스
student11 = pd.Series({'국어':100, '영어':80, '수학':90})

student12 = pd.Series({'국어':90, '영어':88, '수학':98})


In [142]:
student11 > student12

국어     True
영어    False
수학    False
dtype: bool

In [143]:
student1.index, student2.index

(Index(['국어', '영어', '수학'], dtype='object'),
 Index(['수학', '국어', '영어'], dtype='object'))

### Math methods

In [144]:
data = pd.Series(np.arange(100))
data

0      0
1      1
2      2
3      3
4      4
      ..
95    95
96    96
97    97
98    98
99    99
Length: 100, dtype: int32

In [145]:
data.count(), len(data)

(100, 100)

In [146]:
data.sum()

4950

In [147]:
data.mean()

49.5

In [153]:
data.sum() / data.size

49.5

In [149]:
data.median()

49.5

In [150]:
data.std()

29.011491975882016

In [154]:
data.min(), data.max()

(0, 99)

In [155]:
data.describe()

count    100.000000
mean      49.500000
std       29.011492
min        0.000000
25%       24.750000
50%       49.500000
75%       74.250000
max       99.000000
dtype: float64

## 1.5 NaN 데이터 처리

<ul>
    <li><strong><span style = "color:red">fill_value 옵션</span></strong> : NaN 데이터를 입력값으로 적용후에 함수 적용</li>
    <li><strong><span style = "color:red">fillna 함수</span></strong> : NaN값을 입력값으로 변경</li>
</ul>

In [156]:
data4

서울    1
대전    2
대구    3
부산    4
광주    5
인천    6
세종    7
충주    8
dtype: int64

In [157]:
data5

서울    10
대전    20
대구    30
dtype: int64

In [158]:
data5 + data4

광주     NaN
대구    33.0
대전    22.0
부산     NaN
서울    11.0
세종     NaN
인천     NaN
충주     NaN
dtype: float64

add와 같은 산술연산함수를 적용할 때 fill_value 옵션을 적용하면 NaN이 발생할 경우 특정 값으로 대입할 수 있습니다.

In [172]:
data4.add(data5, fill_value = 0)

광주     5.0
대구    33.0
대전    22.0
부산     4.0
서울    11.0
세종     7.0
인천     6.0
충주     8.0
dtype: float64

Series에 NaN값이 있을 경우 fillna를 이용해 NaN을 입력값으로 변경할 수 있습니다.

In [173]:
data6 = data5 + data4
data6

광주     NaN
대구    33.0
대전    22.0
부산     NaN
서울    11.0
세종     NaN
인천     NaN
충주     NaN
dtype: float64

In [175]:
# fillna를 통해 NaN값을 특정값으로 할당
data6.fillna(0)

광주     0.0
대구    33.0
대전    22.0
부산     0.0
서울    11.0
세종     0.0
인천     0.0
충주     0.0
dtype: float64

In [177]:
d1 = data4.add(data5, fill_value=0)

## 1.7 통계

<ul>
    <li><strong><span style = "color:red">describe 함수</span></strong> : 주요 통계 정보 보기</li>
    <li><strong><span style = "color:red">mean 함수</span></strong> : 평균 구하기</li>
    <li><strong><span style = "color:red">std 함수</span></strong> : 표준편차 구하기</li>
</ul>

In [160]:
data = pd.Series(np.arange(100))
data

0      0
1      1
2      2
3      3
4      4
      ..
95    95
96    96
97    97
98    98
99    99
Length: 100, dtype: int32

In [161]:
data.count(), len(data)

(100, 100)

In [162]:
data.sum()

4950

In [163]:
data.mean()

49.5

In [164]:
data.sum() / data.mean()

100.0

In [165]:
data.median()

49.5

In [166]:
data.std()

29.011491975882016

In [167]:
data.min(), data.max()

(0, 99)

In [168]:
data.describe()

count    100.000000
mean      49.500000
std       29.011492
min        0.000000
25%       24.750000
50%       49.500000
75%       74.250000
max       99.000000
dtype: float64

In [169]:
# 데이터 통계 정보 보기
data4.describe()

count    8.00000
mean     4.50000
std      2.44949
min      1.00000
25%      2.75000
50%      4.50000
75%      6.25000
max      8.00000
dtype: float64

In [170]:
# 평균 구하기
data4.mean()

4.5

In [171]:
# 표준 편차 구하기
data4.std()

2.449489742783178

# 2. 외부자료 탐색

외부 파일 자료에서 csv, xls, txt, json 같은 형식의 데이터

> https://pandas.pydata.org/pandas-docs/version/0.23.4/io.html

## 1.1 `read_csv()`

`.read_csv()` 를 사용해 외부 텍스트 데이터를 Series, DataFrame 으로 파싱해 준다.

- usecols : 파싱 결과의 컬럼만을 반환
- names: 컬럼 이름을 제공
- squeeze: 파싱 데이터가 한 컬럼만 있으면 Series 객체 반환 (Deprecated since version 1.4.0)

In [None]:
# budget = pd.read_csv('../data/jamesbond.csv', usecols=['Budget'], squeeze=True)

df = pd.read_csv('../data/jamesbond.csv')
budget = df['Budget'].squeeze()
budget

In [None]:
budget.head()

### 단일 데이터 파일

다음 1개 컬럼 데이터만 있는 파일.

In [None]:
# salary = pd.read_csv('../data/nba_salary.csv',squeeze=True)
salary = pd.read_csv('../data/nba_salary.csv').squeeze()
salary.head()

In [None]:
salary.tail()

## 1.2 `.value_counts()` 메서드



In [None]:
salary.value_counts()

In [None]:
# 전체 개수와 값의 개수의 합은 같다.
salary.count(), salary.value_counts().sum()

In [None]:
salary.value_counts(ascending=True)

## 1.3 `.sort_values()` 메서드

[Series.sort_values()](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.sort_values.html)는 값을 정렬한다.

In [None]:
budget.head()

In [None]:
budget.sort_values().head()

In [None]:
budget.sort_values(ascending=False).tail()

#### 정렬과 `inplace` 매개변수

In [None]:
salary.head(5)

`inplace` 를 사용하면 현재 객체에 결과가 적용된다.

In [None]:
salary.sort_values(ascending= False, inplace=True)
salary.head()

In [None]:
budget.sort_values(ascending=False, inplace=True)

In [None]:
budget.head()

## 1.3 `.sort_index()` 

[Series.sort_index()](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.sort_index.html?highlight=sort_index#pandas.Series.sort_index)는 인덱스 표기에 따라 정렬한다.

```
Series.sort_index(axis=0, level=None, ascending=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True)[source]
```

초기 데이터를 다시 들여오자,

In [None]:
salary = pd.read_csv('../data/nba_salary.csv').squeeze()
salary.head()

.sort_values() 는 데이터 값을 기준으로 정렬을 수행한다.

In [None]:
salary.sort_values(ascending=False).head()

.sort_index() 는 데이터 인덱스를 기준으로 정렬한다.

In [None]:
salary.sort_index(ascending=False).head()

In [None]:
salary.sort_values(ascending=True).head()

In [None]:
salary.sort_index(ascending=True).head()

# 통합
 - concat : Series, DataFrame
 - merge : DataFrame

## concat 통합

    두 개의 시리즈를 연결할 때는 concat를 사용해서 처리한다. 
    이 함수에 연결할 때는 반복형이어야 하므로 반드시 리스트로 처리해야한다.
    index는  그대로 연결된다.

In [None]:
a = pd.Series([1,2,3,4])
b = pd.Series([5,6,7,8])

In [None]:
c = pd.concat([a,b])

print(c)

In [None]:
pd.concat([a,b],axis=0)

실제 축을 열로 하면 데이터 프레임이 된다.

In [None]:
d = pd.concat([a,b],axis=1)

print(d)

In [None]:
print(type(d))

In [None]:
d.plot()

## merge는 실제 데이터 프레임일 경우에만 적용이 가능



In [None]:
pd.merge(a,b)

# copy 메모리 공간

copy 사용해 새로운 메모리 공간을 생성한다.


In [None]:
data = pd.Series([1,2,3,4])

In [None]:
id(data)

In [None]:
abc = data
id(abc)

In [None]:
some = data.copy() 
id(some)

In [None]:
some2 = data.astype(np.int64)
id(some2)

## 데이터 추가 append 메소드 사용

    append 메소드는 인자로는 반드시 시리즈 인스턴스여야 한다. 
    

In [None]:
data

In [None]:
data.append( pd.Series([3,4,4,5]))

인덱스 무시

In [None]:
data.append( pd.Series([3,4,4,5], index=['A','B','C','D']), ignore_index=True)