# 혼자 책보고 pandas 연습

## 모듈 생성

In [1]:
import numpy as np
import pandas as pd

## 데이터 생성

In [31]:
data = ({'음식명':['짬뽕','짜장','울면','우동','냉면'],'가격':[7000,6000,7000,8000,9000], '계절메뉴':['X','X','X','O','O']})

In [48]:
df1 = pd.DataFrame(data)
df1

Unnamed: 0,음식명,가격,계절메뉴
0,짬뽕,7000,X
1,짜장,6000,X
2,울면,7000,X
3,우동,8000,O
4,냉면,9000,O


In [50]:
df2 = pd.DataFrame({'음식명':['볶음밥','제육덮밥'], '가격':[7500, 8500], '계절메뉴':['X','X']})
df2

Unnamed: 0,음식명,가격,계절메뉴
0,볶음밥,7500,X
1,제육덮밥,8500,X


---

## 데이터 통합하기

### 세로방향으로 데이터 합치기

In [55]:
df3 = df1.append(df2)
df3 # df2의 인덱스가 그대로 반영

Unnamed: 0,음식명,가격,계절메뉴
0,짬뽕,7000,X
1,짜장,6000,X
2,울면,7000,X
3,우동,8000,O
4,냉면,9000,O
0,볶음밥,7500,X
1,제육덮밥,8500,X


In [56]:
df4 = df1.append(df2, ignore_index=True)
df4 # 인덱스가 df1 기준으로 새로 추가되었다.

Unnamed: 0,음식명,가격,계절메뉴
0,짬뽕,7000,X
1,짜장,6000,X
2,울면,7000,X
3,우동,8000,O
4,냉면,9000,O
5,볶음밥,7500,X
6,제육덮밥,8500,X


### 가로방향으로 데이터 합치기

In [59]:
df5 = pd.DataFrame({'포장가능여부':['O','O','O','O','O','O']})
df5

Unnamed: 0,포장가능여부
0,O
1,O
2,O
3,O
4,O
5,O


In [61]:
df6 = df4.join(df5)
df6
# join을 사용해 가로방향으로 데이터를 통합했다. 
# 합치며 행의 숫자와 달라 값이 없는 경우 NaN 데이터가 적용된다.

Unnamed: 0,음식명,가격,계절메뉴,포장가능여부
0,짬뽕,7000,X,O
1,짜장,6000,X,O
2,울면,7000,X,O
3,우동,8000,O,O
4,냉면,9000,O,O
5,볶음밥,7500,X,O
6,제육덮밥,8500,X,


### 특정 열을 기준으로 합치기

In [63]:
df7 = pd.DataFrame({'음식명':['페페로니피자','치킨'], '음식구분':['양식','양식']})
df7

Unnamed: 0,음식명,음식구분
0,페페로니피자,양식
1,치킨,양식


In [69]:
df6.merge(df7) # 기본적으로 inner와 같다고 생각하면 된다.

Unnamed: 0,음식명,가격,계절메뉴,포장가능여부,음식구분


In [65]:
df6.merge(df7, how = 'left', on ='음식명') # 두 데이터를 합치지만 df6의 값만 가져옴

Unnamed: 0,음식명,가격,계절메뉴,포장가능여부,음식구분
0,짬뽕,7000,X,O,
1,짜장,6000,X,O,
2,울면,7000,X,O,
3,우동,8000,O,O,
4,냉면,9000,O,O,
5,볶음밥,7500,X,O,
6,제육덮밥,8500,X,,


In [66]:
df6.merge(df7, how = 'right', on ='음식명') # 두 데이터를 합치지만 df7의 값만 가져옴

Unnamed: 0,음식명,가격,계절메뉴,포장가능여부,음식구분
0,페페로니피자,,,,양식
1,치킨,,,,양식


In [67]:
df6.merge(df7, how = 'inner', on ='음식명') # 두 데이터에서 공통되는 부분을 가져옴

Unnamed: 0,음식명,가격,계절메뉴,포장가능여부,음식구분


In [70]:
df8 = df6.merge(df7, how = 'outer', on ='음식명') # 두 데이터의 모든 것을 가져옴
df8

Unnamed: 0,음식명,가격,계절메뉴,포장가능여부,음식구분
0,짬뽕,7000.0,X,O,
1,짜장,6000.0,X,O,
2,울면,7000.0,X,O,
3,우동,8000.0,O,O,
4,냉면,9000.0,O,O,
5,볶음밥,7500.0,X,O,
6,제육덮밥,8500.0,X,,
7,페페로니피자,,,,양식
8,치킨,,,,양식


---

## 데이터 원하는대로 선택하기

### 데이터의 index 목록

In [71]:
df8.index

Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8], dtype='int64')

### 데이터의 column 목록

In [72]:
df8.columns

Index(['음식명', '가격', '계절메뉴', '포장가능여부', '음식구분'], dtype='object')

### 데이터의 값들

In [73]:
df8.values

array([['짬뽕', 7000.0, 'X', 'O', nan],
       ['짜장', 6000.0, 'X', 'O', nan],
       ['울면', 7000.0, 'X', 'O', nan],
       ['우동', 8000.0, 'O', 'O', nan],
       ['냉면', 9000.0, 'O', 'O', nan],
       ['볶음밥', 7500.0, 'X', 'O', nan],
       ['제육덮밥', 8500.0, 'X', nan, nan],
       ['페페로니피자', nan, nan, nan, '양식'],
       ['치킨', nan, nan, nan, '양식']], dtype=object)

### 데이터의 첫행과 끝행을 기준으로 확인하기
- dataframe.head(n)
- dataframe.tail(n)
- n을 지정하지 않으면 기본값이 5

In [75]:
df8.head()

Unnamed: 0,음식명,가격,계절메뉴,포장가능여부,음식구분
0,짬뽕,7000.0,X,O,
1,짜장,6000.0,X,O,
2,울면,7000.0,X,O,
3,우동,8000.0,O,O,
4,냉면,9000.0,O,O,


In [76]:
df8.tail()

Unnamed: 0,음식명,가격,계절메뉴,포장가능여부,음식구분
4,냉면,9000.0,O,O,
5,볶음밥,7500.0,X,O,
6,제육덮밥,8500.0,X,,
7,페페로니피자,,,,양식
8,치킨,,,,양식


In [77]:
df8.head(1)

Unnamed: 0,음식명,가격,계절메뉴,포장가능여부,음식구분
0,짬뽕,7000.0,X,O,


In [78]:
df8.tail(3)

Unnamed: 0,음식명,가격,계절메뉴,포장가능여부,음식구분
6,제육덮밥,8500.0,X,,
7,페페로니피자,,,,양식
8,치킨,,,,양식


### 인덱싱

In [81]:
df8[0:2] # 처음부터 두번째 행까지

Unnamed: 0,음식명,가격,계절메뉴,포장가능여부,음식구분
0,짬뽕,7000.0,X,O,
1,짜장,6000.0,X,O,


In [83]:
df8[2:5] # 세번째 부터 다섯번째 행까지

Unnamed: 0,음식명,가격,계절메뉴,포장가능여부,음식구분
2,울면,7000.0,X,O,
3,우동,8000.0,O,O,
4,냉면,9000.0,O,O,


In [91]:
df8.loc[0] # 인덱스가 0인 행의 정보를 가져온다.

음식명         짬뽕
가격        7000
계절메뉴         X
포장가능여부       O
음식구분       NaN
Name: 0, dtype: object

In [92]:
df8.loc[1:5]

Unnamed: 0,음식명,가격,계절메뉴,포장가능여부,음식구분
1,짜장,6000.0,X,O,
2,울면,7000.0,X,O,
3,우동,8000.0,O,O,
4,냉면,9000.0,O,O,
5,볶음밥,7500.0,X,O,


In [93]:
df8['음식명']

0        짬뽕
1        짜장
2        울면
3        우동
4        냉면
5       볶음밥
6      제육덮밥
7    페페로니피자
8        치킨
Name: 음식명, dtype: object

In [94]:
df8['음식명'][0:2]

0    짬뽕
1    짜장
Name: 음식명, dtype: object

In [95]:
df8['가격'][5:7] 

5    7500.0
6    8500.0
Name: 가격, dtype: float64

In [96]:
df8.loc[5:7]['가격']

5    7500.0
6    8500.0
7       NaN
Name: 가격, dtype: float64

### 전치행렬(transpose)
: 행과 열을 바꿔버림

In [97]:
df8.T

Unnamed: 0,0,1,2,3,4,5,6,7,8
음식명,짬뽕,짜장,울면,우동,냉면,볶음밥,제육덮밥,페페로니피자,치킨
가격,7000,6000,7000,8000,9000,7500,8500,,
계절메뉴,X,X,X,O,O,X,X,,
포장가능여부,O,O,O,O,O,O,,,
음식구분,,,,,,,,양식,양식
