# Pandas DataFrame 

- 라벨이 있는 2차원의 데이터를 처리하는 라이브러리
- 엑셀이 하는 일과 비슷한 일을 파이썬으로 할 수 있다.
- NumPy 기반으로 매우 빠르다.
- 다양하게 데이터를 가공하고 처리할 수 있다.
- 자동화, 빅데이터 처리, 머신 러닝, 딥 러닝 등을 위해서 필수적으로 배워야 하는 도구

## DataFrame

- 가장 큰 데이터 묶음
- 파일로부터 생성 가능
- 또는 기존의 데이터에서 변환 가능 

## Series
- 리스트와 유사한 자료구조
- 리스트와 달리 라벨이 붙어 있다. 

## 시작하기 

In [1]:
import pandas as pd

## 직접 만들어 보기 

### dictionary 의 list로 만들기 


In [2]:
item1 = [
    {'name':'apple','price': 30},
    {'name':'banana','price': 50},
    {'name':'carrot','price': 999},
]
item1

[{'name': 'apple', 'price': 30},
 {'name': 'banana', 'price': 50},
 {'name': 'carrot', 'price': 999}]

In [3]:
df = pd.DataFrame(item1)
df

Unnamed: 0,name,price
0,apple,30
1,banana,50
2,carrot,999


### list로 만들어 보기 1

In [4]:
item2 = [    
    ['apple', 50, 1.22],
    ['banana', 20, 0.22],
    ['carrot', 20, 0.12],
]
item2

[['apple', 50, 1.22], ['banana', 20, 0.22], ['carrot', 20, 0.12]]

## from_records
- 리스트의 리스트로 만들 때는 `from_records()`를 사용한다. 

In [5]:
df = pd.DataFrame.from_records(item2,
                            columns=['name', 'quantity', 'price'])
df

Unnamed: 0,name,quantity,price
0,apple,50,1.22
1,banana,20,0.22
2,carrot,20,0.12


### list로 DataFrame 생성 2

In [6]:
item3 = [    
    ['name',['apple', 'banana']],
    ['price',[10, 20]],
]
item3

[['name', ['apple', 'banana']], ['price', [10, 20]]]

In [7]:
# deprecated이므로 이제 사용하지 말자
df = pd.DataFrame.from_items(item3)
df

  


Unnamed: 0,name,price
0,apple,10
1,banana,20


In [8]:
dict(item3)

{'name': ['apple', 'banana'], 'price': [10, 20]}

In [9]:
df = pd.DataFrame.from_dict(dict(item3))
df

Unnamed: 0,name,price
0,apple,10
1,banana,20


In [10]:
k = ['name', 'price']
v = [['apple', 'banana'], [10, 20]]

In [11]:
df = pd.DataFrame.from_dict(dict(zip(k,v)))
df

Unnamed: 0,name,price
0,apple,10
1,banana,20


## Series 

In [12]:
s1 = pd.Series(['apple', 'banana', 'carrot'], index = ['a','b','c'])
print(s1)

a     apple
b    banana
c    carrot
dtype: object


In [13]:
s1['a']

'apple'

## Series의 조합으로 DataFrame 만들기 

In [14]:
s2 = pd.Series([10, 20, 30], index = ['c','a','b'])
s2

c    10
a    20
b    30
dtype: int64

In [15]:
df = pd.DataFrame({'name': s1, 'price': s2})
df

Unnamed: 0,name,price
a,apple,20
b,banana,30
c,carrot,10


## Filtering

## 행 단위로 레코드 읽어 오기 

In [46]:
df = pd.read_csv('./data/data-header.csv')
df

Unnamed: 0,name,age,money,sex
0,둘리,100,100.0,M
1,길동,40,500000.0,M
2,또치,15,50.0,F
3,희동,3,,M


In [48]:
# df[0] error
df.loc[0]

name      둘리
age      100
money    100
sex        M
Name: 0, dtype: object

## df slice
- 잘 된다!

In [18]:
# df[0] 대신 사용
df[:1]

Unnamed: 0,name,age,money,sex
0,둘리,100,100.0,M


In [19]:
df[3:4]

Unnamed: 0,name,age,money,sex
3,희동,3,,M


In [20]:
df[1:3]

Unnamed: 0,name,age,money,sex
1,길동,40,500000.0,M
2,또치,15,50.0,F


In [None]:
df[::-1]

## df.loc 

주로 label 기반으로 데이터에 접근할 때 loc를 이용한다. 

- loc: 라벨 및 인덱스 기반, boolean ok
- iloc: 위치 기반, boolean ok 
- https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.loc.html

In [None]:
df

In [None]:
df.index =['a','b','c','d']
df

In [None]:
df.loc['a']
# type(df.loc['a'])

## loc 에 list 사용

In [None]:
df.loc[['a']] #idx로 리스트를 사용

In [None]:
idx = ['a']
df.loc[idx]

In [None]:
## 0번 3번 인덱스로 레코드 읽어오기 
df.loc[['a','c']]

In [None]:
df.loc[['a','c']]['name']

In [None]:
# error
# df.loc['name'] 

## 필터링 


In [None]:
df

In [None]:
df['name']

In [None]:
type(df['name'])

In [None]:
df[['name']]

In [None]:
df[['name', 'age']]

In [None]:
df['bonus'] = 0.2 
df

In [None]:
df['first'] = '고'
df

In [None]:
df['fullname'] = df['first'] + ' ' + df['name']
df

In [None]:
df['money'] = df['money'] * (1 + df['bonus'])
df

## df.iloc

- 일반적으로 위치(position)기반으로 접근할 때 iloc를 이용한다. 
- https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.iloc.html

In [None]:
df

In [None]:
df.iloc[3]

In [None]:
df.iloc[1,2]

In [None]:
df.iloc[2:4, 0:3] #index로 slicing, columns으로 slicing

In [None]:
df.iloc[0:2]

In [None]:
df.iloc[:,:2]

## 조건 지정

In [None]:
df

In [None]:
df['age'] + 10 

In [None]:
df['age'] > 20

In [None]:
df.loc[df['age'] > 20]

In [None]:
df.loc[df['sex'] == 'M']

## read_csv 안쓰고 구현해보기

In [44]:
def make_dataframe(filename):
    with open(filename) as f: return pd.DataFrame.from_records(columns=f.readline().split(","), data=list(map(lambda x: x.split(","), f.readlines())))


#     with open(filename) as f: return pd.DataFrame.from_records(columns=f.readline().split(","), data=list(map(lambda x: x.split(","), f.readlines())))
#         data = list(map(lambda x: x.split(","), csv_file.readlines()))
#         return pd.DataFrame.from_records(data[1:], columns=data[0])
#         return pd.DataFrame.from_records(columns=f.readline().split(","), data=list(map(lambda x: x.split(","), f.readlines())))
        
df = make_dataframe('./data/data-header.csv')

In [45]:
df

Unnamed: 0,name,age,money,sex
0,둘리,100,100.0,M\n
1,길동,40,500000.0,M\n
2,또치,15,50.0,F\n
3,희동,3,,M
