### dataframe은 series의 모음

- 기본 2차원
- dataframe 안에 있는 하나의 값에 접근하기 위해서는 index와 column을 모두 알아야 함
- 각 column의 데이터 타입이 다를 수 있음
- 일반적으로 csv 파일로 불러옴

In [4]:
from pandas import Series, DataFrame
import pandas as pd
import numpy as np

In [6]:
# key값들이 Comlumn의 이름으로 들어감
# 연습을 하기 위해서 dict type으로 불러옴. 일반적으로 csv
raw_data = {'first_name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'],
           'last_name': ['Miller', 'Jacobson', 'Ali', 'Milner', 'Cooze'],
           'age': [42, 52, 36, 24, 73],
           'city': ['San Francisco', 'Baltimore', 'Miami', 'Douglas', 'Boston']}
df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'city'])
df

Unnamed: 0,first_name,last_name,age,city
0,Jason,Miller,42,San Francisco
1,Molly,Jacobson,52,Baltimore
2,Tina,Ali,36,Miami
3,Jake,Milner,24,Douglas
4,Amy,Cooze,73,Boston


In [7]:
# column 선택
DataFrame(raw_data, columns = ["age", "city"])

Unnamed: 0,age,city
0,42,San Francisco
1,52,Baltimore
2,36,Miami
3,24,Douglas
4,73,Boston


In [9]:
# 새로운 column 추가 가능
# data가 없더라도 index(column) 중심으로 생성됨
DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'city', 'debt'])

Unnamed: 0,first_name,last_name,age,city,debt
0,Jason,Miller,42,San Francisco,
1,Molly,Jacobson,52,Baltimore,
2,Tina,Ali,36,Miami,
3,Jake,Milner,24,Douglas,
4,Amy,Cooze,73,Boston,


In [10]:
# column 선택 - series 추출
df = DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'city', 'debt'])
df.first_name

0    Jason
1    Molly
2     Tina
3     Jake
4      Amy
Name: first_name, dtype: object

In [11]:
# column 선택 - series 추출
df["first_name"]

0    Jason
1    Molly
2     Tina
3     Jake
4      Amy
Name: first_name, dtype: object

In [13]:
# type이 seires 데이터임을 알 수 있음
type(df["first_name"])

pandas.core.series.Series

In [14]:
df

Unnamed: 0,first_name,last_name,age,city,debt
0,Jason,Miller,42,San Francisco,
1,Molly,Jacobson,52,Baltimore,
2,Tina,Ali,36,Miami,
3,Jake,Milner,24,Douglas,
4,Amy,Cooze,73,Boston,


In [18]:
# location indexing - loc[인덱스의 값]
# loc - index location
df.loc[1]

first_name        Molly
last_name      Jacobson
age                  52
city          Baltimore
debt                NaN
Name: 1, dtype: object

In [20]:
# iloc - index position
# iloc을 하면 숫자로 변형을 해서 해당값에 접근할 수 있음
df["age"].iloc[1:]

1    52
2    36
3    24
4    73
Name: age, dtype: int64

- 즉, loc는 index 이름, iloc은 index number을 의미함

In [25]:
# index의 값을 순서대로 하지 않음
s = pd.Series(np.nan, index = [49, 48, 47, 46, 45, 1, 2, 3, 4, 5])
s

49   NaN
48   NaN
47   NaN
46   NaN
45   NaN
1    NaN
2    NaN
3    NaN
4    NaN
5    NaN
dtype: float64

In [26]:
# index3 까지의 값들을 가져옴
s.loc[:3]

49   NaN
48   NaN
47   NaN
46   NaN
45   NaN
1    NaN
2    NaN
3    NaN
dtype: float64

In [29]:
# 순서대로 3개의 값을 가져옴
s.iloc[:3]

49   NaN
48   NaN
47   NaN
dtype: float64

In [27]:
# index 3부터의 값을 가져옴
s.loc[3:]

3   NaN
4   NaN
5   NaN
dtype: float64

In [31]:
# 3개의 값을 남겨놓고 가져옴
s.iloc[3:]

46   NaN
45   NaN
1    NaN
2    NaN
3    NaN
4    NaN
5    NaN
dtype: float64

In [32]:
df

Unnamed: 0,first_name,last_name,age,city,debt
0,Jason,Miller,42,San Francisco,
1,Molly,Jacobson,52,Baltimore,
2,Tina,Ali,36,Miami,
3,Jake,Milner,24,Douglas,
4,Amy,Cooze,73,Boston,


In [34]:
# index 3번까지 뽑아줌
df.loc[:3]

Unnamed: 0,first_name,last_name,age,city,debt
0,Jason,Miller,42,San Francisco,
1,Molly,Jacobson,52,Baltimore,
2,Tina,Ali,36,Miami,
3,Jake,Milner,24,Douglas,


In [35]:
df.iloc[:2]

Unnamed: 0,first_name,last_name,age,city,debt
0,Jason,Miller,42,San Francisco,
1,Molly,Jacobson,52,Baltimore,


In [36]:
df["first_name"].iloc[2:]

2    Tina
3    Jake
4     Amy
Name: first_name, dtype: object

In [38]:
# 리스트 값으로 넣어줘야 함
df.loc[:, ["first_name"]]

Unnamed: 0,first_name
0,Jason
1,Molly
2,Tina
3,Jake
4,Amy


In [39]:
# 리스트 값으로 넣어줘야 함
df.loc[:, ["first_name", "last_name"]]

Unnamed: 0,first_name,last_name
0,Jason,Miller
1,Molly,Jacobson
2,Tina,Ali
3,Jake,Milner
4,Amy,Cooze


In [41]:
# bool type의 Series 생성
df.age > 40

0     True
1     True
2    False
3    False
4     True
Name: age, dtype: bool

In [43]:
# column에 새로운 값 할당할 수 있음
df.debt = df.age > 40
df

Unnamed: 0,first_name,last_name,age,city,debt
0,Jason,Miller,42,San Francisco,True
1,Molly,Jacobson,52,Baltimore,True
2,Tina,Ali,36,Miami,False
3,Jake,Milner,24,Douglas,False
4,Amy,Cooze,73,Boston,True


In [44]:
values = Series(data = ["M", "F", "F"], index = [0, 1, 3])
values

0    M
1    F
3    F
dtype: object

In [47]:
# index 값을 기준으로 생성
df["sex"] = values
df

Unnamed: 0,first_name,last_name,age,city,debt,sex
0,Jason,Miller,42,San Francisco,True,M
1,Molly,Jacobson,52,Baltimore,True,F
2,Tina,Ali,36,Miami,False,
3,Jake,Milner,24,Douglas,False,F
4,Amy,Cooze,73,Boston,True,


In [49]:
# transpose 형 data 출력 (전치 행렬)
df.T

Unnamed: 0,0,1,2,3,4
first_name,Jason,Molly,Tina,Jake,Amy
last_name,Miller,Jacobson,Ali,Milner,Cooze
age,42,52,36,24,73
city,San Francisco,Baltimore,Miami,Douglas,Boston
debt,True,True,False,False,True
sex,M,F,,F,


In [52]:
# 값 출력 (array type)
df.values

array([['Jason', 'Miller', 42, 'San Francisco', True, 'M'],
       ['Molly', 'Jacobson', 52, 'Baltimore', True, 'F'],
       ['Tina', 'Ali', 36, 'Miami', False, nan],
       ['Jake', 'Milner', 24, 'Douglas', False, 'F'],
       ['Amy', 'Cooze', 73, 'Boston', True, nan]], dtype=object)

In [55]:
# index 출력
df.index

RangeIndex(start=0, stop=5, step=1)

In [57]:
# csv 변환
# path_or_buf에 파일 이름을 넣어주면 저장도 가능
# index = False 로 해주면 index 값이 사라짐
df.to_csv()

',first_name,last_name,age,city,debt,sex\n0,Jason,Miller,42,San Francisco,True,M\n1,Molly,Jacobson,52,Baltimore,True,F\n2,Tina,Ali,36,Miami,False,\n3,Jake,Milner,24,Douglas,False,F\n4,Amy,Cooze,73,Boston,True,\n'

In [58]:
# column 삭제
# 메모리 주소 자체를 삭제함
del df["debt"]
df

Unnamed: 0,first_name,last_name,age,city,sex
0,Jason,Miller,42,San Francisco,M
1,Molly,Jacobson,52,Baltimore,F
2,Tina,Ali,36,Miami,
3,Jake,Milner,24,Douglas,F
4,Amy,Cooze,73,Boston,


In [66]:
df = DataFrame(raw_data, columns = ["first_name", "last_name", "age", "city", "debt", "sex"])
df

Unnamed: 0,first_name,last_name,age,city,debt,sex
0,Jason,Miller,42,San Francisco,,
1,Molly,Jacobson,52,Baltimore,,
2,Tina,Ali,36,Miami,,
3,Jake,Milner,24,Douglas,,
4,Amy,Cooze,73,Boston,,


In [68]:
df.debt = df["age"] > 40
df

Unnamed: 0,first_name,last_name,age,city,debt,sex
0,Jason,Miller,42,San Francisco,True,
1,Molly,Jacobson,52,Baltimore,True,
2,Tina,Ali,36,Miami,False,
3,Jake,Milner,24,Douglas,False,
4,Amy,Cooze,73,Boston,True,


In [71]:
# drop이 된 dataframe만 출력할뿐, df 자체에는 변화가 없음
df.drop("debt", axis = 1)
df

Unnamed: 0,first_name,last_name,age,city,debt,sex
0,Jason,Miller,42,San Francisco,True,
1,Molly,Jacobson,52,Baltimore,True,
2,Tina,Ali,36,Miami,False,
3,Jake,Milner,24,Douglas,False,
4,Amy,Cooze,73,Boston,True,


In [72]:
# drop이 된 dataframe만 출력할뿐, df 자체에는 변화가 없음
df

Unnamed: 0,first_name,last_name,age,city,debt,sex
0,Jason,Miller,42,San Francisco,True,
1,Molly,Jacobson,52,Baltimore,True,
2,Tina,Ali,36,Miami,False,
3,Jake,Milner,24,Douglas,False,
4,Amy,Cooze,73,Boston,True,


In [74]:
# dict가 이중으로 들어가면, 앞에 있는 것이 column으로 들어가고, 안에 있는 dict의 key 값은 index 값이 됨
pop = {"Nevada": {2001: 2.4, 2002: 2.9}, "Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6}}

DataFrame(pop)

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5
