### DataFrame

In [1]:
import pandas as pd
import numpy as np

#### 1. 데이터 프레임 객체 생성
- 리스트 안에 딕셔너리로 생성
    - `[{},{},{}]` : `{column:value, ...}` > row
- 딕셔너리 안에 리스트로 생성 :
    - `{column1: [values], column2: [values]}` : `column1:[values]` > column

In [2]:
# 리스트의 딕셔너리

In [3]:
datas = [
    {"name": "data", "email": "data@gmail.com", "id": 1},
    {"name": "python", "email": "python@naver.com", "id": 2},
]
datas

[{'name': 'data', 'email': 'data@gmail.com', 'id': 1},
 {'name': 'python', 'email': 'python@naver.com', 'id': 2}]

In [4]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email,id
0,data,data@gmail.com,1
1,python,python@naver.com,2


In [5]:
# 딕셔너리의 리스트

In [6]:
datas = df.to_dict("list")
datas

{'name': ['data', 'python'],
 'email': ['data@gmail.com', 'python@naver.com'],
 'id': [1, 2]}

In [7]:
datas = {'name': ['data', 'python', "jupyter"],
         'email': ['data@gmail.com', 'python@naver.com', 'jupyter@daum.net'],
         'id': [1, 2, 3]}

In [8]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email,id
0,data,data@gmail.com,1
1,python,python@naver.com,2
2,jupyter,jupyter@daum.net,3


In [9]:
# 데이터 프레임의 변수 확인 : index, values, columns

In [10]:
df

Unnamed: 0,name,email,id
0,data,data@gmail.com,1
1,python,python@naver.com,2
2,jupyter,jupyter@daum.net,3


In [11]:
df.index, df.columns, df.values

(RangeIndex(start=0, stop=3, step=1),
 Index(['name', 'email', 'id'], dtype='object'),
 array([['data', 'data@gmail.com', 1],
        ['python', 'python@naver.com', 2],
        ['jupyter', 'jupyter@daum.net', 3]], dtype=object))

In [12]:
df.index = list("ABC")
df

Unnamed: 0,name,email,id
A,data,data@gmail.com,1
B,python,python@naver.com,2
C,jupyter,jupyter@daum.net,3


In [13]:
df.dtypes

name     object
email    object
id        int64
dtype: object

#### 2. 데이터의 선택, 수정, 추가, 삭제

In [14]:
# 데이터 선택 : row, column, [row, column]

In [15]:
df.index = [0, 1, 2]
df

Unnamed: 0,name,email,id
0,data,data@gmail.com,1
1,python,python@naver.com,2
2,jupyter,jupyter@daum.net,3


In [16]:
# row : df.loc[]
df.loc[::-1]

Unnamed: 0,name,email,id
2,jupyter,jupyter@daum.net,3
1,python,python@naver.com,2
0,data,data@gmail.com,1


In [17]:
df.loc[[0, 2]]

Unnamed: 0,name,email,id
0,data,data@gmail.com,1
2,jupyter,jupyter@daum.net,3


In [18]:
# column : []

In [19]:
df

Unnamed: 0,name,email,id
0,data,data@gmail.com,1
1,python,python@naver.com,2
2,jupyter,jupyter@daum.net,3


In [20]:
df[["id", "name", "email"]]

Unnamed: 0,id,name,email
0,1,data,data@gmail.com
1,2,python,python@naver.com
2,3,jupyter,jupyter@daum.net


In [21]:
# [row, column] : df.loc[row, column]

In [22]:
df.loc[::2, ["id", "email"]]

Unnamed: 0,id,email
0,1,data@gmail.com
2,3,jupyter@daum.net


In [23]:
# 데이터 수정 : 데이터 선택 = 수정하는 데이터

In [24]:
df

Unnamed: 0,name,email,id
0,data,data@gmail.com,1
1,python,python@naver.com,2
2,jupyter,jupyter@daum.net,3


In [25]:
df["id"] = [4, 5, 6]
df

Unnamed: 0,name,email,id
0,data,data@gmail.com,4
1,python,python@naver.com,5
2,jupyter,jupyter@daum.net,6


In [26]:
np.array([["notebook", 7], ["macbook", 8]])

array([['notebook', '7'],
       ['macbook', '8']], dtype='<U21')

In [27]:
df.loc[1:, ["name", "id"]] = [["notebook", 7], ["macbook", 8]]
df

Unnamed: 0,name,email,id
0,data,data@gmail.com,4
1,notebook,python@naver.com,7
2,macbook,jupyter@daum.net,8


In [28]:
# 데이터 추가 : column, row

In [29]:
# row

In [30]:
len(df)

3

In [31]:
df.loc[len(df)] = ["iphone", "iphone@daum.net", 9]
df

Unnamed: 0,name,email,id
0,data,data@gmail.com,4
1,notebook,python@naver.com,7
2,macbook,jupyter@daum.net,8
3,iphone,iphone@daum.net,9


In [32]:
# column

In [33]:
df["addr"] = ["seoul", "pusan", "incheon", "anyang"]
df

Unnamed: 0,name,email,id,addr
0,data,data@gmail.com,4,seoul
1,notebook,python@naver.com,7,pusan
2,macbook,jupyter@daum.net,8,incheon
3,iphone,iphone@daum.net,9,anyang


In [34]:
# 데이터 삭제 : df.drop()

In [35]:
df.drop(index=[3], columns=["addr"])

Unnamed: 0,name,email,id
0,data,data@gmail.com,4
1,notebook,python@naver.com,7
2,macbook,jupyter@daum.net,8


In [36]:
df.columns[:-1]

Index(['name', 'email', 'id'], dtype='object')

In [41]:
df.loc[0:2, df.columns[:-1]]

Unnamed: 0,name,email,id
0,data,data@gmail.com,4
1,notebook,python@naver.com,7
2,macbook,jupyter@daum.net,8


In [44]:
df.loc[:-1]

Unnamed: 0,name,email,id,addr


In [45]:
df.iloc[:-1]

Unnamed: 0,name,email,id,addr
0,data,data@gmail.com,4,seoul
1,notebook,python@naver.com,7,pusan
2,macbook,jupyter@daum.net,8,incheon


#### startup file 설정
- `$ ipython profile create`
- `$ cd ~/.ipython/profile_default/startup`

#### 데이터프레임 함수들

In [48]:
# 1. apply : Series 객체에 있는 함수
# 특정 컬럼의 데이터를 하나씩 함수를 실행한 결과 데이터로 출력

In [54]:
def get_domain(email):
    return email.split("@")[1].split(".")[0]

get_domain("data@gmail.com")

'gmail'

In [58]:
df["domail"] = df["email"].apply(lambda email: email.split("@")[1].split(".")[0])
df

Unnamed: 0,name,email,id,addr,domail
0,data,data@gmail.com,4,seoul,gmail
1,notebook,python@naver.com,7,pusan,naver
2,macbook,jupyter@daum.net,8,incheon,daum
3,iphone,iphone@daum.net,9,anyang,daum


In [None]:
# 실습 데이터 프레임 만들기

In [59]:
!ls datas

makedata.py


In [61]:
import datas.makedata as md

In [90]:
md.get_name(), md.get_age()

('Alan', 30)

In [92]:
datas = md.make_data(5)
df = pd.DataFrame(datas)
df

Unnamed: 0,Age,Name
0,28,Billy
1,25,Alex
2,37,Alex
3,38,Anthony
4,38,Andrew


In [94]:
# df.append() : 두개의 데이터 프레임을 합칠때 사용

In [95]:
df1 = pd.DataFrame(md.make_data(5))
df2 = pd.DataFrame(md.make_data(5))

In [100]:
df3 = df1.append(df2)
df3.head(2)

Unnamed: 0,Age,Name
0,26,Billy
1,20,Anchal


In [101]:
df3.tail(2)

Unnamed: 0,Age,Name
3,21,Andrew
4,31,Anthony


In [107]:
# df.reset_index()
df3.reset_index(drop=True, inplace=True)

In [108]:
df3

Unnamed: 0,Age,Name
0,26,Billy
1,20,Anchal
2,33,Alvin
3,31,Jin
4,28,Billy
5,30,Alan
6,35,Alvin
7,29,Anchal
8,21,Andrew
9,31,Anthony


In [110]:
df1.append(df2, ignore_index=True)

Unnamed: 0,Age,Name
0,26,Billy
1,20,Anchal
2,33,Alvin
3,31,Jin
4,28,Billy
5,30,Alan
6,35,Alvin
7,29,Anchal
8,21,Andrew
9,31,Anthony


In [111]:
# pd.concat() : row나 column으로 데이터를 합쳐줄때 사용

In [118]:
df3 = pd.concat([df1, df2]).reset_index(drop=True)
df3

Unnamed: 0,Age,Name
0,26,Billy
1,20,Anchal
2,33,Alvin
3,31,Jin
4,28,Billy
5,30,Alan
6,35,Alvin
7,29,Anchal
8,21,Andrew
9,31,Anthony


In [119]:
pd.concat([df3, df1], axis=1)

Unnamed: 0,Age,Name,Age.1,Name.1
0,26,Billy,26.0,Billy
1,20,Anchal,20.0,Anchal
2,33,Alvin,33.0,Alvin
3,31,Jin,31.0,Jin
4,28,Billy,28.0,Billy
5,30,Alan,,
6,35,Alvin,,
7,29,Anchal,,
8,21,Andrew,,
9,31,Anthony,,


In [120]:
pd.concat([df3, df1], axis=1, join="inner")

Unnamed: 0,Age,Name,Age.1,Name.1
0,26,Billy,26,Billy
1,20,Anchal,20,Anchal
2,33,Alvin,33,Alvin
3,31,Jin,31,Jin
4,28,Billy,28,Billy


In [1]:
# df.groupby()
#  특정 칼럼의 중복되는 row 데이터를 합쳐서 새로운 데이터 프레임으로 만드는 방법
# 중복되는 데이터를 합칠때 결합함수를 사용해서 합쳐줍니다.
# 결합함수 : size, min, max, mean, sum ...

In [None]:
df = pd.DataFrame(md.make)

In [None]:
### DataFrame

import pandas as pd
import numpy as np

#### 1. 데이터 프레임 객체 생성
- 리스트 안에 딕셔너리로 생성
    - `[{},{},{}]` : `{column:value, ...}` > row
- 딕셔너리 안에 리스트로 생성 :
    - `{column1: [values], column2: [values]}` : `column1:[values]` > column

# 리스트의 딕셔너리

datas = [
    {"name": "data", "email": "data@gmail.com", "id": 1},
    {"name": "python", "email": "python@naver.com", "id": 2},
]
datas

df = pd.DataFrame(datas)
df

# 딕셔너리의 리스트

datas = df.to_dict("list")
datas

datas = {'name': ['data', 'python', "jupyter"],
         'email': ['data@gmail.com', 'python@naver.com', 'jupyter@daum.net'],
         'id': [1, 2, 3]}

df = pd.DataFrame(datas)
df

# 데이터 프레임의 변수 확인 : index, values, columns

df

df.index, df.columns, df.values

df.index = list("ABC")
df

df.dtypes

#### 2. 데이터의 선택, 수정, 추가, 삭제

# 데이터 선택 : row, column, [row, column]

df.index = [0, 1, 2]
df

# row : df.loc[]
df.loc[::-1]

df.loc[[0, 2]]

# column : []

df

df[["id", "name", "email"]]

# [row, column] : df.loc[row, column]

df.loc[::2, ["id", "email"]]

# 데이터 수정 : 데이터 선택 = 수정하는 데이터

df

df["id"] = [4, 5, 6]
df

np.array([["notebook", 7], ["macbook", 8]])

df.loc[1:, ["name", "id"]] = [["notebook", 7], ["macbook", 8]]
df

# 데이터 추가 : column, row

# row

len(df)

df.loc[len(df)] = ["iphone", "iphone@daum.net", 9]
df

# column

df["addr"] = ["seoul", "pusan", "incheon", "anyang"]
df

# 데이터 삭제 : df.drop()

df.drop(index=[3], columns=["addr"])

df.columns[:-1]

df.loc[0:2, df.columns[:-1]]

df.loc[:-1]

df.iloc[:-1]

#### startup file 설정
- `$ ipython profile create`
- `$ cd ~/.ipython/profile_default/startup`

#### 데이터프레임 함수들

# 1. apply : Series 객체에 있는 함수
# 특정 컬럼의 데이터를 하나씩 함수를 실행한 결과 데이터로 출력

def get_domain(email):
    return email.split("@")[1].split(".")[0]

get_domain("data@gmail.com")

df["domail"] = df["email"].apply(lambda email: email.split("@")[1].split(".")[0])
df

# 실습 데이터 프레임 만들기

!ls datas

import datas.makedata as md

md.get_name(), md.get_age()

datas = md.make_data(5)
df = pd.DataFrame(datas)
df

# df.append() : 두개의 데이터 프레임을 합칠때 사용

df1 = pd.DataFrame(md.make_data(5))
df2 = pd.DataFrame(md.make_data(5))

df3 = df1.append(df2)
df3.head(2)

df3.tail(2)

# df.reset_index()
df3.reset_index(drop=True, inplace=True)

df3

df1.append(df2, ignore_index=True)

# pd.concat() : row나 column으로 데이터를 합쳐줄때 사용

df3 = pd.concat([df1, df2]).reset_index(drop=True)
df3

pd.concat([df3, df1], axis=1)

pd.concat([df3, df1], axis=1, join="inner")

# df.groupby()
# 



















