# 資料轉換基礎 (Data Conversion Basics)

In [1]:
import pandas as pd

## 資料格式轉換

### List變DataFrame

In [2]:
# list變dataframe
i = ["UA", "健身運動", "好穿好看"]
i_df = pd.DataFrame(i)
i_df

Unnamed: 0,0
0,UA
1,健身運動
2,好穿好看


In [3]:
i_df = pd.DataFrame(i, columns=(["tag"]))
i_df

Unnamed: 0,tag
0,UA
1,健身運動
2,好穿好看


### String變List，再變DataFrame

In [4]:
# str變list, 再變df
i = "UA,健身運動,運動內衣"
i_list = i.split(",")  # str, list
i_list

['UA', '健身運動', '運動內衣']

In [5]:
i_df = pd.DataFrame(i_list)
i_df

Unnamed: 0,0
0,UA
1,健身運動
2,運動內衣


In [6]:
i_df = pd.DataFrame(i_list, columns=(["標籤"]))
i_df

Unnamed: 0,標籤
0,UA
1,健身運動
2,運動內衣


### List變String

In [7]:
# list變str
i = ["UA", "健身運動", "好穿好看"]
"/".join(i)

'UA/健身運動/好穿好看'

In [8]:
"".join(i)

'UA健身運動好穿好看'

### 問題: 把下列list結合成str, 中間不要隔開

In [9]:
j = ["今天", "天氣", "很好"]
# 請在這裡解答

"".join(j)

'今天天氣很好'

## eval用法

eval是Python的一個內建函式，這個函式的作用是，返回傳入字串的表示式的結果

In [10]:
a = "[[1,2], [3,4], [5,6], [7,8], [9,0]]"
b = eval(a)
b

[[1, 2], [3, 4], [5, 6], [7, 8], [9, 0]]

In [11]:
type(b)

list

In [12]:
a = "{1: 'a', 2: 'b'}"
b = eval(a)
b

{1: 'a', 2: 'b'}

In [13]:
type(b)

dict

In [14]:
a = "([1,2], [3,4], [5,6], [7,8], [9,0])"
b = eval(a)
b

([1, 2], [3, 4], [5, 6], [7, 8], [9, 0])

In [15]:
type(b)

tuple

In [16]:
j = "('UA','健身運動','運動內衣')"
j_tuple = eval(j)  # str->tuple
j_tuple

('UA', '健身運動', '運動內衣')

In [17]:
j_df = pd.DataFrame(j_tuple)  # tuple->df
j_df

Unnamed: 0,0
0,UA
1,健身運動
2,運動內衣


### eval應用與資料格式轉換

In [18]:
liststr = "[{'user': 'ammou', 'content': '覺得真的頗亂？'},{'user': 'mary', 'content': '我很開心'}]"

liststr_list = eval(liststr)  # eval傳回字串表示式結果, 即一個list
liststr_list

[{'user': 'ammou', 'content': '覺得真的頗亂？'}, {'user': 'mary', 'content': '我很開心'}]

In [19]:
liststr_list_df = pd.DataFrame(liststr_list)  # list轉換為DataFrame
liststr_list_df

Unnamed: 0,user,content
0,ammou,覺得真的頗亂？
1,mary,我很開心


### 問題:請讀入PTT_運動內衣_onepage資料.csv後，第一列留言資料展開

In [20]:
underwearData = pd.read_csv("PTT_運動內衣_onepage資料.csv")
test = underwearData["留言內容"].iloc[0]

eval(test)

[{'type': '推',
  'user': 'justoncetime',
  'content': '可惡的亂板人 (#‵′)凸',
  'ipdatetime': '05/30 22:50'},
 {'type': '推',
  'user': 'sukiyasuki',
  'content': '看了這個公告讓我好害怕0.0感謝版主提醒，再次去撤照',
  'ipdatetime': '05/30 22:52'},
 {'type': '→',
  'user': 'sukiyasuki',
  'content': '片！',
  'ipdatetime': '05/30 22:52'},
 {'type': '推',
  'user': 'zebra1986',
  'content': '版主辛苦了！',
  'ipdatetime': '05/30 23:01'},
 {'type': '推', 'user': 'fakeID', 'content': '唉。', 'ipdatetime': '05/30 23:40'},
 {'type': '→', 'user': 'jqk910', 'content': '無奈', 'ipdatetime': '05/30 23:50'},
 {'type': '→',
  'user': 'orgasm5566',
  'content': '騷擾的人到底是存什麼心態啊，就不能單純欣賞內衣的',
  'ipdatetime': '05/31 00:25'},
 {'type': '→',
  'user': 'orgasm5566',
  'content': '美，給予真誠的讚美就好嗎，你們的舉動都正在一點一滴',
  'ipdatetime': '05/31 00:26'},
 {'type': '→',
  'user': 'orgasm5566',
  'content': '地澆熄板友的熱情與信任。一點都不尊重發文者，最後就',
  'ipdatetime': '05/31 00:26'},
 {'type': '→',
  'user': 'orgasm5566',
  'content': '是不會再有任何一篇心得文',
  'ipdatetime': '05/31 00:26'},
 {

## List, Dict, Str變DataFrame

### Dict包含一筆資料

In [21]:
dic = {
    "type": "推",
    "user": "ammou",
    "content": "覺得真的頗亂，所以20%以上什麼都無法領嗎？",
    "ipdatetime": "07/25 11:24",
}

### 問題: 請將上述dic轉為df

In [22]:
# 請在這裡解答

dic_df = pd.DataFrame([dic])
dic_df

Unnamed: 0,type,user,content,ipdatetime
0,推,ammou,覺得真的頗亂，所以20%以上什麼都無法領嗎？,07/25 11:24


### Dict包含一筆資料，Dict格式以str表示

In [23]:
strdic = "{'type': '推', 'user': 'ammou', 'content': '覺得真的頗亂，所以20%以上什麼都無法領嗎？', 'ipdatetime': '07/25 11:24'}"

### 請將str-dic轉成DataFrame

In [24]:
eval(strdic)

{'type': '推',
 'user': 'ammou',
 'content': '覺得真的頗亂，所以20%以上什麼都無法領嗎？',
 'ipdatetime': '07/25 11:24'}

In [25]:
new2 = pd.DataFrame([eval(strdic)])  # 將str-dic-df
new2

Unnamed: 0,type,user,content,ipdatetime
0,推,ammou,覺得真的頗亂，所以20%以上什麼都無法領嗎？,07/25 11:24


### Dict List包含二筆資料

In [26]:
diclist = [
    {
        "type": "推",
        "user": "ammou",
        "content": "覺得真的頗亂，所以20%以上什麼都無法領嗎？",
        "ipdatetime": "07/25 11:24",
    },
    {
        "type": "推",
        "user": "mary",
        "content": "覺得很開心，大家太棒了",
        "ipdatetime": "07/26 12:00",
    },
]

### 請將diclist變成DataFrame

In [27]:
new3 = pd.DataFrame(diclist)  # list轉為df
new3

Unnamed: 0,type,user,content,ipdatetime
0,推,ammou,覺得真的頗亂，所以20%以上什麼都無法領嗎？,07/25 11:24
1,推,mary,覺得很開心，大家太棒了,07/26 12:00


### Dict List包含二筆資料, Dict格式以str表示

In [28]:
dicliststr = str(
    [
        {
            "type": "推",
            "user": "ammou",
            "content": "覺得真的頗亂，所以20%以上什麼都無法領嗎？",
            "ipdatetime": "07/25 11:24",
        },
        {
            "type": "推",
            "user": "mary",
            "content": "覺得很開心，大家太棒了",
            "ipdatetime": "07/26 12:00",
        },
    ]
)

### 請將dicliststr變成DataFrame

In [29]:
new4 = pd.DataFrame(eval(dicliststr))  # 將str->list->df
new4

Unnamed: 0,type,user,content,ipdatetime
0,推,ammou,覺得真的頗亂，所以20%以上什麼都無法領嗎？,07/25 11:24
1,推,mary,覺得很開心，大家太棒了,07/26 12:00


### 問題: 請將以下dic轉為DataFrame

In [30]:
data = {
    "uid": [1, 2, 3, 4, 5],
    "name": ["Howard", "Lily", "Kai", "Jojo", "Ivan"],
    "age": [25, 21, 35, 18, 15],
}
# 請在這裡解答

data_df = pd.DataFrame(data)
data_df

Unnamed: 0,uid,name,age
0,1,Howard,25
1,2,Lily,21
2,3,Kai,35
3,4,Jojo,18
4,5,Ivan,15


### 問題: 請將以下字串變為df

In [31]:
str1 = str(
    [
        {"uid": "001", "name": "John", "grade": "A"},
        {"uid": "002", "name": "mary", "grade": "B"},
    ]
)
# 請在這裡解答

str1_df = pd.DataFrame(eval(str1))
str1_df

Unnamed: 0,uid,name,grade
0,1,John,A
1,2,mary,B


## 迴圈運用

### 串列與迴圈

In [32]:
listloop = ["dog", "cat", "tiger"]
for value in listloop:
    print(value)

dog
cat
tiger


### 單迴圈,將listloop1都乘以2存到listloop2

In [33]:
listloop1 = [1, 2, 3, 4]

listloop2 = []
for i in listloop1:
    j = i * 2
    listloop2.append(j)
print(listloop2)

[2, 4, 6, 8]


### 單迴圈

In [34]:
firstlist = []
for j in range(5):
    firstlist.append(j * "#")
print(firstlist)

['', '#', '##', '###', '####']


### 問題: 出現"#","##","###"

In [35]:
# 請在這裡解答

["#" * i for i in range(1, 4)]

['#', '##', '###']

### 雙重迴圈

In [36]:
secondlist = []
for i in range(3):
    firstlist = []
    for j in range(5):
        firstlist.append(j * "#")
    secondlist.append(firstlist)
print(secondlist)

[['', '#', '##', '###', '####'], ['', '#', '##', '###', '####'], ['', '#', '##', '###', '####']]


### 問題:請列出以下結果[['#', '##', '###', '####'], ['#', '##', '###', '####']]

In [37]:
# 請在這裡解答

[["#" * i for i in range(1, 5)] for _ in range(2)]

[['#', '##', '###', '####'], ['#', '##', '###', '####']]

### 問題: 請印出以下九九乘法結果

```
[[1, 2, 3, 4, 5, 6, 7, 8, 9], [2, 4, 6, 8, 10, 12, 14, 16, 18], [3, 6, 9, 12, 15, 18, 21, 24, 27],
[4, 8, 12, 16, 20, 24, 28, 32, 36], [5, 10, 15, 20, 25, 30, 35, 40, 45], [6, 12, 18, 24, 30, 36, 42, 48, 54],
[7, 14, 21, 28, 35, 42, 49, 56, 63], [8, 16, 24, 32, 40, 48, 56, 64, 72], [9, 18, 27, 36, 45, 54, 63, 72, 81]]
```

In [38]:
# 請在這裡解答

[[i * j for j in range(1, 10)] for i in range(1, 10)]

[[1, 2, 3, 4, 5, 6, 7, 8, 9],
 [2, 4, 6, 8, 10, 12, 14, 16, 18],
 [3, 6, 9, 12, 15, 18, 21, 24, 27],
 [4, 8, 12, 16, 20, 24, 28, 32, 36],
 [5, 10, 15, 20, 25, 30, 35, 40, 45],
 [6, 12, 18, 24, 30, 36, 42, 48, 54],
 [7, 14, 21, 28, 35, 42, 49, 56, 63],
 [8, 16, 24, 32, 40, 48, 56, 64, 72],
 [9, 18, 27, 36, 45, 54, 63, 72, 81]]

## Str應用

### 分割字串並取出字串某部分

In [39]:
email = "sandrahsu33@nkust.edu.tw"
email.split("@")

['sandrahsu33', 'nkust.edu.tw']

In [40]:
# 請取出@之前的文字
email.split("@")[0]

'sandrahsu33'

### 問題:請取出@之後的文字

In [41]:
email.split("@")[1]

'nkust.edu.tw'

### 請去除下列str中無意義的字元, @

In [42]:
liststr1 = "@@@@空拍機好看"
liststr1 = liststr1.replace("@", "")
liststr1

'空拍機好看'

### 請去除下列list中無意義的字元, @

In [43]:
liststr2 = ["@@@@空拍機好看", "高雄燈光很美@"]

listtemp = []
for i in liststr2:
    listtemp.append(i.replace("@", ""))

print(listtemp)

['空拍機好看', '高雄燈光很美']


### 問題: 請去除下列list中無意義的字元, @#%, 讓["@@@@空拍機好看#%","#%高雄燈光很美@"]變為[['空拍機好看'], ['高雄燈光很美']]

In [44]:
liststr3 = ["@@@@空拍機好看#%", "#%高雄燈光很美@"]

removeword = ["@", "#", "%"]
# 請在這裡解答

import functools

[functools.reduce(lambda s, w: s.replace(w, ""), removeword, s) for s in liststr3]

['空拍機好看', '高雄燈光很美']