# 15. 🦄 가랏, 몬스터볼! 전설의 포켓몬 찾아 삼만리

**캐글데이터를 이용하여 데이터에서 인사이트를 도출해내는 방법(EDA)을 경험해 보고, 이러한 분석기법의 필요성과 효용성을 알아본다.**

## 15-1. 들어가며

## 15-2. 안녕, 포켓몬과 인사해!

## 15-3. 포켓몬, 그 데이터는 어디서 구할까?

```bash
$ mkdir -p ~/aiffel/pokemon_eda/data
$ ln -s ~/data/* ~/aiffel/pokemon_eda/data
```

## 15-4. 포켓몬 데이터 불러오기

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
%config InlineBackend.figure_format = 'retina'
print('슝=3')

In [None]:
import os
csv_path = os.getenv("HOME") +"/aiffel/pokemon_eda/data/Pokemon.csv"
original_data = pd.read_csv(csv_path)
print('슝=3')

In [None]:
pokemon = original_data.copy()
print(pokemon.shape)
pokemon.head()

In [None]:
# 전설의 포켓몬 데이터셋
legendary = pokemon[pokemon["Legendary"] == True].reset_index(drop=True)
print(legendary.shape)
legendary.head()

In [None]:
# 일반 포켓몬 데이터셋
ordinary = pokemon[pokemon["Legendary"] == False].reset_index(drop=True)
print(ordinary.shape)
ordinary.head()

## 15-5. 전설의 포켓몬? 먼저 샅샅이 살펴보자! (1) 결측치와 전체 칼럼

In [None]:
pokemon.isnull().sum()

In [None]:
print(len(pokemon.columns))
pokemon.columns

## 15-6. 전설의 포켓몬? 먼저 샅샅이 살펴보자! (2) ID와 이름

In [None]:
len(set(pokemon["#"]))

In [None]:
pokemon[pokemon["#"] == 6]

In [None]:
len(set(pokemon["Name"]))

## 15-7. 전설의 포켓몬? 먼저 샅샅이 살펴보자! (3) 포켓몬의 속성

In [None]:
pokemon.loc[[6, 10]]

In [None]:
len(list(set(pokemon["Type 1"]))), len(list(set(pokemon["Type 2"])))

In [None]:
set(pokemon["Type 2"]) - set(pokemon["Type 1"])

In [None]:
types = list(set(pokemon["Type 1"]))
print(len(types))
print(types)

In [None]:
pokemon["Type 2"].isna().sum()

In [None]:
plt.figure(figsize=(10, 7))  # 화면 해상도에 따라 그래프 크기를 조정해 주세요.

plt.subplot(211)
sns.countplot(data=ordinary, x="Type 1", order=types).set_xlabel('')
plt.title("[Ordinary Pokemons]")

plt.subplot(212)
sns.countplot(data=legendary, x="Type 1", order=types).set_xlabel('')
plt.title("[Legendary Pokemons]")

plt.show()

In [None]:
# Type1별로 Legendary 의 비율을 보여주는 피벗 테이블
pd.pivot_table(pokemon, index="Type 1", values="Legendary").sort_values(by=["Legendary"], ascending=False)

In [None]:
plt.figure(figsize=(12, 10))  # 화면 해상도에 따라 그래프 크기를 조정해 주세요.

plt.subplot(211)
sns.countplot(data=ordinary, x="Type 2", order=types).set_xlabel('')
plt.title("[Ordinary Pokemons]")

plt.subplot(212)
sns.countplot(data=legendary, x="Type 2", order=types).set_xlabel('')
plt.title("[Legendary Pokemons]")

plt.show()

In [None]:
# Type2별로 Legendary 의 비율을 보여주는 피벗 테이블
pd.pivot_table(pokemon, index="Type 2", values="Legendary").sort_values(by=["Legendary"], ascending=False)

## 15-8. 전설의 포켓몬? 먼저 샅샅이 살펴보자! (4) 모든 스탯의 총합

In [None]:
stats = ["HP", "Attack", "Defense", "Sp. Atk", "Sp. Def", "Speed"]
stats

In [None]:
print("#0 pokemon: ", pokemon.loc[0, "Name"])
print("total: ", int(pokemon.loc[0, "Total"]))
print("stats: ", list(pokemon.loc[0, stats]))
print("sum of all stats: ", sum(list(pokemon.loc[0, stats])))

In [None]:
sum(pokemon['Total'].values == pokemon[stats].values.sum(axis=1))

In [None]:
fig, ax = plt.subplots()
fig.set_size_inches(12, 6)  # 화면 해상도에 따라 그래프 크기를 조정해 주세요.

sns.scatterplot(data=pokemon, x="Type 1", y="Total", hue="Legendary")
plt.show()

## 15-9. 전설의 포켓몬? 먼저 샅샅이 살펴보자! (5) 세부 스탯

In [None]:
figure, ((ax1, ax2), (ax3, ax4), (ax5, ax6)) = plt.subplots(nrows=3, ncols=2)
figure.set_size_inches(12, 18)  # 화면 해상도에 따라 그래프 크기를 조정해 주세요.

sns.scatterplot(data=pokemon, y="Total", x="HP", hue="Legendary", ax=ax1)
sns.scatterplot(data=pokemon, y="Total", x="Attack", hue="Legendary", ax=ax2)
sns.scatterplot(data=pokemon, y="Total", x="Defense", hue="Legendary", ax=ax3)
sns.scatterplot(data=pokemon, y="Total", x="Sp. Atk", hue="Legendary", ax=ax4)
sns.scatterplot(data=pokemon, y="Total", x="Sp. Def", hue="Legendary", ax=ax5)
sns.scatterplot(data=pokemon, y="Total", x="Speed", hue="Legendary", ax=ax6)
plt.show()

## 15-10. 전설의 포켓몬? 먼저 샅샅이 살펴보자! (6) 세대

In [None]:
plt.figure(figsize=(12, 10))   # 화면 해상도에 따라 그래프 크기를 조정해 주세요.

plt.subplot(211)
sns.countplot(data=ordinary, x="Generation").set_xlabel('')
plt.title("[All Pkemons]")
plt.subplot(212)
sns.countplot(data=legendary, x="Generation").set_xlabel('')
plt.title("[Legendary Pkemons]")
plt.show()

## 15-11. 전설의 포켓몬과 일반 포켓몬, 그 차이는? (1) Total값

In [None]:
fig, ax = plt.subplots()
fig.set_size_inches(8, 4)

sns.scatterplot(data=legendary, y="Type 1", x="Total")
plt.show()

In [None]:
print(sorted(list(set(legendary["Total"]))))

In [None]:
fig, ax = plt.subplots()
fig.set_size_inches(8, 4)

sns.countplot(data=legendary, x="Total")
plt.show()

In [None]:
round(65 / 9, 2)

In [None]:
print(sorted(list(set(ordinary["Total"]))))

In [None]:
len(sorted(list(set(ordinary["Total"]))))

In [None]:
round(735 / 195, 2)

## 15-12. 전설의 포켓몬과 일반 포켓몬, 그 차이는? (2) 이름

In [None]:
n1, n2, n3, n4, n5 = legendary[3:6], legendary[14:24], legendary[25:29], legendary[46:50], legendary[52:57]
names = pd.concat([n1, n2, n3, n4, n5]).reset_index(drop=True)
names

In [None]:
formes = names[13:23]
formes

In [None]:
legendary["name_count"] = legendary["Name"].apply(lambda i: len(i))    
legendary.head()

In [None]:
ordinary["name_count"] = ordinary["Name"].apply(lambda i: len(i))    
ordinary.head()

In [None]:
plt.figure(figsize=(12, 10))   # 화면 해상도에 따라 그래프 크기를 조정해 주세요.

plt.subplot(211)
sns.countplot(data=legendary, x="name_count").set_xlabel('')
plt.title("Legendary")
plt.subplot(212)
sns.countplot(data=ordinary, x="name_count").set_xlabel('')
plt.title("Ordinary")
plt.show()

In [None]:
print(round(len(legendary[legendary["name_count"] > 9]) / len(legendary) * 100, 2), "%")

In [None]:
print(round(len(ordinary[ordinary["name_count"] > 9]) / len(ordinary) * 100, 2), "%")

## 15-13. 모델에 넣기 위해! 데이터 전처리하기 (1) 이름의 길이가 10 이상인가?

In [None]:
pokemon["name_count"] = pokemon["Name"].apply(lambda i: len(i))
pokemon.head()

In [None]:
pokemon["long_name"] = pokemon["name_count"] >= 10
pokemon.head()

## 15-14. 모델에 넣기 위해! 데이터 전처리하기 (2) 이름에 자주 쓰이는 토큰 추출

In [None]:
pokemon["Name_nospace"] = pokemon["Name"].apply(lambda i: i.replace(" ", ""))
pokemon.tail()

In [None]:
pokemon["name_isalpha"] = pokemon["Name_nospace"].apply(lambda i: i.isalpha())
pokemon.head()

In [None]:
print(pokemon[pokemon["name_isalpha"] == False].shape)
pokemon[pokemon["name_isalpha"] == False]

In [None]:
pokemon = pokemon.replace(to_replace="Nidoran♀", value="Nidoran X")
pokemon = pokemon.replace(to_replace="Nidoran♂", value="Nidoran Y")
pokemon = pokemon.replace(to_replace="Farfetch'd", value="Farfetchd")
pokemon = pokemon.replace(to_replace="Mr. Mime", value="Mr Mime")
pokemon = pokemon.replace(to_replace="Porygon2", value="Porygon")
pokemon = pokemon.replace(to_replace="Ho-oh", value="Ho Oh")
pokemon = pokemon.replace(to_replace="Mime Jr.", value="Mime Jr")
pokemon = pokemon.replace(to_replace="Porygon-Z", value="Porygon Z")
pokemon = pokemon.replace(to_replace="Zygarde50% Forme", value="Zygarde Forme")

pokemon.loc[[34, 37, 90, 131, 252, 270, 487, 525, 794]]

In [None]:
pokemon["Name_nospace"] = pokemon["Name"].apply(lambda i: i.replace(" ", ""))
pokemon["name_isalpha"] = pokemon["Name_nospace"].apply(lambda i: i.isalpha())
pokemon[pokemon["name_isalpha"] == False]

In [None]:
import re

In [None]:
name = "CharizardMega Charizard X"

In [None]:
name_split = name.split(" ")
name_split

In [None]:
temp = name_split[0]
temp

In [None]:
tokens = re.findall('[A-Z][a-z]*', temp)
tokens

In [None]:
tokens = []
for part_name in name_split:
    a = re.findall('[A-Z][a-z]*', part_name)
    tokens.extend(a)
tokens

In [None]:
def tokenize(name):
    name_split = name.split(" ")
    
    tokens = []
    for part_name in name_split:
        a = re.findall('[A-Z][a-z]*', part_name)
        tokens.extend(a)
        
    return np.array(tokens)

In [None]:
name = "CharizardMega Charizard X"
tokenize(name)

In [None]:
all_tokens = list(legendary["Name"].apply(tokenize).values)

token_set = []
for token in all_tokens:
    token_set.extend(token)

print(len(set(token_set)))
print(token_set)

In [None]:
from collections import Counter

In [None]:
a = [1, 1, 0, 0, 0, 1, 1, 2, 3]
Counter(a)

In [None]:
Counter(a).most_common()

In [None]:
most_common = Counter(token_set).most_common(10)
most_common

In [None]:
for token, _ in most_common:
    # pokemon[token] = ... 형식으로 사용하면 뒤에서 warning이 발생합니다
    pokemon[f"{token}"] = pokemon["Name"].str.contains(token)

pokemon.head(10)

## 15-15. 모델에 넣기 위해! 데이터 전처리하기 (3) Type1 & 2! 범주형 데이터 전처리하기

In [None]:
print(types)

In [None]:
for t in types:
    pokemon[t] = (pokemon["Type 1"] == t) | (pokemon["Type 2"] == t)
    
pokemon[[["Type 1", "Type 2"] + types][0]].head()

## 15-16. 가랏, 몬스터볼! (1) 가장 기본 데이터로 만드는 베이스라인

In [None]:
print(original_data.shape)
original_data.head()

In [None]:
original_data.columns

In [None]:
features = ['Total', 'HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def', 'Speed', 'Generation']

In [None]:
target = 'Legendary'

In [None]:
X = original_data[features]
print(X.shape)
X.head()

In [None]:
y = original_data[target]
print(y.shape)
y.head()

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=15)

print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

## 15-17. 가랏, 몬스터볼! (2) 의사 결정 트리 모델 학습시키기

In [None]:
from sklearn.tree import DecisionTreeClassifier
print('슝=3')

In [None]:
model = DecisionTreeClassifier(random_state=25)
model

In [None]:
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print('슝=3')

In [None]:
from sklearn.metrics import confusion_matrix
confusion_matrix(y_test, y_pred)

In [None]:
len(legendary)

In [None]:
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))

## 15-18. 가랏, 몬스터볼! (3) 피쳐 엔지니어링 데이터로 학습시키면 얼마나 차이가 날까?

In [None]:
print(len(pokemon.columns))
print(pokemon.columns)

In [None]:
features = ['Total', 'HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def', 'Speed', 'Generation', 
            'name_count', 'long_name', 'Forme', 'Mega', 'Mewtwo', 'Kyurem', 'Deoxys', 'Hoopa', 
            'Latias', 'Latios', 'Kyogre', 'Groudon', 'Poison', 'Water', 'Steel', 'Grass', 
            'Bug', 'Normal', 'Fire', 'Fighting', 'Electric', 'Psychic', 'Ghost', 'Ice', 
            'Rock', 'Dark', 'Flying', 'Ground', 'Dragon', 'Fairy']

len(features)

In [None]:
target = "Legendary"
target

In [None]:
X = pokemon[features]
print(X.shape)
X.head()

In [None]:
y = pokemon[target]
print(y.shape)
y.head()

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=15)

print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

## 15-19. 가랏, 몬스터볼! (4) 의사 결정 트리 모델 다시 학습시키기

In [None]:
model = DecisionTreeClassifier(random_state=25)
model

In [None]:
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print('슝=3')

In [None]:
confusion_matrix(y_test, y_pred)

In [None]:
print(classification_report(y_test, y_pred))

## 15-20. 마무리