## Pandas 사용
- 두가지 데이터 타입 
    - Series : index & value로 구성
    - Dataframe : index, column, value로 구성

**지금부터는 여러분도 같이 타이핑하면서 따라오시면 좋겠습니다**

In [None]:
!pip install pandas numpy 

In [1]:
import numpy as np
np.random.random(10)

array([0.61079227, 0.04187874, 0.93455448, 0.44157735, 0.84133445,
       0.37751686, 0.14245084, 0.15362394, 0.63534479, 0.74319473])

In [2]:
# series
import pandas as pd
import numpy as np

mySeries = pd.Series(np.random.random(10))
mySeries

0    0.278415
1    0.724640
2    0.909133
3    0.674594
4    0.148184
5    0.580957
6    0.178732
7    0.277063
8    0.429572
9    0.846867
dtype: float64

In [3]:
# 잠시 numpy

# 행렬
np.array([1,2,3])

array([1, 2, 3])

In [4]:
myArray = np.array([
    [1,2,3],
    [4,5,6],
    [7,8,9]
])

myArray

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [5]:
# 행렬연산도 가능하다
myArray @ myArray

array([[ 30,  36,  42],
       [ 66,  81,  96],
       [102, 126, 150]])

In [6]:
myArray.shape

(3, 3)

In [6]:
# 다시 pandas로 돌아온다.
mySeries = pd.Series(
          data = ['apple', 'banana', 'kiwi'], 
          index=['a', 'b', 'c'])

In [7]:
mySeries

a     apple
b    banana
c      kiwi
dtype: object

In [7]:
mySeries.values, mySeries.index

(array(['apple', 'banana', 'kiwi'], dtype=object),
 Index(['a', 'b', 'c'], dtype='object'))

In [9]:
mySeries['c']

'kiwi'

In [10]:
# 배열의 값을 바꿀수 있다.

mySeries['a'] = 'peach'
mySeries

a     peach
b    banana
c      kiwi
dtype: object

In [11]:
# 배열을 추가할 수 있다.

mySeries['d'] = "apple"
mySeries

a     peach
b    banana
c      kiwi
d     apple
dtype: object

In [11]:
# 브로드캐스팅도 가능하다

mySeries * 2

a      peachpeach
b    bananabanana
c        kiwikiwi
d      appleapple
dtype: object

In [13]:
mySeries['b':'c']

b    banana
c      kiwi
dtype: object

In [14]:
mySeries[:'c']

a     peach
b    banana
c      kiwi
dtype: object

In [15]:
# 두칸씩 점프해서 보여줄수도 있다.

mySeries[::2]

a    peach
c     kiwi
dtype: object

In [16]:
# 딕셔너리로 데이터를 선언할 수도 있다. 

mySeries2 = pd.Series({'d' : 'peach',
           'e' : 'tomato',
           'f' : 'kiwi'})
mySeries2

d     peach
e    tomato
f      kiwi
dtype: object

In [18]:
mySeries

a     peach
b    banana
c      kiwi
d     apple
dtype: object

In [19]:
mySeries2

d     peach
e    tomato
f      kiwi
dtype: object

In [17]:
# NaN은 오류값, None과 비슷하다

result = mySeries + mySeries2
result

a           NaN
b           NaN
c           NaN
d    applepeach
e           NaN
f           NaN
dtype: object

In [20]:
# isnull 메서드로 null값만 필터할 수 있다.
result.isnull()

a     True
b     True
c     True
d    False
e     True
f     True
dtype: bool

In [21]:
# masking
result[result.isnull()] = mySeries
result

a         peach
b        banana
c          kiwi
d    applepeach
e           NaN
f           NaN
dtype: object

In [22]:
result[result.isnull()] = mySeries2
result

a         peach
b        banana
c          kiwi
d    applepeach
e        tomato
f          kiwi
dtype: object

### Dataframe에 대해서 알아봅시다.
- 리스트 안에 딕셔너리
- 딕셔너리 안에 리스트

In [23]:
myDataframe = pd.DataFrame([
    {"name" : "easy", "email" : "easy@easy.com"},
    {"name" : "data", "email" : "data@naver.com"},
    {"name" : "science", "email" : "science@gmail.com"}
])

myDataframe

Unnamed: 0,name,email
0,easy,easy@easy.com
1,data,data@naver.com
2,science,science@gmail.com


In [24]:
# 딕셔너리 안에 리스트

myDataframe = pd.DataFrame({
    "name" : ["easy", "data", "science"],
    "email" : ["easy@easy.com", "data@naver.com", "science@gmail.com"]
})
myDataframe

Unnamed: 0,name,email
0,easy,easy@easy.com
1,data,data@naver.com
2,science,science@gmail.com


In [25]:
# 인덱스를 추가할 수도 있다.
myDataframe = pd.DataFrame({
    "name" : ["easy", "data", "science"],
    "email" : ["easy@easy.com", "data@naver.com", "science@gmail.com"]
}, index=['a','b','c'])

myDataframe

Unnamed: 0,name,email
a,easy,easy@easy.com
b,data,data@naver.com
c,science,science@gmail.com


In [27]:
# 다음과 같이 바꿀 수도 있다. 

myDataframe.index = 0,1,2
myDataframe

Unnamed: 0,name,email
0,easy,easy@easy.com
1,data,data@naver.com
2,science,science@gmail.com


In [29]:
myDataframe.columns, myDataframe.values

(Index(['name', 'email'], dtype='object'),
 array([['easy', 'easy@easy.com'],
        ['data', 'data@naver.com'],
        ['science', 'science@gmail.com']], dtype=object))

In [28]:
myDataframe.index

Index([0, 1, 2], dtype='int64')

In [30]:
myDataframe

Unnamed: 0,name,email
0,easy,easy@easy.com
1,data,data@naver.com
2,science,science@gmail.com


In [32]:
# row 선택 : loc

myDataframe.loc[1]

name               data
email    data@naver.com
Name: 1, dtype: object

In [33]:
myDataframe.loc[1]['name']

'data'

In [37]:
# column 선택 : 컬럼 이름으로
myDataframe['email'][1]

'data@naver.com'

In [39]:
myDataframe.iloc[1]

name               data
email    data@naver.com
Name: 1, dtype: object

In [40]:
# 행추가

myDataframe.loc[3] = {'name' : 'gangnam', "email" : 'gangnam@gmail.com'}
myDataframe

Unnamed: 0,name,email
0,easy,easy@easy.com
1,data,data@naver.com
2,science,science@gmail.com
3,gangnam,gangnam@gmail.com


In [29]:
# 기존 데이터를 변형해서 print 할 수 있다.

myDataframe.loc[0:2, ["email", 'name']]

Unnamed: 0,email,name
0,easy@easy.com,easy
1,data@naver.com,data
2,science@gmail.com,science


In [30]:
# 데이터 타입을 볼 수도 있다.
myDataframe.dtypes

name     object
email    object
dtype: object

In [42]:
# 상위 행들만 관찰
myDataframe.head(2)

Unnamed: 0,name,email
0,easy,easy@easy.com
1,data,data@naver.com


In [43]:
# 하위 행들만 관찰
myDataframe.tail(3)

Unnamed: 0,name,email
1,data,data@naver.com
2,science,science@gmail.com
3,gangnam,gangnam@gmail.com


In [44]:
# 기능들에 대해서 배워보자.
# apply, concat, groupby, merge
import random


def create_random_table(num_rows) :
    """
    랜덤한 테이블을 만드는 함수
    num_rows : 원하는 행의 갯수를 입력하라.
    """
    fruits = ['apple', 'banana', 'kiwi', 'orange', 'tomato', 'mango', 'strawberry']
    emails = ['gmail.com', 'naver.com', 'outlook.com']

    my_rows = []
    for _ in range(num_rows) :
        fruit = random.choice(fruits)
        email = random.choice(emails)
        my_rows.append({"name" : fruit, "email" : f"{fruit}@{email}"})
    return my_rows

df = create_random_table(3)
df = pd.DataFrame(df)
df

Unnamed: 0,name,email
0,mango,mango@outlook.com
1,strawberry,strawberry@outlook.com
2,strawberry,strawberry@gmail.com


In [47]:
# apply : 함수를 적용해준다.
# domain을 뽑아봅시다.

def extract_domain(email) :
    domain = email.split("@")[1]
    domain = domain.replace(".com", "")
    return domain

df['email'].apply(extract_domain)

0    outlook
1    outlook
2      gmail
Name: email, dtype: object

In [48]:
# lambda를 이용해서 추출할 수도 있다.

df['domain'] = df['email'].apply(lambda x : x.split("@")[1].replace(".com",""))
df

Unnamed: 0,name,email,domain
0,mango,mango@outlook.com,outlook
1,strawberry,strawberry@outlook.com,outlook
2,strawberry,strawberry@gmail.com,gmail


In [49]:
df2 = create_random_table(8)
df2 = pd.DataFrame(df2)
df2

Unnamed: 0,name,email
0,strawberry,strawberry@outlook.com
1,orange,orange@gmail.com
2,apple,apple@outlook.com
3,kiwi,kiwi@gmail.com
4,banana,banana@outlook.com
5,banana,banana@gmail.com
6,strawberry,strawberry@naver.com
7,strawberry,strawberry@outlook.com


In [52]:
# concat : 데이터를 이어 붙일 때 사용

pd.concat([df, df2], axis=0).reset_index(drop=True)
# axis = 1은 가로로 붙인다.

Unnamed: 0,name,email,domain
0,mango,mango@outlook.com,outlook
1,strawberry,strawberry@outlook.com,outlook
2,strawberry,strawberry@gmail.com,gmail
3,strawberry,strawberry@outlook.com,
4,orange,orange@gmail.com,
5,apple,apple@outlook.com,
6,kiwi,kiwi@gmail.com,
7,banana,banana@outlook.com,
8,banana,banana@gmail.com,
9,strawberry,strawberry@naver.com,


In [53]:
# value 값을 바탕으로 sorting도 진행할 수 있다. 

df2.sort_values(by="name")

Unnamed: 0,name,email
2,apple,apple@outlook.com
4,banana,banana@outlook.com
5,banana,banana@gmail.com
3,kiwi,kiwi@gmail.com
1,orange,orange@gmail.com
0,strawberry,strawberry@outlook.com
6,strawberry,strawberry@naver.com
7,strawberry,strawberry@outlook.com


In [54]:
# Merge에 대해서
# 공유하는 키 값이 존재하는 데이터를 합칠 때 사용

cars = pd.DataFrame([
    {"name" : "ramborgini", "color" : "red", "engine" : "v12", "displacement" : 4000},
    {"name" : "audiA4" , "color" : "black", "engine" : "v6", "displacement" : 2000},
    {"name" : "benz", "color" : "blue", "engine" : "turbo disel", "displacement" : 2000}
])
cars

Unnamed: 0,name,color,engine,displacement
0,ramborgini,red,v12,4000
1,audiA4,black,v6,2000
2,benz,blue,turbo disel,2000


In [55]:
driver = pd.DataFrame([
    {"driver" : "Juliani" , "age" : 36, "name" : "ramborgini"},
    {"driver" : "Ahmer" , "age" : 40, "name" : "ramborgini"},
    {"driver" : "Boruto" , "age" : 50, "name" : "benz"},
    {"driver" : "Panda" , "age" : 45, "name" : "audiA4"},
    {"driver" : "Bear", "age" : 33, "name" : "lexus"}
])

driver

Unnamed: 0,driver,age,name
0,Juliani,36,ramborgini
1,Ahmer,40,ramborgini
2,Boruto,50,benz
3,Panda,45,audiA4
4,Bear,33,lexus


In [56]:
# 값들을 sorting 해줄수도 있다.

driver.sort_values(by='age')

Unnamed: 0,driver,age,name
4,Bear,33,lexus
0,Juliani,36,ramborgini
1,Ahmer,40,ramborgini
3,Panda,45,audiA4
2,Boruto,50,benz


In [41]:
# name이 같을 때, 데이터들을 merge 해보자

pd.merge(driver, cars, on='name')

Unnamed: 0,driver,age,name,color,engine,displacement
0,Juliani,36,ramborgini,red,v12,4000
1,Ahmer,40,ramborgini,red,v12,4000
2,Boruto,50,benz,blue,turbo disel,2000
3,Panda,45,audiA4,black,v6,2000


In [42]:
# merge를 하는 방식은 
# left : 왼쪽에 있는 것들에 merge
# right : 오른쪽에 있는 것들에 merge
# outer : 합집합으로 merge
# inner : 교집합으로 merge

pd.merge(cars, driver, on='name', how='outer')

Unnamed: 0,name,color,engine,displacement,driver,age
0,ramborgini,red,v12,4000.0,Juliani,36
1,ramborgini,red,v12,4000.0,Ahmer,40
2,audiA4,black,v6,2000.0,Panda,45
3,benz,blue,turbo disel,2000.0,Boruto,50
4,lexus,,,,Bear,33


In [57]:
# groupby에 대해서 배워보자

df = pd.DataFrame([
    {"name" : "easy", "age" : 30, "level" : "A"},
    {"name" : "data", "age" : 28, "level" : "B"},
    {"name" : "science", "age" : 31, "level" : "B"},
    {"name" : "bob", "age": 40, "level" : "C" },
    {"name" : "henry", "age" : 38, "level" : "B"}

])

df

Unnamed: 0,name,age,level
0,easy,30,A
1,data,28,B
2,science,31,B
3,bob,40,C
4,henry,38,B


In [44]:
df.groupby("level")['age'].mean()

level
A    30.000000
B    32.333333
C    40.000000
Name: age, dtype: float64

In [45]:
df.groupby("level")['name'].count()

level
A    1
B    3
C    1
Name: name, dtype: int64

In [46]:
df.describe()

Unnamed: 0,age
count,5.0
mean,33.4
std,5.272571
min,28.0
25%,30.0
50%,31.0
75%,38.0
max,40.0


In [47]:
# pivot table
# 1. pivot table은 데이터를 원하는 모양으로 변경해주는 방법
# 2. pivot과 pivot_table이 있다.

In [58]:
df.head()

Unnamed: 0,name,age,level
0,easy,30,A
1,data,28,B
2,science,31,B
3,bob,40,C
4,henry,38,B


In [59]:
# 새로운 데이터인 weight를 정의

df['weight'] = np.random.randint(50,100,len(df))

In [60]:
df['gender'] = np.random.choice(['M','F'], len(df))

In [61]:
df

Unnamed: 0,name,age,level,weight,gender
0,easy,30,A,58,M
1,data,28,B,68,F
2,science,31,B,70,M
3,bob,40,C,93,F
4,henry,38,B,84,F


In [62]:
# 데이터 재포맷팅

df = df[['name', 'gender', 'level', 'weight']]
df

Unnamed: 0,name,gender,level,weight
0,easy,M,A,58
1,data,F,B,68
2,science,M,B,70
3,bob,F,C,93
4,henry,F,B,84


In [63]:
df.pivot(index='gender', columns='name')

Unnamed: 0_level_0,level,level,level,level,level,weight,weight,weight,weight,weight
name,bob,data,easy,henry,science,bob,data,easy,henry,science
gender,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
F,C,B,,B,,93.0,68.0,,84.0,
M,,,A,,B,,,58.0,,70.0


In [64]:
# index, columns, values로 input을 넣어준다.

df1 = df.pivot(index="gender", columns = "name", values='weight')
df1

name,bob,data,easy,henry,science
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
F,93.0,68.0,,84.0,
M,,,58.0,,70.0


In [65]:
# 에러가 발생한다.

df.pivot(index='gender', columns='level', values='weight')

ValueError: Index contains duplicate entries, cannot reshape

In [68]:
# pivot은 기존 데이터의 변형이 일어나지 않는다.
# pivot_table은 중복된 값이 있을때도 처리를 해줄 수 있다.
# 기존 데이터에 더불어 새로운 집계를 해야하는 경우.
# 집계될 때 평균값으로 집계됨을 볼 수 있다. 

df.pivot_table(index='gender', columns='level', values='weight', aggfunc='mean')

level,A,B,C
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
F,,76.0,93.0
M,58.0,70.0,
