# 230120 Pandas


pandas는 주로 데이터분석에 사용함

시계열이나 표의 형태로 나타낼 수 있다
```py
import pandas as pd
```



## apply() 메소드

Dataframe에 대해 function 을 적용하고 싶으면 apply()메소드를 사용할 수 있다.

첫 인자로 함수를 필수 값으로 받고, 두번째 인자로 axis(default: 0)을 사용할 수 있다

> axis = 0 or 'index' -> 각 column에 대해 함수를 적용 <br>
> axis = 1 or 'columns' -> 각 row에 대해 함수를 적용

```py
Dataframe.apply(func, axis=0, raw=False, result_type=None, args(), **kargs)
```

In [3]:
import numpy as np
import pandas as pd

df = pd.DataFrame([[4,9]]*3, columns=['A','B'])
df

Unnamed: 0,A,B
0,4,9
1,4,9
2,4,9


위의 데이터에서 NumPy의 np.sqrt를 사용해보자

In [4]:
df.apply(np.sqrt)

Unnamed: 0,A,B
0,2.0,3.0
1,2.0,3.0
2,2.0,3.0


차원 축소 함수인 sum을 활용해보자

axis의 값에 따라 축소되는 방향이 다르기 때문에 결과도 다르다

In [5]:
df.apply(np.sum,axis=0)

A    12
B    27
dtype: int64

In [6]:
df.apply(np.sum, axis=1)

0    13
1    13
2    13
dtype: int64

함수의 return 이 column마다 리스트를 반환하면 DataFrame의 결과를 얻을 수 있다. 

함수의 리턴이 row마다 리스트를 반환하면 각 row마다 리스트를 하나의 값으로 취급하는 Series타입의 결과가 나온다

In [7]:
df.apply(lambda x: [1,2], axis=0)

Unnamed: 0,A,B
0,1,1
1,2,2


In [8]:
df.apply(lambda x: [1,2], axis=1)

0    [1, 2]
1    [1, 2]
2    [1, 2]
dtype: object

result_type을 expand로 설정하면 아래와 같이 쪼개진다

In [9]:
df.apply(lambda x: [1,2], axis=1, result_type='expand')

Unnamed: 0,0,1
0,1,2
1,1,2
2,1,2


result_type ='broadcast'인수로 전달하면 동일한 shape의 결과를 보장한다.

함수로부터 반환되는게 리스트인지 스칼라인지에 상관없이 axis 방향으로 broadcast한다 

결과의 column label은 본래의 column label을 유지합니다.

In [10]:
df.apply(lambda x: [1,2], axis=1, result_type='broadcast')

Unnamed: 0,A,B
0,1,2
1,1,2
2,1,2


브로드캐스트 할 수 없는 shape면 valueError가 발생한다.

타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 column인 category1열을 만들어보자<br>

(1) 20살이 넘으면 성별을 그대로 사용한다.<br>
(2) 20살 미만이면 성별에 관게없이 child라고 한다

In [11]:
import seaborn as sns

titanic = pd.read_csv("https://storage.googleapis.com/tf-datasets/titanic/train.csv")
titanic = sns.load_dataset("titanic")
titanic["category1"] = titanic.apply(lambda x: x.sex if x.age >= 20 else "child", axis=1)
titanic["category1"]

0        male
1      female
2      female
3      female
4        male
        ...  
886      male
887     child
888     child
889      male
890      male
Name: category1, Length: 891, dtype: object

In [13]:
titanic['category2'] = titanic['sex']+ titanic['age'].astype('float').astype(str)
#titanic[['age','category2']]

In [None]:
titanic['age'] = titanic['age'].fillna(titanic['age'].mean())
round(titanic['age'],1)

# 필기하다가 잘못 눌러서 날라감 ㅜㅜ

In [None]:
a = list(map(int,input().split()))
for i in range(len(a)):
    a[i] = a[i]**2
print(sum(a)%10)

In [None]:
a = int(input())

for _ in range(a,0,-1):
    for i in range(_-1):
        print(" ",end="")
    for i in range(a-_+1):
        print("*", end="")
    print()

In [None]:
a = list(map(int, input().split()))
code = ""

if a[0] < a[1]:
    code = "ascending"
else: 
    code = "descending"


for i in range(1,len(a)-1):
    if code == "ascending":
        if a[i]>a[i+1]:
            code = "mixed"
            break
    elif code =="descending":
        if a[i] < a[i+1]:
            code = "mixed"
            break

print(code)
    

In [None]:

a, b = map(int, input().split())
k = list(map(int, input().split()))

for i in range(a):
    if k[i]<b:
        print(k[i],end=' ')


In [None]:
a = int(input())

for _ in range(1,10):
    print(f"{a} * {_} = {a*_}")

In [90]:
a = int(input())
b = int(input())
c = int(input())

save = str(a*b*c)
for _ in range(0,10):
    print(save.count(str(_)))

1
0
2
0
0
0
2
0
0


In [91]:
c = int(input())
for _ in range(c,0,-1):
    print(_)

5
4
3
2
1


## 데이터 프레임 실수 값을 카테고리 값으로 변환

실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을 때는 다음과 같은 명령을 사용한다.
- cut: 실수값의 경계선을 지정하는 경우
    x=1 차원 형태의 배열 형태가 옴
    bins=int , 스칼라를 요소로 갖는 시퀀스가 옴

- qcut: 개수가 똑같은 구간으로 나누는 경우(분위수)
    x=1d ndarray혹은 Series
    q = int 혹은 분위수를 나타내는 1이하의 실수 


In [None]:
ages= [0,2,10,21,23,37,31, 61, 20,41,32, 101]

bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "장년", "중년", "노년"]
cats = pd.cut(ages, bins, labels=labels)
cats

cut()명령이 반환하는 값은 categorical 클래스 객체이다. 이 객체는 categories속성으로 label 문자열을, codes속성으로 정수로 인코딩한 카테고리 값을 가진다


In [None]:
type(cats)

In [None]:
cats.categories

In [None]:
cats.codes

In [None]:
df4= pd.DataFrame(ages, columns=['ages'])
df4['age_cat'] = pd.cut(df4.ages,bins, labels=labels)
df4

In [None]:
a,b = map(int, input().split())
print(ord(a))


DataFrame의 age_cat 칼럼값은 문자열이 아니다. 문자열로 만드려면 astype()메서드를 사용해야 한다. 

qcut()명령은 구간 경계선을 지정하지 않고 부누이수와 같이 데이터 개수가 같도록 구간을 나눈다. 

In [None]:
data = np.random.randn(1000)
cats = pd.qcut(data,4,labels=["Q1","Q2", "Q3", "Q4"])
cats

In [None]:
pd.value_counts(cats)

타이타닉 호 승객을 미성년자, 청년, 장전, 중년, 노년 나이 그룹으로 나눠보자

그리고 각 나이 그룹의 승객 비율을 구하자  비율의 합은 1이 되어야 함

In [97]:
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "장년", "중년", "노년"]

# cats = pd.cut(ages, bins, labels=labels)
titanic["age_k"] = pd.cut(titanic["age"],bins, labels=labels)
titanic["age_k"]


0        청년
1        장년
2        청년
3        장년
4        장년
       ... 
886      청년
887    미성년자
888      청년
889      청년
890      장년
Name: age_k, Length: 891, dtype: category
Categories (5, object): ['미성년자' < '청년' < '장년' < '중년' < '노년']

In [92]:
valCount = titanic["age_k"].value_counts()
valCount/valCount.sum()

청년      0.464082
장년      0.274800
미성년자    0.188141
중년      0.067275
노년      0.005701
Name: age_k, dtype: float64

In [95]:
s = set()

for _ in range(10):
    s.add(int(input())%42)
print(len(s))


1


타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 column category3을 만들어라 
1) 20살 미만이면 성별에 관계없이 미성년자
2) 20살 이상이면 청년, 장년, 중년, 노년을 구분하고, 그 뒤에는 성별을 나타내는 남성, 여성을 붙여라 


In [116]:
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "장년", "중년", "노년"]
titanic["age_temp"] = pd.cut(titanic["age"], bins, labels=labels)

titanic["category3"] = titanic.apply(lambda x: "미성년자" if x.age < 20
                                     else x.age_temp + "남성" if x.sex == "male"
                                     else x.age_temp + "여성", axis=1)
titanic["category3"]


0      청년남성
1      장년여성
2      청년여성
3      장년여성
4      장년남성
       ... 
886    청년남성
887    미성년자
888    청년여성
889    청년남성
890    장년남성
Name: category3, Length: 891, dtype: object

In [124]:
alphabet = [ chr(_) for _ in range(ord('a'),ord('z')+1)]
get = input()
give = [-1]*26
for i in range(len(alphabet)):
    if alphabet[i] in get:
        give[i] = get.find(alphabet[i])
print(*give, sep=' ')

1 0 -1 -1 2 -1 -1 -1 -1 4 3 -1 -1 7 5 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1


## dataframe 인덱스 설정 및 제거

때로는 인덱스로 들어가있어야 할 데이터가 일반 데이터 칼럼에 들어가있거나, 반대로 일반 데이터 칼럼이어야 할 것이 인덱스로 되어 있을 수 있다. 이 때는 set_index명령이나 reset_index명령으로 인덱스와 일반 데이터 칼럼을 교환할 수 있다. 

- set_index: 기존의 열 인덱스를 제거하고 칼럼 중 하나를 인덱스로 설정한다 


In [125]:
np.random.seed(0)
df1 = pd.DataFrame(np.vstack([list('ABCDE'), np.round(np.random.rand(3,5),2)]).T, columns=["C1","C2","C3","C4"])
df1

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [127]:
df1.set_index("C2")

Unnamed: 0_level_0,C1,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0.55,A,0.65,0.79
0.72,B,0.44,0.53
0.6,C,0.89,0.57
0.54,D,0.96,0.93
0.42,E,0.38,0.07


reset_index메서드를 쓰면 인덱스를 보통의 자료열로 바꿀 수도 있다. 

이 때 인덱스 칼럼은 자료열의 가장 선두로 삽입된다. 

In [128]:
df1.reset_index()

Unnamed: 0,index,C1,C2,C3,C4
0,0,A,0.55,0.65,0.79
1,1,B,0.72,0.44,0.53
2,2,C,0.6,0.89,0.57
3,3,D,0.54,0.96,0.93
4,4,E,0.42,0.38,0.07


In [142]:
a,b = map(list, input().split())
a.reverse()
b.reverse()
a=''.join(a)
b = ''.join(b)
int(a)
int(b)
print(max(a,b))

938


In [150]:
getH, getM = map(int,input().split())

if getM < 45:
    getM = getM+15
    getH = getH-1
    if getH < 0:
        getH = 24+getH
else:
    getM = getM+45
print(getH,getM)

9 25


## 

In [140]:
score = {
    "이름":["일식", "이식", "삼식", "사식", "오식"],
    "국어":[60, 70, 90, 80, 100],
    "영어":[70, 86, 82, 88, 100],
    "수학":[65, 82, 85, 90, 100]
}
df = pd.DataFrame(score)
df.set_index('이름')
df1.reset_index()


Unnamed: 0,index,C1,C2,C3,C4
0,0,A,0.55,0.65,0.79
1,1,B,0.72,0.44,0.53
2,2,C,0.6,0.89,0.57
3,3,D,0.54,0.96,0.93
4,4,E,0.42,0.38,0.07
