#### pandas
- 데이터 분석을 위한 사용이 쉽고 성능이 좋은 오픈소스 python 라이브러리
- R이 느려서 빠르게 돌리기 위해서 pandas 사용한다.
- `$ pip3 install pandas`
-  pandas 크게 2가지 데이터 타입을 가지고 있다.
    - Series
        - Index와 Value로 이루어진 데이터 타입
    - DataFrame
        - Index와 Value와 Column으로 이루어진 데이터 타입입니다.
        - Column은 Series로 이루어져 있다.
        - 엑셀의 테이블 형태로 구성이 되고, Column별로 같은 데이터 타입을 갖습니다.(컬럼하나하나가 Series라고 생각해도 된다.)

### Series

In [1]:
import numpy as np
import pandas as pd

In [2]:
# 0~9까지 랜덤한 5개의 데이터를 series 생성
data = pd.Series(np.random.randint(10, size=(5)))
data

0    4
1    0
2    1
3    5
4    2
dtype: int64

In [3]:
# series 의 인덱스를 다르게 설정할 수도 있다.
data = pd.Series(np.random.randint(10, size=5), index = ["A","B","C","D","E"])
data

A    5
B    6
C    9
D    5
E    8
dtype: int64

In [4]:
data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([5, 6, 9, 5, 8]))

In [5]:
# value 값 확인
data.A, data.D

(5, 5)

In [6]:
# data.1 으로는 확인 불가능하다. 숫자 인덱스 사용하더라도

In [7]:
# series에 인덱스와 밸류에 이름을 설정할 수 있습니다.
data.name = "random_number"
data.index.name = "index_number"
data

index_number
A    5
B    6
C    9
D    5
E    8
Name: random_number, dtype: int64

In [8]:
# broadcasting 가능
data * 10

index_number
A    50
B    60
C    90
D    50
E    80
Name: random_number, dtype: int64

In [9]:
data[["B","C","E"]]

index_number
B    6
C    9
E    8
Name: random_number, dtype: int64

In [10]:
# offset으로 출력이 가능하다.

In [11]:
data[1]

6

In [12]:
data[1:]

index_number
B    6
C    9
D    5
E    8
Name: random_number, dtype: int64

In [13]:
data[1::2]

index_number
B    6
D    5
Name: random_number, dtype: int64

In [14]:
data[::-1]

index_number
E    8
D    5
C    9
B    6
A    5
Name: random_number, dtype: int64

In [15]:
data

index_number
A    5
B    6
C    9
D    5
E    8
Name: random_number, dtype: int64

In [16]:
# 비교연산이 가능하다.

In [17]:
data > 5

index_number
A    False
B     True
C     True
D    False
E     True
Name: random_number, dtype: bool

In [18]:
# True인 값만 필터링 해주는 효과가 있다.
data[data>5]

index_number
B    6
C    9
E    8
Name: random_number, dtype: int64

In [19]:
# for 문 사용할 수 있다. - list comprehension도 사용가능하다.
for idx, val in data.items():
    print(idx, val)

A 5
B 6
C 9
D 5
E 8


In [20]:
[idx, val for idx, val in data.items()]

SyntaxError: invalid syntax (<ipython-input-20-5a016ed2ecce>, line 1)

In [None]:
# dictionary 데이터 타입의 데이터로 series 생성 가능
# 딕셔너리 넣어서 series만들 수 있음
dic = {"D":3, "E":5,"F":7}
data2= pd.Series(dic)
data2

# 순서는 자동 소팅되어서 나온다.

In [None]:
data

In [None]:
data2

In [None]:
# 두개의 series합하면 인덱스 있는 값만 더해지고 나머지는 NaN이다. 그리고 
result = data + data2

In [None]:
result

In [None]:
# NaN 데이터 제거 series.notnull()
result.notnull()

In [None]:
# NaN 데이터 제거 series.notnull()
result.notnull()
result[result.notnull()]

# 인덱스 값으로 넣어주면 notnull을 통해 나온 false값 삭제해준다.

### DataFrame
- row(index), value, column 이루어져 있다.
- make
- insert
     -row
     -column
- append
- concat
- groupby aggregate
- select
- merge

In [None]:
# dataframe 으로 전처리 많이 한다.

#### make

In [None]:
# 만드는 방법이 여러가지이다.

In [None]:
# 컬럼을 만들고 컬럼에 리스트 데이터를 추가해서 만드는 방법

In [None]:
df = pd.DataFrame(columns=["Email","Name"])
df

In [None]:
df["Name"] = ["fcamp","dss"]
df["Email"] = ["fcamp@gmail.com","dss@gmail.com"]

df

In [None]:
df
# 컬럼 자동으로 생성된다.

In [None]:
df["Name"]

In [None]:
df["Email"]

In [None]:
# 딕셔너리 데이터 타입을 DataFrame으로 만들기
# 리스트를 데이터 프레임으로 만들기

name = ["fcamp","dss"]
email = ["fcamp@gmail.com","dss@gmail.com"]
dic = {"Name":name, "Email":email}
df = pd.DataFrame(dic)
df

In [None]:
# 인덱스 변경 할 수 있다.
index_list = ["one","two"]
dic

In [None]:
pd.DataFrame(dic, index = index_list)

In [None]:
# 인덱스, 컬럼 등 가지고 올 수 있다.
df.index, df.columns, df.values

In [None]:
# 밑에 데이터 추가하고 싶을때 어떻게 하는지 insert
# 1. location지정해서 data 넣는 방법, row 를 지정해서 넣을 수 있다.
df.loc[0]

In [None]:
df.loc[1]

In [None]:
df. loc[2] = {"Email":"data@gmail.com","Name":"data"}

In [None]:
df

In [None]:
# 2. 하지만 숫자 항상 지정할 수 없기 때문에 loc 이용해서 항상 가장 마지막에 넣는 방법

In [None]:
# 현재 df 몇개의 row가지고 있는지 알려준다.
len(df)

In [None]:
df.loc[len(df)] = {"Email":"data@gmail.com","Name":"data"}

In [None]:
df

In [None]:
# 컬럼 추가해보기

In [None]:
df

In [None]:
df["Address"] = "" #broadcasting해서 들어가게 된다.

In [None]:
df

In [None]:
# 컬럼데이터를 리스트로 넣게 되면 

df["Address"] = ["Seoul","Busan","Jeju","Deagu"]

In [None]:
df

In [None]:
# apply
# 함수를 사용해서 함수의 리턴값이 데이터로 들어갑니다.
def count_char(name):
    return "{}({})".format(name, len(name))

# map과 비슷하게 출력값을 list로 만든 다음 새로운 컬럼에 넣는다. 

df["name_count"] = df["Name"].apply(count_char)

# df["새로운컬럼이름"] = df["함수의 파라미터로 들어갈 값"]

In [None]:
df

In [None]:
# 함수를 만들지 않고 lambda 이용해서 추가 해 줄 수 있다.

df["Address_Count"] = df["Address"].apply(lambda addr: "{}({})".format(addr,len(addr))

In [None]:
# append
# 사람의 이름과 나이가 들어간 데이터를 만듭니다.

import random, string

def get_name():
    names = ["Adam", "Alan","Alex","Alvin","Andrew","Anthony","Arnold","Jin","Billy"]
    return random.choice(names)


In [None]:
get_name()

In [None]:
def get_age(start = 20, end = 40):
    return random.randint(start, end)

get_age()

In [None]:
# 두개의 함수를 이용해서 데이터를 만드는 것

def make_data(rows=10):
    datas = []
    for _ in range(rows):
        data = {"Age":get_age(), "Name":get_name()}
        datas.append(data)
    return datas

In [None]:
make_data()

In [None]:
# 데이터를 dataframe에 넣는다.

In [None]:
df1 = pd.DataFrame(make_data())

In [None]:
df1

In [None]:
data1 = make_data()

In [None]:
data2 = make_data()

In [None]:
df2 = pd.DataFrame(data2)

In [None]:
df1

In [None]:
df2

In [None]:
# df1과 df2 를 합치고 싶을때 append를 이용할 수 있다.

df3 = df1.append(df2)

In [None]:
df3

In [None]:
# index 리셋하기 
# df3.reset_index() : 기존의 인덱스 놔두고 새로운게 생성이 된다.
# drop = True : 인덱스가 기존것이 삭제된다.
# inplace 변경사항 저장시켜준다. sort자동으로 업데이트 되는 것처럼 index 변한것 저장 시킬 수 있음
df3.reset_index(drop=True, inplace = True)

In [None]:
df3

In [None]:
# append 할때 인덱스를 리셋
df1.append(df2, ignore_index = True)

# 여기 코드 조금 이상한것 같음 다시 보기!

#### concat
- rows
- columns

In [None]:
df1

In [None]:
df2

In [None]:
# concat은 리스트 형태로 넣어준다. append 하는 것과 같은 효과가 있다.

df3 = pd.concat([df1, df2]).reset_index(drop=True)

# 두개 함수 체이닝 가능하다.

In [None]:
df3

In [None]:
# concat columns
pd.concat([df3, df1], axis = 1)
# axis = 1 로 설정하면 가로로 합쳐준다.

In [None]:
# join (inner: 둘다 있는 값만 출력이 되게 된다., outer)

# inner(교집합) outer (앞에 뭐가 오냐에 따라서 outer값 다르게 나온다.)

pd.concat([df3, df1], axis = 1, join="inner")

# innser outer 다르게 출력된다.
# 없는 데이터 0으로 치환 할 수도 있다.

#### Group by
- 이름별 평균나이를 나타내는 데이터 프레임을 만들겁니다.

In [None]:
# 중복되는 데이터 삭제하기
# 20명에 대한 이름과 나이를 나타내는 데이터 프레임을 만듭니다.
g_df = pd.DataFrame(make_data(20))
g_df.tail()
# 밑 5개의 데이터만 보여준다. tail()

In [None]:
# 이름을 unique로 추출해보기
# pandas 에서 계산할때 numpy사용하면 된다. 호환 잘됨

result = np.array(list(set(g_df["Name"].values)))
result, len(result)

In [None]:
# pandas 의 unique를 이용해서 유니크한 이름을 출력할 수 있음

result2 = g_df["Name"].unique()
result2, len(result2)

In [None]:
# groupby 

# name 별 총 수입을 알고 싶을 때
# name 값을 기준으로 합쳐주기

# pandas랑 sql 둘다에서 사용한다.

g_df

In [None]:
# 중복된 데이터를 groupby 해보자
# size() 각각 이름에 대해 몇명인지 나온다.

g_df.groupby("Name").size()

In [None]:
result_df = g_df.groupby("Name").size().reset_index(name="counts")
result_df 

In [None]:
# sort values

result_df = result_df.sort_values(by = ["counts"], ascending = False)
result_df.reset_index(drop=True, inplace=True)

In [None]:
result_df

In [None]:
# aggregation : min

g_df.groupby("Name").agg("min").reset_index()

# 각각의 인덱스에서 최솟값 구한다.

In [None]:
# 가장 나이 많은 것

g_df.groupby("Name").agg("max").reset_index()

In [None]:
# 평균값
g_df.groupby("Name").agg("mean").reset_index()

In [None]:
# 총합
g_df.groupby("Name").agg("sum").reset_index()

In [None]:
# 중간값
g_df.groupby("Name").agg("median").reset_index()

In [None]:
# agg 한꺼번에 여러개 적을 수 있음

df = g_df.groupby("Name").agg(["min","max","mean"]).reset_index()
df

# 컬럼과 인덱스 여러 레벨로 사용할 수 있음

In [None]:
# select 

g_df.tail(13) # tail로 나오는 숫자 바꿀 수 있다.

In [None]:
df[3:6]

In [None]:
df[3:]

In [None]:
# 하나만 가지고 오고 싶을 때 꼭 loc 써야한다.
df.loc[3]

In [None]:
df.loc[2]["Age"]["mean"]

In [None]:
df

In [None]:
df.loc[3]["Name"][""]

# [""] 추가하면 문자열로 된 데이터 출력된다.

In [None]:
data = {"Name":df["Name"],
        "Min":df["Age"]["min"],
        "Max":df["Age"]["max"],
        "Mean":df["Age"]["mean"],}

In [None]:
data
n = pd.DataFrame(data)
n

In [None]:
# 평균 나이가 30세 이상인 데이터를 내림차순으로 정렬하고 인덱스를 재설정
n[n["Mean"]>30].sort_values(by=["Mean"], ascending = False).reset_index(drop = True)

In [None]:
n

In [None]:
g_df

In [None]:
n["Count"]=list(g_df.groupby("Name").size())

In [None]:
n

In [None]:
# drop 이용해서 mean데이터 빼서 맨 뒤로 집어넣기

mean = n["Mean"]
mean

In [None]:
n.drop("Mean", axis = 1, inplace = True)
n
# mean 삭제됨

In [None]:
n["Mean"] = mean
n
# 제일 오른쪽으로 이동하면 된다.

In [None]:
# rename column : 컬럼이름 바꿀때 rename 사용하면 된다.

n.rename(columns = {"Max":"Maximum","Name":"Unique_Name"})

### Merge - sql의 join과 같은데 pandas에서는 merge라고 한다.
- user_df : 아이디, 이름, 나이 데이터 프레임 생성
- money_df : 아이디, 돈 데이터 프레임을 생성

In [None]:
user_df = pd.DataFrame(columns=["UserID",'Name','Age'])
for idx in range(1,9):
    name = get_name()
    # 중복 이름 제거
    while name in list(user_df["Name"]):
        name = get_name()
        
    # 데이터 name_df insert
    data = {"Name":name, "UserID": idx, "Age":get_age()}
    user_df.loc[len(user_df)] = data

user_df

In [None]:
money_df = pd.DataFrame(columns = ["ID","Money"])

for idx in range(15):
    money = random.randint(1,20) *1000
    data = {"Money":money,"ID":random.randint(1,8)}
    money_df.loc[len(money_df)] = data
# randint() 파라미터 마지막값 포함된다.

In [None]:
money_df

In [None]:
# 두개의 데이터를 merge 한다.

# merge 할때 내부적으로 어떻게 돌아가는지 봐야한다.

# 각각 하나씩 매핑을 시켜서

# 1. 3 * 3, 9 개의 데이터를 생성한다.
# 2. id값을 가지고 똑같은 id값을 가진 애들끼리만 빼주게 된다. 
# 어떤 조건으로 merge할 것인지 파라미터 값으로 줘야한다.


In [None]:
# merge실습 - user_df, money_df (키값으로 id, user id 사용할 것이다.)

money_df.merge(user_df, left_on= "ID", right_on= "UserID")
user_df.merge(money_df, left_on = "UserID", right_on = "ID")

In [None]:
user_df.rename(columns = {"UserID":"ID"}, inplace=True)

In [None]:
user_df

In [None]:
result_df= pd.merge(money_df, user_df)

# default 로 how = inner  되어있어서 돈에 대한 인포 없는 사람은 사라지고 없다.

In [None]:
result_df

In [None]:
money_list = result_df.groupby("Name").sum()["Money"].reset_index()
money_list

In [None]:
df1[df1["Age"] < 30]

In [None]:
money_list

In [None]:
# merge를 outer로 해보기

result = pd.merge(user_df, money_list, how='outer')
result

In [None]:
# fillna - nan 데이터를 특정 데이터로 채워준다.

result = pd.merge(user_df, money_list, how='outer').fillna(value=0)
result

In [None]:
# 특정 컬럼의 데이터 타입 바꾸기 (float >> int)

result["Money"] = result["Money"].astype("int")

# 바꾼 인트절을 머니에 다시 넣어준다.

In [None]:
result

# 시리즈, 컬럼 별로 데이터 타입을 변환 할 수 있다. 모두 같은 타입으로 작성해 주어야 한다.

### 데이터를 저장하고 삭제하는 것 (dataframe i/o)

- csv(comma seperated value), excel 파일 사용할 것
- `$pip3 install xlrd` (엑셀 파일을 리드한다는 뜻)
- `$pip3 install openpyxl`


In [None]:
result

In [None]:
# to_csv() : csv파일로 저장해보기 seperate하는 operator 다른 값 줄수 있다.
# index = False로 해줘야 그대로 저장이 된다. 인덱스 값 같이 저장해주고 싶을때 True로
result.to_csv('foo.csv', index = False)

In [None]:
# load csv pd.read_csv('파일이름')

df = pd.read_csv('foo.csv')
df

In [None]:
!pwd

In [None]:
# excel은 저장 되는 인코딩 타입을 확인해야 합니다.(utf-8을 사용하지 않는다.)
df.to_excel('foo.xlsx', sheet_name = 'Sheet1')

In [None]:
# 이런식으로 적어줘도 된다. ../경로/'foo.xlsx'
# 절대경로 : 최상위 디렉토리 기준으로 디렉토리 
# 상대경로 : 현재 디렉토리 기준으로 디렉토리 

In [None]:
# path = "\dfjkd\kjakfjd\dskf"
# path + '파일이름'

df = pd.read_excel('foo.xlsx', 'Sheet1')
df