<a href="https://colab.research.google.com/github/rioluvy/Data-analysis-and-visualization/blob/main/Encapsulation/M4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
## Pandas
# 대용량 데이터를 다루기 편하다
# 여러 차원(1*N ~ N*M)의 데이터를 다룰 수 있다.

# Numpy는 주로 숫자 정보를 다루는 용도로 사용되지만
# Pandas는 다양한 타입의 데이터를 처리하기에 더 용이함.
# 각 특성들(Column)의 이름을 만들거나 형태를 쉽게 변형할 수 있다.

In [None]:
## Pandas란
# excel처럼 Tabular 데이터를 다루기에 용이함
# 데이터는 행과 열로 정리되어 하나의 객체 단위로 사용이 가능함(Series, Dataframe)

In [None]:
import pandas as pd
import numpy as np

In [None]:
## Series
# 가장 기본적인 Pandas의 데이터 구조
# Numpy의 Array와 유사한 형태
# 1차원 배열로 데이터를 저장한다
# 각 데이터의 행은 Index Number를 가지고 있다
# pd.Series(data = None, Index=None)를 사용하여 생성

scores = pd.Series([10,20,30])
costs = pd.Series(range(0,1000,10)) ## 0부터 1000까지 10단위로 끊어서
names = pd.Series(["Tom","John","Jenny"])

se1 = pd.Series() # 비어있는 시리즈
se2 = pd.Series([1,2,3]) # 숫자 1,2,3이 들어있는 시리즈
se3 = pd.Series([[1,2,3],['a','b','c']]) # 각 배열 [1,2,3], ['a','b','c']자체가 요소인 시리즈

# 시리즈에 여러개의 Type을 섞는 경우 type = 'object'
print(se3.dtype)

object


In [None]:
grades = pd.Series(data = [50,70,90], index = ["Tom","John","Jenny"])
print(grades)

Tom      50
John     70
Jenny    90
dtype: int64


In [None]:
# Numpy와 동일하게 통계값을 리턴하는 함수 지원
# describe(), mean(), std() 등
# 데이터의 갯수, 평균, 쿼터별 값, median, 자료형 등의 정보를 리턴해줌

print(grades.mean()) # 평균
print(grades.std()) # 표준편차
print(grades.count()) # 개수
print()
print(grades.describe()) # 전반적인 통계 정보

70.0
20.0
3

count     3.0
mean     70.0
std      20.0
min      50.0
25%      60.0
50%      70.0
75%      80.0
max      90.0
dtype: float64


In [None]:
## Series의 Indexing
# 조건문과 함께 사용하여 indexing
# 특정 조건을 만족하는 element만 가져온다
# 조건문 여러개를 연결하는 것도 가능

print(grades[grades>60]) # 60보다 큰 점수만 필터링
print(grades[(grades>60) & (grades<80)])

John     70
Jenny    90
dtype: int64
John    70
dtype: int64


In [None]:
## DataFrame
# 시리즈의 집합, 2차원 배열
# 각 열(Column)에 각 Series들이 모여 하나의 DataFrame이라는 객체 형성
# 각 행(Row)는 각 column에 해당하는 값들을 가짐

df = pd.DataFrame([10,20,30]) # 데이터 프레임 생성
print(df)
print()

# 2차원 배열로 저장되기에 Dictionary형태로 입력 가능
# 각 dictionary의 value들은 모두 같은 길이를 가져야 함
df = pd.DataFrame({'A':[1,2,3], 'B':[10,20,30],'C':[100,200,300]})
print(df)

    0
0  10
1  20
2  30

   A   B    C
0  1  10  100
1  2  20  200
2  3  30  300


In [None]:
## DataFrame의 속성들
# index: Series와 동일하게 행이나 열의 위치를 나타냄
# columns: 열의 이름
# shape: DataFrame의 모양
# dtypes: column들의 데이터 타입

print(df.index)
print(df.columns)
print(df.shape)
print(df.dtypes)

RangeIndex(start=0, stop=3, step=1)
Index(['A', 'B', 'C'], dtype='object')
(3, 3)
A    int64
B    int64
C    int64
dtype: object


In [None]:
## DataFrame 불러오기
# Pandas는 외부 데이터를 데이터 프레임화해서 불러올 수 있음
# read_파일형식(파일명)의 함수를 사용
# csv 파일의 경우, read_csv(파일명)

# ex) stock_df = pd.read_csv('stock-data.csv')

In [None]:
## DataFrame의 내장 함수들
# head(N): 데이터 프레임의 앞부분 N개를 미리 보여준다
# tail(N): 데이터 프레임의 끝부분 N개를 미리 보여준다
# describe(): 데이터 프레임의 여러 통계 정보를 제공
# info(): 데이터 프레임의 column별 여러 정보를 제공

# ex) print(stock_df.head())
# ex) print(stock_df.tail())

## DataFrame 기본 인덱싱
# 특정 column만 필터링하기
# 데이터 프레임에 원하는 column 이름 리스트를 사용해 필터링

# stock_df[['Date','Close','Start']].head()
# stock_df의 [Data,Colse,Start,High,Low,Volume] 중 앞 3개의 column만 선택


In [None]:
## DataFrame 내보내기
# Pandas 데이터 프레임은 외부로, 원하는 포맷으로 저장이 가능
# to_파일형식(파일이름): csv파일의 경우 to_csv(파일명)
# csv,json,xlsx 등 다양한 서식으로 내보내기 가능
# stock_df의 앞 세개 colume만 csv로 내보내보자

# new_stock_df = stock_df[['Data','Close','Start']]
# new_stock_df.to_csv('stock-data-new.csv', index = False) #새로운 데이터 프레임 csv로 추출

In [None]:
## DataFrame 합치기
df1 = pd.DataFrame({'A':[1,2,3],'B':[10,20,30],'C':[100,200,300]})
df2 = pd.DataFrame({'A':[1,2,3,4,5,6],'D':['a','b','c','d','e','f']})

# concat: 데이터를 수직 혹은 수평으로 이어붙임
# 공유하지 않는 column은 NaN으로 설정
# Argumenets
# 1. ingnore_index = False: 인덱스를 재설정 or not
# 2. axis = 0, axis = 1: 세로(0), 가로(1)방향 중 이어붙일 곳 선택
# 3. join = 'outer': 행, 열이 맞지 않은 경우 ship or NaN
print(pd.concat([df1,df2]))
print()

# merge: 특정 key를 기준으로 여러 데이터 프레임을 합쳐야 할때
# Arguments
# 1. on: 기준 key가 될 Column을 설정
# 2. how: 'inner': 공통되지 않은 것들을 제거('inner'), 그대로 두고 NaN으로 채우기('outer') , 'left', 'right'
print(pd.merge(df1,df2,on='A', how = 'inner'))
print()
print(pd.merge(df1,df2,on='A', how = 'outer'))

# join: index를 기준으로 합쳐야 할때, 붙이고자 하는 데이터 프레임에 사용
# ex) df.join(df2)
# Arguments: how: 'inner'(교집합), 'outer'(합집합)

   A     B      C    D
0  1  10.0  100.0  NaN
1  2  20.0  200.0  NaN
2  3  30.0  300.0  NaN
0  1   NaN    NaN    a
1  2   NaN    NaN    b
2  3   NaN    NaN    c
3  4   NaN    NaN    d
4  5   NaN    NaN    e
5  6   NaN    NaN    f

   A   B    C  D
0  1  10  100  a
1  2  20  200  b
2  3  30  300  c

   A     B      C  D
0  1  10.0  100.0  a
1  2  20.0  200.0  b
2  3  30.0  300.0  c
3  4   NaN    NaN  d
4  5   NaN    NaN  e
5  6   NaN    NaN  f


In [None]:
# data_A = {'과일': ['사과', '바나나', '오렌지'], '가격_A': [1000, 500, 1500]}
#     data_B = {'과일': ['사과', '바나나', '포도'], '가격_B': [1200, 600, 2000]}

#     # Step 1: 가게 A와 B의 과일 가격 목록을 DataFrame으로 생성
#     df_A = pd.DataFrame(data_A)
#     df_B = pd.DataFrame(data_B)

#     # Step 2: 가로로 병합
#     horizontal_merge = pd.merge(df_A,df_B, on = '과일', how = 'outer')

#     # Step 3: '사과'의 가격만 포함하는 DataFrame 생성
#     apples = horizontal_merge[horizontal_merge['과일'] == '사과']


# def analyze_class_members(data):
#     # 1. Dict 형태로 주어진 수강생 데이터를 pandas dataframe으로 변경
#     df = pd.DataFrame(data)

#     # 2. 이름, 나이, 성별에 해당하는 각각의 pandas series를 생성
#     name_series = df['이름']
#     age_series = df['나이']
#     gender_series = df['성별']

#     # 3. 이름을 제외하고 나이, 성별로만 구성된 pandas dataframe을 생성
#     df_without_name = df.drop(columns = ['이름'])
#     ## or df['나이','성별']

#     return name_series, age_series, gender_series, df_without_name

# # 테스트
# data = {'이름': ['Alice', 'Bob', 'Charlie', 'David'],
#         '나이': [25.0, 30.0, 35.0, 40.0],
#         '성별': ['여성', '남성', '남성', '남성']}