<a href="https://colab.research.google.com/github/Hesh0629/pandas_study/blob/main/pandas_basic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Series

In [127]:
# https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html Series 설명글 (col 하나짜리 Df)
import pandas as pd
import numpy as np

### Series 생성

In [108]:
# dictionary 이용
dict_data = {'a': 1, 'b': 2, 'c': 3}
sr=pd.Series(dict_data)
sr

a    1
b    2
c    3
dtype: int64

In [109]:
# tuple 이용 (list도 된다)
tup_data = ('영인', '2010-05-01', '여', True)
sr2 = pd.Series(tup_data, index=['이름', '생년월일', '성별', '학생여부'])
sr2

이름              영인
생년월일    2010-05-01
성별               여
학생여부          True
dtype: object

In [None]:
print(sr[['b','a']])  # key값으로 value를 불러오는데 리스트로 여러개 불러와도 됨 (이러면 series 객체 반환)
print(sr[[2,0]])      # 정수형 인덱스로도 가능
print(sr['a':'b'])    # 슬라이싱도 되는데
print(sr[0:1])        # 정수 슬라이싱하면 마지막거는 제외

print(sr[1])          # 하나만 불러올 수 있는데 이경우에는 value만 반환
print(sr['b'])        # key이름으로도 불러올 수 있당

### Series 연산

In [107]:
student1 = pd.Series({'국어':100, '영어':80, '수학':90})
print(student1, '\n')

percentage = student1 / 200 #사칙연산 다된다

print(percentage, '\n')
print(type(percentage))

국어    100
영어     80
수학     90
dtype: int64 

국어    0.50
영어    0.40
수학    0.45
dtype: float64 

<class 'pandas.core.series.Series'>


In [129]:
#Series 와 Series간의 계산
student1 = pd.Series({'국어':np.nan, '영어':80, '수학':90})
student2 = pd.Series({'수학':80, '국어':90})

print(student1)
print('\n')
print(student2)
print('\n')

# 두 학생의 과목별 점수로 사칙연산 수행 (연산 메소드 사용), NaN은 fill_value로 채워진다.
sr_add = student1.add(student2, fill_value=0)    #덧셈
sr_sub = student1.sub(student2, fill_value=0)    #뺄셈
sr_mul = student1.mul(student2, fill_value=0)    #곱셈
sr_div = student1.div(student2, fill_value=0)    #나눗셈
result = pd.DataFrame([sr_add, sr_sub, sr_mul, sr_div], 
                      index=['덧셈', '뺄셈', '곱셈', '나눗셈'])
result

국어     NaN
영어    80.0
수학    90.0
dtype: float64


수학    80
국어    90
dtype: int64




Unnamed: 0,국어,수학,영어
덧셈,90.0,170.0,80.0
뺄셈,-90.0,10.0,80.0
곱셈,0.0,7200.0,0.0
나눗셈,0.0,1.125,inf


# DataFrame

In [51]:
# https://pandas.pydata.org/pandas-docs/stable/reference/frame.html DataFrame의 Attributes 설명한 사이트

import pandas as pd
import seaborn as sns

titanic = sns.load_dataset('titanic')
df=titanic.loc[:,['sex','age','fare']]
print(df)

        sex   age     fare
0      male  22.0   7.2500
1    female  38.0  71.2833
2    female  26.0   7.9250
3    female  35.0  53.1000
4      male  35.0   8.0500
..      ...   ...      ...
886    male  27.0  13.0000
887  female  19.0  30.0000
888  female   NaN  23.4500
889    male  26.0  30.0000
890    male  32.0   7.7500

[891 rows x 3 columns]


### Dataframe Attributes 요약

In [None]:
print(df.size,'\n') # df에 있는 원소의 총 개수를 반환
print(df.index,'\n')
print(df.columns,'\n')
# print(df.values) <- Dataframe을 numpy 표현방식으로 반환
print(df.axes,'\n') #index, columns, dtype 반환
print(df.ndim,'\n') #최고 차원을 int로 반환
print(df.shape,'\n') #tuple형태로 dimensionality를 반환
print(df.empty,'\n') #df가 비어있는지 반환
print(df.dtypes,'\n') #df의 columns마다의 자료형 반환
print(df.info, '\n') #df의 요약본 반환

### Dataframe 생성및 조작 방식

In [87]:
df4 = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']], 
                   index=['준서', '예은'],
                   columns=['나이', '성별', '학교']) # 2차원 배열을 넣고 index와 col을 설정하는 경우
df4                   

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [90]:
exam_data = {'이름' : [ '서준', '우현', '인아'],
             '수학' : [ 90, 80, 70],
             '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100],
             '체육' : [ 100, 90, 90]} #딕셔너리를 넣는 경우 key값이 col, 인덱스는 0부터 매겨짐
df2=pd.DataFrame(exam_data)
df2

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인아,70,95,100,90


In [91]:
df2=df2.set_index('이름') #이런식으로 특정 col을 인덱스로 만들 수 있음. 참고로 inplace가 True여야 원본객체 변경
df2

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [92]:
df2.loc['ㅁㄴㅇㄹ']=[100,100,100,100] # loc 으로 행 추가 가능 (iloc은 안됨)
df2

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90
ㅁㄴㅇㄹ,100,100,100,100


In [93]:
df2['컴퓨터']=[100,100,100,100] #df['열이름'] =[리스트]로 열 추가 가능
df2

Unnamed: 0_level_0,수학,영어,음악,체육,컴퓨터
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서준,90,98,85,100,100
우현,80,89,95,90,100
인아,70,95,100,90,100
ㅁㄴㅇㄹ,100,100,100,100,100


In [94]:
df3=df2.transpose() #전치 행렬 객체를 만들어 반환
df3

이름,서준,우현,인아,ㅁㄴㅇㄹ
수학,90,80,70,100
영어,98,89,95,100
음악,85,95,100,100
체육,100,90,90,100
컴퓨터,100,100,100,100


In [95]:
df2=df2.drop('서준',axis=0) #인덱스를 기준으로 데이터 삭제 방식 
df2

Unnamed: 0_level_0,수학,영어,음악,체육,컴퓨터
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
우현,80,89,95,90,100
인아,70,95,100,90,100
ㅁㄴㅇㄹ,100,100,100,100,100


In [96]:
df2=df2.drop('컴퓨터',axis=1) #col을 기준으로 데이터 삭제 방식 
df2

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
우현,80,89,95,90
인아,70,95,100,90
ㅁㄴㅇㄹ,100,100,100,100


In [101]:
#새로운 배열로 현재 인덱스 순서를 바꿀 수 있음. 있던게 없어질 수 있고 없던게 생기면 NaN으로 초기화
df2.reindex(['서준','인아','우현'],fill_value=0) #NaN이 싫다면 'fill_value' 설정

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,0,0,0,0
인아,70,95,100,90
우현,80,89,95,90


In [102]:
df2.reset_index() #인덱스를 정수형 위치 인덱스로 초기화

Unnamed: 0,이름,수학,영어,음악,체육
0,우현,80,89,95,90
1,인아,70,95,100,90
2,ㅁㄴㅇㄹ,100,100,100,100


In [106]:
df2.sort_index(ascending=True) #인덱스를 오름차순으로 정렬 (False이면 내림차순)

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
인아,70,95,100,90
우현,80,89,95,90
ㅁㄴㅇㄹ,100,100,100,100


### 행(인덱스), 열 선택

In [52]:
print(df.loc[0:5],'\n') # 인덱스의 이름으로 선택한 경우
print(df.iloc[0:5]) # 인덱스 범위로 선택한 경우 (마지막 자료는 선택안됨)

      sex   age     fare
0    male  22.0   7.2500
1  female  38.0  71.2833
2  female  26.0   7.9250
3  female  35.0  53.1000
4    male  35.0   8.0500
5    male   NaN   8.4583 

      sex   age     fare
0    male  22.0   7.2500
1  female  38.0  71.2833
2  female  26.0   7.9250
3  female  35.0  53.1000
4    male  35.0   8.0500


In [None]:
print(df.loc[0:5,'age':'fare'])   # col을 슬라이싱하는 경우
print(df.loc[0:5,['fare','sex']]) # col을 리스트로 받는 경우 (순서상관X)

In [None]:
# 열을 선택해서 보는 방식
print(df.age)
print(df['age'])

### DataFrame 연산

In [141]:
# 만약 Dataframe에 NaN이 존재한다면 무슨 연산을 하더라도 NaN처리된다

titanic = sns.load_dataset('titanic')
dft = titanic.loc[:, ['age','fare']]
print("dft\n",dft.tail(),'\n')     

# 데이터프레임에 숫자 10 더하기
addition = dft + 10
print("addition= (dft + 10) \n",addition.tail(),'\n')

# 데이터프레임끼리 연산하기 (additon - dft)
subtraction = addition - dft
print("subtraction = (addition - dft) \n",subtraction.tail(),'\n')

dft
       age   fare
886  27.0  13.00
887  19.0  30.00
888   NaN  23.45
889  26.0  30.00
890  32.0   7.75 

addition= (dft + 10) 
       age   fare
886  37.0  23.00
887  29.0  40.00
888   NaN  33.45
889  36.0  40.00
890  42.0  17.75 

subtraction = (addition - dft) 
       age  fare
886  10.0  10.0
887  10.0  10.0
888   NaN  10.0
889  10.0  10.0
890  10.0  10.0 

