In [None]:
# 판다스 공식 문서 : https://pandas.pydata.org/docs/
# 라이브러리 최초 설치 시 느낌표를 앞에 붙임 (ex. !pip install pandas)

In [None]:
!pip install pandas

# 데이터 다루기 기본



# 0) 판다스 자료형
* Series()
* DataFrame()

In [None]:
import pandas as pd
pd.Series([1,2,3], index = ['a','b','c'])

a    1
b    2
c    3
dtype: int64

In [None]:
import pandas as pd
data = pd.DataFrame({'이름' : ['홍길동','홍길산','홍길영'], '나이' : [10,20,30]})

In [None]:
data


## 1) 데이터 불러오기
* from ~ import 문
* import ~ as 문
* pd.read_csv('file', encoding = 'cp949')
<br>


In [None]:
from sklearn.preprocessing import MinMaxScaler

In [None]:
import pandas as pd
data = pd.read_csv('./sample_data/california_housing_test.csv',encoding = 'cp949')

## 2) 데이터 살펴보기
* df.shape
* df.info()
*df.describe()
* df.head()
* df.tail()
* df.unique()
* df.value_counts()


In [None]:
import seaborn as sns
df = sns.load_dataset('titanic')

In [None]:
print('행의 수 : ', df.shape[0])
print('열의 수 : ', df.shape[1])

행의 수 :  891
열의 수 :  15


In [None]:
df.info()

In [None]:
df.isnull().sum()

In [None]:
df.describe()

In [None]:
df.tail(12)

In [None]:
df['survived'].unique()

In [None]:
df['pclass'].value_counts()

pclass
3    491
1    216
2    184
Name: count, dtype: int64



## 3) 결측치 확인 및 처리
* isnull()
* fillna()
* dropna(inplace = True)
* drop_duplicates() 중복행삭제



In [None]:
df1 = df.copy()
df2 = df.copy()

In [None]:
df1['age'].fillna(df1['age'].mean(), inplace = True)

In [None]:
df2.dropna(inplace = True)

In [None]:
df.drop_duplicates(subset = ['survived','pclass'])

## 4) 이상치 확인 및 조정
* box-plot
* IQR = Q3 - Q1
* Q1 – 1.5 * IQR 미만이나 Q3 + 1.5 * IQR 초과데이터를 이상치로 탐지

In [None]:
import seaborn as sns
df = sns.load_dataset('titanic')

# dataframe을 box plot으로 표현
df.info()
df.plot(kind = 'box')

In [None]:
# dataframe에서 int, float 열만 추출
numeric_df = df.select_dtypes(include = [int, float])
numeric_df.columns # 6개
numeric = list(numeric_df.columns)

# 각 열에 대하여 IQR 기반으로 이상치 제거
for col in numeric:
  IQR = df[col].quantile(0.75) - df[col].quantile(0.25)
  upper_bound = df[col].quantile(0.75) + IQR*1.5
  lower_bound = df[col].quantile(0.25) - IQR*1.5
  df[col] = df[col].clip(lower_bound, upper_bound)

# 이상치가 제거된 DataFrame의 박스 플롯
df.plot(kind = 'box')


## 5) 데이터 붙이기
* concat(), merge()

In [None]:
import pandas as pd
df1 = pd.read_csv('신상정보1.csv', encoding='cp949')
df2 = pd.read_csv('신상정보2.csv', encoding='cp949')
print(df1)
print('-----')
print(df2)

In [None]:
concat_0 = pd.concat([df1, df2], axis = 0, ignore_index = True)

In [None]:
pd.concat([df1, df2], axis = 1)

In [None]:
# df1 => 민지 , df2 = 바다
pd.merge(df1, df2, how = 'right')

In [None]:
df2.columns = ['성함','과목','학점']

In [None]:
pd.merge(df1, df2, how = 'right', left_on = '이름', right_on = '성함')

## 6) 그룹으로 묶어서 보기
* groupby()

In [None]:
import seaborn as sns
df = sns.load_dataset('iris')

In [None]:
# species 특성 기준으로 그룹화한 후 다른 각 특성의 평균 구하기
df.groupby('species').mean()

In [None]:
# species 특성 기준으로 그룹화한 후, sepal_length의 중앙값, sepal_width의 분산, petal_length의 평균, petal_width의 최대값 구하기.
df.groupby('species').agg({'sepal_length' : 'median',
                           'sepal_width' : 'var',
                           'petal_length':'mean',
                           'petal_width' : 'max'})


## 7) 행/열

### 7-1) 행/열 선택 및 조건 필터링
* .iloc[]
* .loc[]
* &, |

### 7-2) 열 이름 변경
* df.rename()
* df.columns = ['new','new2']
* df.columns = df.columns.str.replace('기존문자' , '대체문자')

### 7-3) 열 삭제
* df.drop()


In [None]:
df.head()

In [None]:
# iloc 써서 첫번째 열만 표시
df.iloc[:,0]

In [None]:
# setosa라는 품종만 선택해서 가져오기
condition = (df['species'] == 'setosa')
df.loc[condition , 'petal_length']

In [None]:
# 품종이 setosa이면서, petal_length가 1.4이상인 것만 가져오기
condition2 = (df['species'] == 'setosa') | (df['petal_length'] >= 1.4)
df.loc[condition2]

In [None]:
# rename 함수로 열이름 변경
'''
df.rename()
df.columns = df.columns.str.replace('기존문자' , '대체문자')
'''
df.rename(columns = {'species' : '품종'}, inplace = True)

In [None]:
# replace 함수로 열이름 변경
df.columns = df.columns.str.replace('품종', 'species')

## 8) 정렬
  - sort_index()
  - sort_index(axis = 1)
  - sort_values(by='컬럼명')
  - sort_values(by=['컬럼명', '컬럼명2'])



In [None]:
# 인덱스 기준으로 정렬하기
df.sort_index(ascending = False)

In [None]:
# 열 지정하여 정렬하기
df.sort_values(by = 'sepal_length', ascending = False)

## 9) 자료형 변경
* df.dtypes
* df['컬럼명'] = df['컬럼명'].astype('타입')
* df.convert_dtypes() 가장 적절한 dtype으로 변경



In [None]:
df.info()

In [None]:
# 열의 데이터형을 조회하고 형변환하기
df['sepal_length'].dtypes
df['sepal_length'] = df['sepal_length'].astype('int')
df

In [None]:
# dataframe의 각 열의 데이터형을 적정 데이터형으로 변환
conv_df = df.convert_dtypes()
conv_df.info()


## 10) 문자열 데이터 다루기
* df['컬럼명'].str.split("기준문자", expand = True)

In [None]:
import pandas as pd
df = pd.read_csv('./한국지역난방공사_날씨정보.csv', encoding = 'cp949')


In [None]:
df.head()

# 연도열의 데이터를 '-'를 분할자로 지정하여 연/월/일 열 생성
df['연도'] = df['일자'].str.split('-').str.get(0)
df['월'] =df['일자'].str.split('-').str.get(1)
df['일'] =df['일자'].str.split('-').str.get(2)
df

Unnamed: 0,일자,시간,날씨,연도,월,일
0,2017-02-14,1,맑음,2017,02,14
1,2017-02-14,2,맑음,2017,02,14
2,2017-02-14,5,맑음,2017,02,14
3,2017-02-14,9,맑음,2017,02,14
4,2017-02-14,10,맑음,2017,02,14
...,...,...,...,...,...,...
46090,2023-06-26,1,비,2023,06,26
46091,2023-06-26,2,비,2023,06,26
46092,2023-06-26,3,비,2023,06,26
46093,2023-06-26,4,비,2023,06,26


In [None]:
import seaborn as sns
iris = sns.load_dataset('iris')
iris

In [None]:
# species 열의 데이터에 & 붙이기
iris['species']= iris['species'] + '$'
iris

In [None]:
# species 열의 데이터에서 & 떼어내기
iris['species'] = iris['species'].str.split('$').str.get(0)
iris

## 11) 날짜 데이터 핸들링
* datetime 모듈
* dt 모듈

In [None]:
import pandas as pd

# '한국지역난방공사_날씨정보.csv' 읽어들일 때 '일자'를 datetime 형식으로 지정
df = pd.read_csv('한국지역난방공사_날씨정보.csv', encoding = 'cp949', parse_dates = ['일자'])
df.info()

In [None]:
# datetime 형식의 데이터에서 연/월/일 값 읽어들이기
df['year']= df['일자'].dt.year
df['month']= df['일자'].dt.month
df['day']= df['일자'].dt.day
df

In [None]:
#일반 문자열형식의 날짜 데이터열을 datetime 형식의 열로 변환하기
date_str = '05/15/2023'
result = pd.to_datetime(date_str, format='%m/%d/%Y')

#문자열에서 날짜,시간값 추출하기
date_str2 = '2023-06-15 13:40:30'
result = pd.to_datetime(date_str2, format = '%Y-%m-%d %H:%M:%S')
result


Timestamp('2023-06-15 13:40:30')

#12) 데이터 스케일링
* 정규화 : MinMaxScaler -> 최대/최소값이 각각 1,0이 되도록 스케일링
* 표준화 : StandardScaler -> 평균을 0,표준편차를 1로 만드는 과정

In [None]:
import seaborn as sns
import pandas as pd
titanic = sns.load_dataset('titanic')

titanic.info()

In [None]:
# dataframe에서 특정 데이터형식의 열만 분리하기
numeric_df = titanic.select_dtypes(include = ['int','float'])
numeric_df

# dataframe 전체를 MinMax Scaling
from sklearn.preprocessing import MinMaxScaler
sc = MinMaxScaler()
titanic1 = pd.DataFrame(sc.fit_transform(numeric_df), columns=numeric_df.columns)
titanic1.describe()

In [None]:
# dataframe 전체를 Standard Scaling
from sklearn.preprocessing import StandardScaler
sc2 = StandardScaler()
titanic2 = pd.DataFrame(sc2.fit_transform(numeric_df), columns = numeric_df.columns)
titanic2.describe()

# 13) 범주형 데이터 인코딩

In [None]:
titanic.info()

In [None]:
# dataframe에서 object 타입의 열만 분리하기
cat_df = titanic.select_dtypes(include = 'object')
# dataframe 전체에 대하여 원핫인코딩
pd.get_dummies(titanic,columns = cat_df.columns)

In [None]:
# dataframe에서 object, category 타입의 열만 분리하기
from sklearn.preprocessing import LabelEncoder
cat_df = titanic.select_dtypes(include = ['object','category'])

# object, category 타입의 열에 대하여 라벨인코딩 적용하기 (for문 사용)
encoders = {}
for col in cat_df.columns:
  encoder = LabelEncoder()
  titanic[col] = encoder.fit_transform(titanic[col])
  encoders[col] = encoder

titanic


# 14) 데이터 분할
### 기계 학습 모델을 평가하고 일반화하기 위해 데이터를 두 그룹으로 나누는 데 사용



In [None]:
# train(0.7) / test(0.3)
condition = round(titanic.shape[0] * 0.7)
train = titanic.iloc[:condition]
train

test = titanic.iloc[condition :]
test

In [None]:
X = titanic[['pclass']]
y = titanic['survived']

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test,y_train, y_test= train_test_split(X,y, random_state = 2021, stratify =y, test_size = 0.3)

In [None]:
X_train
X_test

Unnamed: 0,pclass
672,2
832,3
435,1
618,2
49,3
...,...
329,1
637,2
109,3
141,3


# 15) 그래프 기초
* fig와 axes
* 수치형 그래프
 * 히스토그램, 박스플롯 등
* 범주형 그래프
 * 막대그래프, 파이차트 등

In [None]:
import seaborn as sns
df = sns.load_dataset('iris')
df

In [None]:
!pip install koreanize-matplotlib

In [None]:
import matplotlib.pyplot as plt
import koreanize_matplotlib
fig, axes = plt.subplots(2,3, figsize = (10,10))
axes[0][0].set_title('0행 0열 그래프')
axes[0][0].set_xlabel('sepal_length')
axes[0][0].set_ylabel('petal_length')
axes[0][0].scatter(df['sepal_length'], df['petal_length'])
axes[0][1].plot(df['sepal_length'],df['petal_length'])