In [None]:
# 데이터 분석 필수 4종 세트 (라이브러리) // open-source library
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## 1. Numpy 연습

- numpy : numerical computing for python

- 왜 numpy를 사용할까?

> 1) numpy가 (native)python에 비해서 수치 연산 결과가 매우 정확하고, 빠르다.

> 2) numpy는 vector 연산에 최적화된 구조를 가지고 있다.

> --> 데이터(벡터) 연산 <==> 벡터 연산 <==> 벡터의 원소들이 실수값이 때문에, 실수 연산

- numpy array(기본 구조)는 python list와 비슷하지만 다릅니다.
> numpy array는 원소의 모든 data type이 같고, 생성 이후 크기 변경이 불가능합니다.

- numpy array를 위에서처럼 제한을 두면, vector 연산에 최적화됩니다.
> universal function을 사용할 수 있고, 이 때문에 연산 속도가 매우 빨라집니다.

### 1.1 numpy array와 연산

In [None]:
v1 = np.array([1, 2, 3])
v2 = np.array([4, 5, -3])

In [None]:
# numpy array operation
v1 + v2 # vector addition
v1 - v2 # vector subtraction
v1 * v2 # elementwise multiplication

In [None]:
# broadcasting
v1 + 3
v1 * 3

### 1.2. numpy 주요 함수들

In [None]:
arr = np.random.randn(3, 3) # 3x3 행렬, 원소는 표준정규분포에서 샘플링한 숫자들
print(arr)

In [None]:
arr.shape

In [None]:
np.max(arr) # arr에 있는 원소중에 가장 큰 값

In [None]:
np.max(arr, axis=0) # 세로 방향 == column 방향
np.max(arr, axis=1) # 가로 방향 == row 방향

In [None]:
np.sort(arr, axis=0)
np.sort(arr, axis=1)

In [None]:
print(arr)

In [None]:
print(np.min(arr, axis=0))
print(np.min(arr, axis=1))

In [None]:
print(np.argmin(arr, axis=0))
print(np.argmin(arr, axis=1))

## 2. pandas 연습

- pandas : python data analysis, panel datas

- pandas는 정형 데이터(테이블 데이터)를 분석할 때 사용합니다.

- pandas는 내부적으로 numpy array를 가져와서 구현이 되어있습니다. (수치, 벡터 연산이 잘된다)

- pandas는 Series, DataFrame 이 2가지 자료구조를 기본으로 사용합니다.

- **python list와 dict에서 제공되었던 indexing, slicing 개념이 확장되어 특정 조건을 만족하는 데이터를 가져오는(filtering, search) 기능을 loc, iloc라고 하는 연산자를 통해서 사용할 수 있습니다.**

In [None]:
survey = pd.read_csv("../input/kaggle-survey-2021/kaggle_survey_2021_responses.csv")
survey

In [None]:
survey["Q2"] # DataFrame의 일부(row 또는 col) == Series

In [None]:
survey["Q2"].unique()

In [None]:
#survey.loc["row 조건" , "column 조건"]
#survey.loc[]
temp = survey[1:] # 첫번째 row를 제외한 나머지

man = temp[temp["Q2"] == "Man"]
woman = temp[temp["Q2"] == "Woman"]

In [None]:
man_ratio = len(man) / len(temp)
woman_ratio = len(woman) / len(temp)
print("남녀 비율 >> 남 : 여 = %.3f%% : %.3f%%" % (man_ratio * 100, woman_ratio * 100))

In [None]:
# temp에 Q3 column에서 한국, 미국 정보를 추출.
temp.loc[temp.Q3 == "South Korea", :]

### Q1. 위의 survey 데이터에서 응답한 한국 유저의 비율과, 미국 유저의 비율을 출력해보세요.

### Q2. 위의 survey 데이터에서 응답한 한국 유저 중에 "석사 학위 " 소지자가 몇 명인지 출력해보세요.

In [None]:
#temp.Q3 == "South Korea"
#temp.Q3.str.contains("Korea") # Korea 라는 글자가 포함된 모든 데이터에 관한 boolean mask
skorea = temp[temp.Q3 == "South Korea"]
usa = temp[temp.Q3 == "United States of America"]
print(skorea.shape, usa.shape)

In [None]:
skorea_ratio = len(skorea) / len(temp)
usa_ratio = len(usa) / len(temp)
print("국가 비율 >> 한국 : 미국 = %.3f%% : %.3f%%" % (skorea_ratio * 100, usa_ratio * 100))

In [None]:
# 1
skorea.loc[skorea.Q4 == "Master’s degree"]

# 2
temp[(temp.Q3 == "South Korea") & (temp.Q4 == "Master’s degree")]

# 3
temp.loc[(temp.Q3 == "South Korea") & (temp.Q4 == "Master’s degree"), ["Q3", "Q4"]]

In [None]:
# 2번째 row부터 100번째 row까지, 세번째 column부터 여섯번째 column까지
temp.iloc[1:100, 2:6] # python list의 indexing, slicing 규칙 체크!