<a href="https://colab.research.google.com/github/datajcthemax/playdata/blob/main/%E1%84%8C%E1%85%A2%E1%84%92%E1%85%A9%E1%84%81%E1%85%A5~_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### 데이터사이언스 관련 업종 연봉
![LGTM](https://i.lgtm.fun/2h0l.png)

- 데이터 위치 s3://pd24/data/salary
- 데이터 형식 parquet
- SQL 참고 링크 : [https://www.w3schools.com/sql/](https://www.w3schools.com/sql/)
- 데이터 출처 링크: [https://www.kaggle.com/datasets/arnabchaki/data-science-salaries-2023](https://www.kaggle.com/datasets/arnabchaki/data-science-salaries-2023)

### DataFrame Schema
```
%spark.pyspark
df.printSchema()

root
 |-- work_year: long (nullable = true)
 |-- experience_level: string (nullable = true)
 |-- employment_type: string (nullable = true)
 |-- job_title: string (nullable = true)
 |-- salary: long (nullable = true)
 |-- salary_currency: string (nullable = true)
 |-- salary_in_usd: long (nullable = true)
 |-- employee_residence: string (nullable = true)
 |-- remote_ratio: long (nullable = true)
 |-- company_location: string (nullable = true)
 |-- company_size: string (nullable = true)
```


### 사용방법
- %spark.pyspark 로 첫줄 지정

``` python
# parquet 읽어오기
df = spark.read.parquet("s3://pd24/data/salary/*")

# sql 쿼리를 위한 임시 테이블 만들기
df.createOrReplaceTempView("temp_jai_salary")
```

- %spark.sql 로 첫줄 지정

``` sql
SELECT
    work_year
FROM temp_jai_salary
LIMIT 10;
```

#csv -> parquet (using google drive and google colab)


```python
import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq

# read the csv file
data = pd.read_csv('salary.csv')

# convert DataFrame to Apache Arrow Table
table = pa.Table.from_pandas(data)

# write the Table to Parquet format and save it
pq.write_table(table, 'salary.parquet')
```



#parquet file을 s3로 보내기


```bash
aws s3 cp /Users/jaihocho/Downloads/salary.parquet s3://pd24/data/salary/
```

In [None]:
%spark.pyspark
df = spark.read.parquet("s3://pd24/data/salary/*")

In [None]:
%spark.pyspark
df.createOrReplaceTempView("temp_jai_salary")

In [None]:

%spark.sql
SELECT experience_level, COUNT(*) AS count
FROM temp_jai_salary
GROUP BY experience_level


In [None]:
%spark.sql
SELECT experience_level, AVG(salary_in_usd) AS avg_salary
FROM temp_jai_salary
GROUP BY experience_level

In [None]:

%spark.sql
SELECT employee_residence, COUNT(*) AS count
FROM temp_jai_salary
GROUP BY employee_residence


In [None]:
%spark.sql
SELECT company_location, AVG(salary_in_usd) AS avg_salary_usd
FROM temp_jai_salary
GROUP BY company_location
ORDER BY avg_salary_usd DESC
LIMIT 5




In [None]:
%spark.sql
SELECT job_title, AVG(salary_in_usd) AS avg_salary_usd
FROM temp_jai_salary
GROUP BY job_title
ORDER BY avg_salary_usd DESC
LIMIT 10


In [None]:
%spark.sql
SELECT job_title, AVG(salary_in_usd) AS avg_salary_usd
FROM temp_jai_salary
GROUP BY job_title
ORDER BY avg_salary_usd ASC
LIMIT 10



In [None]:
%spark.sql
SELECT SUM(CASE WHEN remote_ratio > 0 THEN 1 ELSE 0 END) AS remote_workers,
       SUM(CASE WHEN remote_ratio = 0 THEN 1 ELSE 0 END) AS offline_workers,
       COUNT(*) AS total_workers,
       SUM(CASE WHEN remote_ratio > 0 THEN 1 ELSE 0 END) / SUM(CASE WHEN remote_ratio = 0 THEN 1 ELSE 0 END) AS ratio_remote_to_offline
FROM temp_jai_salary




In [None]:
%spark.sql
SELECT company_size, COUNT(*) AS count
FROM temp_jai_salary
GROUP BY company_size



In [None]:
%spark.sql
SELECT work_year, COUNT(*) AS count
FROM temp_jai_salary
GROUP BY work_year



In [None]:
%spark.sql
SELECT job_title, COUNT(*) AS count
FROM temp_jai_salary
GROUP BY job_title
ORDER BY count DESC
LIMIT 10



#결론
데이터사이언스 관련 업종 종사자는 미국에 가장 많고 평균연봉이 가장 높은 두나라는 이스라엘과 푸에토리코이다. 데사로 잘 먹고 잘 사려면 이스라엘로 가면됨. 시니어급 경력자들이 압도적으로 많고 신입이 가장 적다. 신입 평균연봉은 7에서 8만불사이다. 평균연봉이 압도적으로 높은직업은 데이터사이언스 테크리드 이고 나머지 상위 10직업들은 연봉 도긴개긴이다. 데사 관련 직종중 가장 평균연봉이 적은 직업은 파워 BI 개발자다.  재택과 출근 비율은 거의 50대 50이다. 회사 사이즈는 중간이 압도적으로 많다. 2021~2022년 사이에 데사 관련 종사자가 거의 8배가 증가 했으나 22~23년은 약간의 증가만 있었다.데사 관련 가장 흔한 직업은 데이터 엔지니어, 데이터  사이언티스트, 데이터 분석가 순이다.

![LGTM](https://i.lgtm.fun/2h3c.gif)

