# Stata와 Pandas 기능 비교

## 데이터 구조 및 기본 사용

| 기능             | Stata                          | Pandas (Python)                       |
|------------------|--------------------------------|---------------------------------------|
| 데이터 구조      | 데이터셋 (.dta 파일)           | DataFrame (.csv, .xlsx, .hdf, .json 등) |
| 기본 사용 언어   | Stata 명령어 (스크립트 파일: .do) | Python                                |
| 데이터 읽기      | `use filename`                 | `pd.read_csv('filename')`             |
| 데이터 쓰기      | `save filename`                | `df.to_csv('filename')`               |




# 데이터 선택 및 필터링

## 특정 열 유지

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `keep varlist`                 | `df = df[['col1', 'col2']]`           |
| ```stata                       | ```python                             |
| keep col1 col2                 | df = df[['col1', 'col2']]             |
| ```                            | ```                                   |

## 열 삭제

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `drop varlist`                 | `df.drop(columns=['col1', 'col2'], inplace=True)` |
| ```stata                       | ```python                             |
| drop col1 col2                 | df.drop(columns=['col1', 'col2'], inplace=True) |
| ```                            | ```                                   |

## 열 이름 바꾸기

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `rename oldname newname`       | `df.rename(columns={'oldname': 'newname'}, inplace=True)` |
| ```stata                       | ```python                             |
| rename oldname newname         | df.rename(columns={'oldname': 'newname'}, inplace=True) |
| ```                            | ```                                   |

## 행 필터링

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `keep if condition`            | `df = df[df['column'] == condition]`  |
| ```stata                       | ```python                             |
| keep if age > 30               | df = df[df['age'] > 30]               |
| ```                            | ```                                   |

## 값에 따른 정렬

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `sort varname`                 | `df.sort_values(by='varname', ascending=True)` |
| ```stata                       | ```python                             |
| sort age                       | df = df.sort_values(by='age', ascending=True) |
| ```                            | ```                                   |


# 데이터 생성 및 변환

## 변수 생성

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `generate varname = expression` | `df['varname'] = expression`          |
| ```stata                       | ```python                             |
| generate varname = expression  | df['varname'] = expression            |
| ```                            | ```                                   |

## 변수 삭제

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `drop varname`                 | `df.drop(columns=['varname'], inplace=True)` |
| ```stata                       | ```python                             |
| drop varname                   | df.drop(columns=['varname'], inplace=True) |
| ```                            | ```                                   |

## 변수 형 변환

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `tostring`, `destring`, `encode` | `df['column'] = df['column'].astype(type)` |
| ```stata                       | ```python                             |
| tostring varname, replace      | df['column'] = df['column'].astype(type) |
| destring varname, replace      |                                       |
| encode varname, generate(newvar) |                                       |
| ```                            | ```                                   |

## 결측치 확인

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `misstable summarize`          | `df.isnull().sum()`                   |
| ```stata                       | ```python                             |
| misstable summarize            | df.isnull().sum()                     |
| ```                            | ```                                   |

## 결측치 제거

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `drop if missing(varname)`      | `df.dropna(inplace=True)`             |
| ```stata                       | ```python                             |
| drop if missing(varname)       | df.dropna(inplace=True)               |
| ```                            | ```                                   |

## 결측치 대체 (지정된 값)

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `replace varname = value if missing(varname)` | `df['varname'].fillna(value, inplace=True)` |
| ```stata                       | ```python                             |
| replace varname = value if missing(varname) | df['varname'].fillna(value, inplace=True) |
| ```                            | ```                                   |

## 결측치 대체 (앞의 값)

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `replace varname = varname[_n-1] if missing(varname)` | `df['varname'].fillna(method='ffill', inplace=True)` |
| ```stata                       | ```python                             |
| replace varname = varname[_n-1] if missing(varname) | df['varname'].fillna(method='ffill', inplace=True) |
| ```                            | ```                                   |


# 문자열 처리

## 문자열 길이 찾기

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `gen strlen = length(varname)` | `df['strlen'] = df['varname'].str.len()` |
| ```stata                       | ```python                             |
| gen strlen = length(varname)   | df['strlen'] = df['varname'].str.len() |
| ```                            | ```                                   |

## 문자열 하위 위치 찾기

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `gen pos = strpos(varname, "substring")` | `df['pos'] = df['varname'].str.find('substring')` |
| ```stata                       | ```python                             |
| gen pos = strpos(varname, "substring") | df['pos'] = df['varname'].str.find('substring') |
| ```                            | ```                                   |

## 위치별 문자열 추출

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `gen substr = substr(varname, start, len)` | `df['substr'] = df['varname'].str[start:end]` |
| ```stata                       | ```python                             |
| gen substr = substr(varname, 1, 3) | df['substr'] = df['varname'].str[1:4] |
| ```                            | ```                                   |

## n번째 단어 추출

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `gen word = word(varname, n)`  | `df['word'] = df['varname'].str.split().str[n-1]` |
| ```stata                       | ```python                             |
| gen word = word(varname, 2)    | df['word'] = df['varname'].str.split().str[1] |
| ```                            | ```                                   |

## 문자열 케이스 변경

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `gen upper = upper(varname)`   | `df['upper'] = df['varname'].str.upper()`<br>`df['lower'] = df['varname'].str.lower()`<br>`df['title'] = df['varname'].str.title()` |
| ```stata                       | ```python                             |
| gen upper = upper(varname)     | df['upper'] = df['varname'].str.upper() |
| gen lower = lower(varname)     | df['lower'] = df['varname'].str.lower() |
| gen title = proper(varname)    | df['title'] = df['varname'].str.title() |
| ```                            | ```                                   |


# 그룹화 및 집계

## 그룹별 요약

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `by varname: summarize`        | `df.groupby('varname').describe()`    |
| ```stata                       | ```python                             |
| by groupvar: summarize         | df.groupby('groupvar').describe()     |
| ```                            | ```                                   |

## 그룹별 집계

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `by varname: egen newvar = func(varname)` | `df.groupby('varname').agg({'col': 'func'})` |
| ```stata                       | ```python                             |
| by groupvar: egen newvar = mean(varname) | df.groupby('groupvar').agg({'col': 'mean'}) |
| ```                            | ```                                   |

## 그룹별 변환

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `by varname: replace varname = ...` | `df.groupby('varname').transform(func)` |
| ```stata                       | ```python                             |
| by groupvar: replace varname = mean(varname) | df['varname'] = df.groupby('groupvar')['varname'].transform('mean') |
| ```                            | ```                                   |

## 그룹별 처리

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `by varname: command`          | `df.groupby('varname').apply(func)`   |
| ```stata                       | ```python                             |
| by groupvar: regress y x       | df.groupby('groupvar').apply(lambda x: sm.OLS(x['y'], x[['x']]).fit().summary()) |
| ```                            | ```                                   |


# 시계열 및 날짜 처리

## 날짜 형식 변환

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `gen datevar = date(string, "YMD")` | `pd.to_datetime(df['column'], format='%Y-%m-%d')` |
| ```stata                       | ```python                             |
| gen datevar = date(stringvar, "YMD") | df['datevar'] = pd.to_datetime(df['column'], format='%Y-%m-%d') |
| ```                            | ```                                   |

## 날짜 구성 요소 추출

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `gen year = year(datevar)`     | `df['year'] = df['datevar'].dt.year`  |
| ```stata                       | ```python                             |
| gen year = year(datevar)       | df['year'] = df['datevar'].dt.year    |
| ```                            | ```                                   |

## 날짜 연산

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `gen newdate = datevar + 1`    | `df['newdate'] = df['datevar'] + pd.Timedelta(days=1)` |
| ```stata                       | ```python                             |
| gen newdate = datevar + 1      | df['newdate'] = df['datevar'] + pd.Timedelta(days=1) |
| ```                            | ```                                   |

# 데이터 병합 및 결합

## 병합

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `merge`                        | `pd.merge(df1, df2, on='key')`        |
| ```stata                       | ```python                             |
| merge using filename, by(key)  | df_merged = pd.merge(df1, df2, on='key') |
| ```                            | ```                                   |

## 가로 결합

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `append`                       | `pd.concat([df1, df2])`               |
| ```stata                       | ```python                             |
| append using filename          | df_concat = pd.concat([df1, df2])     |
| ```                            | ```                                   |

## 세로 결합

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `merge`                        | `pd.concat([df1, df2], axis=1)`       |
| ```stata                       | ```python                             |
| merge using filename, by(key)  | df_concat = pd.concat([df1, df2], axis=1) |
| ```                            | ```                                   |


# 반복 및 조건문

## 조건문

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `if`, `else`                   | `if`, `else`                          |
| ```stata                       | ```python                             |
| if age > 30 {                  | if age > 30:                          |
|     // do something            |     # do something                    |
| } else {                       | else:                                 |
|     // do something else       |     # do something else               |
| }                              |                                       |
| ```                            | ```                                   |

## 반복문

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `foreach`, `forvalues`         | `for index, row in df.iterrows():`    |
| ```stata                       | ```python                             |
| foreach var of varlist a b c { | for index, row in df.iterrows():      |
|     // do something            |     # do something                    |
| }                              |                                       |
| ```                            | ```                                   |

# 통계 및 회귀 분석

## 요약 통계

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `summarize`                    | `df.describe()`                       |
| ```stata                       | ```python                             |
| summarize                      | df.describe()                         |
| ```                            | ```                                   |

## 기초 통계량

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `mean`, `sum`, `median`, etc.  | `df['column'].mean()`, `df['column'].sum()`, etc. |
| ```stata                       | ```python                             |
| mean varname                   | df['column'].mean()                   |
| sum varname                    | df['column'].sum()                    |
| median varname                 | df['column'].median()                 |
| ```                            | ```                                   |

## 추정 및 회귀분석

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `regress`                      | `import statsmodels.api as sm`        |
| ```stata                       | ```python                             |
| regress y x1 x2                | import statsmodels.api as sm          |
|                                | X = df[['x1', 'x2']]                  |
|                                | Y = df['y']                           |
|                                | model = sm.OLS(Y, X).fit()            |
|                                | results = model.summary()             |
| ```                            | ```                                   |

## 패널 데이터 분석

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `xtset`, `xtreg`               | `import statsmodels.formula.api as smf` |
| ```stata                       | ```python                             |
| xtset panelvar timevar         | import statsmodels.formula.api as smf |
| xtreg y x1 x2, fe              | model = smf.ols('y ~ x1 + x2', data=df).fit() |
|                                | results = model.summary()             |
| ```                            | ```                                   |

# 시각화

## 시각화

| Stata                          | Pandas (Python)                       |
|--------------------------------|---------------------------------------|
| `graph` 명령어                 | `matplotlib`, `seaborn`               |
| ```stata                       | ```python                             |
| graph bar (mean) y, over(x)    | import matplotlib.pyplot as plt       |
|                                | df['y'].plot(kind='bar')              |
|                                | plt.show()                            |
| ```                            | ```                                   |


In [1]:
import pandas as pd

# Gapminder 데이터 URL
url = "https://raw.githubusercontent.com/resbaz/r-novice-gapminder-files/master/data/gapminder-FiveYearData.csv"

# 데이터 불러오기
df = pd.read_csv(url)

# 데이터 확인
print(df.head())


       country  year         pop continent  lifeExp   gdpPercap
0  Afghanistan  1952   8425333.0      Asia   28.801  779.445314
1  Afghanistan  1957   9240934.0      Asia   30.332  820.853030
2  Afghanistan  1962  10267083.0      Asia   31.997  853.100710
3  Afghanistan  1967  11537966.0      Asia   34.020  836.197138
4  Afghanistan  1972  13079460.0      Asia   36.088  739.981106


### 데이터 선택 및 필터링 ###
특정 열 유지
```특정 열 유지

In [2]:
# 특정 열 유지
df_subset = df[['country', 'year', 'lifeExp']]
print(df_subset.head())


       country  year  lifeExp
0  Afghanistan  1952   28.801
1  Afghanistan  1957   30.332
2  Afghanistan  1962   31.997
3  Afghanistan  1967   34.020
4  Afghanistan  1972   36.088


행 필터링

In [None]:
# 행 필터링: 2007년 데이터만 선택
df_2007 = df[df['year'] == 2007]
print(df_2007.head())


### 데이터 생성 및 변환 ###
변수 생성
```변수 생성

In [None]:
# 변수 생성: lifeExp의 제곱
df['lifeExp_squared'] = df['lifeExp'] ** 2
print(df.head())


결측치 대체 (지정된 값)

In [None]:
# 결측치 확인 (Gapminder 데이터에는 결측치가 거의 없습니다)
print(df.isnull().sum())

# 결측치 대체: 예를 들어, lifeExp에 결측치가 있다면 0으로 대체
df['lifeExp'].fillna(0, inplace=True)


### 문자열 처리 ###
문자열 길이 찾기
```문자열 길이 찾기

In [None]:
# 문자열 길이 찾기: country 이름의 길이
df['country_length'] = df['country'].str.len()
print(df[['country', 'country_length']].head())


### 그룹화 및 집계 ###
그룹별 요약
```그룹별 요약

In [None]:
# 그룹별 요약: continent별 요약 통계
continent_summary = df.groupby('continent').describe()
print(continent_summary)


그룹별 집계

In [None]:
# 그룹별 집계: continent별 평균 lifeExp
continent_lifeExp_mean = df.groupby('continent').agg({'lifeExp': 'mean'})
print(continent_lifeExp_mean)


### 시계열 및 날짜 처리 ###
날짜 형식 변환
```날짜 형식 변환
(이 데이터에는 날짜 변환이 필요 없지만 예시로 포함)

In [None]:
# 예시: 문자열을 날짜 형식으로 변환 (이 데이터에는 해당 안 됨)
# df['date'] = pd.to_datetime(df['year'], format='%Y')


날짜 구성 요소 추출 
```날짜 구성 요소 추출
(이 데이터에는 해당 없음)


### 데이터 병합 및 결합 ###
병합
```
(여기서는 예시로 동일한 데이터를 두 번 불러와 병합)

In [None]:
# 두 데이터프레임 병합
df1 = df[['country', 'year', 'lifeExp']]
df2 = df[['country', 'year', 'gdpPercap']]
df_merged = pd.merge(df1, df2, on=['country', 'year'])
print(df_merged.head())


### 반복 및 조건문 ###
조건문

In [None]:
# 조건문: lifeExp가 70 이상이면 1, 그렇지 않으면 0
df['high_lifeExp'] = df['lifeExp'].apply(lambda x: 1 if x >= 70 else 0)
print(df[['country', 'year', 'lifeExp', 'high_lifeExp']].head())


반복문

In [None]:
# 반복문: 각 country의 평균 lifeExp 계산
countries = df['country'].unique()
for country in countries:
    country_df = df[df['country'] == country]
    mean_lifeExp = country_df['lifeExp'].mean()
    print(f'{country}: {mean_lifeExp}')


### 통계 및 회귀 분석 ###
요약 통계

In [None]:
# 요약 통계
print(df.describe())


회귀 분석

In [None]:
import statsmodels.api as sm

# 독립 변수와 종속 변수 설정
X = df[['year', 'gdpPercap']]
X = sm.add_constant(X)  # 상수항 추가
Y = df['lifeExp']

# 회귀 분석
model = sm.OLS(Y, X).fit()
print(model.summary())


### 시각화 ###

In [None]:
import matplotlib.pyplot as plt

# 시각화: 연도별 평균 lifeExp
df.groupby('year')['lifeExp'].mean().plot(kind='line')
plt.xlabel('Year')
plt.ylabel('Average Life Expectancy')
plt.title('Average Life Expectancy Over Time')
plt.show()
