### Importando Biblioteca

In [1]:
import pandas as pd

### Convertendo a base de dados `.xlsx` para `.csv`

In [None]:
# Carrega o arquivo .xlsx
file_excel_path: str = r"caminho_para_arquivo_xlsx"
df_excel = pd.read_excel(r"seuarquivo.xlsx")

# Salva como .csv
df_excel.to_csv("seuarquivo_convertido.csv", index=False)

### Lendo Dataset

In [25]:
file_path = "rendimento_escolar_2020.csv"

df = pd.read_csv(file_path, skiprows=8)

# df.head()


### Mudando os nomes das colunas

In [26]:
df.rename(columns={
    "ano": "ano",
    "Unnamed: 1": "unidade_geografica",
    "TIPOLOCA": "localizacao",
    "DEPENDAD": "dependencia_adm",
    "tap_FUN": "total_aprovacao_FUND",
    "tap_MED": "total_aprovacao_EM",
    "tre_FUN": "total_reprovacao_FUND",
    "tre_MED": "total_reprovacao_EM",
    "tab_FUN": "total_abandono_FUND",
    "tab_MED": "total_abandono_EM",
}, inplace=True)

df.columns


Index(['ano', 'unidade_geografica', 'localizacao', 'dependencia_adm',
       'total_aprovacao_FUND', 'tap_F14', 'tap_F04', 'tap_F58', 'tap_F00',
       'tap_F01', 'tap_F02', 'tap_F03', 'tap_F05', 'tap_F06', 'tap_F07',
       'tap_F08', 'total_aprovacao_EM', 'tap_M01', 'tap_M02', 'tap_M03',
       'tap_M04', 'tap_MNS', 'total_reprovacao_FUND', 'tre_F14', 'tre_F04',
       'tre_F58', 'tre_F00', 'tre_F01', 'tre_F02', 'tre_F03', 'tre_F05',
       'tre_F06', 'tre_F07', 'tre_F08', 'total_reprovacao_EM', 'tre_M01',
       'tre_M02', 'tre_M03', 'tre_M04', 'tre_MNS', 'total_abandono_FUND',
       'tab_F14', 'tab_F04', 'tab_F58', 'tab_F00', 'tab_F01', 'tab_F02',
       'tab_F03', 'tab_F05', 'tab_F06', 'tab_F07', 'tab_F08',
       'total_abandono_EM', 'tab_M01', 'tab_M02', 'tab_M03', 'tab_M04',
       'tab_MNS'],
      dtype='object')

### Filtrando as Colunas necesssárias para um novo DF

In [27]:
# df['tap_FUN'] # total aprovação FUND
# df['tap_MED'] # total aprovação EM
# df['tre_FUN'] # total reprovação FUND
# df['tre_MED'] # total reprovacao EM
# df['tab_FUN'] # total abandono FUND
# df['tab_MED'] # total abandono MED

# Selecionar apenas as colunas desejadas
colunas_desejadas = [
    'ano', 'unidade_geografica', 'localizacao', 'dependencia_adm',
    'total_aprovacao_FUND', 'total_aprovacao_EM', 'total_reprovacao_FUND', 
    'total_reprovacao_EM', 'total_abandono_FUND', 'total_abandono_EM'
]

df_limpo = df[colunas_desejadas]

# Visualizar as primeiras linhas
print(df_limpo.head())

    ano unidade_geografica localizacao dependencia_adm total_aprovacao_FUND  \
0  2020             Brasil       Total           Total                 98.2   
1  2020             Brasil      Urbana           Total                 98.2   
2  2020             Brasil       Rural           Total                 98.1   
3  2020             Brasil       Total         Federal                 99.2   
4  2020             Brasil      Urbana         Federal                 99.2   

  total_aprovacao_EM total_reprovacao_FUND total_reprovacao_EM  \
0                 95                   0.8                 2.7   
1                 95                   0.8                 2.7   
2                 95                   0.7                 2.6   
3               88.2                   0.8                  10   
4               89.2                   0.8                 9.1   

  total_abandono_FUND total_abandono_EM  
0                   1               2.3  
1                   1               2.3  
2 

### Valores somente do Brasil, sem ser de nenhuma região específica

In [12]:
df_brasil = df_limpo[df_limpo["unidade_geografica"] == "Brasil"]

df_brasil.to_csv('rendimento_2020.csv', index=False)

### Imports e Caminhos(Paths)

In [31]:
import pandas as pd
from pathlib import Path

In [32]:
# Caminhos (Paths)

BASE_DIR = Path("C:/Users/INFORMATICO/Desktop/storytelling-covid/datasets")
RAW_DATA_DIR = BASE_DIR / "raw_data"
CLEAN_DATA_DIR = BASE_DIR / "clean_data"

### Constantes de Colunas

In [None]:
# Colunas desejadas e renomeadas
COLUMNS_RENAME = {
    "ano": "ano",
    "Unnamed: 1": "unidade_geografica",
    "TIPOLOCA": "localizacao",
    "DEPENDAD": "dependencia_adm",
    "tap_FUN": "total_aprovacao_FUND",
    "tap_MED": "total_aprovacao_EM",
    "tre_FUN": "total_reprovacao_FUND",
    "tre_MED": "total_reprovacao_EM",
    "tab_FUN": "total_abandono_FUND",
    "tab_MED": "total_abandono_EM",
}

COLUNAS_DESEJADAS = list(COLUMNS_RENAME.values())

### Funções

In [34]:
def converter_excel_para_csv(arquivo_xlsx: Path, nome_csv_saida: str, ano: int) -> Path:
    """Converte um arquivo .xlsx em .csv"""
    df = pd.read_excel(arquivo_xlsx)
    csv_path = CLEAN_DATA_DIR / f"rendimento_escolar/{ano}/{nome_csv_saida}"
    df.to_csv(csv_path, index=False)
    print(f"[✔] Arquivo convertido para CSV: {csv_path}")
    return csv_path


def limpar_dataset_rendimento(path_csv: Path, ano: int, skiprows: int = 0) -> pd.DataFrame:
    """Limpa o dataset de rendimento escolar e retorna apenas os dados do Brasil"""
    df = pd.read_csv(path_csv, skiprows=skiprows)
    df.rename(columns=COLUMNS_RENAME, inplace=True)
    df = df[COLUNAS_DESEJADAS]
    df_brasil = df[df["unidade_geografica"] == "Brasil"]
    output_path = CLEAN_DATA_DIR / f"rendimento_brasil_{ano}.csv"
    df_brasil.to_csv(output_path, index=False)
    print(f"[✔] Dados limpos salvos em: {output_path}")
    return df_brasil


'''def limpar_dataset_educacao_trabalho(path_csv: Path) -> pd.DataFrame:
    """Exemplo de função para limpar dataset de educação e trabalho"""
    df = pd.read_csv(path_csv)
    # Exemplo genérico — personalizar conforme estrutura do dataset
    df = df.dropna(how="all")  # Remove linhas totalmente vazias
    df.columns = [col.strip().lower().replace(" ", "_") for col in df.columns]
    output_path = CLEAN_DATA_DIR / "educacao_trabalho_limpo.csv"
    df.to_csv(output_path, index=False)
    print(f"[✔] Dados de educação e trabalho limpos em: {output_path}")
    return df'''


'def limpar_dataset_educacao_trabalho(path_csv: Path) -> pd.DataFrame:\n    """Exemplo de função para limpar dataset de educação e trabalho"""\n    df = pd.read_csv(path_csv)\n    # Exemplo genérico — personalizar conforme estrutura do dataset\n    df = df.dropna(how="all")  # Remove linhas totalmente vazias\n    df.columns = [col.strip().lower().replace(" ", "_") for col in df.columns]\n    output_path = CLEAN_DATA_DIR / "educacao_trabalho_limpo.csv"\n    df.to_csv(output_path, index=False)\n    print(f"[✔] Dados de educação e trabalho limpos em: {output_path}")\n    return df'

### Arquivo Principal(Main)

In [45]:
# Caminhos (Paths)

BASE_DIR = Path("C:/Users/INFORMATICO/Desktop/storytelling-covid/datasets")
RAW_DATA_DIR = BASE_DIR / "raw_data"
CLEAN_DATA_DIR = BASE_DIR / "clean_data"

# Colunas desejadas e renomeadas
COLUMNS_RENAME = {
    "ano": "ano",
    "Unnamed: 1": "unidade_geografica",
    "TIPOLOCA": "localizacao",
    "DEPENDAD": "dependencia_adm",
    "tap_FUN": "total_aprovacao_FUND",
    "tap_MED": "total_aprovacao_EM",
    "tre_FUN": "total_reprovacao_FUND",
    "tre_MED": "total_reprovacao_EM",
    "tab_FUN": "total_abandono_FUND",
    "tab_MED": "total_abandono_EM",
}

COLUNAS_DESEJADAS = list(COLUMNS_RENAME.values())

def converter_excel_para_csv(arquivo_xlsx: Path, nome_csv_saida: str, ano: int) -> Path:
    """Converte um arquivo .xlsx em .csv"""
    df = pd.read_excel(arquivo_xlsx)
    csv_path = CLEAN_DATA_DIR / f"rendimento_escolar/{ano}/{nome_csv_saida}"
    df.to_csv(csv_path, index=False)
    print(f"[✔] Arquivo convertido para CSV: {csv_path}")
    return csv_path


def limpar_dataset_rendimento(path_csv: Path, ano: int, skiprows: int = 7) -> pd.DataFrame:
    """Limpa o dataset de rendimento escolar e retorna apenas os dados do Brasil"""
    df = pd.read_csv(path_csv, skiprows=skiprows)
    df.rename(columns=COLUMNS_RENAME, inplace=True)
    df = df[COLUNAS_DESEJADAS]
    df_brasil = df[df["unidade_geografica"] == "Brasil"]
    output_path = CLEAN_DATA_DIR / f"rendimento_brasil_{ano}.csv"
    df_brasil.to_csv(output_path, index=False)
    print(f"[✔] Dados limpos salvos em: {output_path}")
    return df_brasil


'''def limpar_dataset_educacao_trabalho(path_csv: Path) -> pd.DataFrame:
    """Exemplo de função para limpar dataset de educação e trabalho"""
    df = pd.read_csv(path_csv)
    # Exemplo genérico — personalizar conforme estrutura do dataset
    df = df.dropna(how="all")  # Remove linhas totalmente vazias
    df.columns = [col.strip().lower().replace(" ", "_") for col in df.columns]
    output_path = CLEAN_DATA_DIR / "educacao_trabalho_limpo.csv"
    df.to_csv(output_path, index=False)
    print(f"[✔] Dados de educação e trabalho limpos em: {output_path}")
    return df'''


def main():
    # Etapa 1: Converter arquivos .xlsx se necessário
    # converter_excel_para_csv(RAW_DATA_DIR / "rendimento_escolar/2020/tx_rend_brasil_regioes_ufs_2020.xlsx", "tx_rend_brasil_regioes_ufs_2020.csv", 2020)
    # converter_excel_para_csv(RAW_DATA_DIR / "rendimento_escolar/2021/tx_rend_brasil_regioes_ufs_2021.xlsx", "tx_rend_brasil_regioes_ufs_2021.csv", 2021)
    converter_excel_para_csv(RAW_DATA_DIR / "rendimento_escolar/2022/tx_rend_brasil_regioes_ufs_2022.xlsx", "tx_rend_brasil_regioes_ufs_2022.csv", 2022)

    # Etapa 2: Limpeza dos datasets de rendimento
    # limpar_dataset_rendimento(CLEAN_DATA_DIR / "rendimento_escolar/2020/tx_rend_brasil_regioes_ufs_2020.csv", 2020)
    # limpar_dataset_rendimento(CLEAN_DATA_DIR / "rendimento_escolar/2021/tx_rend_brasil_regioes_ufs_2021.csv", 2021)
    limpar_dataset_rendimento(CLEAN_DATA_DIR / "rendimento_escolar/2022/tx_rend_brasil_regioes_ufs_2022.csv", 2022)
    
    
main()

[✔] Arquivo convertido para CSV: C:\Users\INFORMATICO\Desktop\storytelling-covid\datasets\clean_data\rendimento_escolar\2022\tx_rend_brasil_regioes_ufs_2022.csv


KeyError: "['ano', 'localizacao', 'dependencia_adm', 'total_aprovacao_FUND', 'total_aprovacao_EM', 'total_reprovacao_FUND', 'total_reprovacao_EM', 'total_abandono_FUND', 'total_abandono_EM'] not in index"