In [32]:
import pandas as pd
import chardet
import numpy as np

IBGE files has a different encoding a different separator. So we're making a function to load them

In [33]:
def load_path_from_ibge_auto_encoding(path):
    # First we need to detect the encoding
    with open(path, 'rb') as f:
        result = chardet.detect(f.read())
        encoding = result['encoding']
        print(f"Will load {path} with encoding {encoding}")
    return pd.read_csv(path, encoding=encoding, sep=';')

We ran these functions and we know that the encoding is `Windows-1252`

In [34]:
demografia = pd.read_csv("../data/Censos/Censo_Demografico_2022/Agregados_por_Setores_Censitarios/Agregados_por_Distrito_csv/Agregados_por_distritos_demografia_BR.csv", encoding='Windows-1252', sep=';')
alfabetizacao = pd.read_csv("../data/Censos/Censo_Demografico_2022/Agregados_por_Setores_Censitarios/Agregados_por_Distrito_csv/Agregados_por_distritos_alfabetizacao_BR.csv", encoding='Windows-1252', sep=';')
print(demografia)
print(alfabetizacao)

         CD_DIST                    NM_DIST   V01006   V01007   V01008 V01009  \
0      110001505      Alta Floresta D'Oeste    16699     8267     8432    592   
1      110001515         Filadélfia d'Oeste      551      299      252     23   
2      110001520                Izidolândia      532      287      245     25   
3      110001525         Nova Gease d'Oeste     1071      562      509     35   
4      110001530  Rolim de Moura do Guaporé      801      442      359     42   
...          ...                        ...      ...      ...      ...    ...   
10693  522205405             Vicentinópolis     8768     4497     4271    292   
10694  522220305                   Vila Boa     4215     2194     2021    157   
10695  522230205              Vila Propício     3258     1717     1541     88   
10696  522230210          Assunção de Goiás     2557     1325     1232    102   
10697  530010805                   Brasília  2800136  1326750  1473382  84305   

      V01010 V01011  V01012

  alfabetizacao = pd.read_csv("../data/Censos/Censo_Demografico_2022/Agregados_por_Setores_Censitarios/Agregados_por_Distrito_csv/Agregados_por_distritos_alfabetizacao_BR.csv", encoding='Windows-1252', sep=';')


From the dictionary:
```
Pessoas	Demografia	V01031	0 a 4 anos
Pessoas	Demografia	V01032	5 a 9 anos
Pessoas	Demografia	V01033	10 a 14 anos
Pessoas	Demografia	V01034	15 a 19 anos
Pessoas	Demografia	V01035	20 a 24 anos
Pessoas	Demografia	V01036	25 a 29 anos
Pessoas	Demografia	V01037	30 a 39 anos
Pessoas	Demografia	V01038	40 a 49 anos
Pessoas	Demografia	V01039	50 a 59 anos
Pessoas	Demografia	V01040	60 a 69 anos
Pessoas	Demografia	V01041	70 anos ou mais
```

```
Pessoas	Alfabetização	V00644	15 a 19 anos
Pessoas	Alfabetização	V00645	20 a 24 anos
Pessoas	Alfabetização	V00646	25 a 29 anos
Pessoas	Alfabetização	V00647	30 a 34 anos
Pessoas	Alfabetização	V00648	35 a 39 anos
Pessoas	Alfabetização	V00649	40 a 44 anos
Pessoas	Alfabetização	V00650	45 a 49 anos
Pessoas	Alfabetização	V00651	50 a 54 anos
Pessoas	Alfabetização	V00652	55 a 59 anos
Pessoas	Alfabetização	V00653	60 a 64 anos
Pessoas	Alfabetização	V00654	65 a 69 anos
Pessoas	Alfabetização	V00655	70 a 79 anos
Pessoas	Alfabetização	V00656	80 anos ou mais

Pessoas	Alfabetização	V00748	Pessoas alfabetizadas, 15 a 19 anos
Pessoas	Alfabetização	V00749	Pessoas alfabetizadas, 20 a 24 anos
Pessoas	Alfabetização	V00750	Pessoas alfabetizadas, 25 a 29 anos
Pessoas	Alfabetização	V00751	Pessoas alfabetizadas, 30 a 34 anos
Pessoas	Alfabetização	V00752	Pessoas alfabetizadas, 35 a 39 anos
Pessoas	Alfabetização	V00753	Pessoas alfabetizadas, 40 a 44 anos
Pessoas	Alfabetização	V00754	Pessoas alfabetizadas, 45 a 49 anos
Pessoas	Alfabetização	V00755	Pessoas alfabetizadas, 50 a 54 anos
Pessoas	Alfabetização	V00756	Pessoas alfabetizadas, 55 a 59 anos
Pessoas	Alfabetização	V00757	Pessoas alfabetizadas, 60 a 64 anos
Pessoas	Alfabetização	V00758	Pessoas alfabetizadas, 65 a 69 anos
Pessoas	Alfabetização	V00759	Pessoas alfabetizadas, 70 a 79 anos
Pessoas	Alfabetização	V00760	Pessoas alfabetizadas, 80 anos ou mais
```


In [35]:
all_alfa = alfabetizacao.copy()

# List of columns to convert from string to float
columns_to_convert = [
    'V00748', 'V00644', 'V00749', 'V00645', 'V00750', 'V00646', 
    'V00751', 'V00647', 'V00752', 'V00648', 'V00753', 'V00649',
    'V00754', 'V00650', 'V00755', 'V00651', 'V00756', 'V00652',
    'V00757', 'V00653', 'V00758', 'V00654', 'V00759', 'V00655', 
    'V00760', 'V00656'
]

# We're going to clean all columns except the first two
exclude_columns = ['CD_DIST', 'NM_DIST']
columns_to_clean = all_alfa.columns.difference(exclude_columns)

# Replace '.' with NaN only in the specified columns
all_alfa[columns_to_clean] = all_alfa[columns_to_clean].replace('.', np.nan)

# Convert the specified columns to numeric, coercing errors to NaN
all_alfa[columns_to_clean] = all_alfa[columns_to_clean].apply(pd.to_numeric, errors='coerce')

# Drop rows where any of the specified columns have NaN values
all_alfa = all_alfa.dropna(subset=columns_to_clean)

# Convert the specified columns to float type
all_alfa[columns_to_convert] = all_alfa[columns_to_convert].astype(float)

# Doing this weird replacement to ensure that if we're dividing by zero, that is, total pop is 0, then we just fill it with nan and replace the whole thing with 0
all_alfa['perc alfa 15 a 19'] =  all_alfa['V00748'].divide(all_alfa['V00644'].replace(0, np.nan)).fillna(0)  
all_alfa['perc alfa 20 a 24'] =  all_alfa['V00749'].divide(all_alfa['V00645'].replace(0, np.nan)).fillna(0)   
all_alfa['perc alfa 25 a 29'] =  all_alfa['V00750'].divide(all_alfa['V00646'].replace(0, np.nan)).fillna(0)  
all_alfa['perc alfa 30 a 34'] =  all_alfa['V00751'].divide(all_alfa['V00647'].replace(0, np.nan)).fillna(0)  
all_alfa['perc alfa 35 a 39'] =  all_alfa['V00752'].divide(all_alfa['V00648'].replace(0, np.nan)).fillna(0)  
all_alfa['perc alfa 40 a 44'] =  all_alfa['V00753'].divide(all_alfa['V00649'].replace(0, np.nan)).fillna(0) 
all_alfa['perc alfa 45 a 49'] =  all_alfa['V00754'].divide(all_alfa['V00650'].replace(0, np.nan)).fillna(0)  
all_alfa['perc alfa 50 a 54'] =  all_alfa['V00755'].divide(all_alfa['V00651'].replace(0, np.nan)).fillna(0)  
all_alfa['perc alfa 55 a 59'] =  all_alfa['V00756'].divide(all_alfa['V00652'].replace(0, np.nan)).fillna(0)  
all_alfa['perc alfa 60 a 64'] =  all_alfa['V00757'].divide(all_alfa['V00653'].replace(0, np.nan)).fillna(0)  
all_alfa['perc alfa 65 a 69'] =  all_alfa['V00758'].divide(all_alfa['V00654'].replace(0, np.nan)).fillna(0)  
all_alfa['perc alfa 70 a 79'] =  all_alfa['V00759'].divide(all_alfa['V00655'].replace(0, np.nan)).fillna(0)  
all_alfa['perc alfa 80+']     =  all_alfa['V00760'].divide(all_alfa['V00656'].replace(0, np.nan)).fillna(0)
all_alfa['perc alfa mean'] = all_alfa[['perc alfa 15 a 19', 'perc alfa 20 a 24', 'perc alfa 25 a 29', 
                                             'perc alfa 30 a 34', 'perc alfa 35 a 39', 'perc alfa 40 a 44', 
                                             'perc alfa 45 a 49', 'perc alfa 50 a 54', 'perc alfa 55 a 59', 
                                             'perc alfa 60 a 64', 'perc alfa 65 a 69', 'perc alfa 70 a 79', 
                                             'perc alfa 80+']].mean(axis=1)

result = all_alfa[['CD_DIST', 'NM_DIST', 
                     'perc alfa 15 a 19', 'perc alfa 20 a 24', 'perc alfa 25 a 29', 
                     'perc alfa 30 a 34', 'perc alfa 35 a 39', 'perc alfa 40 a 44', 
                     'perc alfa 45 a 49', 'perc alfa 50 a 54', 'perc alfa 55 a 59', 
                     'perc alfa 60 a 64', 'perc alfa 65 a 69', 'perc alfa 70 a 79', 
                     'perc alfa 80+', 'perc alfa mean']]
result_sorted = result.sort_values(by='perc alfa mean', ascending=False)
result_sorted.to_csv("education_result.csv")
all_alfa.to_csv("education_all.csv")
print(result_sorted)

  all_alfa['perc alfa 15 a 19'] =  all_alfa['V00748'].divide(all_alfa['V00644'].replace(0, np.nan)).fillna(0)
  all_alfa['perc alfa 20 a 24'] =  all_alfa['V00749'].divide(all_alfa['V00645'].replace(0, np.nan)).fillna(0)
  all_alfa['perc alfa 25 a 29'] =  all_alfa['V00750'].divide(all_alfa['V00646'].replace(0, np.nan)).fillna(0)
  all_alfa['perc alfa 30 a 34'] =  all_alfa['V00751'].divide(all_alfa['V00647'].replace(0, np.nan)).fillna(0)
  all_alfa['perc alfa 35 a 39'] =  all_alfa['V00752'].divide(all_alfa['V00648'].replace(0, np.nan)).fillna(0)
  all_alfa['perc alfa 40 a 44'] =  all_alfa['V00753'].divide(all_alfa['V00649'].replace(0, np.nan)).fillna(0)
  all_alfa['perc alfa 45 a 49'] =  all_alfa['V00754'].divide(all_alfa['V00650'].replace(0, np.nan)).fillna(0)
  all_alfa['perc alfa 50 a 54'] =  all_alfa['V00755'].divide(all_alfa['V00651'].replace(0, np.nan)).fillna(0)
  all_alfa['perc alfa 55 a 59'] =  all_alfa['V00756'].divide(all_alfa['V00652'].replace(0, np.nan)).fillna(0)
  all_alfa

        CD_DIST                         NM_DIST  perc alfa 15 a 19  \
9749  431971110                  Fazenda Fialho           1.000000   
8307  420360020                       Espinilho           1.000000   
9184  431000920     Santo Antônio do Bom Retiro           1.000000   
7281  355030832                           Moema           0.995807   
9300  431215340                         Sampaio           1.000000   
...         ...                             ...                ...   
8991  430590010                  Antônio Kerpel           0.000000   
9430  431417515                    Cerro do Baú           0.000000   
9105  430805225    Nossa Senhora dos Navegantes           0.000000   
9677  431843225                 Recanto Maestro           0.000000   
3125  280480509  Distrito Industrial da Taiçoca           0.000000   

      perc alfa 20 a 24  perc alfa 25 a 29  perc alfa 30 a 34  \
9749           1.000000            1.00000           1.000000   
8307           1.000000      