In [2]:
import pandas as pd
import matplotlib.pyplot as plt

In [40]:
df_fam = pd.read_csv('../Data/df_familia_final.csv', sep=',')

In [3]:
df_pessoas = pd.read_csv('../Data/df_pessoas_final.csv', sep=',')

In [4]:
df_pessoas.head()

Unnamed: 0,id_familia,id_pessoa,cod_sexo_pessoa,idade,cod_parentesco_rf_pessoa,cod_raca_cor_pessoa,cod_local_nascimento_pessoa,cod_certidao_registrada_pessoa,cod_deficiencia_memb,cod_sabe_ler_escrever_memb,...,cod_ano_serie_frequentou_memb,cod_concluiu_frequentou_memb,cod_trabalhou_memb,cod_afastado_trab_memb,cod_agricultura_trab_memb,cod_principal_trab_memb,cod_trabalho_12_meses_memb,qtd_meses_12_meses_memb,peso.pes,classe_renda
0,268503,2351897,2,4,3,1.0,2.0,1,2,2.0,...,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,563277716385694,0.0
1,268503,2578989,2,15,3,1.0,1.0,1,2,1.0,...,-1.0,-1.0,2.0,2.0,-1.0,-1.0,2.0,-1.0,563277716385694,0.0
2,268503,3312847,2,13,3,1.0,1.0,1,2,2.0,...,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,563277716385694,0.0
3,268503,10482075,2,38,1,1.0,2.0,1,2,1.0,...,4.0,1.0,1.0,-1.0,1.0,6.0,1.0,12.0,563277716385694,0.0
4,2888440,5553031,2,5,3,4.0,2.0,1,2,2.0,...,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,563263195326236,0.0


### Criação das novas variáveis

Conforme o README do repositório do projeto, serão criadas as seguintes variáveis em relação à escolaridade:
       
- **alfabetizado**: nova variável combinando as variáveis "cod_sabe_ler_escrever_memb" e "idade" de modo a identificar a situação da família em relação à pessoa com mais de 10 anos sem saber ler ou escrever;
- **frequenta_escola**: nova variável combinando as variáveis "ind_frequenta_escola_memb" e "idade" de modo a identificar a situação da família em relação à pessoa com menos de 17 anos que não está na escola;
- **frequenta_escola_publica**: nova variável combinando as variáveis "ind_frequenta_escola_memb" e "idade" de modo a identificar a situação da família em relação à pessoa com menos de 17 anos que está na escola pública;
- **frequenta_escola_privada**: nova variável combinando as variáveis "ind_frequenta_escola_memb" e "idade" de modo a identificar a situação da família em relação à pessoa com menos de 17 anos que está na escola privada;
- **frequenta_escola_nunca**: nova variável combinando as variáveis "ind_frequenta_escola_memb" e "idade" de modo a identificar a situação da família em relação à pessoa com menos de 17 anos que nunca frequentou escola;
- **frequenta_escola_nunca_adulto**: nova variável combinando as variáveis "ind_frequenta_escola_memb" e "idade" de modo a identificar a situação da família em relação à pessoa com 18 anos ou mais que nunca frequentou escola;
- **ideb_municipio**: nova variável com os dados do último ano - lembrando que a base utilizada aqui é 2018.


#### Variável alfabetizado: quantidade de crianças maiores de 10 anos que não sabem ler ou escrever (qtd_n_alfabetizado_10anos) e se há ou não criança maior de 10 anos sem saber ler ou escrever (n_alfabetizado_10anos)

In [5]:
# Criar varíavel com um dataframe com a condição necessária para filtrar os dados em df_pessoas
criancas_n_alfabetizadas = df_pessoas[(df_pessoas['idade'] >= 10) & (df_pessoas['cod_sabe_ler_escrever_memb'] == 2)]

# Criar variável com dataframe para agrupar por id_família
alfabetizado_por_familia = criancas_n_alfabetizadas.groupby('id_familia').size().reset_index(name='qtd_n_alfabetizado_10anos')

In [6]:
# Fazer o merge do dataframe com a quantidade de crianças maiores de 10 anos que não sabem ler nem escrever com o df_fam, atribuindo 0 aos NaNs = 0 crianças
df_fam = df_fam.merge(alfabetizado_por_familia, on='id_familia', how='left').fillna(0)

In [7]:
# Criar uma coluna com a situação daquela família em relação à variável, seguindo o modelo de 1 para SIM e 2 par
df_fam['n_alfabetizado_10anos'] = df_fam['qtd_n_alfabetizado_10anos'].apply(lambda x: 1.0 if x > 0 else 2.0)

#### Variável frequenta_escola: quantidade de pessoas menores de 17 anos que não frequentam a escola (qtd_n_freq_escola) e se há ou não pessoa nessa condição na família (n_freq_escola)

In [8]:
# Criar varíavel com um dataframe com a condição necessária para filtrar os dados em df_pessoas. Nesse caso, 3 significa que já frequentou a escola, mas não frequenta no momento.
pessoas_n_freq_escola = df_pessoas[(df_pessoas['idade'] <= 17) & (df_pessoas['ind_frequenta_escola_memb'] == 3)]

# Criar variável com dataframe para agrupar por id_família
pessoas_n_freq_escola_fam = pessoas_n_freq_escola.groupby('id_familia').size().reset_index(name='qtd_n_freq_escola')

In [9]:
# Fazer o merge do dataframe com a quantidade de pessoas menores de 17 anos que não frequentam a escola, atribuindo 0 aos NaNs = 0 pessoas
df_fam = df_fam.merge(pessoas_n_freq_escola_fam, on='id_familia', how='left').fillna(0)

In [10]:
# Criar uma coluna com a situação daquela família em relação à variável, seguindo o modelo de 1 para SIM e 2 para NÃO
df_fam['n_freq_escola'] = df_fam['qtd_n_freq_escola'].apply(lambda x: 1.0 if x > 0 else 2.0)

#### Variável frequenta_escola_publica: quantidade de pessoas menores de 17 anos que frequentam a escola pública (qtd_freq_publica) e se há ou não pessoa nessa condição na família (freq_publica)

In [11]:
# Criar varíavel com um dataframe com a condição necessária para filtrar os dados em df_pessoas.
pessoas_freq_publica = df_pessoas[(df_pessoas['idade'] <= 17) & (df_pessoas['ind_frequenta_escola_memb'] == 1)]

# Criar variável com dataframe para agrupar por id_família
pessoas_freq_publica_fam = pessoas_freq_publica.groupby('id_familia').size().reset_index(name='qtd_freq_publica')

In [12]:
# Fazer o merge do dataframe com a quantidade de pessoas menores de 17 anos que frequentam a escola pública, atribuindo 0 aos NaNs = 0 pessoas
df_fam = df_fam.merge(pessoas_freq_publica_fam, on='id_familia', how='left').fillna(0)

In [13]:
# Criar uma coluna com a situação daquela família em relação à variável, seguindo o modelo de 1 para SIM e 2 para NÃO
df_fam['freq_publica'] = df_fam['qtd_freq_publica'].apply(lambda x: 1.0 if x > 0 else 2.0)

#### Variável frequenta_escola_particular: quantidade de pessoas menores de 17 anos que frequentam a escola particular (qtd_freq_particular) e se há ou não pessoa nessa condição na família (freq_particular)

In [14]:
# Criar varíavel com um dataframe com a condição necessária para filtrar os dados em df_pessoas.
pessoas_freq_particular = df_pessoas[(df_pessoas['idade'] <= 17) & (df_pessoas['ind_frequenta_escola_memb'] == 2)]

# Criar variável com dataframe para agrupar por id_família
pessoas_freq_particular_fam = pessoas_freq_particular.groupby('id_familia').size().reset_index(name='qtd_freq_particular')

In [15]:
# Fazer o merge do dataframe com a quantidade de pessoas menores de 17 anos que frequentam a escola particular, atribuindo 0 aos NaNs = 0 pessoas
df_fam = df_fam.merge(pessoas_freq_particular_fam, on='id_familia', how='left').fillna(0)

In [16]:
# Criar uma coluna com a situação daquela família em relação à variável, seguindo o modelo de 1 para SIM e 2 para NÃO
df_fam['freq_particular'] = df_fam['qtd_freq_particular'].apply(lambda x: 1.0 if x > 0 else 2.0)

#### Variável frequenta_escola_nunca: quantidade de pessoas menores de 17 anos que nunca frequentaram a escola (qtd_nunca_freq_escola) e se há ou não pessoa nessa condição na família (n_freq_escola)

In [17]:
# Criar varíavel com um dataframe com a condição necessária para filtrar os dados em df_pessoas. Nesse caso, 3 significa que já frequentou a escola, mas não frequenta no momento; e 4 nunca frequentou
pessoas_nunca_freq_escola = df_pessoas[(df_pessoas['idade'] <= 17) & (df_pessoas['ind_frequenta_escola_memb'] == 4)]

# Criar variável com dataframe para agrupar por id_família
pessoas_nunca_freq_escola_fam = pessoas_nunca_freq_escola.groupby('id_familia').size().reset_index(name='qtd_nunca_freq_escola')

In [18]:
# Fazer o merge do dataframe com a quantidade de pessoas menores de 17 anos que nunca frequentaram a escola, atribuindo 0 aos NaNs = 0 pessoas
df_fam = df_fam.merge(pessoas_nunca_freq_escola_fam, on='id_familia', how='left').fillna(0)

In [19]:
# Criar uma coluna com a situação daquela família em relação à variável, seguindo o modelo de 1 para SIM e 2 para NÃO
df_fam['nunca_freq_escola'] = df_fam['qtd_nunca_freq_escola'].apply(lambda x: 1.0 if x > 0 else 2.0)

In [20]:
df_fam.head()

Unnamed: 0,cd_ibge,uf_ibge,regiao_ibge,estrato,classf,id_familia,vlr_renda_media_fam,cod_local_domic_fam,cod_especie_domic_fam,qtd_comodos_domic_fam,...,qtd_n_alfabetizado_10anos,n_alfabetizado_10anos,qtd_n_freq_escola,n_freq_escola,qtd_freq_publica,freq_publica,qtd_freq_particular,freq_particular,qtd_nunca_freq_escola,nunca_freq_escola
0,4212908,42,4,1,2,268503,60.0,1.0,1.0,5.0,...,1.0,1.0,0.0,2.0,3.0,1.0,0.0,2.0,0.0,2.0
1,2931905,29,2,2,3,2888440,0.0,2.0,1.0,2.0,...,0.0,2.0,0.0,2.0,1.0,1.0,0.0,2.0,0.0,2.0
2,3527207,35,3,2,3,2113517,713.0,1.0,1.0,5.0,...,0.0,2.0,0.0,2.0,0.0,2.0,0.0,2.0,0.0,2.0
3,3303500,33,3,2,2,4419096,50.0,1.0,1.0,3.0,...,0.0,2.0,0.0,2.0,0.0,2.0,0.0,2.0,1.0,1.0
4,2800308,28,2,2,1,4241219,90.0,1.0,1.0,4.0,...,0.0,2.0,0.0,2.0,0.0,2.0,0.0,2.0,0.0,2.0


#### Variável frequenta_escola_nunca_adulto: quantidade de pessoas maiores de 18 anos que nunca frequentaram a escola (qtd_adultos_nunca_freq_escola') e se há ou não pessoa nessa condição na família ('adultos_nunca_freq_escola')

In [25]:
# Criar varíavel com um dataframe com a condição necessária para filtrar os dados em df_pessoas. Nesse caso, 4 significa que nunca frequentou
adultos_nunca_freq_escola = df_pessoas[(df_pessoas['idade'] >= 18) & (df_pessoas['ind_frequenta_escola_memb'] == 4)]

# Criar variável com dataframe para agrupar por id_família
adultos_nunca_freq_escola_fam = adultos_nunca_freq_escola.groupby('id_familia').size().reset_index(name='qtd_adultos_nunca_freq_escola')

In [22]:
# Fazer o merge do dataframe com a quantidade de pessoas maiores de 18 anos que nunca frequentaram a escola, atribuindo 0 aos NaNs = 0 pessoas
df_fam = df_fam.merge(adultos_nunca_freq_escola_fam, on='id_familia', how='left').fillna(0)

In [23]:
# Criar uma coluna com a situação daquela família em relação à variável, seguindo o modelo de 1 para SIM e 2 para NÃO
df_fam['adultos_nunca_freq_escola'] = df_fam['qtd_adultos_nunca_freq_escola'].apply(lambda x: 1.0 if x > 0 else 2.0)

In [24]:
df_fam.head()

Unnamed: 0,cd_ibge,uf_ibge,regiao_ibge,estrato,classf,id_familia,vlr_renda_media_fam,cod_local_domic_fam,cod_especie_domic_fam,qtd_comodos_domic_fam,...,qtd_n_freq_escola,n_freq_escola,qtd_freq_publica,freq_publica,qtd_freq_particular,freq_particular,qtd_nunca_freq_escola,nunca_freq_escola,qtd_adultos_nunca_freq_escola,adultos_nunca_freq_escola
0,4212908,42,4,1,2,268503,60.0,1.0,1.0,5.0,...,0.0,2.0,3.0,1.0,0.0,2.0,0.0,2.0,0.0,2.0
1,2931905,29,2,2,3,2888440,0.0,2.0,1.0,2.0,...,0.0,2.0,1.0,1.0,0.0,2.0,0.0,2.0,0.0,2.0
2,3527207,35,3,2,3,2113517,713.0,1.0,1.0,5.0,...,0.0,2.0,0.0,2.0,0.0,2.0,0.0,2.0,0.0,2.0
3,3303500,33,3,2,2,4419096,50.0,1.0,1.0,3.0,...,0.0,2.0,0.0,2.0,0.0,2.0,1.0,1.0,0.0,2.0
4,2800308,28,2,2,1,4241219,90.0,1.0,1.0,4.0,...,0.0,2.0,0.0,2.0,0.0,2.0,0.0,2.0,0.0,2.0


#### Variável ideb_2017_municipio com os valores do IDEB de 2017 da rede pública para cada município

In [3]:
# Dataframe a partir dos dados atualizados até 2023 do IDEB
df_ideb_anos_iniciais = pd.read_excel('./ideb_anos_iniciais_municipios_2023.xlsx', header=1)

In [4]:
df_ideb_anos_iniciais.head()

Unnamed: 0,Sigla da UF,Código do Município,Nome do Município,Rede,2005,2008,2009,2011,2013,2015,2017,2019,2021,2023
0,RO,1100015.0,Alta Floresta D'Oeste,Estadual,3.5,3.9,4.3,4.2,5.3,5.8,6.2,5.8,4.6,5.9
1,RO,1100015.0,Alta Floresta D'Oeste,Municipal,-,-,-,-,-,5.0,5.1,4.7,4.8,5.1
2,RO,1100015.0,Alta Floresta D'Oeste,Pública,3.7,4,4.5,4.3,5.4,5.8,6.2,5.7,4.8,5.3
3,RO,1100023.0,Ariquemes,Estadual,4,4.3,4.9,4.9,5.2,5.6,6.0,5.3,5.8,6.1
4,RO,1100023.0,Ariquemes,Municipal,3.5,3.7,4.2,4.4,4.8,5.0,5.4,5.1,4.5,5.3


In [5]:
df_ideb_anos_iniciais = df_ideb_anos_iniciais.dropna()

In [6]:
df_ideb_anos_iniciais.isna().sum()

Sigla da UF            0
Código do Município    0
Nome do Município      0
Rede                   0
2005                   0
2008                   0
2009                   0
2011                   0
2013                   0
2015                   0
2017                   0
2019                   0
2021                   0
2023                   0
dtype: int64

In [7]:
df_ideb_anos_iniciais.columns

Index([        'Sigla da UF', 'Código do Município',   'Nome do Município',
                      'Rede',                  2005,                  2008,
                        2009,                  2011,                  2013,
                        2015,                  2017,                  2019,
                        2021,                  2023],
      dtype='object')

In [8]:
df_ideb_anos_iniciais['Código do Município'] = df_ideb_anos_iniciais['Código do Município'].astype(int)

In [9]:
df_ideb_anos_iniciais.info()

<class 'pandas.core.frame.DataFrame'>
Index: 14497 entries, 0 to 14496
Data columns (total 14 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Sigla da UF          14497 non-null  object
 1   Código do Município  14497 non-null  int64 
 2   Nome do Município    14497 non-null  object
 3   Rede                 14497 non-null  object
 4   2005                 14497 non-null  object
 5   2008                 14497 non-null  object
 6   2009                 14497 non-null  object
 7   2011                 14497 non-null  object
 8   2013                 14497 non-null  object
 9   2015                 14497 non-null  object
 10  2017                 14497 non-null  object
 11  2019                 14497 non-null  object
 12  2021                 14497 non-null  object
 13  2023                 14497 non-null  object
dtypes: int64(1), object(13)
memory usage: 1.7+ MB


In [10]:
df_ideb_anos_iniciais.head()

Unnamed: 0,Sigla da UF,Código do Município,Nome do Município,Rede,2005,2008,2009,2011,2013,2015,2017,2019,2021,2023
0,RO,1100015,Alta Floresta D'Oeste,Estadual,3.5,3.9,4.3,4.2,5.3,5.8,6.2,5.8,4.6,5.9
1,RO,1100015,Alta Floresta D'Oeste,Municipal,-,-,-,-,-,5.0,5.1,4.7,4.8,5.1
2,RO,1100015,Alta Floresta D'Oeste,Pública,3.7,4,4.5,4.3,5.4,5.8,6.2,5.7,4.8,5.3
3,RO,1100023,Ariquemes,Estadual,4,4.3,4.9,4.9,5.2,5.6,6.0,5.3,5.8,6.1
4,RO,1100023,Ariquemes,Municipal,3.5,3.7,4.2,4.4,4.8,5.0,5.4,5.1,4.5,5.3


In [11]:
ideb_municipio_publica = df_ideb_anos_iniciais[df_ideb_anos_iniciais['Rede'] == 'Pública']

In [12]:
ideb_municipio_publica[                  2017].value_counts()

2017
6.2    224
6.3    214
6.4    213
6.5    211
6.0    210
      ... 
9.1      1
2.7      1
8.3      1
8.6      1
8.7      1
Name: count, Length: 61, dtype: int64

In [13]:
ideb_municipio_publica = ideb_municipio_publica[ideb_municipio_publica[                  2017]!= '-']

In [14]:
ideb_municipio_publica[                  2017] = ideb_municipio_publica[                  2017].astype(float)

In [15]:
ideb_municipio_publica.head()

Unnamed: 0,Sigla da UF,Código do Município,Nome do Município,Rede,2005,2008,2009,2011,2013,2015,2017,2019,2021,2023
2,RO,1100015,Alta Floresta D'Oeste,Pública,3.7,4.0,4.5,4.3,5.4,5.8,6.2,5.7,4.8,5.3
5,RO,1100023,Ariquemes,Pública,3.7,3.9,4.4,4.6,4.9,5.2,5.5,5.2,4.7,5.4
8,RO,1100031,Cabixi,Pública,3.7,3.8,4.6,5.2,5.6,5.5,6.1,5.1,5.1,5.8
11,RO,1100049,Cacoal,Pública,4.0,4.0,4.4,5.2,5.8,5.9,6.3,5.8,5.7,5.7
14,RO,1100056,Cerejeiras,Pública,4.0,4.5,4.9,5.4,6.2,5.9,6.4,6.4,5.7,5.8


In [16]:
print(ideb_municipio_publica['Código do Município'].value_counts().sort_values(ascending=False))

Código do Município
1100015    1
1100114    1
1100049    1
1100056    1
1100064    1
          ..
5222203    1
5222302    1
5221007    1
5220702    1
5300108    1
Name: count, Length: 5477, dtype: int64


In [30]:
ideb_municipio_publica.columns.values[-4] = 'ideb_2017_municipio'

In [31]:
ideb_municipio_publica.head()

Unnamed: 0,Sigla da UF,Código do Município,Nome do Município,Rede,2005,2008,2009,2011,2013,2015,ideb_2017_municipio,2019,2021,2023
2,RO,1100015,Alta Floresta D'Oeste,Pública,3.7,4.0,4.5,4.3,5.4,5.8,6.2,5.7,4.8,5.3
5,RO,1100023,Ariquemes,Pública,3.7,3.9,4.4,4.6,4.9,5.2,5.5,5.2,4.7,5.4
8,RO,1100031,Cabixi,Pública,3.7,3.8,4.6,5.2,5.6,5.5,6.1,5.1,5.1,5.8
11,RO,1100049,Cacoal,Pública,4.0,4.0,4.4,5.2,5.8,5.9,6.3,5.8,5.7,5.7
14,RO,1100056,Cerejeiras,Pública,4.0,4.5,4.9,5.4,6.2,5.9,6.4,6.4,5.7,5.8


In [33]:
ideb_municipio_publica.columns

Index([        'Sigla da UF', 'Código do Município',   'Nome do Município',
                      'Rede',                  2005,                  2008,
                        2009,                  2011,                  2013,
                        2015, 'ideb_2017_municipio',                  2019,
                        2021,                  2023],
      dtype='object')

In [35]:
ideb_municipio_publica.columns = ideb_municipio_publica.columns.str.strip()
print(ideb_municipio_publica.columns)

Index([        'Sigla da UF', 'Código do Município',   'Nome do Município',
                      'Rede',                   nan,                   nan,
                         nan,                   nan,                   nan,
                         nan, 'ideb_2017_municipio',                   nan,
                         nan,                   nan],
      dtype='object')


In [36]:
ideb_municipio_publica_2017 = ideb_municipio_publica[['Código do Município', 'ideb_2017_municipio']]

In [38]:
ideb_municipio_publica_2017.head()

Unnamed: 0,Código do Município,ideb_2017_municipio
2,1100015,6.2
5,1100023,5.5
8,1100031,6.1
11,1100049,6.3
14,1100056,6.4


In [43]:
df_fam = df_fam.merge(ideb_municipio_publica_2017, left_on='cd_ibge', right_on='Código do Município', how='left')

In [45]:
df_fam = df_fam.drop('Código do Município', axis=1)
df_fam.head()

Unnamed: 0,cd_ibge,uf_ibge,regiao_ibge,estrato,classf,id_familia,vlr_renda_media_fam,cod_local_domic_fam,cod_especie_domic_fam,qtd_comodos_domic_fam,...,cod_calcamento_domic_fam,cod_familia_indigena_fam,ind_familia_quilombola_fam,ind_parc_mds_fam,qtde_pessoas,peso.fam,dias_cadastramento,dias_atualizacao,classe_renda,ideb_2017_municipio
0,4212908,42,4,1,2,268503,60.0,1.0,1.0,5.0,...,1.0,2.0,2.0,0.0,4,5502526707828,5128.0,102,0.0,6.3
1,2931905,29,2,2,3,2888440,0.0,2.0,1.0,2.0,...,3.0,2.0,2.0,0.0,2,550282046697327,2646.0,151,0.0,5.1
2,3527207,35,3,2,3,2113517,713.0,1.0,1.0,5.0,...,1.0,2.0,2.0,0.0,2,550109644973309,5979.0,482,2.0,5.7
3,3303500,33,3,2,2,4419096,50.0,1.0,1.0,3.0,...,1.0,2.0,2.0,0.0,2,550245146328323,238.0,238,0.0,4.7
4,2800308,28,2,2,1,4241219,90.0,1.0,1.0,4.0,...,1.0,2.0,2.0,0.0,1,550245146328323,5500.0,17,0.0,4.6


#### Exportar dataframe com as novas variáveis

In [None]:
#df_fam.to_csv('df_fam_escolaridade.csv', index=False)