# Dados sobre famílias e analfabetismo no DF
## Considerando uma população de cerca de 70.000 pessoas, o número de amostragem é 272
### Perguntas que deveríamos fazer para coletar os dados, e como elas apareceriam em um DataFrame de forma que os dados estejam prontos para limpeza e tratamento de uma forma fácil:

In [1]:
"""
Considerando que as pessoas entrevistadas seriam alunos de escola pública das regiôes administrativas Guará, São Sebastião e
Brazlândia, a primeira pergunta deve ser se eles possuem pais que não sabem ler e escrever.
Caso a resposta seja não, não precisamos coletar mais dados.
Esses dados apareceriam em um DataFrame da seguinte forma:
"""
import pandas as pd

fcm = pd.DataFrame({'pais_analfabetos':['Sim', 'Não', 'Não', 'Sim', 'Sim']})
fcm

Unnamed: 0,pais_analfabetos
0,Sim
1,Não
2,Não
3,Sim
4,Sim


In [2]:
"""
Caso a resposta seja sim, a próxima pergunta a se fazer seria: o pai é analfabeto, a mãe, ou os dois?
Esta pergunta tem  o objetivo de identificar diferenças de gênero na taxa de analfabetismo.
As respostas poderiam ficar da seguinte forma:
"""
import numpy as np

fcm['pai_a'] = ['Sim', np.NaN, np.NaN, 'Não', 'Sim']
fcm['mãe_a'] = ['Não', np.NaN, np.NaN, 'Sim', 'Sim']
fcm

Unnamed: 0,pais_analfabetos,pai_a,mãe_a
0,Sim,Sim,Não
1,Não,,
2,Não,,
3,Sim,Não,Sim
4,Sim,Sim,Sim


In [3]:
"""
A partir deste ponto, as perguntas seriam repetidas para cada um dos pais.
Por exemplo, se trabalham e quanto ganham.
Na pergunta de salário, caso não saibam, podemos dar opções de faixas de salários.
"""
fcm['pai_trabalha'] = ['Sim', np.NaN, np.NaN, 'Sim', 'Sim']
fcm['mãe_trabalha'] = ['Sim', np.NaN, np.NaN, 'Não', 'Não']
fcm['salário_pai'] = [200.0, np.NaN, np.NaN, 850.0, 300.0]
fcm['salário_mãe'] = [350.0, np.NaN, np.NaN, 0, 0]
fcm

Unnamed: 0,pais_analfabetos,pai_a,mãe_a,pai_trabalha,mãe_trabalha,salário_pai,salário_mãe
0,Sim,Sim,Não,Sim,Sim,200.0,350.0
1,Não,,,,,,
2,Não,,,,,,
3,Sim,Não,Sim,Sim,Não,850.0,0.0
4,Sim,Sim,Sim,Sim,Não,300.0,0.0


In [4]:
"""
Uma pergunta importante é se uma alternativa ao EJA que focasse apenas na alfabetização
seria interessante.
"""

fcm['alternativa_eja'] = ['Sim', np.NaN, np.NaN, 'Não', 'Sim']
fcm

Unnamed: 0,pais_analfabetos,pai_a,mãe_a,pai_trabalha,mãe_trabalha,salário_pai,salário_mãe,alternativa_eja
0,Sim,Sim,Não,Sim,Sim,200.0,350.0,Sim
1,Não,,,,,,,
2,Não,,,,,,,
3,Sim,Não,Sim,Sim,Não,850.0,0.0,Não
4,Sim,Sim,Sim,Sim,Não,300.0,0.0,Sim


### Outras perguntas a incluir:
#### Há incentivo dos pais para que permaneçam na escola?
#### Gostariam que os pais se alfabetizassem?
#### entre outras

In [5]:
"""
Ao final, podemos simplesmente filtrar as respostas para que tenhamos somente os resultados das famílias que têm pais
analfabetos.
O resultado ideal é que tenhamos cerca de 272 entradas neste DataFrame, para garantir que temos um bom número de amostragem para
a pesquisa.
"""

df = fcm[fcm['pais_analfabetos'] == 'Sim']
df

Unnamed: 0,pais_analfabetos,pai_a,mãe_a,pai_trabalha,mãe_trabalha,salário_pai,salário_mãe,alternativa_eja
0,Sim,Sim,Não,Sim,Sim,200.0,350.0,Sim
3,Sim,Não,Sim,Sim,Não,850.0,0.0,Não
4,Sim,Sim,Sim,Sim,Não,300.0,0.0,Sim


In [6]:
"""
A partir desse resultado final, podemos realizar a análise.
"""
df.describe()

Unnamed: 0,salário_pai,salário_mãe
count,3.0,3.0
mean,450.0,116.666667
std,350.0,202.072594
min,200.0,0.0
25%,250.0,0.0
50%,300.0,0.0
75%,575.0,175.0
max,850.0,350.0


In [11]:
df['pai_a'].value_counts()

Sim    2
Não    1
Name: pai_a, dtype: int64

In [12]:
df['mãe_a'].value_counts()

Sim    2
Não    1
Name: mãe_a, dtype: int64

In [13]:
df['mãe_trabalha'].value_counts()

Não    2
Sim    1
Name: mãe_trabalha, dtype: int64