## Importação das Bibliotecas

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import re
import seaborn as sns

## Leitura e Visualização da Base

In [2]:
# Caminho do arquivo Excel
excel_file = "arw.xlsx"

# Leitura do arquivo Excel
df = pd.read_excel(excel_file, sheet_name='Respondentes')

# Exibir as primeiras linhas do DataFrame
print("DataFrame original:")
print(df.head())
print("------------")

DataFrame original:
   numero_respondente        data_resposta concorda_termo_consentimento  \
0                 NaN                  NaN                          NaN   
1                 NaN                  NaN                          NaN   
2                 1.0  2024-07-02 11:02:13                          Sim   
3                 2.0  2024-07-02 11:46:29                          Sim   
4                 3.0  2024-07-02 11:02:21                          Sim   

   faixa_etaria cor_raca                               identificacao_genero  \
0           NaN      NaN                                                NaN   
1           NaN      NaN                                                NaN   
2  45 a 54 anos   Branca  Homem cisgênero (que se identifica com o gêner...   
3  35 a 44 anos   Branca  Mulher cisgênero (que se identifica com o gêne...   
4  35 a 44 anos   Branca  Homem cisgênero (que se identifica com o gêner...   

  pessoa_com_deficiencia estado_graduacao estado_maior

In [3]:
# Exibir os tipos de dados originais
print("\nTipos de dados originais:")
print(df.dtypes)


Tipos de dados originais:
numero_respondente                            float64
data_resposta                                  object
concorda_termo_consentimento                   object
faixa_etaria                                   object
cor_raca                                       object
identificacao_genero                           object
pessoa_com_deficiencia                         object
estado_graduacao                               object
estado_maior_titulacao                         object
nivel_escolaridade                             object
ano_conclusao_graduacao                       float64
ano_conclusao_mestrado                        float64
ano_conclusao_doutorado                       float64
faixa_renda_domiciliar                         object
renda_principal_onde_vive                      object
responsavel_cuidado_familiar                   object
quantidade_filhos                              object
idade_filhos                                   object
a

In [4]:
# Drop das colunas desnecessárias
columns_to_drop = ['endereco_ip', 'coletor', 'tempo_gasto', 'data_resposta', 'concorda_termo_consentimento']
columns_to_drop = [col for col in columns_to_drop if col in df.columns]
df.drop(columns=columns_to_drop, inplace=True)

# Função para converter floats em inteiros
def converter_float_para_int(df):
    for coluna in df.columns:
        if df[coluna].dtype == 'float64':
            # Verifica se há valores NaN na coluna e os preenche com 0 (ou outro valor apropriado) antes da conversão
            df[coluna].fillna(0, inplace=True)
            df[coluna] = df[coluna].astype(int)
    return df

# Aplicar a função para converter floats em inteiros
df = converter_float_para_int(df)

# Exibir os tipos de dados após a conversão
print("\nTipos de dados após a conversão:")
print(df.dtypes)


Tipos de dados após a conversão:
numero_respondente                             int64
faixa_etaria                                  object
cor_raca                                      object
identificacao_genero                          object
pessoa_com_deficiencia                        object
estado_graduacao                              object
estado_maior_titulacao                        object
nivel_escolaridade                            object
ano_conclusao_graduacao                        int64
ano_conclusao_mestrado                         int64
ano_conclusao_doutorado                        int64
faixa_renda_domiciliar                        object
renda_principal_onde_vive                     object
responsavel_cuidado_familiar                  object
quantidade_filhos                             object
idade_filhos                                  object
area_concentracao                             object
instituicao_nivel_mais_alto                   object
ocupacao_pro

## Perfil socioeconômico

#### Qual é a sua faixa etária?

In [5]:
faixa_etaria = df['faixa_etaria'].value_counts()
print(faixa_etaria)

faixa_etaria
25 a 34 anos       1436
35 a 44 anos       1216
45 a 54 anos        424
18 a 24 anos        344
55 a 64 anos        229
65 anos ou mais      71
Name: count, dtype: int64


#### Qual a sua cor ou raça?

In [6]:
cor_raca = df['cor_raca'].value_counts()
print(cor_raca)

cor_raca
Branca                   2365
Parda                     827
Preta                     402
Prefiro não responder      51
Amarela                    41
Indígena                   26
Name: count, dtype: int64


#### Como você se identifica em termos de gênero?

In [7]:
identificacao_genero = df['identificacao_genero'].value_counts()
print(identificacao_genero)

identificacao_genero
Mulher cisgênero (que se identifica com o gênero que lhe foi designado ao nascer)          2128
Homem cisgênero (que se identifica com o gênero que lhe foi designado ao nascer)           1489
Pessoa não-binária (cujo gênero não se limita às categorias de mulher ou homem)              66
Prefiro não responder                                                                        41
Homem transgênero (que não se identifica com o gênero que lhe foi designado ao nascer)       10
Agênero (não se enquadra em nenhum dos gêneros socialmente estabelecidos)                    10
Mulher transgênero (que não se identifica com o gênero que lhe foi designado ao nascer)       7
Name: count, dtype: int64


In [8]:
# Função para remover o texto após o parêntese, incluindo o próprio parêntese
def remover_apos_parentese(texto):
    if isinstance(texto, str):
        return re.sub(r'\s*\(.*\)', '', texto).strip()
    return texto

# Aplicar a função à coluna 'identificacao_genero'
df['identificacao_genero'] = df['identificacao_genero'].apply(remover_apos_parentese)

# Contar as ocorrências de cada valor único na coluna 'identificacao_genero'
identificacao_genero_counts = df['identificacao_genero'].value_counts()

# Exibir o resultado
print("Contagem de cada valor:")
print(identificacao_genero_counts)

Contagem de cada valor:
identificacao_genero
Mulher cisgênero         2128
Homem cisgênero          1489
Pessoa não-binária         66
Prefiro não responder      41
Homem transgênero          10
Agênero                    10
Mulher transgênero          7
Name: count, dtype: int64


#### Você é uma pessoa com deficiência?

In [9]:
pessoa_com_deficiencia = df['pessoa_com_deficiencia'].value_counts()
print(pessoa_com_deficiencia)

pessoa_com_deficiencia
Não    3640
Sim     103
Name: count, dtype: int64


#### Em qual estado brasileiro você fez a sua graduação em ciências sociais?

In [10]:
estado_graduacao = df['estado_graduacao'].value_counts()
print(estado_graduacao)

estado_graduacao
São Paulo (SP)              822
Rio de Janeiro (RJ)         450
Minas Gerais (MG)           292
Rio Grande do Sul (RS)      232
Santa Catarina (SC)         229
Paraná (PR)                 212
Bahia (BA)                  123
Pernambuco (PE)             118
Ceará (CE)                  118
Distrito Federal (DF)       117
Paraíba (PB)                105
Rio Grande do Norte (RN)     99
Piauí (PI)                   99
Mato Grosso do Sul (MS)      86
Pará (PA)                    74
Espírito Santo (ES)          66
Goiás (GO)                   66
Amazonas (AM)                48
Maranhão (MA)                47
Alagoas (AL)                 28
Amapá (AP)                   19
Sergipe (SE)                 19
Roraima (RR)                 15
Exterior                     15
Mato Grosso (MT)             14
Rondônia (RO)                13
Acre (AC)                    10
Tocantins (TO)                6
Name: count, dtype: int64


#### Em qual estado brasileiro você obteve sua maior titulação acadêmica?

In [11]:
estado_maior_titulacao = df['estado_maior_titulacao'].value_counts()
print(estado_maior_titulacao)

estado_maior_titulacao
São Paulo (SP)              858
Rio de Janeiro (RJ)         488
Santa Catarina (SC)         268
Minas Gerais (MG)           242
Rio Grande do Sul (RS)      224
Paraná (PR)                 183
Distrito Federal (DF)       132
Pernambuco (PE)             112
Piauí (PI)                  111
Bahia (BA)                   99
Ceará (CE)                   99
Rio Grande do Norte (RN)     98
Paraíba (PB)                 97
Mato Grosso do Sul (MS)      68
Pará (PA)                    66
Goiás (GO)                   58
Espírito Santo (ES)          47
Amazonas (AM)                46
Maranhão (MA)                41
Roraima (RR)                 25
Exterior                     23
Alagoas (AL)                 22
Sergipe (SE)                 21
Amapá (AP)                   20
Mato Grosso (MT)             15
Rondônia (RO)                12
Tocantins (TO)                9
Acre (AC)                     8
Name: count, dtype: int64


#### Qual o nível de escolaridade mais elevado alcançado por você? Por favor, selecione a opção mais apropriada:

In [12]:
nivel_escolaridade = df['nivel_escolaridade'].value_counts()
print(nivel_escolaridade)

nivel_escolaridade
Graduação completa                       693
Mestrado completo                        557
Doutorado incompleto/em andamento        521
Doutorado completo                       516
Mestrado incompleto/em andamento         439
Especialização completa                  341
Pós-doutorado completo                   313
Pós-doutorado incompleto/em andamento     89
Name: count, dtype: int64


#### Por favor, indique o ano em que concluiu sua graduação:

Muitos erros no preenchimento do ano de conclusão da graduação.

In [13]:
ano_conclusao_graduacao = df['ano_conclusao_graduacao'].value_counts()
print(ano_conclusao_graduacao)

ano_conclusao_graduacao
 0       543
 2023    271
 2022    201
 2019    182
 2018    158
        ... 
-3         1
 2027      1
 19        1
 1965      1
 2029      1
Name: count, Length: 82, dtype: int64


In [14]:
# Anos de Graduação > 1900
graduacao_abaixo_1900 = df.query('ano_conclusao_graduacao <= 1900')[['ano_conclusao_graduacao', 'numero_respondente']]
print(graduacao_abaixo_1900)

# Contar a quantidade de registros por ano para anos > 1900
contagem_por_ano_acima_1900 = df.query('ano_conclusao_graduacao <= 1900')['ano_conclusao_graduacao'].value_counts().sort_index()

# Exibir a contagem por ano
print("\nContagem por Ano de Graduação <= 1900:")
print(contagem_por_ano_acima_1900)

      ano_conclusao_graduacao  numero_respondente
0                           0                   0
1                           0                   0
2                           0                   1
4                           0                   3
15                          0                  14
...                       ...                 ...
3921                        0                3920
3922                        0                3921
3925                        0                3924
3927                        0                3926
3931                        0                3930

[567 rows x 2 columns]

Contagem por Ano de Graduação <= 1900:
ano_conclusao_graduacao
-91        1
-7         1
-3         1
-2         1
-1         3
 0       543
 1         5
 2         3
 5         1
 7         1
 9         1
 19        1
 88        1
 224       1
 666       1
 777       1
 1900      1
Name: count, dtype: int64


In [15]:
# Substituir anos de conclusão da graduação abaixo de 1901 por 0
df['ano_conclusao_graduacao'] = df['ano_conclusao_graduacao'].apply(lambda x: x if x >= 1901 else 0)

# Anos de Graduação > 1900
graduacao_abaixo_1900 = df.query('ano_conclusao_graduacao <= 1900')[['ano_conclusao_graduacao', 'numero_respondente']]
print(graduacao_abaixo_1900)

# Contar a quantidade de registros por ano para anos > 1900
contagem_por_ano_acima_1900 = df.query('ano_conclusao_graduacao <= 1900')['ano_conclusao_graduacao'].value_counts().sort_index()

# Exibir a contagem por ano
print("\nContagem por Ano de Graduação <= 1900:")
print(contagem_por_ano_acima_1900)

      ano_conclusao_graduacao  numero_respondente
0                           0                   0
1                           0                   0
2                           0                   1
4                           0                   3
15                          0                  14
...                       ...                 ...
3921                        0                3920
3922                        0                3921
3925                        0                3924
3927                        0                3926
3931                        0                3930

[567 rows x 2 columns]

Contagem por Ano de Graduação <= 1900:
ano_conclusao_graduacao
0    567
Name: count, dtype: int64


In [16]:
df.query("ano_conclusao_graduacao == 0")['ano_conclusao_graduacao']

0       0
1       0
2       0
4       0
15      0
       ..
3921    0
3922    0
3925    0
3927    0
3931    0
Name: ano_conclusao_graduacao, Length: 567, dtype: int64

In [17]:
df.query("ano_conclusao_graduacao != 0")['ano_conclusao_graduacao']

3       2003
5       1996
6       2005
7       2006
8       2008
        ... 
3924    2024
3926    2016
3928    2023
3929    2010
3930    1997
Name: ano_conclusao_graduacao, Length: 3365, dtype: int64

In [18]:
# Contar valores nulos na coluna 'ano_conclusao_graduacao'
nulos_ano_conclusao = df['ano_conclusao_graduacao'].isnull().sum()

# Exibir o resultado
print(nulos_ano_conclusao)

0


In [19]:
ano_conclusao_graduacao

ano_conclusao_graduacao
 0       543
 2023    271
 2022    201
 2019    182
 2018    158
        ... 
-3         1
 2027      1
 19        1
 1965      1
 2029      1
Name: count, Length: 82, dtype: int64

#### Por favor, indique o ano em concluiu o seu mestrado:

In [20]:
ano_conclusao_mestrado = df['ano_conclusao_mestrado'].value_counts()
print(ano_conclusao_mestrado)

ano_conclusao_mestrado
0       1737
2024     152
2023     118
2015     111
2021     109
        ... 
94         1
1977       1
1978       1
1981       1
1900       1
Name: count, Length: 73, dtype: int64


In [21]:
# Anos de Graduação > 1900
mestrado_abaixo_1900 = df.query('ano_conclusao_mestrado <= 1900')[['ano_conclusao_mestrado', 'numero_respondente']]
print(mestrado_abaixo_1900)

# Contar a quantidade de registros por ano para anos > 1900
contagem_por_ano_acima_1900 = df.query('ano_conclusao_mestrado <= 1900')['ano_conclusao_mestrado'].value_counts().sort_index()

# Exibir a contagem por ano
print("\nContagem por Ano de Graduação <= 1900:")
print(contagem_por_ano_acima_1900)

      ano_conclusao_mestrado  numero_respondente
0                          0                   0
1                          0                   0
2                          0                   1
4                          0                   3
15                         0                  14
...                      ...                 ...
3924                       0                3923
3925                       0                3924
3927                       0                3926
3928                       0                3927
3931                       0                3930

[1817 rows x 2 columns]

Contagem por Ano de Graduação <= 1900:
ano_conclusao_mestrado
-4          2
-3          1
-2          6
-1          4
 0       1737
 1          4
 2         49
 3          4
 4          2
 8          1
 9          1
 19         1
 20         1
 66         1
 94         1
 555        1
 1900       1
Name: count, dtype: int64


In [22]:
# Substituir anos de conclusão da graduação abaixo de 1901 por 0
df['ano_conclusao_mestrado'] = df['ano_conclusao_mestrado'].apply(lambda x: x if x >= 1901 else 0)

# Anos de Graduação > 1900
graduacao_abaixo_1900 = df.query('ano_conclusao_mestrado <= 1900')[['ano_conclusao_mestrado', 'numero_respondente']]
print(graduacao_abaixo_1900)

# Contar a quantidade de registros por ano para anos > 1900
contagem_por_ano_acima_1900 = df.query('ano_conclusao_mestrado <= 1900')['ano_conclusao_mestrado'].value_counts().sort_index()

# Exibir a contagem por ano
print("\nContagem por Ano de Graduação <= 1900:")
print(contagem_por_ano_acima_1900)

      ano_conclusao_mestrado  numero_respondente
0                          0                   0
1                          0                   0
2                          0                   1
4                          0                   3
15                         0                  14
...                      ...                 ...
3924                       0                3923
3925                       0                3924
3927                       0                3926
3928                       0                3927
3931                       0                3930

[1817 rows x 2 columns]

Contagem por Ano de Graduação <= 1900:
ano_conclusao_mestrado
0    1817
Name: count, dtype: int64


#### Por favor, indique o ano em que concluiu seu doutorado:

In [23]:
ano_conclusao_doutorado = df['ano_conclusao_doutorado'].value_counts()
print(ano_conclusao_doutorado)                      

ano_conclusao_doutorado
0       2829
2022      78
2024      72
2019      69
2023      67
        ... 
2029       1
1981       1
1994       1
1979       1
1900       1
Name: count, Length: 66, dtype: int64


In [24]:
# Anos de Graduação > 1900
doutorado_abaixo_1900 = df.query('ano_conclusao_doutorado <= 1900')[['ano_conclusao_doutorado', 'numero_respondente']]
print(mestrado_abaixo_1900)

# Contar a quantidade de registros por ano para anos > 1900
contagem_por_ano_acima_1900 = df.query('ano_conclusao_doutorado <= 1900')['ano_conclusao_doutorado'].value_counts().sort_index()

# Exibir a contagem por ano
print("\nContagem por Ano de Graduação <= 1900:")
print(contagem_por_ano_acima_1900)

      ano_conclusao_mestrado  numero_respondente
0                          0                   0
1                          0                   0
2                          0                   1
4                          0                   3
15                         0                  14
...                      ...                 ...
3924                       0                3923
3925                       0                3924
3927                       0                3926
3928                       0                3927
3931                       0                3930

[1817 rows x 2 columns]

Contagem por Ano de Graduação <= 1900:
ano_conclusao_doutorado
-8          1
-5          1
-3          3
-2          5
-1          7
 0       2829
 1          2
 2         14
 3          2
 5          1
 458        1
 666        1
 1900       1
Name: count, dtype: int64


In [25]:
# Substituir anos de conclusão da graduação abaixo de 1901 por 0
df['ano_conclusao_doutorado'] = df['ano_conclusao_doutorado'].apply(lambda x: x if x >= 1901 else 0)

# Anos de Graduação > 1900
doutorado_abaixo_1900 = df.query('ano_conclusao_doutorado <= 1900')[['ano_conclusao_doutorado', 'numero_respondente']]
print(graduacao_abaixo_1900)

# Contar a quantidade de registros por ano para anos > 1900
contagem_por_ano_acima_1900 = df.query('ano_conclusao_doutorado <= 1900')['ano_conclusao_doutorado'].value_counts().sort_index()

# Exibir a contagem por ano
print("\nContagem por Ano de Graduação <= 1900:")
print(contagem_por_ano_acima_1900)

      ano_conclusao_mestrado  numero_respondente
0                          0                   0
1                          0                   0
2                          0                   1
4                          0                   3
15                         0                  14
...                      ...                 ...
3924                       0                3923
3925                       0                3924
3927                       0                3926
3928                       0                3927
3931                       0                3930

[1817 rows x 2 columns]

Contagem por Ano de Graduação <= 1900:
ano_conclusao_doutorado
0    2868
Name: count, dtype: int64


#### Por favor, indique a sua faixa de renda domiciliar mensal

In [26]:
# Função para remover o texto 'salários-mínimos' ou 'salário-mínimo'
def limpar_texto(texto):
    if isinstance(texto, str):  # Verifica se o valor é uma string
        return texto.replace('salários-mínimos', '').replace('salário-mínimo', '').strip()
    return texto  # Retorna o valor original se não for uma string

# Aplicar a função à coluna 'faixa_renda_domiciliar'
df['faixa_renda_domiciliar'] = df['faixa_renda_domiciliar'].apply(limpar_texto)

# Verificar o resultado
faixa_renda_domiciliar = df['faixa_renda_domiciliar'].value_counts()
print(faixa_renda_domiciliar)

faixa_renda_domiciliar
Mais de 2 até 5      926
Mais de 5 até 10     889
Mais de 10 até 15    492
Mais de 1 até 2      388
Mais de 15 até 20    235
Até 1                196
Mais de 20           192
Name: count, dtype: int64


#### A sua renda é a principal do domicílio onde você vive?

In [27]:
renda_principal_onde_vive = df['renda_principal_onde_vive'].value_counts()
print(renda_principal_onde_vive)

renda_principal_onde_vive
Sim    2059
Não    1244
Name: count, dtype: int64


#### Você é responsável pelo cuidado de algum familiar?

In [28]:
responsavel_cuidado_familiar = df['responsavel_cuidado_familiar'].value_counts()
print(responsavel_cuidado_familiar)

responsavel_cuidado_familiar
Não                                                      2103
Sim, filho/a (s)                                          686
Sim, familiar(es) que é (são) idosos (as)                 305
Sim, familiar (es) que é (são) crianças                    84
Prefiro não responder                                      72
Sim, familiar (es) que é (são) pessoa com deficiência      33
Sim, enteados(a)                                           19
Name: count, dtype: int64


In [29]:
# Dicionário de mapeamento para simplificar os textos
mapear_textos = {
    'Sim, filho/a (s)': 'Filho(s)',
    'Sim, familiar(es) que é (são) idosos (as)': 'Familiares Idosos',
    'Sim, familiar (es) que é (são) crianças': 'Familiares Crianças',
    'Sim, familiar (es) que é (são) pessoa com deficiência': 'Familiares com Deficiência',
    'Sim, enteados(a)': 'Enteados',
    'Prefiro não responder': 'Prefiro não responder',
    'Não': 'Não'
}

# Aplicar o mapeamento à coluna 'responsavel_cuidado_familiar'
df['responsavel_cuidado_familiar'] = df['responsavel_cuidado_familiar'].replace(mapear_textos)

# Verificar o resultado
responsavel_cuidado_familiar = df['responsavel_cuidado_familiar'].value_counts()
print(responsavel_cuidado_familiar)

responsavel_cuidado_familiar
Não                           2103
Filho(s)                       686
Familiares Idosos              305
Familiares Crianças             84
Prefiro não responder           72
Familiares com Deficiência      33
Enteados                        19
Name: count, dtype: int64


#### Quantos filhos(as) você tem?

In [30]:
quantidade_filhos = df['quantidade_filhos'].value_counts()
print(quantidade_filhos)

quantidade_filhos
1 filha (o)              443
Não tenho filhos         426
2 filhas (os)            294
3 filhas (os)             61
4 filhas (os)             15
5 filhas (os) ou mais      8
Prefiro não responder      2
Name: count, dtype: int64


In [31]:
# Dicionário de mapeamento para simplificar os textos
mapear_textos = {
    '1 filha (o)': '1 filha(o)',
    '2 filhas (os)': '2 filhas(os)',
    '3 filhas (os)': '3 filhas(os)',
    '4 filhas (os)': '4 filhas(os)',
    '5 filhas (os) ou mais': '5 ou mais filhas(os)',
    'Não tenho filhos': 'Sem filhos',
    'Prefiro não responder': 'Prefiro não responder'
}

# Aplicar o mapeamento à coluna 'quantidade_filhos'
df['quantidade_filhos'] = df['quantidade_filhos'].replace(mapear_textos)

# Verificar o resultado
quantidade_filhos = df['quantidade_filhos'].value_counts()
print(quantidade_filhos)

quantidade_filhos
1 filha(o)               443
Sem filhos               426
2 filhas(os)             294
3 filhas(os)              61
4 filhas(os)              15
5 ou mais filhas(os)       8
Prefiro não responder      2
Name: count, dtype: int64


#### Caso tenha filhos (as), por favor, assinale as alternativas que correspondam à idade dos (as) mesmos (as).OBS: Em caso de mais de um (a) filho (a), é possível selecionar mais de uma opção.

In [32]:
idade_filhos = df['idade_filhos'].value_counts()
print(idade_filhos)

idade_filhos
21 anos ou mais                                                                       103
Mais de 2 até 4 anos                                                                   82
Mais de 4 até 7 anos                                                                   80
Mais de 7 até 10 anos                                                                  67
Até 2 anos                                                                             59
                                                                                     ... 
Até 2 anos + Mais de 2 até 4 anos + Mais de 10 até 12 anos                              1
Até 2 anos + Mais de 18 até 21 anos                                                     1
Mais de 12 até 15 anos + Mais de 18 até 21 anos + 21 anos ou mais                       1
Até 2 anos + Mais de 4 até 7 anos + Mais de 7 até 10 anos + Mais de 18 até 21 anos      1
Mais de 2 até 4 anos + Mais de 15 até 18 anos                                          

## Perfil acadêmico e profissional

#### Qual é a sua principal área de concentração nas Ciências Sociais?

In [33]:
area_concentracao = df['area_concentracao'].value_counts()
print(area_concentracao)

area_concentracao
Sociologia                 1496
Antropologia                864
Ciência Política            549
Políticas Públicas          238
Relações Internacionais      41
Demografia                   20
Name: count, dtype: int64


## Instituição de Nível Mais Alto

In [34]:
# Limpar o texto entre parênteses e ajustar a coluna
df['instituicao_nivel_mais_alto'] = df['instituicao_nivel_mais_alto'].str.replace(r'\s*\(.*\)', '', regex=True).str.strip()

instituicao_nivel_mais_alto = df['instituicao_nivel_mais_alto'].value_counts()
print(instituicao_nivel_mais_alto)

instituicao_nivel_mais_alto
Pública                        2802
Privada sem fins lucrativos     215
Privada com fins lucrativos     192
Name: count, dtype: int64


In [35]:
# Dicionário de mapeamento para simplificar os textos
mapear_textos = {
    'Pública': 'Pública',
    'Privada com fins lucrativos': 'Privada com fins lucrativos',
    'Privada sem fins lucrativos (confessionais, comunitárias e fundações)': 'Privada sem fins lucrativos',
}

# Aplicar o mapeamento à coluna 'quantidade_filhos'
df['instituicao_nivel_mais_alto'] = df['instituicao_nivel_mais_alto'].replace(mapear_textos)

# Verificar o resultado
instituicao_nivel_mais_alto = df['instituicao_nivel_mais_alto'].value_counts()
print(instituicao_nivel_mais_alto)

instituicao_nivel_mais_alto
Pública                        2802
Privada sem fins lucrativos     215
Privada com fins lucrativos     192
Name: count, dtype: int64


## Ocupação Profissional Atual

In [36]:
ocupacao_profissional_atual = df['ocupacao_profissional_atual'].value_counts()
print(ocupacao_profissional_atual)

ocupacao_profissional_atual
Estudante de pós-graduação bolsista                                                   345
Docente de universidade pública                                                       344
Desempregado (a)                                                                      241
Docente da educação básica na rede pública                                            230
Autônomo/prestador de serviço                                                         195
                                                                                     ... 
Atuo como profissional de salvaguarda (proteção e garantia de direitos) em uma SAF      1
Docente universidade pública aposentada                                                 1
Terceirizada em empresa pública (CLT)                                                   1
Servidor público terceirizado                                                           1
Orientador Social                                                       

## Desempregados

In [37]:
desempregado_opcao = df['desempregado_opcao'].value_counts()
print(desempregado_opcao)

desempregado_opcao
Busco emprego na minha área de formação ou em outra                                           205
Busco emprego exclusivamente na minha área de formação                                         92
Deixei de buscar emprego exclusivamente na minha área de formação nos últimos 12 meses         86
Passei a buscar emprego exclusivamente fora da minha área de formação nos últimos 12 meses     28
Name: count, dtype: int64


## Expectativa para Encontrar Emprego Compatível com a Formação

In [38]:
expectativa_emprego_compativel_formacao = df['expectativa_emprego_compativel_formacao'].value_counts()
print(expectativa_emprego_compativel_formacao)

expectativa_emprego_compativel_formacao
0    3505
1     104
3      84
4      76
2      72
5      46
7      27
6      18
Name: count, dtype: int64


In [39]:
# Filtrar para desconsiderar NaN e 0
filtro = df['expectativa_emprego_compativel_formacao'].notna() & (df['expectativa_emprego_compativel_formacao'] != 0)

# Aplicar o filtro e contar os valores
expectativa_emprego_compativel_formacao = df[filtro]['expectativa_emprego_compativel_formacao'].value_counts()

# Exibir o resultado
print(expectativa_emprego_compativel_formacao)

expectativa_emprego_compativel_formacao
1    104
3     84
4     76
2     72
5     46
7     27
6     18
Name: count, dtype: int64


## Tipo de Vínculo Atual

In [40]:
tipo_vinculo_ocupacao_atual = df['tipo_vinculo_ocupacao atual'].value_counts()
print(tipo_vinculo_ocupacao_atual)

tipo_vinculo_ocupacao atual
Empregado(a) formal no setor privado                 605
Bolsista                                             498
Autônomo(a)/prestador(a) de serviço                  445
Servidor(a) estatutário federal                      435
Servidor(a) estatutário estadual                     324
Empregado(a) formal no terceiro setor                182
Servidor(a) estatutário municipal                    112
Servidor (a) temporário no âmbito estadual            95
Servidor(a) público celetista estadual                51
Servidor(a) público celetista federal                 47
Empresário(a)                                         46
Servidor (a) comissionado (a) no âmbito estadual      40
Servidor (a) temporário no âmbito federal             32
Servidor (a) temporário no âmbito municipal           29
Servidor(a) público celetista municipal               26
Servidor (a) comissionado (a) no âmbito municipal     22
Servidor (a) comissionado (a) no âmbito federal       18
Nam

In [41]:
# Criar um dicionário de mapeamento para os valores de 'tipo_vinculo_ocupacao_atual'
mapeamento_ocupacao = {
    "Empregado(a) formal no setor privado": "Empregado(a) Formal no Setor Privado",
    "Bolsista": "Bolsista",
    "Autônomo(a)/prestador(a) de serviço": "Autônomo(a)/Prestador(a) de Serviço",
    "Servidor(a) estatutário federal": "Servidor(a) Estatutário Federal",
    "Servidor(a) estatutário estadual": "Servidor(a) Estatutário Estadual",
    "Empregado(a) formal no terceiro setor": "Empregado(a) Formal no Terceiro Setor",
    "Servidor(a) estatutário municipal": "Servidor(a) Estatutário Municipal",
    "Servidor (a) temporário no âmbito estadual": "Servidor(a) Temporário no Âmbito Estadual",
    "Servidor(a) público celetista estadual": "Servidor(a) Público Celetista Estadual",
    "Servidor(a) público celetista federal": "Servidor(a) Público Celetista Federal",
    "Empresário(a)": "Empresário(a)",
    "Servidor (a) comissionado (a) no âmbito estadual": "Servidor(a) Comissionado (a) no Âmbito Estadual",
    "Servidor (a) temporário no âmbito federal": "Servidor(a) Temporário no Âmbito Federal",
    "Servidor (a) temporário no âmbito municipal": "Servidor(a) Temporário no Âmbito Municipal",
    "Servidor(a) público celetista municipal": "Servidor(a) Público Celetista Municipal",
    "Servidor (a) comissionado (a) no âmbito municipal": "Servidor(a) Comissionado(a) no Âmbito Municipal",
    "Servidor (a) comissionado (a) no âmbito federal": "Servidor(a) Comissionado(a) no Âmbito Federal",
}

# Aplicar o mapeamento à coluna 'tipo_vinculo_ocupacao_atual'
df['tipo_vinculo_ocupacao atual'] = df['tipo_vinculo_ocupacao atual'].map(mapeamento_ocupacao)

# Contar os valores após o mapeamento
tipo_vinculo_ocupacao_atual = df['tipo_vinculo_ocupacao atual'].value_counts()

# Exibir o resultado
print(tipo_vinculo_ocupacao_atual)

tipo_vinculo_ocupacao atual
Empregado(a) Formal no Setor Privado               605
Bolsista                                           498
Autônomo(a)/Prestador(a) de Serviço                445
Servidor(a) Estatutário Federal                    435
Servidor(a) Estatutário Estadual                   324
Empregado(a) Formal no Terceiro Setor              182
Servidor(a) Estatutário Municipal                  112
Servidor(a) Temporário no Âmbito Estadual           95
Servidor(a) Público Celetista Estadual              51
Servidor(a) Público Celetista Federal               47
Empresário(a)                                       46
Servidor(a) Comissionado (a) no Âmbito Estadual     40
Servidor(a) Temporário no Âmbito Federal            32
Servidor(a) Temporário no Âmbito Municipal          29
Servidor(a) Público Celetista Municipal             26
Servidor(a) Comissionado(a) no Âmbito Municipal     22
Servidor(a) Comissionado(a) no Âmbito Federal       18
Name: count, dtype: int64


## Caracterização da Organização

In [42]:
# Criar um dicionário de mapeamento para os valores de 'caracterizacao_organizacao'
mapeamento_ocupacao = {
    "Instituição de ensino superior pública": "Instituição de Ensino Superior Pública",
    "Instituição de ensino superior privada com fins lucrativos": "Instituição de Ensino Superior Privada com Fins Lucrativos",
    "Instituição de ensino superior privada sem fins lucrativos (confessionais, comunitárias e fundações)": "Instituição de Ensino Superior Privada sem Fins Lucrativos",
    "Instituição de ensino da rede básica pública": "Instituição de Ensino da Rede Básica Pública",
    "Instituição de ensino da rede básica privada": "Instituição de Ensino da Rede Básica Privada",
    "Instituição de ensino da rede básica privada sem fins lucrativos": "Instituição de Ensino da Rede Básica Privada sem Fins Lucrativos",
    "Empresa pública/autarquia": "Empresa Pública/Autarquia",
    "Congresso Nacional": "Congresso Nacional",
    "Assembleia legislativa estadual": "Assembleia Legislativa Estadual",
    "Assembleia legislativa municipal": "Assembleia Legislativa Municipal",
    "Órgãos públicos de controle (Tribunais de contas, Ministério Público etc.)": "Órgãos Públicos de Controle",
    "Empresa privada": "Empresa Privada",
    "Organização do terceiro setor (ONGs, OSCIPs, OSs, cooperativas, associações, fundações etc.)": "Organização do Terceiro Setor",
    "Empresa própria ou da qual você é sócio(a)": "Empresa Própria ou Sócio(a)"
}

# Remover espaços em branco nas bordas dos valores na coluna
df['caracterizacao_organizacao'] = df['caracterizacao_organizacao'].str.strip()

# Aplicar o mapeamento à coluna 'caracterizacao_organizacao'
df['caracterizacao_organizacao_atual'] = df['caracterizacao_organizacao'].map(mapeamento_ocupacao)

# Contar os valores após o mapeamento
caracterizacao_organizacao_atual = df['caracterizacao_organizacao_atual'].value_counts()

# Exibir o resultado
print("\nContagem por caracterização da organização atual:")
print(caracterizacao_organizacao_atual)


Contagem por caracterização da organização atual:
caracterizacao_organizacao_atual
Instituição de Ensino Superior Pública                              862
Empresa Privada                                                     417
Instituição de Ensino da Rede Básica Pública                        324
Organização do Terceiro Setor                                       221
Assembleia Legislativa Estadual                                     143
Empresa Pública/Autarquia                                           127
Assembleia Legislativa Municipal                                     95
Empresa Própria ou Sócio(a)                                          69
Órgãos Públicos de Controle                                          62
Instituição de Ensino Superior Privada com Fins Lucrativos           59
Instituição de Ensino Superior Privada sem Fins Lucrativos           52
Instituição de Ensino da Rede Básica Privada                         48
Congresso Nacional                                  

## Tamanho da Instituição no Setor Privado

In [43]:
# Contar os valores
tamanho_instituicao = df['tamanho_instituicao'].value_counts()

# Exibir o resultado
print(tamanho_instituicao)

tamanho_instituicao
Grande (mais de 250 funcionários)    517
Pequena (até 50 funcionários)        426
Média (51 a 250 funcionários)        239
Name: count, dtype: int64


## Perfil da Empresa no Setor Privado

In [44]:
# Criar um dicionário de mapeamento para os valores de 'perfil_empresa_privada'
mapeamento_ocupacao = {
    "Consultoria/assessoria econômica ou financeira": "Consultoria/Assessoria Econômica ou Financeira",
    "Consultoria/assessoria econômica em relações institucionais e governamentais": "Consultoria/Assessoria Econômica em Relações Institucionais e Governamentais",
    "Consultoria/assessoria em pesquisa": "Consultoria/Assessoria em Pesquisa",
    "Consultoria/assessoria em ensino e educação": "Consultoria/Assessoria em Ensino e Educação",
    "Consultoria/assessoria em meio ambiente e sustentabilidade": "Consultoria/Assessoria em Meio Ambiente e Sustentabilidade",
    "Consultoria/assessoria em governança social e diversidade": "Consultoria/Assessoria em Governança Social e Diversidade",
    "Consultoria/assessoria em cultura/projetos culturais": "Consultoria/Assessoria em Cultura/Projetos Culturais",
    "Empresa do setor industrial": "Empresa do Setor Industrial",
    "Empresa do setor de serviços": "Empresa do Setor de Serviços",
    "Empresa do setor financeiro": "Empresa do Setor Financeiro"
}

# Aplicar o mapeamento à coluna 'perfil_empresa_privada'
df['perfil_empresa_privada'] = df['perfil_empresa_privada'].map(mapeamento_ocupacao)

# Contar os valores após o mapeamento
perfil_empresa_privada = df['perfil_empresa_privada'].value_counts()

# Exibir o resultado
print(perfil_empresa_privada)

perfil_empresa_privada
Consultoria/Assessoria em Pesquisa                                              165
Empresa do Setor de Serviços                                                    158
Consultoria/Assessoria em Meio Ambiente e Sustentabilidade                       82
Consultoria/Assessoria em Ensino e Educação                                      72
Empresa do Setor Industrial                                                      54
Empresa do Setor Financeiro                                                      48
Consultoria/Assessoria Econômica em Relações Institucionais e Governamentais     40
Consultoria/Assessoria em Cultura/Projetos Culturais                             36
Consultoria/Assessoria em Governança Social e Diversidade                        25
Consultoria/Assessoria Econômica ou Financeira                                   18
Name: count, dtype: int64


## Ramo de Atuação no Setor Público

In [45]:
# Contar os valores
perfil_ramo_atuacao_publico = df['perfil_ramo_atuacao_publico'].value_counts()

# Exibir o resultado
print(perfil_ramo_atuacao_publico)

perfil_ramo_atuacao_publico
Educação                  809
Pesquisa                  298
Cultura                    53
Direitos Humanos           51
Desenvolvimento social     46
                         ... 
governança                  1
Orçamento e Controle        1
Marketing                   1
Gestão Governamental        1
Regulação                   1
Name: count, Length: 166, dtype: int64


## Expectativas Iniciais com a Profissão

In [46]:
# Remover o ponto final das frases na coluna 'expectativas_iniciais_profissao' e capitalizar as palavras
df['expectativas_iniciais_profissao'] = df['expectativas_iniciais_profissao'].str.rstrip('.').str.title()

# Contar os valores
expectativas_iniciais_profissao = df['expectativas_iniciais_profissao'].value_counts()

# Exibir o resultado
print(expectativas_iniciais_profissao)

expectativas_iniciais_profissao
Ser Professor E Pesquisador Em Instituições Públicas De Ensino                      1329
Contribuir Para A Produção De Conhecimento Científico Na Minha Área De Interesse     514
Avançar Na Minha Carreira Profissional Fora Do Ambiente Acadêmico                    374
Desenvolver Habilidades De Pesquisa E Análise De Dados                               299
Explorar Novas Oportunidades De Carreira Além Do Campo Das Ciências Sociais          177
                                                                                    ... 
Atuar Com Políticas Públicas                                                           1
Gestão De Políticas Publicas                                                           1
Estudo Da Sociedade Brasileira, Das Relações Sociais                                   1
Transformar A Qualidade De Vida Das Pessoas                                            1
Trabalhar Na Área Social                                                      

## Expectativas Alcançadas na Profissão

In [47]:
# Capitalizar os valores na coluna 'expectativas_alcancadas'
df['expectativas_alcancadas'] = df['expectativas_alcancadas'].str.title()

# Contar os valores
expectativas_alcancadas = df['expectativas_alcancadas'].value_counts()

# Exibir o resultado
print(expectativas_alcancadas)

expectativas_alcancadas
Um Pouco Abaixo Das Expectativas    871
Muito Abaixo Das Expectativas       798
Conforme As Expectativas            659
Um Pouco Acima Das Expectativas     289
Muito Acima Das Expectativas        269
Name: count, dtype: int64


## Sentimento em Relação à Carreira Atualmente

In [48]:
# Capitalizar os valores na coluna 'satisfacao_carreira'
df['satisfacao_carreira'] = df['satisfacao_carreira'].str.title()

# Contar os valores
satisfacao_carreira = df['satisfacao_carreira'].value_counts()

# Exibir o resultado
print(satisfacao_carreira)

satisfacao_carreira
Satisfeito(A)                            1046
Insatisfeito(A)                           595
Nem Satisfeito(A) Nem Insatisfeito(A)     562
Muito Satisfeito(A)                       351
Muito Insatisfeito(A)                     327
Name: count, dtype: int64


## Fatores para o Sucesso Profissional

In [49]:
# Capitalizar os valores na coluna 'fatores_sucesso_profissional'
df['fatores_sucesso_profissional'] = df['fatores_sucesso_profissional'].str.title()

# Contar os valores
fatores_sucesso_profissional = df['fatores_sucesso_profissional'].value_counts()

# Exibir o resultado
print(fatores_sucesso_profissional)

fatores_sucesso_profissional
Relevância Do Trabalho Para A Sociedade                                                                                                                                                                                    208
Relevância Do Trabalho Para A Sociedade + Reconhecimento Acadêmico + Remuneração + Equilíbrio Entre Vida Profissional E Pessoal + Oportunidades De Pesquisa E Publicação + Desenvolvimento De Habilidades Profissionais    160
Relevância Do Trabalho Para A Sociedade + Remuneração + Equilíbrio Entre Vida Profissional E Pessoal                                                                                                                       152
Relevância Do Trabalho Para A Sociedade + Reconhecimento Acadêmico + Remuneração                                                                                                                                           122
Relevância Do Trabalho Para A Sociedade + Reconhecimento Acadêmico + Remuneraçã

## Desafios para a Realização Profissional

In [50]:
# Capitalizar os valores na coluna 'desafios_realizacao_profissional'
df['desafios_realizacao_profissional'] = df['desafios_realizacao_profissional'].str.title()

# Contar os valores
desafios_realizacao_profissional = df['desafios_realizacao_profissional'].value_counts()

# Exibir o resultado
print(desafios_realizacao_profissional)

desafios_realizacao_profissional
Dificuldade Em Encontrar Oportunidades De Emprego Na Área De Ciências Sociais                                                                                                                                                                                                                                                                                                                             396
Dificuldade Em Encontrar Oportunidades De Emprego Na Área De Ciências Sociais + Falta De Reconhecimento Ou Valorização Das Habilidades Adquiridas Durante A Pós-Graduação                                                                                                                                                                                                                                 201
Dificuldade Em Encontrar Oportunidades De Emprego Na Área De Ciências Sociais + Dificuldades Para Estabelecer Uma Rede Profissional Ou Acadêmica                           

## Compatibilidade do Emprego com a Formação

In [51]:
# Contar os valores
compatibilidade_emprego_formacao = df['compatibilidade_emprego_formacao'].value_counts()

# Exibir o resultado
print(compatibilidade_emprego_formacao)

compatibilidade_emprego_formacao
7    1122
0    1094
5     457
6     379
1     308
4     285
3     174
2     113
Name: count, dtype: int64


## O Currículo do Curso Atende às Necessidades Profissionais

In [52]:
# Capitalizar os valores na coluna 'curriculo_atende_necessidades'
df['curriculo_atende_necessidades'] = df['curriculo_atende_necessidades'].str.title()

# Contar os valores
curriculo_atende_necessidades = df['curriculo_atende_necessidades'].value_counts()

# Exibir o resultado
print(curriculo_atende_necessidades)               

curriculo_atende_necessidades
Sim, Mas Há Espaço Para Melhorias Direcionadas A Atender Melhor Às Necessidades Profissionais    1326
Não, Há Uma Defasagem Entre O Currículo Dos Cursos E As Necessidades Profissionais.              1082
Sim, O Currículo Dos Cursos Atende Plenamente Às Necessidades Profissionais                       299
Não Tenho Certeza                                                                                 119
Name: count, dtype: int64


## Conhecimento Aplicável

In [53]:
# Capitalizar os valores na coluna 'conhecimento_aplicavel'
df['conhecimento_aplicavel'] = df['conhecimento_aplicavel'].str.title()

# Contar os valores
conhecimento_aplicavel = df['conhecimento_aplicavel'].value_counts()

# Exibir o resultado
print(conhecimento_aplicavel)          

conhecimento_aplicavel
Sim    2208
Não     614
Name: count, dtype: int64


## Como Adquiriu os Conhecimentos Aplicáveis Necessários

In [54]:
# Criar um dicionário de mapeamento para os valores de 'como_adquiriu_conhecimento'
mapeamento_ocupacao = {
    "Adquiri esses conhecimentos por conta própria": "Por Conta Própria",
    "Adquiri esses conhecimentos através de cursos complementares ou de curta duração": "Cursos Complementares Ou De Curta Duração",
    "Adquiri esses conhecimentos através de treinamentos no local de trabalho": "Treinamentos No Local De Trabalho"
}

# Aplicar o mapeamento à coluna 'como_adquiriu_conhecimento'
df['como_adquiriu_conhecimento'] = df['como_adquiriu_conhecimento'].map(mapeamento_ocupacao)

# Contar os valores
como_adquiriu_conhecimento = df['como_adquiriu_conhecimento'].value_counts()

# Exibir o resultado
print(como_adquiriu_conhecimento) 

como_adquiriu_conhecimento
Por Conta Própria                            1095
Cursos Complementares Ou De Curta Duração     621
Treinamentos No Local De Trabalho             544
Name: count, dtype: int64


## Conhecimento Necessário nos Cursos de Ciência Política

In [55]:
# Capitalizar os valores na coluna 'desafios_realizacao_profissional'
df['conhecimento_necessario'] = df['conhecimento_necessario'].str.title()

# Contar os valores
conhecimento_necessario = df['conhecimento_necessario'].value_counts()

# Exibir o resultado
print(conhecimento_necessario)

conhecimento_necessario
Habilidades Em Análise Estatística E Quantitativa + Conhecimentos Em Ferramentas De Coleta E Análise De Dados (Por Exemplo, Software Estatístico, Ferramentas De Visualização De Dados) + Competências Em Pesquisa Qualitativa (Por Exemplo, Entrevistas, Análise De Conteúdo) + Conhecimentos Em Programação E Análise De Dados Em Linguagens Como R Ou Python + Habilidades Em Comunicação E Apresentação De Resultados De Pesquisa + Competências Para Gerir Projetos De Pesquisa + Competências E Habilidades Relacionadas À Gestão Empresarial    235
Habilidades Em Análise Estatística E Quantitativa + Conhecimentos Em Ferramentas De Coleta E Análise De Dados (Por Exemplo, Software Estatístico, Ferramentas De Visualização De Dados) + Competências Em Pesquisa Qualitativa (Por Exemplo, Entrevistas, Análise De Conteúdo) + Conhecimentos Em Programação E Análise De Dados Em Linguagens Como R Ou Python + Habilidades Em Comunicação E Apresentação De Resultados De Pesquisa + Competências 

#### A formação em Ciências Sociais ajuda a desenvolver habilidades como leitura e escrita. Em que medida essas habilidades têm sido úteis na sua atividade profissional?

In [56]:
# Capitalizar os valores na coluna 'habilidades_utilidade_leitura_escrita'
df['habilidades_utilidade_leitura_escrita'] = df['habilidades_utilidade_leitura_escrita'].str.title()

# Contar os valores
habilidades_utilidade_leitura_escrita = df['habilidades_utilidade_leitura_escrita'].value_counts()

# Exibir o resultado
print(habilidades_utilidade_leitura_escrita)

habilidades_utilidade_leitura_escrita
Extremamente Importante    1516
Muito Importante            735
Importante                  423
Pouco Importante             87
Nada Importante              30
Name: count, dtype: int64


#### A formação em Ciências Sociais ajuda a desenvolver habilidades como pensamento sistemático e capacidade analítica. Em que medida essas habilidades têm sido úteis na sua atividade profissional?

In [57]:
# Capitalizar os valores na coluna 'habilidades_utilidade_pensamento_analitico'
df['habilidades_utilidade_pensamento_analitico'] = df['habilidades_utilidade_pensamento_analitico'].str.title()

# Contar os valores
habilidades_utilidade_pensamento_analitico = df['habilidades_utilidade_pensamento_analitico'].value_counts()

# Exibir o resultado
print(habilidades_utilidade_pensamento_analitico)

habilidades_utilidade_pensamento_analitico
Extremamente Importante    1617
Muito Importante            681
Importante                  391
Pouco Importante             72
Nada Importante              24
Name: count, dtype: int64


#### A formação em Ciências Sociais ajuda a desenvolver habilidades como coleta, tratamento e análise de dados. Em que medida essas habilidades têm sido úteis na sua atividade profissional?

In [58]:
# Capitalizar os valores na coluna 'habilidades_utilidade_analise_dados'
df['habilidades_utilidade_analise_dados'] = df['habilidades_utilidade_analise_dados'].str.title()

# Contar os valores
habilidades_utilidade_analise_dados = df['habilidades_utilidade_analise_dados'].value_counts()

# Exibir o resultado
print(habilidades_utilidade_analise_dados)

habilidades_utilidade_analise_dados
Extremamente Importante    1159
Muito Importante            670
Importante                  607
Pouco Importante            245
Nada Importante             111
Name: count, dtype: int64
