In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import re
import seaborn as sns

In [2]:
# Caminho do arquivo Excel
excel_file = "arw.xlsx"

# Leitura do arquivo Excel
df = pd.read_excel(excel_file, sheet_name='Respondentes')

In [3]:
# Drop das colunas desnecessárias
columns_to_drop = ['endereco_ip', 'coletor', 'tempo_gasto', 'data_resposta', 'concorda_termo_consentimento']
columns_to_drop = [col for col in columns_to_drop if col in df.columns]
df.drop(columns=columns_to_drop, inplace=True)

# Função para converter floats em inteiros
def converter_float_para_int(df):
    for coluna in df.columns:
        if df[coluna].dtype == 'float64':
            # Verifica se há valores NaN na coluna e os preenche com 0 (ou outro valor apropriado) antes da conversão
            df[coluna].fillna(0, inplace=True)
            df[coluna] = df[coluna].astype(int)
    return df

# Aplicar a função para converter floats em inteiros
df = converter_float_para_int(df)

In [4]:
# Função para remover o texto após o parêntese, incluindo o próprio parêntese
def remover_apos_parentese(texto):
    if isinstance(texto, str):
        return re.sub(r'\s*\(.*\)', '', texto).strip()
    return texto

# Aplicar a função à coluna 'identificacao_genero'
df['identificacao_genero'] = df['identificacao_genero'].apply(remover_apos_parentese)

# Contar as ocorrências de cada valor único na coluna 'identificacao_genero'
identificacao_genero_counts = df['identificacao_genero'].value_counts()

# Exibir o resultado
print("Contagem de cada valor:")
print(identificacao_genero_counts)

Contagem de cada valor:
Mulher cisgênero         2128
Homem cisgênero          1489
Pessoa não-binária         66
Prefiro não responder      41
Homem transgênero          10
Agênero                    10
Mulher transgênero          7
Name: identificacao_genero, dtype: int64


In [5]:
# Exibir os valores únicos antes de qualquer manipulação
print("Valores únicos antes da substituição:")
print(df['ano_conclusao_graduacao'].unique())

# Substituir anos de conclusão da graduação abaixo de 1901 por 0
df['ano_conclusao_graduacao'] = df['ano_conclusao_graduacao'].apply(lambda x: x if x >= 1901 else 0)

# Exibir os valores únicos após a substituição
print("\nValores únicos após a substituição:")
print(df['ano_conclusao_graduacao'].unique())

# Contar valores nulos na coluna 'ano_conclusao_graduacao'
nulos_ano_conclusao = df['ano_conclusao_graduacao'].isnull().sum()
print(f"\nNúmero de valores nulos: {nulos_ano_conclusao}")

# Verificar contagem por ano após a substituição
contagem_por_ano = df['ano_conclusao_graduacao'].value_counts().sort_index()
print("\nContagem por Ano de Graduação:")
print(contagem_por_ano)

Valores únicos antes da substituição:
[   0 2003 1996 2005 2006 2008 2007 1981 1973 2013 1992 2000 2015 2011
 1995 2017 2019 2018 1983 2004 2014 2023 2002 2012 1975 1980 1998 1989
 1986 1997 1999 2016 2010 2001 1987 2022 2020 2009 2021 1984 2024 1979
 1970 1971 1993 1982 1991 2025 1985 1976 1994 1990 1974   88 2027 1988
 1965   -1   -7 1967 2026   19    1   -3    7 1978  224   -2  -91 1964
    2 1960    9 2028 1968  777    5  666 1977 1972 1900 2029]

Valores únicos após a substituição:
[   0 2003 1996 2005 2006 2008 2007 1981 1973 2013 1992 2000 2015 2011
 1995 2017 2019 2018 1983 2004 2014 2023 2002 2012 1975 1980 1998 1989
 1986 1997 1999 2016 2010 2001 1987 2022 2020 2009 2021 1984 2024 1979
 1970 1971 1993 1982 1991 2025 1985 1976 1994 1990 1974 2027 1988 1965
 1967 2026 1978 1964 1960 2028 1968 1977 1972 2029]

Número de valores nulos: 0

Contagem por Ano de Graduação:
0       567
1960      2
1964      2
1965      1
1967      1
       ... 
2025     11
2026      6
2027      1
2028

In [9]:
# Exibir os valores únicos antes de qualquer manipulação
print("Valores únicos antes da substituição:")
print(df['ano_conclusao_mestrado'].unique())

# Substituir anos de conclusão da graduação abaixo de 1901 por 0
df['ano_conclusao_mestrado'] = df['ano_conclusao_mestrado'].apply(lambda x: x if x >= 1901 else 0)

# Exibir os valores únicos após a substituição
print("\nValores únicos após a substituição:")
print(df['ano_conclusao_mestrado'].unique())

# Contar valores nulos na coluna 'ano_conclusao_graduacao'
nulos_ano_conclusao = df['ano_conclusao_mestrado'].isnull().sum()
print(f"\nNúmero de valores nulos: {nulos_ano_conclusao}")

# Verificar contagem por ano após a substituição
contagem_por_ano = df['ano_conclusao_mestrado'].value_counts().sort_index()
print("\nContagem por Ano de Graduação:")
print(contagem_por_ano)

Valores únicos antes da substituição:
[   0 2005 2001 2018 2009 2015 2010 1989 1979 1996 2013 2019 2014 2017
 2000 2020 2022 2021 2025 1980 1995 1994 1993 2016 2002 2007 2004    2
 2003 2008 1988 2011 2012 2023 2006 2024    1 1983 1974 1977 1998 1978
 1999   19 1991 1986 2026 1981 1992   -2   94 1972    3 1987 1971 1997
 1985 1975 1976 1990    4   -1   20 1966 1973   -3    8  555   -4    9
   66 1970 1900]

Valores únicos após a substituição:
[   0 2005 2001 2018 2009 2015 2010 1989 1979 1996 2013 2019 2014 2017
 2000 2020 2022 2021 2025 1980 1995 1994 1993 2016 2002 2007 2004 2003
 2008 1988 2011 2012 2023 2006 2024 1983 1974 1977 1998 1978 1999 1991
 1986 2026 1981 1992 1972 1987 1971 1997 1985 1975 1976 1990 1966 1973
 1970]

Número de valores nulos: 0

Contagem por Ano de Graduação:
0       1817
1966       1
1970       1
1971       2
1972       3
1973       1
1974       3
1975       2
1976       3
1977       1
1978       1
1979       4
1980       2
1981       1
1983       3
1985   

In [10]:
# Exibir os valores únicos antes de qualquer manipulação
print("Valores únicos antes da substituição:")
print(df['ano_conclusao_doutorado'].unique())

# Substituir anos de conclusão da graduação abaixo de 1901 por 0
df['ano_conclusao_doutorado'] = df['ano_conclusao_doutorado'].apply(lambda x: x if x >= 1901 else 0)

# Exibir os valores únicos após a substituição
print("\nValores únicos após a substituição:")
print(df['ano_conclusao_doutorado'].unique())

# Contar valores nulos na coluna 'ano_conclusao_graduacao'
nulos_ano_conclusao = df['ano_conclusao_doutorado'].isnull().sum()
print(f"\nNúmero de valores nulos: {nulos_ano_conclusao}")

# Verificar contagem por ano após a substituição
contagem_por_ano = df['ano_conclusao_doutorado'].value_counts().sort_index()
print("\nContagem por Ano de Graduação:")
print(contagem_por_ano)

Valores únicos antes da substituição:
[   0 2012 2006 2022 2013 2025 2020 1997 1999 2005 2018 2019 2007 2024
 2017 1989 2016 2028 2011 2023 1986 2002 2010 2001 2008 2014 2015    2
 2027 2029 2003 2004 2021 2026 1992 1985 1987 2009 1995 2000 1984 1974
    1 1993 1996 1990   -2    3   -1 1988 1998   -3 1979 1994 1981 1973
 1991 1980  458    5  666 1975   -8   -5 1983 1900]

Valores únicos após a substituição:
[   0 2012 2006 2022 2013 2025 2020 1997 1999 2005 2018 2019 2007 2024
 2017 1989 2016 2028 2011 2023 1986 2002 2010 2001 2008 2014 2015 2027
 2029 2003 2004 2021 2026 1992 1985 1987 2009 1995 2000 1984 1974 1993
 1996 1990 1988 1998 1979 1994 1981 1973 1991 1980 1975 1983]

Número de valores nulos: 0

Contagem por Ano de Graduação:
0       2868
1973       2
1974       2
1975       1
1979       1
1980       2
1981       1
1983       1
1984       2
1985       3
1986       1
1987       4
1988       2
1989       2
1990       1
1991       1
1992       2
1993       6
1994       1
1995   

In [11]:
# Função para remover o texto 'salários-mínimos' ou 'salário-mínimo'
def limpar_texto(texto):
    if isinstance(texto, str):  # Verifica se o valor é uma string
        return texto.replace('salários-mínimos', '').replace('salário-mínimo', '').strip()
    return texto  # Retorna o valor original se não for uma string

# Aplicar a função à coluna 'faixa_renda_domiciliar'
df['faixa_renda_domiciliar'] = df['faixa_renda_domiciliar'].apply(limpar_texto)

# Verificar o resultado
faixa_renda_domiciliar = df['faixa_renda_domiciliar'].value_counts()
print(faixa_renda_domiciliar)

Mais de 2 até 5      926
Mais de 5 até 10     889
Mais de 10 até 15    492
Mais de 1 até 2      388
Mais de 15 até 20    235
Até 1                196
Mais de 20           192
Name: faixa_renda_domiciliar, dtype: int64


In [15]:
# Dicionário de mapeamento para simplificar os textos
mapear_textos = {
    'Sim, filho/a (s)': 'Filho(s)',
    'Sim, familiar(es) que é (são) idosos (as)': 'Familiares Idosos',
    'Sim, familiar (es) que é (são) crianças': 'Familiares Crianças',
    'Sim, familiar (es) que é (são) pessoa com deficiência': 'Familiares com Deficiência',
    'Sim, enteados(a)': 'Enteados',
    'Prefiro não responder': 'Prefiro não responder',
    'Não': 'Não'
}

# Aplicar o mapeamento à coluna 'responsavel_cuidado_familiar'
df['responsavel_cuidado_familiar'] = df['responsavel_cuidado_familiar'].replace(mapear_textos)

# Verificar o resultado
responsavel_cuidado_familiar = df['responsavel_cuidado_familiar'].value_counts()
print(responsavel_cuidado_familiar)

Não                           2103
Filho(s)                       686
Familiares Idosos              305
Familiares Crianças             84
Prefiro não responder           72
Familiares com Deficiência      33
Enteados                        19
Name: responsavel_cuidado_familiar, dtype: int64


In [16]:
# Dicionário de mapeamento para simplificar os textos
mapear_textos = {
    '1 filha (o)': '1 filha(o)',
    '2 filhas (os)': '2 filhas(os)',
    '3 filhas (os)': '3 filhas(os)',
    '4 filhas (os)': '4 filhas(os)',
    '5 filhas (os) ou mais': '5 ou mais filhas(os)',
    'Não tenho filhos': 'Sem filhos',
    'Prefiro não responder': 'Prefiro não responder'
}

# Aplicar o mapeamento à coluna 'quantidade_filhos'
df['quantidade_filhos'] = df['quantidade_filhos'].replace(mapear_textos)

# Verificar o resultado
quantidade_filhos = df['quantidade_filhos'].value_counts()
print(quantidade_filhos)

1 filha(o)               443
Sem filhos               426
2 filhas(os)             294
3 filhas(os)              61
4 filhas(os)              15
5 ou mais filhas(os)       8
Prefiro não responder      2
Name: quantidade_filhos, dtype: int64


In [18]:
# Dicionário de mapeamento para simplificar os textos
mapear_textos = {
    'Pública': 'Pública',
    'Privada com fins lucrativos': 'Privada com fins lucrativos',
    'Privada sem fins lucrativos (confessionais, comunitárias e fundações)': 'Privada sem fins lucrativos',
}

# Aplicar o mapeamento à coluna 'quantidade_filhos'
df['instituicao_nivel_mais_alto'] = df['instituicao_nivel_mais_alto'].replace(mapear_textos)

# Verificar o resultado
instituicao_nivel_mais_alto = df['instituicao_nivel_mais_alto'].value_counts()
print(instituicao_nivel_mais_alto)

Pública                        2802
Privada sem fins lucrativos     215
Privada com fins lucrativos     192
Name: instituicao_nivel_mais_alto, dtype: int64


In [19]:
# Criar um dicionário de mapeamento para os valores de 'tipo_vinculo_ocupacao_atual'
mapeamento_ocupacao = {
    "Empregado(a) formal no setor privado": "Empregado(a) Formal no Setor Privado",
    "Bolsista": "Bolsista",
    "Autônomo(a)/prestador(a) de serviço": "Autônomo(a)/Prestador(a) de Serviço",
    "Servidor(a) estatutário federal": "Servidor(a) Estatutário Federal",
    "Servidor(a) estatutário estadual": "Servidor(a) Estatutário Estadual",
    "Empregado(a) formal no terceiro setor": "Empregado(a) Formal no Terceiro Setor",
    "Servidor(a) estatutário municipal": "Servidor(a) Estatutário Municipal",
    "Servidor (a) temporário no âmbito estadual": "Servidor(a) Temporário no Âmbito Estadual",
    "Servidor(a) público celetista estadual": "Servidor(a) Público Celetista Estadual",
    "Servidor(a) público celetista federal": "Servidor(a) Público Celetista Federal",
    "Empresário(a)": "Empresário(a)",
    "Servidor (a) comissionado (a) no âmbito estadual": "Servidor(a) Comissionado (a) no Âmbito Estadual",
    "Servidor (a) temporário no âmbito federal": "Servidor(a) Temporário no Âmbito Federal",
    "Servidor (a) temporário no âmbito municipal": "Servidor(a) Temporário no Âmbito Municipal",
    "Servidor(a) público celetista municipal": "Servidor(a) Público Celetista Municipal",
    "Servidor (a) comissionado (a) no âmbito municipal": "Servidor(a) Comissionado(a) no Âmbito Municipal",
    "Servidor (a) comissionado (a) no âmbito federal": "Servidor(a) Comissionado(a) no Âmbito Federal",
}

# Aplicar o mapeamento à coluna 'tipo_vinculo_ocupacao_atual'
df['tipo_vinculo_ocupacao atual'] = df['tipo_vinculo_ocupacao atual'].map(mapeamento_ocupacao)

# Contar os valores após o mapeamento
tipo_vinculo_ocupacao_atual = df['tipo_vinculo_ocupacao atual'].value_counts()

# Exibir o resultado
print(tipo_vinculo_ocupacao_atual)

Empregado(a) Formal no Setor Privado               605
Bolsista                                           498
Autônomo(a)/Prestador(a) de Serviço                445
Servidor(a) Estatutário Federal                    435
Servidor(a) Estatutário Estadual                   324
Empregado(a) Formal no Terceiro Setor              182
Servidor(a) Estatutário Municipal                  112
Servidor(a) Temporário no Âmbito Estadual           95
Servidor(a) Público Celetista Estadual              51
Servidor(a) Público Celetista Federal               47
Empresário(a)                                       46
Servidor(a) Comissionado (a) no Âmbito Estadual     40
Servidor(a) Temporário no Âmbito Federal            32
Servidor(a) Temporário no Âmbito Municipal          29
Servidor(a) Público Celetista Municipal             26
Servidor(a) Comissionado(a) no Âmbito Municipal     22
Servidor(a) Comissionado(a) no Âmbito Federal       18
Name: tipo_vinculo_ocupacao atual, dtype: int64
