# Análise de Dados de Mulheres Privadas de Liberdade

Este notebook analisa dados de uma unidade prisional feminina, buscando compreender os perfis das mulheres encarceradas, com foco em fatores como idade, cor, escolaridade, maternidade e vínculos familiares.

##Importando as bibliotecas

Pandas (pd): Para carregar, limpar e manipular seus dados.

NumPy (np): Funciona por baixo do Pandas e para operações numéricas de baixo nível.

Matplotlib (plt): Para criar gráficos básicos e personalizar detalhes.

Seaborn (sns): Para criar gráficos estatísticos mais complexos e esteticamente agradáveis, muitas vezes usando os DataFrames do Pandas.


In [None]:
## Importando as bibliotecas

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

##Importando do MYDRIVE
Nesta etapa, carregamos o conjunto de dados original e fazemos uma primeira inspeção para entender sua estrutura.

In [None]:
##importando do MYDRIVE
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
##Lendoo a a basa de dados que será usada
df_PPL = pd.read_csv('/content/drive/MyDrive/BD_PPLs_Mulher.csv')

## Qualidade da Base de Dados

Antes de iniciar qualquer análise, é importante avaliar a qualidade dos dados. Aqui, vamos:
- Verificar valores ausentes
- Identificar linhas duplicadas
- Documentar essas ocorrências para justificar futuras limpezas

In [None]:
# analise inicial da base de dados

## Verificando a base antes da limpeza

print(" Informações iniciais do dataframe:")
print(df_PPL.info())
print("\n Total de valores nulos por coluna:")
print(df_PPL.isnull().sum())
print("\n Total de linhas duplicadas:")
print(df_PPL.duplicated().sum())
print("\n Dimensões da base antes da limpeza:")
print(f"{df_PPL.shape[0]} linhas e {df_PPL.shape[1]} colunas")

## verificar se existe valores faltantes por colunas
print(df_PPL.isnull())

## resumo informações dados
df_PPL.info()

 Informações iniciais do dataframe:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 395 entries, 0 to 394
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Unnamed: 0    395 non-null    int64  
 1   NASCIM        395 non-null    object 
 2   Ano Nasc.     395 non-null    int64  
 3   idade         395 non-null    int64  
 4   PAVILHÃO      395 non-null    object 
 5   REGIME        395 non-null    object 
 6   FILHOS        389 non-null    float64
 7   COR           395 non-null    object 
 8   OPCÃO SEXUAL  395 non-null    object 
 9   ESTADO CIVIL  395 non-null    object 
 10  ESCOLARIDADE  395 non-null    object 
 11  PAI           395 non-null    object 
dtypes: float64(1), int64(3), object(8)
memory usage: 37.2+ KB
None

 Total de valores nulos por coluna:
Unnamed: 0      0
NASCIM          0
Ano Nasc.       0
idade           0
PAVILHÃO        0
REGIME          0
FILHOS          6
COR             0
OPCÃO SE

In [None]:
## Mostrando dados tratados
df_PPL.head()

Unnamed: 0.1,Unnamed: 0,NASCIM,Ano Nasc.,idade,PAVILHÃO,REGIME,FILHOS,COR,OPCÃO SEXUAL,ESTADO CIVIL,ESCOLARIDADE,PAI
0,2,17/04/1990,1990,33,B,FECHADO,2.0,PARDA,HOMOSSEXUAL,CASADA,MEDIO INCOMPLETO,SIM
1,3,09/01/1998,1998,25,HARM,SEMIABERTO,0.0,PARDA,HOMOSSEXUAL,SOLTEIRA,MEDIO,SIM
2,4,08/08/1972,1972,51,DOM,SEMIABERTO,3.0,NEGRA,HETEROSSEXUAL,SOLTEIRA,FUNDAMENTAL INCOMPLETO,SIM
3,5,01/05/1976,1976,47,B,FECHADO,2.0,PARDA,HETEROSSEXUAL,SOLTEIRA,FUNDAMENTAL INCOMPLETO,SIM
4,7,26/07/1984,1984,39,A,SEMIABERTO,4.0,BRANCA,HETEROSSEXUAL,SOLTEIRA,FUNDAMENTAL INCOMPLETO,NÃO


In [None]:
## Converter a coluna 'FILHOS' para inteiros
df_PPL['FILHOS'] = df_PPL['FILHOS'].astype('Int64')


## Tratamento de Outliers

Focamos na variável **idade**, identificando possíveis valores extremos com ajuda de boxplots e medidas estatísticas.


In [None]:
## Analisano os outliers

## Cálculo do IQR
q1 = df_PPL['idade'].quantile(0.25)
q3 = df_PPL['idade'].quantile(0.75)
iqr = q3 - q1

## Limites para identificar outliers
limite_inferior = q1 - 1.5 * iqr
limite_superior = q3 + 1.5 * iqr

## Exibindo os limites
print(f"Outliers abaixo de {limite_inferior} ou acima de {limite_superior}")

## Identificando as presas com idade considerada outlier
outliers_idade = df_PPL[(df_PPL['idade'] < limite_inferior) | (df_PPL['idade'] > limite_superior)]
print(f"\nQuantidade de presas com idade fora do intervalo interquartil: {outliers_idade.shape[0]}")
print(outliers_idade[['idade']])



Outliers abaixo de 11.5 ou acima de 63.5

Quantidade de presas com idade fora do intervalo interquartil: 15
     idade
16      74
54      73
66      67
122     73
144     68
145     64
158     73
233     78
239     68
256     79
264     65
269     66
270     67
280     65
384     66


In [None]:
## Mostrar quantidade de presas por idade
quant_por_idade = df_PPL['idade'].value_counts().sort_index()
print("Quantidade de presas por idade:")
print(quant_por_idade)

## Calcular média de idade
media_idade = df_PPL['idade'].mean()
print(f"\n Média de idade das mulheres presas: {int(media_idade)} anos")



Quantidade de presas por idade:
idade
23     2
24     4
25    12
26    10
27    20
28    18
29    13
30    16
31    11
32    15
33    18
34    14
35    17
36    13
37    14
38    14
39    18
40    14
41    17
42    16
43     7
44    14
45     8
46     8
47     6
48    10
49     4
50     8
51     5
52     2
53     7
54     2
55     6
56     2
57     3
58     4
59     1
60     3
61     2
62     2
64     1
65     2
66     2
67     2
68     2
73     3
74     1
78     1
79     1
Name: count, dtype: int64

 Média de idade das mulheres presas: 39 anos


Apesar de o método estatístico indicar valores extremos, optei por não eliminar esses dados, pois sabemos que há mulheres mais velhas de fato encarceradas — inclusive com mais de 70 anos. Essas informações são importantes para refletir sobre o perfil etário e possíveis vulnerabilidades dessa população.

## 5. Análises Univariadas

Nesta seção, analisamos individualmente as variáveis mais relevantes da base de dados para compreender o perfil sociodemográfico das mulheres privadas de liberdade.

As variáveis exploradas incluem:

- **Idade:** para observar a distribuição etária.
- **Cor/raça:** importante para investigar desigualdades raciais.
- **Presença de pai declarado na certidão:** dado que pode indicar vínculos familiares frágeis.
- **Escolaridade:** fator-chave na compreensão de vulnerabilidades sociais.
- **Número de filhos:** relacionado à carga de cuidado e maternidade no cárcere.

As análises a seguir apresentam a frequência de cada variável, o que permite identificar padrões relevantes para etapas posteriores (como cruzamentos e interpretações mais profundas).


In [None]:
## Contar quantidade por cor
presas_por_cor = df_PPL['COR'].value_counts()
print(presas_por_cor)

COR
PARDA     259
BRANCA     69
NEGRA      67
Name: count, dtype: int64


In [None]:
## quantidade de presas por estado civil
presas_por_estado_civil = df_PPL['ESTADO CIVIL'].value_counts()
print(presas_por_estado_civil)

ESTADO CIVIL
SOLTEIRA         231
NÃO INFORMADO     89
UNIÃO ESTÁVEL     40
CASADA            26
DIVORCIADA         6
VIUVA              3
Name: count, dtype: int64


In [None]:
## quantidade de presas por escolaridade
presas_por_escolaridade = df_PPL['ESCOLARIDADE'].value_counts()
print(presas_por_escolaridade)

ESCOLARIDADE
FUNDAMENTAL INCOMPLETO    131
FUNDAMENTAL                73
MEDIO                      58
MEDIO INCOMPLETO           55
ANALFABETAS                39
ALFABETIZADAS              19
SUPERIOR                   13
SUPERIOR INCOMPLETO         4
NÃO INFORMADO               2
PÓS GRADUADA                1
Name: count, dtype: int64


In [None]:
## quantidade de presas com pais declarados na certidão nascimento
presas_com_pais_declarados = df_PPL['PAI'].value_counts()
print(presas_com_pais_declarados)

presas_com_pais_declarados_percentual = df_PPL['PAI'].value_counts(normalize=True) * 100
print("\n Percentual de Pais Declarados\n")
print(presas_com_pais_declarados_percentual.round(1).astype(str) + '%')

PAI
SIM    327
NÃO     68
Name: count, dtype: int64

 Percentual de Pais Declarados

PAI
SIM    82.8%
NÃO    17.2%
Name: proportion, dtype: object


In [None]:
# Contagem da quantidade de PPLs por número de filhos
df_PPL['FILHOS'].value_counts().sort_index()


Unnamed: 0_level_0,count
FILHOS,Unnamed: 1_level_1
0,123
1,67
2,78
3,68
4,33
5,7
6,3
7,3
8,2
9,2


## Análises Bivariadas

Agora vamos investigar relações entre variáveis, como:

- **Escolaridade × Cor**
- **Escolaridade × Pai declarado**
- **Filhas que são mães × Pai declarado**
- **Escolaridade × Estado Civil**

Estas análises ajudam a identificar padrões sociais que podem estar relacionados à trajetória dessas mulheres.


### Escolaridade × Cor

Esta análise cruza os níveis de escolaridade com a variável de cor/raça. O objetivo é observar se mulheres negras (pretas e pardas) apresentam padrões diferentes de escolaridade em comparação às brancas.

Gráficos como esse ajudam a identificar possíveis desigualdades raciais no acesso à educação, refletindo vulnerabilidades sociais anteriores ao encarceramento.


In [None]:
tabela_ec = pd.crosstab(df_PPL['ESCOLARIDADE'], df_PPL['COR'])
print(tabela_ec)

tabela_ec.plot(kind='bar', stacked=True, figsize=(10,6), colormap='viridis')
plt.title('Escolaridade por Cor')
plt.xlabel('Escolaridade')
plt.ylabel('Número de PPLs')
plt.legend(title='Cor')
plt.tight_layout()
plt.show()


NameError: name 'pd' is not defined

### Escolaridade × Pai Declarado

Este cruzamento busca identificar se a presença do pai na certidão de nascimento está associada ao nível de escolaridade das presas.

A ausência paterna pode estar ligada a trajetórias de abandono escolar e falta de suporte familiar, sendo um fator de vulnerabilidade social.


In [None]:
tabela_ep = pd.crosstab(df_PPL['ESCOLARIDADE'], df_PPL['PAI'])
print(tabela_ep)

tabela_ep.plot(kind='bar', stacked=True, figsize=(10,6), colormap='plasma')
plt.title('Escolaridade por Presença de Pai Declarado')
plt.xlabel('Escolaridade')
plt.ylabel('Número de PPLs')
plt.legend(title='Pai declarado')
plt.tight_layout()
plt.show()


### Maternidade × Pai Declarado

Criamos a variável "MÃE" a partir da quantidade de filhos. Mulheres com 1 ou mais filhos foram classificadas como "É MÃE"; aquelas com 0 filhos como "NÃO É MÃE".

Este cruzamento analisa se as presas que são mães têm maior probabilidade de não terem o nome do pai declarado na certidão. A ideia é investigar possíveis padrões de fragilidade familiar herdada entre gerações.

Se a ausência paterna é comum entre mães presas, isso pode indicar a reprodução de vínculos familiares frágeis — tanto na origem quanto no destino dessas mulheres.



In [None]:
# Criar a coluna 'MAE' com base no número de filhos
df_PPL['MAE'] = df_PPL['FILHOS'].apply(lambda x: 'É MÃE' if x > 0 else 'NÃO É MÃE')

tabela_mp = pd.crosstab(df_PPL['MAE'], df_PPL['PAI'])
print(tabela_mp)

tabela_mp.plot(kind='bar', stacked=True, figsize=(8,5), colormap='cividis')
plt.title('Maternidade por Presença de Pai Declarado')
plt.xlabel('É mãe?')
plt.ylabel('Número de PPLs')
plt.legend(title='Pai declarado')
plt.tight_layout()
plt.show()


### Escolaridade × Estado Civil

Este cruzamento busca explorar se há relação entre escolaridade e estado civil.

Mulheres solteiras, por exemplo, podem ter tido menos apoio conjugal ou familiar durante sua trajetória, o que pode influenciar tanto na evasão escolar quanto na maior exposição a contextos de vulnerabilidade social.


In [None]:
tabela_es = pd.crosstab(df_PPL['ESCOLARIDADE'], df_PPL['ESTADO CIVIL'])
print(tabela_es)


tabela_es.plot(kind='bar', stacked=True, figsize=(10,6), colormap='Set2')
plt.title('Escolaridade por Estado Civil')
plt.xlabel('Escolaridade')
plt.ylabel('Número de PPLs')
plt.legend(title='Estado Civil')
plt.tight_layout()
plt.show()



## Exportando o DF

In [None]:
# Faixa etária no estilo tradicional
bins = [17, 24, 34, 44, 54, 64, 100]
labels = ['18–24', '25–34', '35–44', '45–54', '55–64', '65+']

df_PPL['FAIXA_ETARIA'] = pd.cut(df_PPL['idade'], bins=bins, labels=labels)

# Exportar base tratada para CSV
# Alterado o encoding para 'utf-8' para suportar caracteres especiais como o travessão '–'
df_PPL.to_csv('BD_PPLs_Mulher_PARA_PBI.csv', index=False, sep=';', encoding='utf-8')

from google.colab import files
files.download('BD_PPLs_Mulher_PARA_PBI.csv')



<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>