# ANÁLISE DAS OCORRÊNCIAS DA LEI MARIA DA PENHA NA ÁREA DE SEGURANÇA 19 NO PERÍODO DE 2019 A 2022


# Introdução

# 1.Carregando as bibliotecas

In [15]:
#importando as bibliotecas
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
import statsmodels as sm
plt.style.use ('ggplot')

# 2. Carregando Dataset

In [16]:
#lendo o arquivo csv
df= pd.read_csv("PlanilhaUnificadaAIS19.csv", encoding="utf-8")

In [17]:
df.head() #para visualizar do dataframe 

Unnamed: 0,AIS,Data,Hora,Dia da Semana,Gênero,Idade da Vítima,Escolaridade da Vítima,Raça da Vítima
0,AIS 19,01/01/19,01:00:00,Terça,Feminino,22,Ensino Médio Incompleto,Parda
1,AIS 19,01/01/19,02:00:00,Terça,Feminino,36,Ensino Médio Completo,Branca
2,AIS 19,01/01/19,04:00:00,Terça,Feminino,33,Alfabetizado,Não Informada
3,AIS 19,01/01/19,10:30:00,Terça,Feminino,23,Alfabetizado,Não Informada
4,AIS 19,01/01/19,11:20:00,Terça,Feminino,89,Alfabetizado,Não Informada


In [18]:
df.describe() #para ver um descrição mais especifica dos dados

Unnamed: 0,AIS,Data,Hora,Dia da Semana,Gênero,Idade da Vítima,Escolaridade da Vítima,Raça da Vítima
count,11622,11622,11622,11622,11622,11622,11622,11622
unique,1,1459,557,7,2,95,9,6
top,AIS 19,03/02/19,20:00:00,Domingo,Feminino,30,Alfabetizado,Não Informada
freq,11622,22,576,2407,11621,396,2540,6755


In [19]:
df.info() #para obter informações do dataframe


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11622 entries, 0 to 11621
Data columns (total 8 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   AIS                     11622 non-null  object
 1   Data                    11622 non-null  object
 2   Hora                    11622 non-null  object
 3   Dia da Semana           11622 non-null  object
 4   Gênero                  11622 non-null  object
 5   Idade da Vítima         11622 non-null  object
 6   Escolaridade da Vítima  11622 non-null  object
 7   Raça da Vítima          11622 non-null  object
dtypes: object(8)
memory usage: 726.5+ KB


# 3.Limpeza e preparação dos Dados

In [20]:

# Verificando se há dados ausentes

pd.isnull("PlanilhaUnificadaAIS19.csv")

False

In [21]:
#verificando se há dados duplicados
# neste caso não há, notamos pelo false, caso houvesse dados duplicados apareceria true para mais de uma coluna
df.duplicated()

0        False
1        False
2        False
3        False
4        False
         ...  
11617    False
11618    False
11619    False
11620    False
11621    False
Length: 11622, dtype: bool

In [22]:
# converter a coluna 'Data' para o formato de data e hora
df['Data']= pd.to_datetime(df['Data'])
 
# Verifique o formato da coluna 'Data'
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11622 entries, 0 to 11621
Data columns (total 8 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   AIS                     11622 non-null  object        
 1   Data                    11622 non-null  datetime64[ns]
 2   Hora                    11622 non-null  object        
 3   Dia da Semana           11622 non-null  object        
 4   Gênero                  11622 non-null  object        
 5   Idade da Vítima         11622 non-null  object        
 6   Escolaridade da Vítima  11622 non-null  object        
 7   Raça da Vítima          11622 non-null  object        
dtypes: datetime64[ns](1), object(7)
memory usage: 726.5+ KB


In [23]:
# Detectando e filtrando Valores Discrepantes (outliers)

In [24]:
# converter a coluna 'Data' para o formato de data e hora
df['Data']= pd.to_datetime(df['Data'])
 
# Verifique o formato da coluna 'Data'
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11622 entries, 0 to 11621
Data columns (total 8 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   AIS                     11622 non-null  object        
 1   Data                    11622 non-null  datetime64[ns]
 2   Hora                    11622 non-null  object        
 3   Dia da Semana           11622 non-null  object        
 4   Gênero                  11622 non-null  object        
 5   Idade da Vítima         11622 non-null  object        
 6   Escolaridade da Vítima  11622 non-null  object        
 7   Raça da Vítima          11622 non-null  object        
dtypes: datetime64[ns](1), object(7)
memory usage: 726.5+ KB


In [26]:
# converter a coluna 'Idade da Vítima' para o formato string
df[' Idade da Vítima '] = df[' Idade da Vítima ']. tipo (str). astype (int)

KeyError: ' Idade da Vítima '

In [11]:
df.head() # visualizar o dataframe após a alteração do formato da data

Unnamed: 0,AIS,Data,Hora,Dia da Semana,Gênero,Idade da Vítima,Escolaridade da Vítima,Raça da Vítima
0,AIS 19,2019-01-01,01:00:00,Terça,Feminino,22,Ensino Médio Incompleto,Parda
1,AIS 19,2019-01-01,02:00:00,Terça,Feminino,36,Ensino Médio Completo,Branca
2,AIS 19,2019-01-01,04:00:00,Terça,Feminino,33,Alfabetizado,Não Informada
3,AIS 19,2019-01-01,10:30:00,Terça,Feminino,23,Alfabetizado,Não Informada
4,AIS 19,2019-01-01,11:20:00,Terça,Feminino,89,Alfabetizado,Não Informada


# 4. Análise Univariada

# 5.Análise Bivariada

# 6. Gráfico de dispersão