# Violência doméstica na Colômbia

### Passo 1 - Importação da biblioteca Pandas e leitura do arquivo.
Observe que precisei usar barras duplas invertidas, "r" antes do diretório e "low_memory=False" como condições da importação.

In [8]:
import pandas as pd

arquivo = r"C:\Users\Ryzen\OneDrive\Área de Trabalho\Projetos\(INC) Violência Doméstica na Colômbia\database_tratada_2.xlsx"

df = pd.read_excel(arquivo)


### Passo 2 - Entender a estrutura da base de dados e visualizar uma pequena parte dela

In [17]:
df.municipioinfo()

NameError: name 'municipio' is not defined

In [10]:
df.head(5)

Unnamed: 0,departamento,municipio,armas_metodos,data_ocorrido,genero,grupo_etario,quantidade
0,Atlántico,Barranquilla,Arma branca,2010-01-01,Masculino,Adultos,1
1,Boyacá,Duitama,Arma branca,2010-01-01,Feminino,Adultos,1
2,Caquetá,Puerto Rico,Arma branca,2010-01-01,Masculino,Adultos,1
3,Casanare,Maní,Arma branca,2010-01-01,Feminino,Adultos,1
4,Cundinamarca,Bogotá D.C.,Arma branca,2010-01-01,Feminino,Adultos,1


### Passo 3 - Começar o tratamento!
Para o tratamento, dividi meu terceiro passo em grandes etapas:
- Excluir colunas que considero desnecessárias para a análise
- Renomear as colunas (estavam em espanhol, dificultando um pouco o entendimento)
- Tratar colunas com nomes, um exemplo é o das armas utilizadas: existiam 4 colunas diferentes para tratar da mesma informação: crimes com armas brancas

In [38]:
# Excluí colunas
df.drop(['Unnamed: 0', 'codigo_dane'], axis=1, inplace=True)

In [39]:
# Renomeei as que precisei
df = df.rename(columns={"armas_medios": "armas_metodos","fecha_hecho": "data_ocorrido", "cantidad": "quantidade"})

In [55]:
# Corrigi as palavras que estavam com todas as letras em maiúsculo.
df['departamento'] = df['departamento'].apply(lambda x: x.title())
df['municipio'] = df['municipio'].apply(lambda x: x.title())

In [49]:
# Observei a coluna dos tipos de armas
armas_count = df['armas_metodos'].value_counts()

print(armas_count)

Contundente      280171
Sem armas        169055
Não reportado     76351
Arma branca       43570
Escopolamina       3863
Arma de fogo       2710
-                     1
Name: armas_metodos, dtype: int64


In [41]:
# Realizei as alterações que considerei pertinentes
df['armas_metodos'] = df['armas_metodos'].replace({
    'CONTUNDENTES': 'Contundente',
    'SIN EMPLEO DE ARMAS': 'Sem armas',
    'NO REPORTADO': 'Não reportado',
    'ARMA BLANCA / CORTOPUNZANTE': 'Arma branca',
    'NO REPORTA': 'Não reportado',
    'ESCOPOLAMINA': 'Escopolamina',
    'ARMA DE FUEGO': 'Arma de fogo',
    'CORTOPUNZANTES': 'Arma branca',
    'CORTANTES': 'Arma branca',
    'PUNZANTES': 'Arma branca'
})

In [52]:
# Observei a coluna dos gêneros agressores
genero = df['genero'].value_counts()

print(genero)

Feminino        437931
Masculino       137257
NO REPORTA         294
NO REPORTADO       232
-                    7
Name: genero, dtype: int64


In [53]:
# Realizei as alterações que considerei pertinentes
df['genero'] = df['genero'].replace({
    'MASCULINO': 'Masculino',
    'FEMENINO': 'Feminino',
    'NO REPORTA': 'Não reportado',
    'NO REPORTADO': 'Não reportado'
})

In [43]:
# Observei a coluna dos grupos etários
grupo_etario = df['grupo_etario'].value_counts()

print(grupo_etario)

ADULTOS         503613
ADOLESCENTES     35551
MENORES          34439
NO REPORTA         274
NO REPORTADO       233
Name: grupo_etario, dtype: int64


In [44]:
# Realizei as alterações que considerei pertinentes
df['grupo_etario'] = df['grupo_etario'].replace({
    "ADULTOS": "Adultos",
    "ADOLESCENTES": "Adolescentes",
    "MENORES": "Menores",
    "NO REPORTA": "Não reportado",
    "NO REPORTADO": "Não reportado"
})

In [48]:
# Observei a coluna dos municípios
municipio = df['municipio'].value_counts()

print(municipio)

BOGOTÁ D.C.              58548
MEDELLÍN                 25142
CALI                     22048
BUCARAMANGA              11992
VILLAVICENCIO            11453
                         ...  
CEPITÁ                       3
SÁCAMA                       3
BOJAYÁ                       2
ZAPAYÁN                      2
SAN JACINTO DEL CAUCA        2
Name: municipio, Length: 1023, dtype: int64


In [47]:
# Realizei as alterações que considerei pertinentes
df['municipio'] = df['municipio'].str.replace('\(CT\)', '', regex=True)

Para algumas cidades estava escrito (CT) após o nome do município, o que inviabilizaria o estudo através da observação geográfica posteriormente.

### Passo 5 - Salvar o arquivo tratado

In [57]:
caminho_arquivo = r"C:\Users\Ryzen\OneDrive\Área de Trabalho\Projetos\(INC) Violência Doméstica na Colômbia\arquivo_excel.xlsx"
df.to_excel(caminho_arquivo, index=False)