# Visualização de dados: Trabalho 2

Trabalho da disciplina de Visualização de Dados da Universidade Federal Fluminense, do período de 2023.2.
O intuito desse trabalho é atráves de um dataset de nossa escolha, definir perguntas e mostrar discussões associadas as melhores ou mais adequadas visualizações.

Cada pergunta deve conter as seguintes partes:
 * Uma visualização (construída utilizando a biblioteca vega-lite);
 * Uma discussão sobre as razões que motivaram a escolha da visualização desenvolvida;
 * Uma análise das informações que podem ser obtidas com a interepretação da visualização.

Não existe número definido de quantas perguntas devo responder, porém devo definir depois de fazer uma análise exploratória do dados.

Além disso, espera-se que as análises gerem insights interessantes sobre os datasets escolhidos. Portanto, tentarei desenvolver as análises além do básico, para que conclusões e resultados surpreendentes sejam obtidos.

Com o objetivo de deixar formatado e mais bem comentado, para maior compreensão do que estou fazendo, usarei o ChatGPT para esse artifício e me ajudar com dúvidas de programação.

### Fonte de dados

Os dados foram retirados do site do [data.gov](https://data.gov/), site de dados abertos dos Estados Unidos da América, que dá acesso a diversos datasets publicados por agências do governo federal americano. Mais especificamente, os dados estão associados aos crimes que aconteceram em Los Angeles, de 2020 para os dias atuais. [Link aqui](https://catalog.data.gov/dataset/crime-data-from-2020-to-present).

Os dados foram transcritos de relatórios de crimes no papel, e por isso pode haver uma certa inacurácias em relação aos dados. Há alguns campos com dados faltantes e os campos de endereços são só colocados as quadras mais próximas para manter a privacidade.


---

**Roteiro**:
1. Análise Exploratória dos Dados
2. Definição de Perguntas
3. Respostas das Perguntas no formato definido


Começando com a importação das bibliotecas e dos dados:

In [1]:
import pandas as pd
import altair as alt

In [2]:
df_original = pd.read_csv('../dados/Crime_Data_from_2020_to_Present.csv')

Para facilitar os entendimentos das colunas, segue o [link](https://data.lacity.org/Public-Safety/Crime-Data-from-2020-to-Present/2nrs-mtv8) com algumas explicações.

In [4]:
df_original.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 838901 entries, 0 to 838900
Data columns (total 28 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   DR_NO           838901 non-null  int64  
 1   Date Rptd       838901 non-null  object 
 2   DATE OCC        838901 non-null  object 
 3   TIME OCC        838901 non-null  int64  
 4   AREA            838901 non-null  int64  
 5   AREA NAME       838901 non-null  object 
 6   Rpt Dist No     838901 non-null  int64  
 7   Part 1-2        838901 non-null  int64  
 8   Crm Cd          838901 non-null  int64  
 9   Crm Cd Desc     838901 non-null  object 
 10  Mocodes         722647 non-null  object 
 11  Vict Age        838901 non-null  int64  
 12  Vict Sex        728346 non-null  object 
 13  Vict Descent    728338 non-null  object 
 14  Premis Cd       838891 non-null  float64
 15  Premis Desc     838395 non-null  object 
 16  Weapon Used Cd  292391 non-null  float64
 17  Weapon Des

In [7]:
pd.set_option('display.max_columns', None)
df_original.head()

Unnamed: 0,DR_NO,Date Rptd,DATE OCC,TIME OCC,AREA,AREA NAME,Rpt Dist No,Part 1-2,Crm Cd,Crm Cd Desc,Mocodes,Vict Age,Vict Sex,Vict Descent,Premis Cd,Premis Desc,Weapon Used Cd,Weapon Desc,Status,Status Desc,Crm Cd 1,Crm Cd 2,Crm Cd 3,Crm Cd 4,LOCATION,Cross Street,LAT,LON
0,10304468,01/08/2020 12:00:00 AM,01/08/2020 12:00:00 AM,2230,3,Southwest,377,2,624,BATTERY - SIMPLE ASSAULT,0444 0913,36,F,B,501.0,SINGLE FAMILY DWELLING,400.0,"STRONG-ARM (HANDS, FIST, FEET OR BODILY FORCE)",AO,Adult Other,624.0,,,,1100 W 39TH PL,,34.0141,-118.2978
1,190101086,01/02/2020 12:00:00 AM,01/01/2020 12:00:00 AM,330,1,Central,163,2,624,BATTERY - SIMPLE ASSAULT,0416 1822 1414,25,M,H,102.0,SIDEWALK,500.0,UNKNOWN WEAPON/OTHER WEAPON,IC,Invest Cont,624.0,,,,700 S HILL ST,,34.0459,-118.2545
2,200110444,04/14/2020 12:00:00 AM,02/13/2020 12:00:00 AM,1200,1,Central,155,2,845,SEX OFFENDER REGISTRANT OUT OF COMPLIANCE,1501,0,X,X,726.0,POLICE FACILITY,,,AA,Adult Arrest,845.0,,,,200 E 6TH ST,,34.0448,-118.2474
3,191501505,01/01/2020 12:00:00 AM,01/01/2020 12:00:00 AM,1730,15,N Hollywood,1543,2,745,VANDALISM - MISDEAMEANOR ($399 OR UNDER),0329 1402,76,F,W,502.0,"MULTI-UNIT DWELLING (APARTMENT, DUPLEX, ETC)",,,IC,Invest Cont,745.0,998.0,,,5400 CORTEEN PL,,34.1685,-118.4019
4,191921269,01/01/2020 12:00:00 AM,01/01/2020 12:00:00 AM,415,19,Mission,1998,2,740,"VANDALISM - FELONY ($400 & OVER, ALL CHURCH VA...",0329,31,X,X,409.0,BEAUTY SUPPLY STORE,,,IC,Invest Cont,740.0,,,,14400 TITUS ST,,34.2198,-118.4468


Existe algumas colunas que estão codificadas de acordo com o crime e com a arma utilizada, então não temos como trabalhar com essas colunas, Podemos trabalhar com suas descrições. Devemos tirá-las para não ficar carregando colunas extras para o problema.

Colunas que podemos tirar que estão codificadas:
* DR_NO
* ....