In [7]:
import pandas as pd

In [8]:
df = pd.read_csv("homicidios.csv")

df.head(5)

Unnamed: 0,Regiao,Cidade,Mes,Ano,Total Crimes,Latitude,Longitude,populacao
0,Capital,São Paulo,Jan,2019,55.0,-23.533773,-46.62529,11509115.0
1,Capital,São Paulo,Fev,2019,48.0,-23.533773,-46.62529,11509115.0
2,Capital,São Paulo,Mar,2019,75.0,-23.533773,-46.62529,11509115.0
3,Capital,São Paulo,Abr,2019,59.0,-23.533773,-46.62529,11509115.0
4,Capital,São Paulo,Mai,2019,45.0,-23.533773,-46.62529,11509115.0


In [9]:
# Renomeando colunas
df.columns = df.columns.str.lower()
df = df.rename(columns={"total crimes": "crimes"})

# Arrumando mes de dezembro
df["mes"] = df['mes'].str.replace("nan", "Dez")
# Colocando ordem dos meses
mes_ordem = ['Jan', 'Fev', 'Mar', 'Abr', 'Mai', 'Jun', 'Jul', 'Ago', 'Set', 'Out', 'Nov', 'Dez']
df['mes'] = pd.Categorical(df['mes'], categories=mes_ordem, ordered=True)

# Transformando tipos das colunas
df['mes'] = df['mes'].astype(str)
df['ano'] = df['ano'].astype(int)

# Retirando ano de 2021 -> meses de ago a dez de 2021 sem dados
df = df.loc[df['ano'] != 2021]

In [10]:
display(df.head(5))
display(df.tail(5))

Unnamed: 0,regiao,cidade,mes,ano,crimes,latitude,longitude,populacao
0,Capital,São Paulo,Jan,2019,55.0,-23.533773,-46.62529,11509115.0
1,Capital,São Paulo,Fev,2019,48.0,-23.533773,-46.62529,11509115.0
2,Capital,São Paulo,Mar,2019,75.0,-23.533773,-46.62529,11509115.0
3,Capital,São Paulo,Abr,2019,59.0,-23.533773,-46.62529,11509115.0
4,Capital,São Paulo,Mai,2019,45.0,-23.533773,-46.62529,11509115.0


Unnamed: 0,regiao,cidade,mes,ano,crimes,latitude,longitude,populacao
81763,Araçatuba,Valparaíso,Ago,2020,0.0,-21.207198,-50.449515,24133.0
81764,Araçatuba,Valparaíso,Set,2020,1.0,-21.207198,-50.449515,24133.0
81765,Araçatuba,Valparaíso,Out,2020,0.0,-21.207198,-50.449515,24133.0
81766,Araçatuba,Valparaíso,Nov,2020,0.0,-21.207198,-50.449515,24133.0
81767,Araçatuba,Valparaíso,Dez,2020,0.0,-21.207198,-50.449515,24133.0


In [11]:
import altair as alt

alt.data_transformers.disable_max_rows()

DataTransformerRegistry.enable('default')

# Gráficos

In [12]:
# Selecionando apenas São Paulo
df_sp = df.loc[df['cidade'] == "São Paulo"]

## Gráfico de barras acumuladas

In [13]:
years_order = sorted(df_sp["ano"].unique(), reverse=True)

chart = alt.Chart(df_sp).mark_bar().encode(
    x=alt.X('mes:N', title='Mês', sort=mes_ordem),
    y=alt.Y('mean(crimes):Q', title='Número de Crimes'),
    color=alt.Color('ano:O', title='Ano', sort=years_order),
    tooltip=['ano:O', 'mes:N', 'mean(crimes):Q']
).properties(
    title='Número de crimes para cada mês',
    width=600,
    height=400
)

chart

In [14]:
sorted(df_sp.groupby("mes")["crimes"].sum())

[2783.0,
 2821.0,
 2827.0,
 2873.0,
 2907.0,
 2932.0,
 3114.0,
 3147.0,
 3177.0,
 3178.0,
 3288.0,
 3299.0]

In [15]:
df_sp.groupby("mes")["crimes"].sum()

mes
Abr    3177.0
Ago    2821.0
Dez    3114.0
Fev    3147.0
Jan    3299.0
Jul    2827.0
Jun    2873.0
Mai    3178.0
Mar    3288.0
Nov    2932.0
Out    2907.0
Set    2783.0
Name: crimes, dtype: float64

Mês com menos crimes: setembro, 2783

Mês com mais crimes: janeiro, 3299

## Gráfico de box-plot

In [16]:
boxplot_chart = alt.Chart(df_sp).mark_boxplot(extent='min-max').encode(
    x=alt.X('mes:N', title='Mês', sort=mes_ordem),
    y=alt.Y('crimes:Q', title='Número de Crimes'),
    tooltip=['mes:N']
).properties(
    title='Distribuição do número de crimes por mês',
    width=600,
    height=400
)

boxplot_chart