# Exercícios sobre medidas de posição e variabilidade

Vamos trabalhar com um recorte do dataset das Câmaras Criminais, utilizado nas últimas aulas. O dicionário da base está disponível [aqui](https://docs.google.com/spreadsheets/d/1oVOKDH48As8jNaNpWkKqGgd-lKkUUwnnG0YyRre8P2Y/edit#gid=0).

In [11]:
#grade (write your code in this cell and DO NOT DELETE THIS LINE)

import pandas as pd
import numpy as np

camaras = pd.read_csv('https://github.com/jtrecenti/main-cdad2/releases/download/data/camaras.csv')

relatores = (
  camaras
  .drop_duplicates(subset='relator', keep='first')
)


A base `relatores` contém informações sobre os desembargadores e juízes substitutos de segundo grau que foram relatores de processos julgados pelas câmaras criminais. Ela é obtida retirando as duplicatas a partir do relator, utilizando o métdo `drop_duplicates` do pandas. Essa base deve ser utilizada nas questões que envolvem apenas as características dos relatores e não dos processos: as questões 1a, 1b, 1c e 1d.

In [17]:
camaras.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 18 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   processo                10000 non-null  object 
 1   assunto                 10000 non-null  object 
 2   camara                  10000 non-null  object 
 3   relator                 10000 non-null  object 
 4   origem                  10000 non-null  object 
 5   comarca                 10000 non-null  object 
 6   polo_mp                 10000 non-null  object 
 7   decisao                 10000 non-null  object 
 8   unanimidade             10000 non-null  object 
 9   dt_publicacao           9999 non-null   object 
 10  ementa                  10000 non-null  object 
 11  tempo                   9999 non-null   float64
 12  rel_idade               8609 non-null   float64
 13  rel_id_municipio_nasc   8681 non-null   float64
 14  rel_faculdade_direito   8686 non-null  

In [30]:
camaras.head(2)

Unnamed: 0,processo,assunto,camara,relator,origem,comarca,polo_mp,decisao,unanimidade,dt_publicacao,ementa,tempo,rel_idade,rel_id_municipio_nasc,rel_faculdade_direito,rel_tempo_magistratura,rel_tipo_magistrado,rel_quinto
0,13452120188260535,DIREITO PENAL - Crimes contra o Patrimônio - R...,01ª Câmara de Direito Criminal,MÁRIO DEVIENNE FERRAZ,Comarca de Guarulhos / Foro de Guarulhos / 4ª ...,GUARULHOS,Passivo,Parcialmente,Unânime,2020-03-13,N/A (TJSP; Apelação Criminal 0001345-21.2018....,2.195756,70.59822,3534708.0,Faculdade Católica de Direito de Santos,44.900753,desembargador,não
1,647287520158260050,DIREITO PENAL - Crimes Previstos na Legislação...,07ª Câmara de Direito Criminal,ALBERTO ANDERSON FILHO,Comarca de São Paulo / Foro Central Criminal B...,SAO PAULO,Passivo,Negaram,Unânime,2016-08-02,APELAÇÃO CRIMINAL – Tráfico de entorpecentes ...,1.585216,69.590691,3509502.0,Faculdade de Direito da Pontifícia Universidad...,35.835729,desembargador,não


**Exercício 1**: Medidas de posição

**1a)** Calcule a média e a mediana das idades dos relatores. Utilize duas casas decimais.

In [2]:
#grade (write your code in this cell and DO NOT DELETE THIS LINE)

media_idade_rel = round(relatores.rel_idade.mean(), 2)
mediana_idade_rel = round(relatores.rel_idade.median(),2)

print(media_idade_rel)
print(mediana_idade_rel)

66.93
66.27


**1b)** Calcule o desvio padrão do tempo de magistratura dos relatores. Utilize duas casas decimais.

**Dica**: utilize as diferentes formas de calcular das bibliotecas "numpy" e "pandas"

In [3]:
#grade (write your code in this cell and DO NOT DELETE THIS LINE)

sd_tempo_mag_numpy = round(np.std(relatores.tempo),2)
sd_tempo_mag_pandas = round(relatores.tempo.std(),2)

print(sd_tempo_mag_numpy)
print(sd_tempo_mag_pandas)

2.21
2.22


**1c)** Pesquise a idade de aposentadoria dos desembargadores. Qual é o desembargador mais próximo de se aposentar? Qual sua idade? Utilize duas casas decimais

**Dica 1**: Utilize a base `relatores` como ponto de partida. Utilize a função que retorna o máximo ou ordene os dados. Desconsidere os juizes substitutos.

**Dica 2**: a idade de aposentadoria no TJSP é 75 anos. Se algum desembargador já passou dessa idade, é porque essa pessoa já se aposentou. Para obter a pessoa mais próxima de aposentar, é necessário retirar esses casos da análise.

In [6]:
#grade (write your code in this cell and DO NOT DELETE THIS LINE)

#Filtrando quem não é juiz substituto
relatores_filtrado = relatores[
  (relatores['rel_tipo_magistrado'] == 'desembargador') &
  (relatores['rel_idade'] < 75)
]

#Ordenando o banco por idade
relatores_filtrado_ordenado = relatores_filtrado.sort_values('rel_idade', ascending=False)

#localizando o relatr mais velho
relator_proximo_aposenta = relatores_filtrado_ordenado['relator'].iloc[0]

#localizando a idade do relator mais velho
relator_mais_velho_idade = round(relatores_filtrado_ordenado.rel_idade.max(),2)

print(relator_proximo_aposenta)
print(relator_mais_velho_idade)

WILLIAN CAMPOS
74.66


**1d)** Calcule a razão entre o tempo de magistratura e a idade. Esse número mede qual a proporção da vida da pessoa dedicada à magistratura. Agora, calcule os quartis de 25% e 75% dessa razão. Utilize duas casas decimais.

In [13]:
#grade (write your code in this cell and DO NOT DELETE THIS LINE)

relatores = relatores.assign(prop_magistratura = relatores['rel_tempo_magistratura'] / relatores['rel_idade'])

q1_prop_magistratura = round(np.nanquantile(relatores['prop_magistratura'], 0.25), 2)
q3_prop_magistratura = round(np.nanquantile(relatores['prop_magistratura'], 0.75), 2)

print(q1_prop_magistratura)
print(q3_prop_magistratura)

0.55
0.6


**1e)** Obtenha os tempos médios dos processos para cada relator. Qual é a razão entre o maior e o menor tempo médio? Utilize duas casas decimais.

**Obs**: deconsidere relatores com menos de 100 decisões.

In [16]:
#grade (write your code in this cell and DO NOT DELETE THIS LINE)

#tempo médio de processo por relator
media_relator = camaras.groupby('relator')['tempo'].mean()

#filtrar relatores com mais de 100 decisões
relatores_contagem = camaras['relator'].value_counts()

relatores_maiorcem = relatores_contagem[relatores_contagem >= 100].index

#filtrar média relator para aqueles com mais de 100 decisões
media_relator_filtro = media_relator[media_relator.index.isin(relatores_maiorcem)]

# Encontrar os tempos médios máximo e mínimo entre os relatores qualificados
tempo_max = media_relator_filtro.max()
tempo_min = media_relator_filtro.min()

# Calcular a razão entre o maior e o menor tempo médio
razao_maior_menor_tempo = round(tempo_max / tempo_min, 2)

print(razao_maior_menor_tempo)

1.53


In [52]:
relator_produtividade.head(2)

Unnamed: 0,relator,count,mean,std,min,25%,50%,75%,max
2,ALBERTO ANDERSON FILHO,113.0,2.841623,1.769085,0.260096,1.612594,2.335387,3.45243,9.483915
5,ALEXANDRE ALMEIDA,123.0,3.126893,1.968841,0.588638,1.752225,2.510609,4.145106,9.815195


In [17]:
#grade (write your code in this cell and DO NOT DELETE THIS LINE)

#RESOLUÇÃO 2

relator_produtividade = (
  camaras
  .groupby('relator')['tempo']
  .describe()
  .reset_index()
  .query('count >= 100')
)


# Encontrar os tempos médios máximo e mínimo entre os relatores qualificados
tempo_max = relator_produtividade['mean'].max()
tempo_min = relator_produtividade['mean'].min()

# Calcular a razão entre o maior e o menor tempo médio
razao_maior_menor_tempo = round(tempo_max / tempo_min, 2)


print(razao_maior_menor_tempo)

1.53


**Desafio**

Filtros: Para todas as contas abaixo, desconsidere as câmaras extraordinárias, considere apenas relatores com mais de 100 decisões e apenas recursos em que o MP está no polo passivo.

- Calcule a proporção de recursos negados por câmara. 
- Calcule a proporção de recursos negados por câmara e relator.

Apresente esses dois números:

- Calcule o desvio padrão entre as proporções obtidas por câmara.
- Calcule o desvio padrão entre as proporções obtidas por relator dentro de cada câmara. Você terá uma medida por câmara. Depois, tome a média dessas medidas.

**Para calcular o desvio padrão, utilize as operações do numpy.** Retorne o resultado com três casas decimais.

In [56]:
camaras.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 18 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   processo                10000 non-null  object 
 1   assunto                 10000 non-null  object 
 2   camara                  10000 non-null  object 
 3   relator                 10000 non-null  object 
 4   origem                  10000 non-null  object 
 5   comarca                 10000 non-null  object 
 6   polo_mp                 10000 non-null  object 
 7   decisao                 10000 non-null  object 
 8   unanimidade             10000 non-null  object 
 9   dt_publicacao           9999 non-null   object 
 10  ementa                  10000 non-null  object 
 11  tempo                   9999 non-null   float64
 12  rel_idade               8609 non-null   float64
 13  rel_id_municipio_nasc   8681 non-null   float64
 14  rel_faculdade_direito   8686 non-null  

In [64]:
camaras.decisao.unique()

array(['Parcialmente', 'Negaram', 'Punibilidade Extinta', 'Provido',
       'Outros', 'Não conhecido'], dtype=object)

In [42]:
#grade (write your code in this cell and DO NOT DELETE THIS LINE)

## Parte 1: Filtros

df_filtrado = camaras[~camaras['camara'].str.contains("Extraordinária") & (camaras['polo_mp'] == 'Passivo')]
contagem_decisoes = df_filtrado['relator'].value_counts()
relatores_qualificados = contagem_decisoes[contagem_decisoes > 100].index
df_final = df_filtrado[df_filtrado['relator'].isin(relatores_qualificados)]
df_final = df_final.assign(negado = df_final['decisao'].str.contains("Negaram"))

## Parte 2: Proporções de recursos negados
# Proporções de recursos negados
prop_negados_camara = (
  df_final
  # Agrupa por câmara
  .groupby('camara')
  # Calcula a proporção de recursos negados
  .agg(media_negados = ('negado', 'mean'))
  # Reseta o índice
  .reset_index()
)

prop_negados_camara_relator = (
  df_final
  # Agrupa por câmara e relator
  .groupby(['camara', 'relator'])
  # Calcula a proporção de recursos negados
  .agg(media_negados = ('negado', 'mean'))
  # Reseta o índice
  .reset_index()
)


In [43]:
# Parte 3: Desvio padrão
desvio_padrao_camara = np.std(prop_negados_camara.media_negados)

desvio_padrao_medio = (
  prop_negados_camara_relator
  # Agrupa por câmara
  .groupby('camara')
  # Calcula o desvio padrão das proporções usando np.std
  .agg(desvio_padrao_relator = ('media_negados', lambda x: np.std(x)))
  # Reseta o índice
  .reset_index()
  # Calcula a média do desvio padrão
  .desvio_padrao_relator.mean()
)

desvio_padrao_camara = round(desvio_padrao_camara, 3)
desvio_padrao_medio_dentro_camara = round(desvio_padrao_medio, 3)

In [40]:
print(desvio_padrao_camara)
print(desvio_padrao_medio_dentro_camara)

0.215
0.104


Pense sobre o que esses números podem significar, e como eles podem ser usados para avaliar a eficiência dos tribunais e a função do colegiado.

> O desvio padrão entre câmaras é maior que o desvio padrão médio dentro de cada câmara. Isso pode indicar que a composição do colegiado é mais importante que a identidade do relator para determinar o resultado do julgamento.