
# Exercícios de Revisão

Olá pessoal,

Estes exercícios foram preparados para ajudá-los a revisar alguns conceitos que serão utilizados ao longo deste semestre na disciplina de Ciência de Dados Aplicada ao Direito 2. Junto com os exercícios, vocês encontrarão um breve resumo explicativo de cada tópico. No entanto, como bons alunos de direito, é importante lembrar que não há nada melhor do que um documento para nos guiar, não é mesmo? Haha.

Acessar a documentação é uma boa prática, pois ela foi elaborada para explicar todas as funcionalidades das ferramentas que utilizaremos de maneira mais completa. No final de cada breve explicação, deixei o link que leva diretamente à documentação correspondente.

*Atenção: Esses exercícios são mais simples e servem para a fixação do conteúdo, após realizar esses exercícios, procure os
desafios antigos para refazer e aplicar esses conceitos de maneira mais acertiva e elaborada!* 

**Esse material foi feito com auxilio do ChatGPT, que também pode ser usado a nosso favor para o aprendizado, basta fazer boas perguntas!**
    


# Bloco 1: Treinando conceitos

## .agg()

O método `.agg()` é uma abreviação de "Aggregate" e será utilizado na biblioteca Pandas para realizar análise de dados, assim como na disciplina de Ciência de Dados Aplicada ao Direito 1.

Em resumo, esse método permite que você aplique uma ou mais funções a uma ou mais colunas do DataFrame e obtenha um resumo dos resultados. Por exemplo, é possível calcular a média, soma, máximo, mínimo ou outras estatísticas em diferentes colunas.

*Sintaxe: DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False)*

Link para acesso da documentação:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.agg.html


### Exercício 1.1.

Se você possui um DataFrame chamado sentenças com uma coluna "Sentença" que lista a duração das sentenças em anos para cada condenação em processos criminais, utilize o método agg para calcular a média e a mediana da duração das sentenças.

In [14]:

import pandas as pd

sentencas_data = {
  'Tipo de Crime': ['Assalto', 'Furto', 'Roubo', 'Assalto', 'Roubo', 'Furto','Roubo'],
  'Sentença (Anos)': [5, 3, 7, 2, 9, 1, 5]
}

sentencas = pd.DataFrame(sentencas_data)

sentencas


Unnamed: 0,Tipo de Crime,Sentença (Anos)
0,Assalto,5
1,Furto,3
2,Roubo,7
3,Assalto,2
4,Roubo,9
5,Furto,1
6,Roubo,5


In [15]:
# Gabarito

import pandas as pd

sentencas = pd.DataFrame(sentencas_data)

estatisticas_sentencas_anos = sentencas['Sentença (Anos)'].agg(['mean', 'median'])

estatisticas_sentencas_anos


mean      4.571429
median    5.000000
Name: Sentença (Anos), dtype: float64

## .groupby()

O método `.groupby()` em pandas é usado para agrupar os dados de um DataFrame com base nos valores de uma ou mais colunas. Em termos simples, ele permite dividir o DataFrame em grupos com base em valores comuns em uma ou mais colunas.

Depois de agrupar os dados, podemos aplicar funções de agregação, como soma, média, máximo, mínimo, entre outras, a cada grupo separadamente.

*Sintaxe: DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False)*

Link para acesso da documentação:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html


### Exercício 1.2.

Você recebeu um conjunto de dados que contém informações sobre processos judiciais, incluindo a área de atuação de cada caso, os honorários advocatícios associados e o número de horas de trabalho dedicadas a cada processo. Utilizando o método groupby do Pandas, agrupe os dados por área de atuação e calcule a média dos honorários advocatícios para cada área de atuação, bem como a soma total das horas de trabalho dedicadas a cada área.

In [22]:
import pandas as pd

data_processos = {
    'Area_Atuação': ['Família', 'Trabalhista', 'Família', 'Civil', 'Trabalhista', 'Civil', 'Família', 'Civil'],
    'Honorarios': [5000, 3000, 4500, 6000, 3500, 7000, 4000, 5500],
    'Horas_Trabalho': [10, 15, 20, 25, 30, 35, 40, 45],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'São Paulo', 'Brasília', 'Rio de Janeiro', 'Brasília', 'São Paulo', 'Brasília']
}

df_processos = pd.DataFrame(data_processos)

df_processos

Unnamed: 0,Area_Atuação,Honorarios,Horas_Trabalho,Cidade
0,Família,5000,10,São Paulo
1,Trabalhista,3000,15,Rio de Janeiro
2,Família,4500,20,São Paulo
3,Civil,6000,25,Brasília
4,Trabalhista,3500,30,Rio de Janeiro
5,Civil,7000,35,Brasília
6,Família,4000,40,São Paulo
7,Civil,5500,45,Brasília


In [17]:
# Gabarito

# Agrupando os dados pela coluna 'Area_Atuação' usando o método groupby
grupos = df_processos.groupby('Area_Atuação')

estatisticas_processos = grupos.agg(
  media_honorarios=('Honorarios', 'mean'),
  soma_horas_trabalho=('Horas_Trabalho', 'sum')
)

estatisticas_processos.reset_index()


Unnamed: 0,Area_Atuação,media_honorarios,soma_horas_trabalho
0,Civil,6166.666667,105
1,Família,4500.0,70
2,Trabalhista,3250.0,45


### .assign()

O método assign() em pandas é usado para adicionar novas colunas a um DataFrame existente, criando uma cópia modificada do DataFrame original com as novas colunas adicionadas.
Ele oferece uma maneira de criar e modificar colunas de um DataFrame com base em operações aplicadas às colunas existentes ou a outros dados.

*Sintaxe:  DataFrame.assign(kwargs)* 

Link para acesso da documentação: https://www.geeksforgeeks.org/pandas-dataframe-assign/

### Exercício 1.3.

Suponha que você tenha um DataFrame com informações sobre processos judiciais, contendo colunas para o número do processo, a data de abertura e a data de encerramento. Crie uma nova coluna chamada 'Duração' que represente o tempo em dias que cada processo levou para ser concluído.

In [19]:
import pandas as pd

infos = {'Advogado': ['João', 'Maria', 'José'],
        'Casos Representados': [50, 100, 75],
        'Taxa Média por Caso': [2000, 2500, 3000]}
dados = pd.DataFrame(infos)

dados


Unnamed: 0,Advogado,Casos Representados,Taxa Média por Caso
0,João,50,2000
1,Maria,100,2500
2,José,75,3000


In [23]:
# Gabarito

dados = dados.assign(Honorários_Totais=dados['Casos Representados'] * dados['Taxa Média por Caso'])

dados



Unnamed: 0,Advogado,Casos Representados,Taxa Média por Caso,Honorários_Totais
0,João,50,2000,100000
1,Maria,100,2500,250000
2,José,75,3000,225000


## 4. .filter()

O método filter() em pandas é utilizado para filtrar as linhas de um DataFrame com base em alguma condição especificada. Ele retorna um novo DataFrame contendo apenas as linhas que satisfazem a condição.

*Sintaxe: DataFrame.filter(items=None, like=None, regex=None, axis=None)*

Link para acesso da documentação: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.filter.html

### Exercício 1.4

Imagine que você está analisando um conjunto de dados que contém informações sobre processos judiciais em um escritório de advocacia. Seu objetivo é filtrar o DataFrame para selecionar apenas as colunas que correspondem aos honorários advocatícios em diferentes momentos do processo.

In [26]:
data_processos = {
    'Honorarios_Fase1': [5000, 6000, 4500],
    'Despesas_Fase1': [1000, 1200, 800],
    'Honorarios_Fase2': [7000, 8000, 6000],
    'Despesas_Fase2': [1500, 1800, 1200],
    'Honorarios_Fase3': [9000, 10000, 8500],
    'Despesas_Fase3': [2000, 2200, 1800]
}

df_processos = pd.DataFrame(data_processos)

df_processos


Unnamed: 0,Honorarios_Fase1,Despesas_Fase1,Honorarios_Fase2,Despesas_Fase2,Honorarios_Fase3,Despesas_Fase3
0,5000,1000,7000,1500,9000,2000
1,6000,1200,8000,1800,10000,2200
2,4500,800,6000,1200,8500,1800


In [27]:
# Gabarito
filtered_df = df_processos.filter(like='Honorarios')

filtered_df

Unnamed: 0,Honorarios_Fase1,Honorarios_Fase2,Honorarios_Fase3
0,5000,7000,9000
1,6000,8000,10000
2,4500,6000,8500


## .sort_values()

Essa função da biblioteca Pandas permite ordenar os dados de um DataFrame com base nos valores de uma ou mais colunas. Ele é muito útil para organizar os dados de forma ascendente ou descendente de acordo com critérios específicos.

*Sintaxe: DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, ignore_index=False)*

Link para acesso da documentação: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html

### Exercício 1.5

Você está trabalhando como analista de dados em um escritório de advocacia e recebeu um conjunto de dados contendo informações sobre processos judiciais. Utilizando a biblioteca pandas em Python, seu objetivo é ordenar os processos com base no valor dos honorários advocatícios para identificar os casos de maior valor. Utilize a variável df_ordenado para armazenar seu código.

In [32]:
import pandas as pd

dados_casos = {
    'Numero_Caso': ['TRAB_001', 'CIV_001', 'FAM_001', 'TRAB_002', 'CIV_002', 'FAM_002', 'TRAB_003', 'CIV_003'],
    'Area_Atuacao': ['Trabalhista', 'Civil', 'Família', 'Trabalhista', 'Civil', 'Família', 'Trabalhista', 'Civil'],
    'Honorarios': [10000, 8000, 12000, 7500, 9000, 11000, 13000, 8500]
}

df_casos = pd.DataFrame(dados_casos)

df_casos


Unnamed: 0,Numero_Caso,Area_Atuacao,Honorarios
0,TRAB_001,Trabalhista,10000
1,CIV_001,Civil,8000
2,FAM_001,Família,12000
3,TRAB_002,Trabalhista,7500
4,CIV_002,Civil,9000
5,FAM_002,Família,11000
6,TRAB_003,Trabalhista,13000
7,CIV_003,Civil,8500


In [30]:

#Gabarito

df_ordenado = df_casos.sort_values(by='Honorarios', ascending=False)
df_ordenado



Unnamed: 0,Numero_Caso,Area_Atuacao,Honorarios
6,TRAB_003,Trabalhista,13000
2,FAM_001,Família,12000
5,FAM_002,Família,11000
0,TRAB_001,Trabalhista,10000
4,CIV_002,Civil,9000
7,CIV_003,Civil,8500
1,CIV_001,Civil,8000
3,TRAB_002,Trabalhista,7500


## .query() e indexação lógica

O método *.query* é uma ferramenta que é capaz de selecionar dados de um DataFrame com base em condições específicas. É como fazer uma pergunta ao DataFrame e obter as linhas que satisfazem essa pergunta.

Imagine que você tem uma planilha com várias linhas de dados, onde cada linha representa um caso judicial. Com o método .query, você pode fazer perguntas como "mostre-me apenas os casos com honorários acima de 9000" ou "mostre-me apenas os casos na área trabalhista".

Você escreve sua pergunta usando uma expressão de consulta, que é uma string contendo a condição que deseja aplicar. Por exemplo, para selecionar casos com honorários acima de 9000, você escreveria 'Honorarios > 9000'.

*Sintaxe: df.query(condição)*

*Exemplo de sintaxe: casos_selecionados = df_casos.query('(Idade_Réu1 < 18 or Idade_Réu2 < 18) and Veredicto == "Favorável"')*

Link para acesso da documentação: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.query.html

> OBS: Para o query() usamos "or" e "and" para, respectivamente, combinar ou alternar condições;
> Para a indexação lógica usamos "&" e " | " para, respectivamente, combinar ou alternar condições.


### Exercício 1.6

Você possui um conjunto de dados representando casos jurídicos, cada um identificado por um número único. Cada caso pertence a uma área de atuação específica e tem associado um valor de honorários.

Seu objetivo é contar quantos casos são da área trabalhista e têm honorários superiores a $7000.
 
Utilize o DataFrame fornecido (df_casos) para realizar essa contagem e armazenar o resultado na variável casos_selecionados.

In [None]:
import pandas as pd

dados_casos = {
    'Numero_Caso': ['TRAB_001', 'CIV_001', 'FAM_001', 'TRAB_002', 'CIV_002'],
    'Area_Atuacao': ['Trabalhista', 'Civil', 'Família', 'Trabalhista', 'Civil'],
    'Honorarios': [10000, 8000, 12000, 7500, 9000]
}

df_casos = pd.DataFrame(dados_casos)

df_casos

In [35]:
# Gabarito

df_casos.query('Area_Atuacao == "Trabalhista" and Honorarios > 7000')

Unnamed: 0,Numero_Caso,Area_Atuacao,Honorarios
0,TRAB_001,Trabalhista,10000
3,TRAB_002,Trabalhista,7500
6,TRAB_003,Trabalhista,13000


# Bloco 2: Combinando as ferramentas

Agora que os conceitos foram treinados, vamos combinar essas ferramentas.

## Exercício 2.1

Utilize a base de dados das câmaras:

In [None]:
camaras = pd.read_csv('https://github.com/jtrecenti/main-cdad2/releases/download/data/camaras.csv')

Nosso objetivo é calcular a proporção de cada tipo de decisão (negaram, parcialmente, provido, punibilidade extinta, outros, não conhecido).

Para isso, no entanto, vamos considerar apenas os casos em que o MP está no polo passivo.

No final, queremos ordenar a base em ordem decrescente de proporção.

As operações disponíveis para usar são essas abaixo:

- `.agg(count = ('decisao', 'count'))`
- `.query('polo_mp == "Passivo"')`
- `.groupby('decisao')`
- `.reset_index()`
- `.sort_values('prop', ascending=False)`
- `.assign(prop = lambda x: x['count'] / x['count'].sum() * 100)`


O resultado esperado é a tabela:

| decisao               | count | prop     |
|-----------------------|-------|----------|
| Negaram               | 4915  | 53.487866|
| Parcialmente          | 3543  | 38.556970|
| Provido               | 428   | 4.657743 |
| Punibilidade Extinta  | 233   | 2.535640 |
| Outros                | 55    | 0.598542 |
| Não conhecido         | 15    | 0.163239 |

Coloque essas operações em ordem para que o código funcione e calcule o que queremos.

In [12]:
# Gabarito

ct_mag = (
  camaras
  .query('polo_mp == "Passivo"')
  .groupby('decisao')
  .agg(count = ('decisao', 'count'))
  .reset_index()
  .assign(prop = lambda x: x['count'] / x['count'].sum() * 100)
  .sort_values('prop', ascending=False)
)

ct_mag


Unnamed: 0,decisao,count,prop
0,Negaram,4915,53.487866
3,Parcialmente,3543,38.55697
4,Provido,428,4.657743
5,Punibilidade Extinta,233,2.53564
2,Outros,55,0.598542
1,Não conhecido,15,0.163239
