# Bibliotecas

In [34]:
import pandas as pd
import numpy as np
from scipy.stats import t

# Leitura de dados

In [5]:
df = pd.read_excel("Base_Juridico.xlsx", sheet_name=1)
df.head()

Unnamed: 0,Sentença,Data_Julgamento,Região da Comarca,Tipo de Estratégia,Taxa Contratada,Valor Indenização
0,1,2019-07-01,Oeste,Estrategia C,3.1,0.0
1,1,2019-07-01,Norte,Estrategia C,2.5,0.0
2,0,2019-07-02,Sul,Estrategia A,4.0,2247.437094
3,1,2019-07-02,Sul,Estrategia B,2.6,0.0
4,1,2019-07-03,Oeste,Estrategia B,4.1,0.0


In [19]:
print('Número de Linhas: ', df.shape[0])
print('Número de Colunas: ', df.shape[1])

Número de Linhas:  450
Número de Colunas:  6


In [6]:
df.dtypes

Sentença                       int64
Data_Julgamento       datetime64[ns]
Região da Comarca             object
Tipo de Estratégia            object
Taxa Contratada              float64
Valor Indenização            float64
dtype: object

# Análise Exploratória

## Região Comarca

Temos uma distribuição bem simetrica de dados entre as regiões

In [12]:
regiao_fa = df['Região da Comarca'].value_counts()
regiao_fr = (df['Região da Comarca'].value_counts(normalize=True)*100).round(2)
regiao_frequencia = pd.DataFrame({'Frequência Absoluta': regiao_fa,
                      'Frequência Relativa': regiao_fr})
regiao_frequencia

Unnamed: 0_level_0,Frequência Absoluta,Frequência Relativa
Região da Comarca,Unnamed: 1_level_1,Unnamed: 2_level_1
Centro,95,21.11
Sul,93,20.67
Norte,89,19.78
Leste,89,19.78
Oeste,84,18.67


## Tipo de Estratégia

A base de estratégia também está bem distribuida

In [14]:
estrategia_fa = df['Tipo de Estratégia'].value_counts()
estrategia_fr = (df['Tipo de Estratégia'].value_counts(normalize=True)*100).round(2)
estrategia_frequencia = pd.DataFrame({'Frequência Absoluta': estrategia_fa,
                                      'Frequencia Relativa': estrategia_fr})
estrategia_frequencia

Unnamed: 0_level_0,Frequência Absoluta,Frequencia Relativa
Tipo de Estratégia,Unnamed: 1_level_1,Unnamed: 2_level_1
Estrategia C,158,35.11
Estrategia A,157,34.89
Estrategia B,135,30.0


In [30]:
resumo_taxa_contratada = df[['Taxa Contratada']].describe()
resumo_valor_indenizado = df[df['Valor Indenização'] != 0.0]['Valor Indenização'].describe()

resumo_geral = pd.concat([resumo_taxa_contratada, resumo_valor_indenizado], axis=1)
resumo_geral


Unnamed: 0,Taxa Contratada,Valor Indenização
count,450.0,250.0
mean,2.996,3050.234746
std,0.79013,491.693697
min,0.3,1582.773279
25%,2.5,2713.353474
50%,3.0,3066.233052
75%,3.5,3372.296281
max,5.3,4379.838417


### Taxa Contratada
- A média da Taxa Contratada é de 2.9%, dispersão moderada com desvio padrão de 0.79%;

- A Taxa mínima contratada é de 0.3%, enquanto a máxima é de 5.3%. Indicando uma Amplitude alta de 2.3%;

- Sendo que metade dessas taxas estão abaixo de 3.0% e a outra metade acima;

### Valor Indenização
- A média do Valor de Indenização é de `R$ 1694,57`, dispersão significativa com desvio padrão de `R$ 1560,91`;

- O valor máximo de indenização é de `R$ 4379,83` enquanto o valor mínimo é de `R$ 1582,77`;

- Metas dessas indenizações tem valor abaixo de `R$ 3066,23` e a outra metade acima disso.

In [46]:
df1 = df.copy()
df1 = df1[df1['Valor Indenização'] != 0.0]

# confiança
confianca = 0.95

# tamanho da amostra
n = len(df1['Valor Indenização'])

# media amostral
media_amostral = df1['Valor Indenização'].mean()

# desvio padrão
desvio_padrao = df1['Valor Indenização'].std()

# z da distribuição t-student
z = t.ppf((1+confianca) / 2, df=n-1)

# segunda parte da formula
segunda_parte = desvio_padrao / np.sqrt(n)

# intervalo 
intervalo = z * segunda_parte

# limites do intervalo
limite_superior = (media_amostral + intervalo).round(2)
limite_inferior = (media_amostral - intervalo).round(2)

# margem de erro
margem_erro = (intervalo * 2).round(2)


print('Limite Superior: ', limite_superior)
print('Limite Inferior: ', limite_inferior)
print('Margem de Erro: ', margem_erro)


Limite Superior:  3111.48
Limite Inferior:  2988.99
Margem de Erro:  122.5


In [32]:
len(df['Valor Indenização'])

450