# Resolução da Primeira Lista de Exercícios
## 3º sem do curso de Banco de Dados (2021)
## Disciplina: Estatística Descritiva
## Professor: Dra. Nanci de Oliveira

Exercícios incluem análise e distribuição de frequências.

In [116]:
# imports
import pandas as pd
from IPython.display import display
import math

import matplotlib.pyplot as plt
from collections import Counter

# ================================
# global vars
# ================================
# String formatter
txt = '{v:.4f}'

In [133]:
# Functions
def per_cent(valor, total):
    return valor / total


def print_bold(string):
    print("\033[1m" + string + "\033[0m")
    

def cumulative_frequency(freq):
    f = []
    count = 0
    for i in freq:
        count += i
        f.append(count)
    return f



# Creates a frequency distribution using the sturges rule.
#
# Obs: data needs to be ordered
#
# return: a pandas.core.series.Series object containing all frequency labels.
def distribute_frequencies(data, sample, data_max, data_min):
    n = len(data)
    i = int(1 + 3.3 * math.log10(n)) # Sturges rule
    AT = data_max - data_min
    h = int(AT / i)
    
    def set_frequency_labels(data_max, data_min, h):
        freq = []
        menor = round(data_min, 1)
        menor_amp = round(menor + h, 1)
        valor = menor
        
        while valor < data_max:
            freq.append('{} |- {}'.format(round(valor, 1), round(valor+h, 1)))
            valor += h
        
        return freq
    
    labels = set_frequency_labels(data_max, data_min, h)
    interval = pd.interval_range(start=data_min, freq=h-1, end=data_max + h, closed='left')
    
    fi = pd.cut(sample, bins=interval, labels=labels)
    
    return pd.value_counts(fi).sort_index()


# Cria uma tabela de distribuição de frequências para variável discreta.
# retorna um DataFrame
def creates_frequency_table_with_discrete_variable(data, variable: str):
    quant = Counter(data)
    
    variavel = [x for x in quant.keys()]
    fri = [per_cent(x, len(data)) for x in quant.values()]
    fi = [x for x in quant.values()]
    Fi = cumulative_frequency(fi)
    Fri = cumulative_frequency(fri)

    variavel.append('')
    fi.append(sum(fi))
    fri.append(sum(fri))
    fri = [txt.format(v = x) for x in fri]
    Fi.append('')
    Fri = [txt.format(v = x) for x in Fri]
    Fri.append('')

    dd = {variable: variavel,
         'fi': fi,
         'Fi': Fi,
         'fri': fri,
         'Fri': Fri}

    return pd.DataFrame(data = dd)


def creates_frequency_table_with_continuous_variable(data, sample, data_max, data_min, variable_name, sample_name, fi):
    freq = pd.DataFrame(fi).reset_index().rename(columns={'index': variable_name, sample_name: 'fi'})

    quant = Counter(freq.fi)

    Fi = cumulative_frequency(freq.fi)
    fri = [per_cent(x, len(data)) for x in freq.fi]
    Fri = cumulative_frequency(fri)

    freq['Fi'] = Fi
    freq['fri'] = [txt.format(v = x) for x in fri]
    freq['Fri'] = [txt.format(v = x) for x in Fri]

    freq.loc[len(freq)] = ['', sum(fi), '', txt.format(v = sum(fri)), '']
    
    return freq

## 1
Com os DADOS BRUTOS seguintes:

- a)Faça a tabela de distribuição de frequências para VARIÁVEL DISCRETA.
- b)Qual a porcentagem de lotes na amostra possui, no máximo, 5 transdutores fora das especificações?
- c)Qual a porcentagem de lotes na amostra possui menos de 5 transdutores fora das especificações?
- d)Qual a porcentagem de lotes na amostra possui, no mínimo 5 unidades fora das especificações?
- e)Qual é o número de lotes na amostrapossui 0 unidadesde trasndutoresfora das especificações?Qual a porcentagem correspondente?

#### Número de transdutores fora das especificações em uma amostra de 60 lotes,Empresa A, 10/02/2020
2 1 2 4 0 1 3 2 0 5 3 3 1 3 2 4 7 0 2 3 0 4 2 1 3 1 1 3 4 1 2 3 2 2 8 4 5 1 3 1 5 0 2 3 2 1 0 6 4 2 1 6 0 3 3 3 6 1 2 3
##### Fonte:Devore, Jay L. Probabilidade e estatística para engenharia e ciências. São Paulo: Cengage Learning, 2014.

In [143]:
# Reading and showing
data = pd.DataFrame(data = {
    'amostra': [2, 1, 2, 4, 0, 1, 3, 2, 0, 5, 
                3, 3, 1, 3, 2, 4, 7, 0, 2, 3, 
                0, 4, 2, 1, 3, 1, 1, 3, 4, 1, 
                2, 3, 2, 2, 8, 4, 5, 1, 3, 1, 
                5, 0, 2, 3, 2, 1, 0, 6, 4, 2, 
                1, 6, 0, 3, 3, 3, 6, 1, 2, 3,]
})

#display(data)
data = data.sort_values(by=['amostra'], ascending=True)
title = 'Número de transdutores fora das especificações em uma amostra de 60 lotes,Empresa A, 10/02/2020'
font = 'Fonte: Devore, Jay L. Probabilidade e estatística para engenharia e ciências. São Paulo: Cengage Learning, 2014.'

lista_1 = creates_frequency_table_with_discrete_variable(data.amostra, 'Transdutores fora das especificações')

print('A: ')

print_bold(title)
display(lista_1)
print_bold(font+'\n')

cinco_no_max = len(data[data.amostra <= 5])
menos_de_cinco = len(data[data.amostra < 5])
no_minimo_cinco = len(data[data.amostra >= 5])
zero = len(data[data.amostra == 0])

print('B: %.2f%%' % (per_cent(cinco_no_max, len(data)) * 100))
print('C: %.2f%%' % (per_cent(menos_de_cinco, len(data)) * 100))
print('D: %.2f%%' % (per_cent(no_minimo_cinco, len(data)) * 100))
print('E: %d lotes, cerca de %.2f%%' % (zero, (per_cent(zero, len(data)) * 100)))

A: 
[1mNúmero de transdutores fora das especificações em uma amostra de 60 lotes,Empresa A, 10/02/2020[0m


Unnamed: 0,Transdutores fora das especificações,fi,Fi,fri,Fri
0,0.0,7,7.0,0.1167,0.1167
1,1.0,12,19.0,0.2,0.3167
2,2.0,13,32.0,0.2167,0.5333
3,3.0,14,46.0,0.2333,0.7667
4,4.0,6,52.0,0.1,0.8667
5,5.0,3,55.0,0.05,0.9167
6,6.0,3,58.0,0.05,0.9667
7,7.0,1,59.0,0.0167,0.9833
8,8.0,1,60.0,0.0167,1.0
9,,60,,1.0,


[1mFonte: Devore, Jay L. Probabilidade e estatística para engenharia e ciências. São Paulo: Cengage Learning, 2014.
[0m
B: 91.67%
C: 86.67%
D: 13.33%
E: 7 lotes, cerca de 11.67%


## 2 Dado o ROL seguinte:

- a)Faça a tabela de distribuição de frequências para VARIÁVEL DISCRETA.
- b)Quantasárvoresmedem20metros   de   altura?Qual   é   a   porcentagem correspondente?
- c)Quantas árvorestem 25metros de altura?Qual a porcentagem correspondente?
- d)Qual o númerode árvorescommenos de25metros de altura?Qual a porcentagem correspondente?
- e)Qual o  númerode árvoresque  tematé  27  metros  de  altura  inclusive?Qual  a porcentagem correspondente?
- f)Quantas árvores tem mais de 27 metros de altura?

#### Alturas totais, em metros, de 30 árvores cubadas 

20 20 20 20 20 21 22 22 22 24 24 24 25 25 25 25 25 26 26 26 26 27 27 27 30 30 30 30 30 30

###### Fonte:Dados “acochambrados” de: Procedimento Prático para Elaboração de uma Tabela de Produção. Empresa Brasileira de Pesquisa Agropecuária. Embrapa Florestas. Ministério da Agricultura, Pecuária e Abastecimento. Documentos 165. ISSN 1679-2599.Maio, 2008.

In [144]:
data = pd.DataFrame(data = {
    'valor': [20, 20, 20, 20, 20, 21, 22, 22, 22, 24,
              24, 24, 25, 25, 25, 25, 25, 26, 26, 26,
              26, 27, 27, 27, 30, 30, 30, 30, 30, 30]
})
title = 'Alturas totais, em metros, de 30 árvores cubadas'
font = 'Fonte:Dados “acochambrados” de: Procedimento Prático para Elaboração de uma Tabela de Produção. Empresa Brasileira de Pesquisa Agropecuária. Embrapa Florestas. Ministério da Agricultura, Pecuária e Abastecimento. Documentos 165. ISSN 1679-2599.Maio, 2008.'

lista_2 = creates_frequency_table_with_discrete_variable(data.valor, 'Alturas')

print('A: ')
print_bold(title)
display(lista_2)
print_bold(font)

b = len(data[data.valor == 20])
c = len(data[data.valor == 25])
d = len(data[data.valor < 25])
e = len(data[data.valor <= 27])
f = len(data[data.valor > 27])

print('B: %d árvores, cerca de %.2f%%' % (b, (per_cent(b, len(data)) * 100)))
print('C: %d árvores, cerca de %.2f%%' % (c, (per_cent(c, len(data)) * 100)))
print('D: %d árvores, cerca de %.2f%%' % (d, (per_cent(d, len(data)) * 100)))
print('E: %d árvores, cerca de %.2f%%' % (e, (per_cent(e, len(data)) * 100)))
print('F: %d árvores' % f)

A: 
[1mAlturas totais, em metros, de 30 árvores cubadas[0m


Unnamed: 0,Alturas,fi,Fi,fri,Fri
0,20.0,5,5.0,0.1667,0.1667
1,21.0,1,6.0,0.0333,0.2
2,22.0,3,9.0,0.1,0.3
3,24.0,3,12.0,0.1,0.4
4,25.0,5,17.0,0.1667,0.5667
5,26.0,4,21.0,0.1333,0.7
6,27.0,3,24.0,0.1,0.8
7,30.0,6,30.0,0.2,1.0
8,,30,,1.0,


[1mFonte:Dados “acochambrados” de: Procedimento Prático para Elaboração de uma Tabela de Produção. Empresa Brasileira de Pesquisa Agropecuária. Embrapa Florestas. Ministério da Agricultura, Pecuária e Abastecimento. Documentos 165. ISSN 1679-2599.Maio, 2008.[0m
B: 5 árvores, cerca de 16.67%
C: 5 árvores, cerca de 16.67%
D: 12 árvores, cerca de 40.00%
E: 24 árvores, cerca de 80.00%
F: 6 árvores


## 3-Dado o ROLseguinte:
- a)Faça  a  tabela  de  distribuição  de  frequências  com  intervalos  de  classe para VARIÁVEL CONTÍNUA. Use a REGRA DE STRUGES.
- b)Quantos alunos tem de 164cminclusive a 171cmexclusive?Qual é o percentual correspondente a essa quantidade?
- c)Quantos alunos tem de 150 cm inclusive a 171 cm exclusive? Qual é o percentual correspondente a essa quantia?
- d)Quantos alunos tem de 150 cm inclusive a 192 cmexclusive? Qual é o percentual correspondente a essa quantia?

#### Estaturas, em cm, de 32 alunos do 2º Tecnólogo em Logística, PeríodoNoturno,Fatec-SJC,2º semestre de 2019
150   153   154   160   164   164   165   165   165   166   169   170   170   170   170   170170   170   171   172   173   174   175   176   176   177   179   180   183   183   184   190
##### Fonte:Profª Dra. Nanci de Oliveira

In [145]:
data = pd.DataFrame(data = {
    'valor': [150, 153, 154, 160, 164, 164, 165, 165, 
              165, 166, 169, 170, 170, 170, 170, 170, 
              170, 170, 171, 172, 173, 174, 175, 176, 
              176, 177, 179, 180, 183, 183, 184, 190]
})
data = data.sort_values(by=['valor'], ascending=True)
title = 'Estaturas, em cm, de 32 alunos do 2º Tecnólogo em Logística, PeríodoNoturno,Fatec-SJC,2º semestre de 2019'
font = 'Fonte:Profª Dra. Nanci de Oliveira'

fi = distribute_frequencies(data, data.valor, data.valor.max(), data.valor.min())
lista_3 = creates_frequency_table_with_continuous_variable(data, data.valor, data.valor.max(), data.valor.min(), 'Estaturas', 'valor', fi)

print('A: ')
print_bold(title)
display(lista_3)
print_bold(fonte + '\n')

tmp = data[data.valor >= 164]
b = len(tmp[tmp.valor < 171])

tmp = data[data.valor >= 150]
c = len(tmp[tmp.valor < 171])

tmp = data[data.valor >= 150]
d = len(tmp[tmp.valor < 192])

print('B: %d alunos, cerca de %.2f%%' % (b, (per_cent(b, len(data)) * 100)))
print('C: %d alunos, cerca de %.2f%%' % (c, (per_cent(c, len(data)) * 100)))
print('D: %d alunos, cerca de %.2f%%' % (d, (per_cent(d, len(data)) * 100)))

A: 
[1mEstaturas, em cm, de 32 alunos do 2º Tecnólogo em Logística, PeríodoNoturno,Fatec-SJC,2º semestre de 2019[0m


Unnamed: 0,Estaturas,fi,Fi,fri,Fri
0,"[150, 157)",3,3.0,0.0938,0.0938
1,"[157, 164)",1,4.0,0.0312,0.125
2,"[164, 171)",14,18.0,0.4375,0.5625
3,"[171, 178)",8,26.0,0.25,0.8125
4,"[178, 185)",5,31.0,0.1562,0.9688
5,"[185, 192)",1,32.0,0.0312,1.0
6,,32,,1.0,


[1mFonte: Profa. Dra. Nanci de Oliveira
[0m
B: 14 alunos, cerca de 43.75%
C: 18 alunos, cerca de 56.25%
D: 32 alunos, cerca de 100.00%


## 4 - Dado o ROLseguinte:
- a)Faça  a  tabela  de  distribuição  de  frequências  com  intervalos  de  classe para VARIÁVEL CONTÍNUA. Use a REGRA DE STRUGES.
- b)Quantos alunos tem de 18 anosinclusive a 21 anosexclusive? Qual é o percentual correspondente a essa quantidade?
- c)Quantos alunos tem de 18anosinclusive a 30 anosexclusive? Qual é o percentual correspondente a essa quantia?
- d)Quantos alunos tem de 30 anosinclusive a 33anos exclusive? Qual é o percentual correspondente a essa quantia?

#### Idades dos alunos do 3º Banco de Dados,Fatec-SJC, em 22 de agosto de 2019
18 18 19 19 20 20 21 22 22 23 25 25 26 28 29 31 34 35 35
##### Fonte: Profa. Dra. Nanci de Oliveira

In [146]:
data = pd.DataFrame(data = {
    'valor': [18, 18, 19, 19, 20, 20, 21, 22, 22, 23, 25, 25, 26, 28, 29, 31, 34, 35, 35]
})
data = data.sort_values(by=['valor'], ascending=True)
title = 'Idades dos alunos do 3º Banco de Dados,Fatec-SJC, em 22 de agosto de 2019'
font = 'Fonte: Profa. Dra. Nanci de Oliveira'

data_max = data.valor.max()
data_min = data.valor.min()

n = len(data)
i = int(1 + 3.3 * math.log10(n)) # Sturges rule
AT = data_max - data_min
h = int(AT / i)

def set_frequency_labels(data_max, data_min, h):
    freq = []
    menor = round(data_min, 1)
    menor_amp = round(menor + h, 1)
    valor = menor

    while valor < data_max:
        freq.append('{} |- {}'.format(round(valor, 1), round(valor+h, 1)))
        valor += h

    return freq

labels = set_frequency_labels(data_max, data_min, h)
interval = pd.interval_range(start=data_min, freq=h, end=data_max+1, closed='left')

f = pd.cut(data.valor, bins=interval, labels=labels)

fi = pd.value_counts(f).sort_index()

lista_4 = creates_frequency_table_with_continuous_variable(data, data.valor, data.valor.max(), data.valor.min(), 'Idades', 'valor', fi)



print('A: ')
print_bold(title)
display(lista_4)
print_bold(fonte + '\n')

tmp = data[data.valor >= 18]
b = len(tmp[tmp.valor < 21])

tmp = data[data.valor >= 18]
c = len(tmp[tmp.valor < 30])

tmp = data[data.valor >= 30]
d = len(tmp[tmp.valor < 33])

print('B: %d alunos, cerca de %.2f%%' % (b, (per_cent(b, len(data)) * 100)))
print('C: %d alunos, cerca de %.2f%%' % (c, (per_cent(c, len(data)) * 100)))
print('D: %d alunos, cerca de %.2f%%' % (d, (per_cent(d, len(data)) * 100)))

A: 
[1mIdades dos alunos do 3º Banco de Dados,Fatec-SJC, em 22 de agosto de 2019[0m


Unnamed: 0,Idades,fi,Fi,fri,Fri
0,"[18, 21)",6,6.0,0.3158,0.3158
1,"[21, 24)",4,10.0,0.2105,0.5263
2,"[24, 27)",3,13.0,0.1579,0.6842
3,"[27, 30)",2,15.0,0.1053,0.7895
4,"[30, 33)",1,16.0,0.0526,0.8421
5,"[33, 36)",3,19.0,0.1579,1.0
6,,19,,1.0,


[1mFonte: Profa. Dra. Nanci de Oliveira
[0m
B: 6 alunos, cerca de 31.58%
C: 15 alunos, cerca de 78.95%
D: 1 alunos, cerca de 5.26%


## Stores in an Excel to format

In [147]:
with pd.ExcelWriter('lista_1_resposta.xlsx') as writer:
    lista_1.to_excel(writer, sheet_name='R1')
    lista_2.to_excel(writer, sheet_name='R2')
    lista_3.to_excel(writer, sheet_name='R3')
    lista_4.to_excel(writer, sheet_name='R4')