In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('Dados_moretin.csv', sep=';', decimal=',')
df

Unnamed: 0,Estado Civil,Grau de Instrução,N de Filhos,Salario (x Sal Min),Anos,Região de Procedência
0,solteiro,ensino fundamental,,4.0,26,interior
1,casado,ensino fundamental,1.0,4.56,32,capital
2,casado,ensino fundamental,2.0,5.25,36,capital
3,solteiro,ensino médio,,5.73,20,outra
4,solteiro,ensino fundamental,,6.26,40,outra
5,casado,ensino fundamental,0.0,6.66,28,interior
6,solteiro,ensino fundamental,,6.86,41,interior
7,solteiro,ensino fundamental,,7.39,43,capital
8,casado,ensino médio,1.0,7.59,34,capital
9,solteiro,ensino médio,,7.44,23,outra


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36 entries, 0 to 35
Data columns (total 6 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Estado Civil           36 non-null     object 
 1   Grau de Instrução      36 non-null     object 
 2   N de Filhos            20 non-null     float64
 3   Salario (x Sal Min)    36 non-null     float64
 4   Anos                   36 non-null     int64  
 5   Região de Procedência  36 non-null     object 
dtypes: float64(2), int64(1), object(3)
memory usage: 1.8+ KB


## 1o. caso: Variáveis quantitativas com poucos valores distintos

Dist. de frequencias igual ao caso qualitativo

In [4]:
df['N de Filhos'].unique()

array([nan,  1.,  2.,  0.,  3.,  5.])

In [5]:
fi = df['N de Filhos'].value_counts().sort_index()
fi

0.0    4
1.0    5
2.0    7
3.0    3
5.0    1
Name: N de Filhos, dtype: int64

In [6]:
fr = df['N de Filhos'].value_counts(normalize=True).sort_index()
fr

0.0    0.20
1.0    0.25
2.0    0.35
3.0    0.15
5.0    0.05
Name: N de Filhos, dtype: float64

Frequencia acumulada ou cumulativa

$$
F = \sum_0^i fi
$$

Quantas pessoas possuem menos de 3 filhos?

$F = f_0 + f_1 + f_2 = 4+ 7 + 5 = 16$

em que $f_0$ é a freq. absoluta do valor 0.0, por exemplo

Quantas pessoas possuem ao menos 3 filhos?

$F = f_3 + f_5 = 3 + 1 = 4$

Quantas pessoas possuem 3 filhos ou menos?

$F = f_0 + f_1 + f_2 + f_3 = 4+ 7 + 5 + 3 = 19$

In [7]:
fi

0.0    4
1.0    5
2.0    7
3.0    3
5.0    1
Name: N de Filhos, dtype: int64

In [8]:
F = fi.cumsum()
F

0.0     4
1.0     9
2.0    16
3.0    19
5.0    20
Name: N de Filhos, dtype: int64

In [9]:
dist = pd.concat([fi,fr*100,F],axis=1)
dist.columns = ['fi', 'fr', "F"]
dist

Unnamed: 0,fi,fr,F
0.0,4,20.0,4
1.0,5,25.0,9
2.0,7,35.0,16
3.0,3,15.0,19
5.0,1,5.0,20


## 2o. caso: Variáveis quantitativas com muitos valores distintos

Dist. de frequencias em classes

In [10]:
df["Anos"].unique()

array([26, 32, 36, 20, 40, 28, 41, 43, 34, 23, 33, 27, 37, 44, 30, 38, 31,
       39, 25, 35, 46, 29, 48, 42])

In [11]:
df["Anos"].value_counts()

26    2
34    2
35    2
31    2
30    2
32    2
33    2
37    2
43    2
41    2
40    2
36    2
23    1
27    1
28    1
44    1
38    1
20    1
39    1
25    1
46    1
29    1
48    1
42    1
Name: Anos, dtype: int64

In [12]:
df['Salario (x Sal Min)'].unique()

array([ 4.  ,  4.56,  5.25,  5.73,  6.26,  6.66,  6.86,  7.39,  7.59,
        7.44,  8.12,  8.46,  8.74,  8.95,  9.13,  9.35,  9.77,  9.8 ,
       10.53, 10.76, 11.06, 11.59, 12.  , 12.79, 13.23, 13.6 , 13.85,
       14.69, 14.71, 15.99, 16.22, 16.61, 17.26, 18.75, 19.4 , 23.3 ])

In [13]:
df['Salario (x Sal Min)'].value_counts()

4.00     1
4.56     1
11.06    1
11.59    1
12.00    1
12.79    1
13.23    1
13.60    1
13.85    1
14.69    1
14.71    1
15.99    1
16.22    1
16.61    1
17.26    1
18.75    1
19.40    1
10.76    1
10.53    1
9.80     1
7.59     1
5.25     1
5.73     1
6.26     1
6.66     1
6.86     1
7.39     1
7.44     1
9.77     1
8.12     1
8.46     1
8.74     1
8.95     1
9.13     1
9.35     1
23.30    1
Name: Salario (x Sal Min), dtype: int64

![](https://acimadamediana.files.wordpress.com/2014/09/tab-dist3-e1411413625298.png?w=300&h=219)

Para criar essas classes:

1. Calcular a amplitude do conjunto de dados

$A = x_{max} - x_{min}$

2. Calcular o número de classes (intervalos)

$N_c = \sqrt n$: raiz quadrada

$N_c = 1+ 3.3log(n)$: Sturges

3. Tamanho das classes

$h = \dfrac{A}{N_c}$


#### Representação do intervalo

$a \vdash b \Rightarrow [a,b)$

#### Exemplo na mão

In [14]:
max = df['Salario (x Sal Min)'].max()
max

23.3

In [15]:
min = df['Salario (x Sal Min)'].min()
min

4.0

In [16]:
A = max - min
A

19.3

In [17]:
df.shape

(36, 6)

In [18]:
len(df)

36

In [19]:
Nc = np.sqrt(len(df))
Nc

6.0

In [20]:
h = A/Nc
h

3.216666666666667

Classe 1: $4 \vdash 7.22$

Classe 2: $7.22 \vdash 10.44$ 

Classe 3: $10.44 \vdash 13.66$

Classe 4: $13.66 \vdash 16.88$

Classe 5: $16.88 \vdash 20.1$

Classe 6: $20.1 \vdash 23.32$

13.60    3

17.26    5

7.59     2

8.95     2

6.86     1

10.53    3

10.76    3

#### Modo pythonico de fazer isso

###### Usando Numpy: [histogram](https://numpy.org/doc/stable/reference/generated/numpy.histogram.html)

![](histogram1.png)
![](histogram2.png)

In [21]:
dados = df['Salario (x Sal Min)']

In [22]:
hist, bin_edges = np.histogram(dados)

In [23]:
hist

array([4, 6, 7, 5, 4, 3, 4, 2, 0, 1])

In [24]:
bin_edges

array([ 4.  ,  5.93,  7.86,  9.79, 11.72, 13.65, 15.58, 17.51, 19.44,
       21.37, 23.3 ])

In [25]:
h = np.diff(bin_edges)
h[0]

1.9299999999999997

Para estabelecer o número de classes, o parâmetro `bins` pode receber valores especiais, que inficam a função a possibilidade de estimar esse valor, sem que se precise atribuir.

In [26]:
hist, bin_edges = np.histogram(dados, bins='auto')

In [27]:
hist

array([ 6, 10,  7,  6,  4,  2,  1])

In [28]:
bin_edges

array([ 4.        ,  6.75714286,  9.51428571, 12.27142857, 15.02857143,
       17.78571429, 20.54285714, 23.3       ])

In [29]:
h = np.diff(bin_edges)
h[0]

2.757142857142857

##### Calculando frequencias relativa e cumulativa

In [30]:
fi, classes = np.histogram(dados,bins=5)
fi

array([10, 12,  7,  6,  1])

$$
f_{R} = \dfrac{f_i}{N} = \dfrac{f_i}{\sum f_i}
$$

* $f_i$ é a frequência absoluta
* $N = \sum f_i$ é o número total de elementos

In [31]:
fr = fi/fi.sum()
fr

array([0.27777778, 0.33333333, 0.19444444, 0.16666667, 0.02777778])

In [32]:
fr.sum()

1.0

$$
f_{R norm} = \dfrac{f_i}{N \cdot h} =\dfrac{f_{R}}{h}
$$


* $h$ é a amplitude da classe

In [33]:
frnorm = fi/(fi.sum() * np.diff(classes))
frnorm

array([0.07196315, 0.08635579, 0.05037421, 0.04317789, 0.00719632])

In [34]:
frnorm.sum()

0.25906735751295334

In [35]:
frnorm*np.diff(classes)

array([0.27777778, 0.33333333, 0.19444444, 0.16666667, 0.02777778])

In [36]:
frn, classes = np.histogram(dados,bins=5, density=True)
frn

array([0.07196315, 0.08635579, 0.05037421, 0.04317789, 0.00719632])

In [37]:
fr = frn*np.diff(classes)
fr

array([0.27777778, 0.33333333, 0.19444444, 0.16666667, 0.02777778])

In [38]:
F = fi.cumsum()
F

array([10, 22, 29, 35, 36])

_E se usarmos classes para montar a distribuição de frequências de poucos valores diferentes, como no caso de "No de filhos"?_

In [39]:
dados2 = df['N de Filhos'].dropna()

In [40]:
f1, classes = np.histogram(dados2, bins=4)

In [41]:
f1

array([9, 7, 3, 1])

In [42]:
classes

array([0.  , 1.25, 2.5 , 3.75, 5.  ])

#### Brinde: função para mostrar numa tabela as frequencias

In [43]:
def dist_frequencia_classes(x, nc='auto'):
    #função histogram do numpy para calcular as freq. absolutas e intervalos das classes
    fa,classes= np.histogram(x, bins=nc) 
    fa = fa.astype(int)#pra transformar em int 
    #freq. relativas = freq. absolutas/no. de dados do conjunto x 100 pra forma percentual
    fr = np.around(fa/fa.sum()*100,decimals=2) #duas casas decimais
    #freq. cumulativa usando a função cumsum do numpy
    #frnorm = np.around(fi/(fi.sum() * np.diff(classes)),decimals=2)
    fc = np.cumsum(fa).astype(int) #pra transformar em int 
    # o laço a seguir serve unicamente para escrever os intervalos das classes como strings
    # dentro do vetor 'classe_str'
    classe_str = []
    for i in range(len(classes)):
        if i<=len(classes)-2:
            classe_str.append('{:2.2f} |-- {:2.2f}' .format(classes[i],classes[i+1]))
        else:
            break        
    # a função retorna um dataframe, cujas linhas serão indexadas pelo vetor 'classe_str', e as 
    #colunas terão as frequências absoluta (inteira), relativa (float) e cumulativa (int) calculadas 
    return pd.DataFrame({'Classes':classe_str, 
                         'fi': fa,
                         'fr': fr,
                         #'frnorm':frnorm,
                         'Fc': fc
                        }).set_index('Classes') # transforma a coluna 'Classes' nos indices das linhas 


In [44]:
dist_frequencia_classes(dados, nc=5)

Unnamed: 0_level_0,fi,fr,Fc
Classes,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
4.00 |-- 7.86,10,27.78,10
7.86 |-- 11.72,12,33.33,22
11.72 |-- 15.58,7,19.44,29
15.58 |-- 19.44,6,16.67,35
19.44 |-- 23.30,1,2.78,36


### Como representar essas distribuições em gráficos?

##### Histogramas!

###### Usando Matplotlib: [hist](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.hist.html)

In [45]:
fi, classes, x = plt.hist(dados, bins='auto')
plt.xticks(classes)
plt.yticks(fi)
plt.grid()

NameError: name 'plt' is not defined

In [None]:
fi

In [None]:
classes

In [None]:
x

In [None]:
frnorm, classes,x = plt.hist(dados, bins='auto', density=True)
plt.xticks(classes)
plt.yticks(frnorm)
plt.grid()

In [None]:
fr, classes,x = plt.hist(dados, bins=7, weights=np.zeros_like(dados) + 1./dados.size)

plt.xticks(classes)
plt.yticks(fr)
plt.grid()

In [None]:
frnorm*np.diff(classes)

In [None]:
F, classes,x = plt.hist(dados, bins=5, cumulative=True)
plt.xticks(classes)
plt.yticks(F)
plt.grid()

Usando pandas

In [None]:
df.columns

In [None]:
df['Salario (x Sal Min)'].plot.hist(bins='auto')