In [3]:
import pandas as pd
import numpy as np

## Sumarizando e computando estatísticas descritivas
O pandas vem equipado com um conjunto de funções matemáticas e estatísticas. Muitas delas são derivadas de funções do NumPy, porém se comparadas com elas as funções do pandas são responsáveis por lidar e excluir dados inexistentes dos cálculos.

In [4]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]], 
                  index=['a', 'b', 'c', 'd'], 
                  columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


Chamando o método `sum` iremos ter como retorno uma Série contendo as somas das colunas:

In [5]:
df.sum()

one    9.25
two   -5.80
dtype: float64

Podemos usar o parâmetro `axis=1` para realizar a soma com as linhas:

In [6]:
df.sum(axis=1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

Os valores de NaN são excluídos, a menos que a parte inteira (linha ou coluna neste caso) seja NaN. Este pode ser desativado usando a opção skipna:

In [7]:
df.mean(axis=1, skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

Alguns métodos, como idxmin e idxmax, retornam estatísticas indiretas como o valor do índice onde os valores mínimo ou máximo são atingidos:

In [8]:
df.idxmax()

one    b
two    d
dtype: object

In [9]:
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


Outro tipo de método não é uma redução nem uma acumulação. Describe é um exemplo, produzindo várias estatísticas de resumo de uma só vez:

In [10]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


Em dados não numéricas, o método `describe` produz um sumário alternativo de estatísticas:

In [11]:
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object

In [12]:
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

#### Métodos estatísticos
<table width='100%'>
    <thead>
        <tr>
            <th>Método</th>
            <th colspan=3>Descrição</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td>count</td>
            <td colspan=3>Conta quantos valores não NaN existem.</td>
        </tr>
        <tr>
            <td>describe</td>
            <td colspan=3>Computa uma série de estatísticas de uma série ou uma coluna de um DataFrame.</td>
        </tr>
        <tr>
            <td>min, max</td>
            <td colspan=3>Valores mínimos e máximos.</td>
        </tr>
        <tr>
            <td>argmin, argmax</td>
            <td colspan=3>Computa os índices (inteiros) dos mínimos e máximos.</td>
        </tr>
        <tr>
            <td>idxmin, idxman</td>
            <td colspan=3>Computa os índices dos mínimos e máximos.</td>
        </tr>
        <tr>
            <td>quantile</td>
            <td colspan=3>Computa o quartil em um range de 0 a 1.</td>
        </tr>
        <tr>
            <td>sum</td>
            <td colspan=3>Soma dos valores.</td>
        </tr>
        <tr>
            <td>mean</td>
            <td colspan=3>Média dos valores</td>
        </tr>
        <tr>
            <td>median</td>
            <td colspan=3>Mediana dos valores (50% quartil).</td>
        </tr>
        <tr>
            <td>mad</td>
            <td colspan=3>Desvio absoluto médio do valor médio.</td>
        </tr>
        <tr>
            <td>var</td>
            <td colspan=3>Variação da amostra de valores.</td>
        </tr>
        <tr>
            <td>std</td>
            <td colspan=3>Desvio padrão dos valores.</td>
        </tr>
        <tr>
            <td>skew</td>
            <td colspan=3>Inclinação da amostra dos valores.</td>
        </tr>
        <tr>
            <td>kurt</td>
            <td colspan=3>Exemplo de curtose dos valores.</td>
        </tr>
        <tr>
            <td>cumsum</td>
            <td colspan=3>Soma cumulativa dos valores.</td>
        </tr>
        <tr>
            <td>cummin, cummax</td>
            <td colspan=3>Soma cumulativa dos mínimos e máximos.</td>
        </tr>
        <tr>
            <td>cumprod</td>
            <td colspan=3>Produto cumulativo dos valores.</td>
        </tr>
        <tr>
            <td>diff</td>
            <td colspan=3>Calcula a 1ª diferença aritmética.</td>
        </tr>
        <tr>
            <td>diff</td>
            <td colspan=3>Calcula a 1ª diferença aritmética.</td>
        </tr>
        <tr>
            <td>pct_change</td>
            <td colspan=3>Calcula porcentagem de alterações.</td>
        </tr>
    </tbody>
</table>

### Valores únicos, contagem de valores e membros
Outra classe de métodos relacionados extrai informações sobre os valores contidos em uma Série unidimensional. Para ilustrar isso, considere este exemplo:

In [15]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

A primeira função é `unique`, o que fornece uma matriz dos valores únicos em uma Série:

In [16]:
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

Os valores únicos não são necessariamente retornados na ordem de classificação, mas podem ser classificados depois, se necessário (`uniques.sort()`). De maneira semelhante, `value_counts` calcula uma série contendo frequências de cada valor:

In [17]:
obj.value_counts()

a    3
c    3
b    2
d    1
dtype: int64

A série é classificada por valor em ordem decrescente como uma conveniência. `value_counts` também é um método do pandas que pode ser usado com qualquer matriz ou sequência:

In [18]:
 pd.value_counts(obj.values, sort=False)

c    3
b    2
d    1
a    3
dtype: int64

Por fim, o `isin` é responsável pela associação de conjuntos vetorizados e pode ser muito útil filtrando um conjunto de dados para um subconjunto de valores em uma série ou coluna em um DataFrame:

In [19]:
mask = obj.isin(['b', 'c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [20]:
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

Em alguns casos, convém calcular um histograma em várias colunas relacionadas em um DataFrame. Aqui está um exemplo:

In [22]:
data = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4], 'Qu2': [2, 3, 1, 2, 3], 'Qu3': [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


Passando pandas.value_counts para a função de aplicação deste DataFrame fornece:

In [24]:
result = data.apply(pd.value_counts).fillna(0)
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0
