# Pandas - Estatísticas Descritivas dos Dados do Dataframe
## Pandas

O pandas é uma ferramenta de análise e manipulação de dados de código aberto rápida, poderosa, flexível e fácil de usar,
construída sobre a linguagem de programação Python 

https://pandas.pydata.org/


## Estruturas de dados do Pandas


In [1]:
import numpy as np
import pandas as pd

## Estatísticas descritivas 
Existe um grande número de métodos para calcular estatísticas descritivas como sum(), mean()e quantile(),  cumsum()e cumprod()

In [2]:
df = pd.read_csv('totaisregioes_arr.csv', sep=';',names =['UF','CASOS','OBITOS'], index_col='UF')
df

Unnamed: 0_level_0,CASOS,OBITOS
UF,Unnamed: 1_level_1,Unnamed: 2_level_1
Centro-Oeste,4574674,67252
Nordeste,7571957,136957
Norte,2984041,52114
Sudeste,15594474,344537
Sul,8266663,113218


In [3]:
df.mean(0)

CASOS     7798361.8
OBITOS     142815.6
dtype: float64

In [4]:
df2 = df.T
df2

UF,Centro-Oeste,Nordeste,Norte,Sudeste,Sul
CASOS,4574674,7571957,2984041,15594474,8266663
OBITOS,67252,136957,52114,344537,113218


In [5]:
df2.mean(1)

CASOS     7798361.8
OBITOS     142815.6
dtype: float64

Todos esses métodos têm uma skipna opção sinalizando se deve excluir dados ausentes ( True por padrão):

In [6]:
df.sum(0, skipna=False)

CASOS     38991809
OBITOS      714078
dtype: int64

In [7]:
df.sum(axis=0, skipna=True)

CASOS     38991809
OBITOS      714078
dtype: int64

## Combinado com o comportamento aritmético / de transmissão

In [8]:
desvio = (df - df.mean()) 
desvio

Unnamed: 0_level_0,CASOS,OBITOS
UF,Unnamed: 1_level_1,Unnamed: 2_level_1
Centro-Oeste,-3223687.8,-75563.6
Nordeste,-226404.8,-5858.6
Norte,-4814320.8,-90701.6
Sudeste,7796112.2,201721.4
Sul,468301.2,-29597.6


In [9]:
df.cumsum()

Unnamed: 0_level_0,CASOS,OBITOS
UF,Unnamed: 1_level_1,Unnamed: 2_level_1
Centro-Oeste,4574674,67252
Nordeste,12146631,204209
Norte,15130672,256323
Sudeste,30725146,600860
Sul,38991809,714078


### Função Comuns

- count: Número de observações não NA
- sum : Soma de valores
- mean : Média dos valores
- mad: Desvio médio absoluto
- median: Mediana aritmética de valores
- min: Mínimo
- max: Máximo
- mode: Moda
- abs: Valor absoluto
- prod :Produto de valores
- std: Desvio padrão da amostra corrigido por Bessel
- var: Variância imparcial
- sem: Erro padrão da média
- skew: Amostra de assimetria (3º momento)
- kurt: Curtose de amostra (4º momento)
- quantile: Quantil de amostra (valor em %)
- cumsum: Soma cumulativa
- cumprod: Produto cumulativo
- cummax: Máximo cumulativo
- cummin: Mínimo cumulativo

### Series.nunique() 
retornará o número de valores não NA exclusivos em uma série:

In [10]:
series = pd.Series(np.random.randint(100,150,10))
print(series)
series.unique()
print(series.nunique())

0    104
1    107
2    117
3    101
4    133
5    140
6    113
7    111
8    114
9    109
dtype: int32
10


In [23]:
series.unique()

array([        nan, -0.57628932, -1.14166724, -0.93259194, -2.32033072,
        1.25100902])

In [24]:
series.nunique()

5

## Resumindo os dados com :describe() 
Describe() função conveniente que calcula uma variedade de estatísticas resumidas sobre uma série ou colunas de um DataFrame (excluindo NAs):

In [11]:
series = pd.Series(np.random.randn(10))
series[::2]

0    0.813521
2   -0.703467
4   -0.242621
6   -0.744973
8   -1.203857
dtype: float64

In [12]:
series[::2] = np.nan
series

0         NaN
1   -0.576289
2         NaN
3   -1.141667
4         NaN
5   -0.932592
6         NaN
7   -2.320331
8         NaN
9    1.251009
dtype: float64

In [13]:
series.describe()

count    5.000000
mean    -0.743974
std      1.292934
min     -2.320331
25%     -1.141667
50%     -0.932592
75%     -0.576289
max      1.251009
dtype: float64

In [14]:
df = pd.DataFrame(np.random.randn(10, 5), columns=['a', 'b', 'c', 'd', 'e'])
df

Unnamed: 0,a,b,c,d,e
0,-1.028405,-0.299333,-0.381923,-1.438624,-0.932663
1,-0.836721,-0.912868,0.898384,1.089426,-0.985057
2,1.184254,0.472001,-0.818173,-0.051488,1.015471
3,0.325053,0.78455,-0.31442,-0.278034,-2.19889
4,0.779308,-0.79491,0.333211,-0.749146,0.525673
5,0.540322,0.280935,-0.080748,-1.115331,0.102605
6,0.950967,-0.081523,0.536764,0.025083,0.484109
7,-1.23643,-1.754823,1.347284,0.879635,0.42274
8,0.650925,-0.332519,0.77901,-1.159259,-0.639594
9,-0.602123,-0.179547,-1.596002,1.487558,0.980397


In [15]:
df.iloc[::2] = np.nan
df

Unnamed: 0,a,b,c,d,e
0,,,,,
1,-0.836721,-0.912868,0.898384,1.089426,-0.985057
2,,,,,
3,0.325053,0.78455,-0.31442,-0.278034,-2.19889
4,,,,,
5,0.540322,0.280935,-0.080748,-1.115331,0.102605
6,,,,,
7,-1.23643,-1.754823,1.347284,0.879635,0.42274
8,,,,,
9,-0.602123,-0.179547,-1.596002,1.487558,0.980397


In [16]:
df.describe()

Unnamed: 0,a,b,c,d,e
count,5.0,5.0,5.0,5.0,5.0
mean,-0.36198,-0.356351,0.0509,0.412651,-0.335641
std,0.763851,1.00056,1.146943,1.077415,1.264179
min,-1.23643,-1.754823,-1.596002,-1.115331,-2.19889
25%,-0.836721,-0.912868,-0.31442,-0.278034,-0.985057
50%,-0.602123,-0.179547,-0.080748,0.879635,0.102605
75%,0.325053,0.280935,0.898384,1.089426,0.42274
max,0.540322,0.78455,1.347284,1.487558,0.980397


#### Você pode selecionar percentis específicos para incluir na saída:

In [17]:
series.describe(percentiles=[.05, .25, .75, .95])

count    5.000000
mean    -0.743974
std      1.292934
min     -2.320331
5%      -2.084598
25%     -1.141667
50%     -0.932592
75%     -0.576289
95%      0.885549
max      1.251009
dtype: float64

Para um objeto Series não numérico, describe()fornecerá um resumo simples do número de valores exclusivos e valores de ocorrência mais frequente:

In [18]:
s = pd.Series(['a', 'a', 'b', 'b', 'a', 'a', np.nan, 'c', 'd', 'a'])
s.describe()

count     9
unique    4
top       a
freq      5
dtype: object

Em DataFrame de tipo misto,o describe() restringirá o resumo para incluir apenas colunas numéricas ou, se nenhuma for, apenas colunas categóricas:

In [19]:
df = pd.DataFrame({'a': ['joão', 'jose', 'joaquim', 'maria'], 'b': range(4)})
df.describe()

Unnamed: 0,b
count,4.0
mean,1.5
std,1.290994
min,0.0
25%,0.75
50%,1.5
75%,2.25
max,3.0


### Este comportamento pode ser controlado fornecendo uma lista de tipos como include/ exclude argumentos. O valor especial alltambém pode ser usado:

In [20]:
df.describe(include=['object'])

Unnamed: 0,a
count,4
unique,4
top,joão
freq,1


In [21]:
df.describe(include=['number'])

Unnamed: 0,b
count,4.0
mean,1.5
std,1.290994
min,0.0
25%,0.75
50%,1.5
75%,2.25
max,3.0


In [22]:
df.describe(include='all')

Unnamed: 0,a,b
count,4,4.0
unique,4,
top,joão,
freq,1,
mean,,1.5
std,,1.290994
min,,0.0
25%,,0.75
50%,,1.5
75%,,2.25
