Module 3, Lab 1 - Frequency Claims
==================================

In this lab, we will examine how to analyze data for a frequency claim.
A frequency claim is where the level of a single variable is reported.
___
Módulo 3, Laboratório 1 - Reivindicações de frequência
======

Neste laboratório, examinaremos como analisar dados para uma reivindicação de frequência. Uma reivindicação de frequência é onde o nível de uma única variável é relatado.
___
In this example, you are analyzing data from a local coffee company. You
wish to know how many coffee beverages are consumed by the average
customer in a day. These customers are surveyed and the data are
produced. You load the data from a CSV file (in the datasets github folder for
this lab).

The packages are loaded as a first step. You can safely ignore any deprecation warning which may appear depending on the version of the `statsmodels` package being loaded. 
___
Neste exemplo, você está analisando dados de uma empresa de café local. Você deseja saber quantas bebidas de café são consumidas pelo cliente médio em um dia. Esses clientes são pesquisados e os dados são produzidos. Você carrega os dados de um arquivo CSV (na pasta github dos conjuntos de dados deste laboratório).

Os pacotes são carregados como uma primeira etapa. Você pode ignorar com segurança qualquer aviso de descontinuação que possa aparecer dependendo da versão do pacote statsmodels que está sendo carregada.

In [None]:
#### LOAD PACKAGES ####
## Use inline magic command so plots appear in the data frame
%matplotlib inline

## Next the packages
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from scipy.stats import skew
import statsmodels.stats.api as sms

Next, we load our data as a Pandas data frame:
___
Em seguida, carregamos seus dados como um quadro de dados do Pandas:


In [None]:
#### LOAD DATA ####
dat = pd.read_csv("datasets/cupsdat.csv")

You inspect the data using the Pandas `columns` attribute and `head()` function:
___
Você inspeciona os dados usando o atributo de colunas do Pandas e a função head ():

In [None]:
print(dat.columns)

dat.head()

There is an ID variable called `Unnamed` and a variable indicating the number of
beverages named `count`.

The first thing to do is to explore the variable. The Pandas `describe()`
method has many useful features.

___

Existe uma variável de identificação chamada Sem nome e uma variável indicando o número de bebidas nomeadas contagem.

A primeira coisa a fazer é explorar a variável. O método Pandas descrevem () possui muitos recursos úteis.

In [None]:
dat['count'].describe()

Here we see that scores range from 0-7, with a median (50% quantile) of 2.
___
Aqui vemos que as pontuações variam de 0 a 7, com uma mediana (50% quantil) de 2.
___


Exploring Counts
================

We can also use the `value_counts()` method on a Pandas series (single column of vector):
___
Exploração de contagens
===
Também podemos usar o método value_counts () em uma série do Pandas (coluna única do vetor):

In [None]:
dat['count'].value_counts()

This gives us a sense of the distribution. The values are in the left column and the counts in the right column. 

Often, stakeholders want percentages. This is easy to accomplish, provided you know how many responses you have. The number of rows in the data frame can be returned as the first value of the shape attribute:
___
Isso nos dá uma noção da distribuição. Os valores estão na coluna da esquerda e as contagens na coluna da direita.

Muitas vezes, as partes interessadas querem porcentagens. Isso é fácil de realizar, desde que você saiba quantas respostas você tem. O número de linhas no quadro de dados pode ser retornado como o primeiro valor do atributo shape:


In [None]:
dat.shape[0]

Or, you could ask for the `len()` of the `dat$count` variable:
___

Ou você pode pedir o len () da variável dat $ count:

In [None]:
len(dat['count'])

However, I would avoid these as there could be missing values in the data frame. Treating missing values in Pandas data frames is a bit complicated as there can be multiple ways missing values are coded. The simple general recipe for finding and treating missing values is:
1. Determine how missing values are coded. They might be coded as `numpy.nan` (not a number), `numpy.inf` (infinity) or some other code.
2. Convert all missing values to `numpy.nan` values.
3. Use the Pandas `dropna()` method.   

Following this recipe, the percentages of each value can be given by dividing each count by
the total is computed as shown.

___

No entanto, eu os evitaria, pois poderia haver valores ausentes no quadro de dados. Tratar valores ausentes nos quadros de dados do Pandas é um pouco complicado, pois pode haver várias maneiras de codificar os valores ausentes. A receita geral simples para encontrar e tratar valores ausentes é:
1. Determine como os valores ausentes são codificados. Eles podem ser codificados como numpy.nan (não um número), numpy.inf (infinito) ou algum outro código.
2. Converta todos os valores ausentes em valores numpy.nan.
3. Use o método Pandas dropna ().

Após esta receita, as porcentagens de cada valor podem ser dadas dividindo-se cada contagem pelo total é calculado como mostrado.

In [None]:
## Remove rows with nan without making copy of the data frame
dat.dropna(axis = 0, inplace = True) 

## Now get the counts into a data frame sorted by the number
count_frame = dat['count'].value_counts()
count_frame = pd.DataFrame({'number':count_frame.index, 'counts':count_frame}).sort_values(by = 'number')

## Compute the percents for each number
n = len(dat['count'])
count_frame['percents'] = [100* x/n for x in count_frame['counts']]

## Print as a nice table
count_frame[['number', 'percents']]

Finally, it can sometimes be helpful to generate a cumulative
percentage. This can be done with the `cumsum()` method:
___

Finalmente, às vezes pode ser útil gerar uma porcentagem cumulativa. Isso pode ser feito com o método cumsum ():

In [None]:
## Add a cumsum dat
count_frame['cumsums'] = count_frame['percents'].cumsum()
## Print as a nice table
count_frame[['number', 'percents', 'cumsums']]

We see here easily that 60% of the sample has consumed 2 drinks per day
or fewer. This is a very handy little chart.
___

Vemos aqui facilmente que 60% da amostra consumiu 2 bebidas por dia ou menos. Este é um pequeno gráfico muito útil.
___

Histogram
=========

The most common data visualization is a histogram:

___

Histograma
===
A visualização de dados mais comum é um histograma:

In [None]:
plt.hist(dat['count'])

![](M3_Lab1_-_Frequency_files/figure-markdown_strict/unnamed-chunk-12-1.png)

We see here that the most common score is 1 and that that data has considerable skew. But, notice there are gaps in the histogram bars. You know from the frequency table that there should be no gaps. 

The problem with the above histogram is that the default number of bins was used. Using 8 bins (for the 8 possible count values) will give a more representative histogram. 

___ 

Vemos aqui que a pontuação mais comum é 1 e que esses dados têm uma inclinação considerável. Mas observe que existem lacunas nas barras do histograma. Você sabe pela tabela de frequências que não deve haver falhas.

O problema com o histograma acima é que o número padrão de posições foi usado. Usar 8 compartimentos (para os 8 possíveis valores de contagem) fornecerá um histograma mais representativo.

In [None]:
plt.hist(dat['count'], bins = 8)

![](M3_Lab1_-_Frequency_files/figure-markdown_strict/unnamed-chunk-13-1.png)

This looks both professional and more accurate. Changing plot properties can change your perception of data.

To make a better graph for a presentation you can add plot attributes, such as axis labels and a title:

___

Parece profissional e mais preciso. Alterar as propriedades da plotagem pode alterar sua percepção dos dados.

Para criar um gráfico melhor para uma apresentação, você pode adicionar atributos de plotagem, como rótulos de eixos e um título:


In [None]:
plt.hist(dat['count'], bins = 8)
plt.title('Frequency of number of cups of coffee consumed')
plt.xlabel('Cups of coffee per day')
plt.ylabel('Frequency')


Central Tendency
================

Assuming you want to provide a one-number summary, you can provide an
average. However, we see here given the skew that the mean will be
biased upwards.

Using the `skew()` function from the `scipy.stats` package, we can see this is
a modestly skewed distribution:

___


Tendencia central
====

Supondo que você queira fornecer um resumo de um número, você pode fornecer uma média. No entanto, vemos aqui, dada a distorção de que a média será enviesada para cima.

Usando a função skew () do pacote scipy.stats, podemos ver que esta é uma distribuição modestamente distorcida:

In [None]:
skew(dat['count'])

This is within acceptable range for many purposes (any analyses start to
worry when skew reaches somewhere between 0.80-2.0). You can compute the mean and median of an array using the Numpy `mean()` and `median()` functions:
___
Isso está dentro da faixa aceitável para muitos propósitos (qualquer análise começa a se preocupar quando a inclinação atinge algo entre 0,80-2,0). Você pode calcular a média e a mediana de uma matriz usando as funções Numpy mean () e median ():

In [None]:
print(np.mean(dat['count']))
print(np.median(dat['count']))

Before you finish, you might want to put a confidence interval around
the mean. You can use the `CI()` command from the `Rmisc` package,
which works well for analysis when you plan to analyze the mean:
___
Antes de terminar, você pode colocar um intervalo de confiança em torno da média. Você pode usar o comando CI () do pacote Rmisc, que funciona bem para análise quando planeja analisar a média:

In [None]:
sms.DescrStatsW(list(dat['count'])).tconfint_mean()

If you wished to provide a CI for a median, or if your data are
proportions or some other format than these, there are many easy options
that can be found with a brief web search, similar to the above.

Conclusion
==========

In this case, we can make a frequency claim: most people, on average
consume 1-2 cups of coffee per day.
___
Se você deseja fornecer um IC para uma mediana ou se seus dados são proporções ou algum outro formato além desses, existem muitas opções fáceis que podem ser encontradas com uma breve pesquisa na Web, semelhante à acima.

Conclusão
====
Nesse caso, podemos fazer uma reivindicação de frequência: a maioria das pessoas consome, em média, 1-2 xícaras de café por dia.