# Notebook 2 - Operações Básicas

Python, Dados e Narrativas

### 1 -  Import

Essa nós já vimos bastante no notebook anterior. 

Inclusive, importe os dados que nós vamos utilizar nesse notebook.

In [None]:
import pandas as pd

In [None]:
url = 'https://raw.githubusercontent.com/pyladiespb-org/minicurso-analise-descritiva-dados-abertos/master/data/populacao/populacao_genero_cor_2010.csv'
url

In [None]:
populacao = pd.read_csv(url, delimiter=';', header=2)

In [None]:
# Visualize as 10 primeiras linhas da tabela

populacao.head()

In [None]:
populacao.columns

Agora que importamos o dados, será que é preciso algum ajuste? algum pré processamento?

**Pausa estratégica: O que é pré processamento de dados?**

<img src="https://media.giphy.com/media/fpXxIjftmkk9y/giphy.gif">

É todo tratamento que precisamos fazer nos dados antes da análise: Renomear colunas, retirar registros vazios, retirar erros de digitação, juntar dados que queremos analisar... Vá por mim, é tanta coisa estranha que pode vir na fonte de dados que você nem imagina...

No nosso caso vamos renomear a coluna 'Unnamed: 6' e deixar mais fácil a legibilidade da coluna 'Unidade da Federação'.

In [None]:
populacao = populacao.rename(columns={'Unnamed: 6': "Quantidade", 
                                      'Unidade da Federação': "Estado"})
populacao.head()

Será que acabou? E se olharmos o final do arquivo?

In [None]:
populacao[57670:]

Existem valores ali que são apenas descritivo dos dados e não devem ser consideração junto dos demais. Vamor retirar!

Observando o índice da linha da tabela é possível fazer o recorte.

In [None]:
populacao = populacao[:57672]
populacao.tail()

Existem ainda registros que para indicar a ausência de informação possuem '-' ao invés de 0. Vamos corrigir!

In [None]:
populacao= populacao.replace('-', 0)
populacao.tail()

Vocês notaram como a informação de 'Ano' está?

In [None]:
populacao.dtypes

Ahaaaaaa! 'Ano' está como número decimal ao invés de string, ou date...

E a coluna 'Quantidade' está como object ao invés de inteiro...

Não perca as esperanças ainda. Vamos corrigir!

In [None]:
populacao['Quantidade'] = populacao['Quantidade'].astype(int)
populacao['Ano'] = populacao['Ano'].astype(object)
populacao.dtypes

Agora pronto!

### 2 - Agrupamento e Somatório

O agrupamento de dados é basicamente realizar uma operação sobre um dos atributos dos dados considerando que eles tem um outro atributo em comum, o que indica semelhança entre eles. Essa operação pode ser uma média, soma de valores, selecionar o valor máximo, contar a quantidade de linhas, entre outros.

Por exemplo, uma vez que tenhamos uma tabela com as colunas 'Região', 'Estado', 'Cidade' e 'Quantidade', podemos agrupar os dados de forma a descobrir qual o valor total da quantidade considerando a Região.

Como fazemos isso na prática? Somando todos os valores da coluna 'Quantidade' que tenham os valores iguais para a coluna 'Região'.

Com o infográfico abaixo vai ficar mais fácil de ver

<img src="../imagens/agrupamento_regiao.png">

O que também é possível de ser feito considerando o Estado

<img src="../imagens/agrupamento_estado.png">

Vamos lá! Agrupando e somando. Mas por qual coluna?

In [None]:
populacao.columns

Que tal descobrimos a distribuição entre homens e mulheres no país?

In [None]:
genero = populacao.groupby('Sexo').sum()
genero

In [None]:
genero_porcentagem = genero['Quantidade']/sum(genero['Quantidade'])*100

genero_porcentagem = pd.DataFrame(genero_porcentagem)

genero_porcentagem.style.format({
    'Quantidade': '{:.2f}%'.format
})

E se fizermos isso para cada 'Estado'?

In [None]:
genero_estado = populacao.groupby(['Sexo', 'Estado']).sum().reset_index()
genero_estado

### 3 - Ordenação

Ver os dados acima até que é legal, mas é meio dificil descobrir qual o estado com mais mulheres.

Para resolver isso, primeiro a gente filtra

In [None]:
mulheres = genero_estado.loc[genero_estado['Sexo'] == 'Mulheres']
mulheres

Depois a gente ordena por ordem descrescente. E aí está o nosso Ranking da População Feminina.

In [None]:
mulheres.sort_values('Quantidade', ascending=False)

### 4 - Média

Qual será a média de mulheres por Estado?

In [None]:
pd.options.display.float_format = '{:.2f}'.format

In [None]:
mulheres.groupby('Sexo').mean()

Olha só! A média da população feminina por estado é de aproximadamente 3,5 milhões...

**Isso significa que é esperado que as populações de todos os estados estejam perto desse valor?**

<img src="https://media.giphy.com/media/eeL8EcBBTwSMLACw6F/source.gif">

Vamos voltar no ranking que fizemos sobre população de mulheres.
É possível perceber que essa afirmação soa um pouco estranha quando consideramos que Acre, Amapá e Roraima
tem uma população feminina menor que 500 mil e São Paulo que tem 21 milhões, é o único estado com população feminina acima de 10 milhões. 

A média representa o valor onde os dados se concentram e pode ser fortemente afetada por valores altos demais ou 
baixos demais quando comparados com os demais valores. Por isso, é preciso ter cuidado ao utilizar a média. 
É preciso estar ciente do que ela significa e de como ela pode ser afetada.

Aproveitando esse momento, vamos falar de mais um ponto bastante importante.
Por exemplo, se nós tivéssemos dados históricos indicando que a população de mulheres vem crescendo, juntamente com dados que mostrassem o crescimento de roubos de chocolates nos supermercados... Poderíamos afirmar que os chocolates estão sendo roubados porque existem mais mulheres? Que as mulheres estão roubando o chocolocate? Hummmm.. Será? Eu ainda acho que podem ser as crianças...

**Não gente! Não podemos fazer esse tipo de afirmação considerando apenas que duas variáveis cresceram juntas. Em casos assim podemos nos deixar levar e pensar que uma variável causa a outra, quando na verdade elas só estão correlacionadas...**

### Eu vou colocar bem grande que é pra você não esquecer

<img src="../imagens/slide12v2.png">

### Próximo!