<img alt="Colaboratory logo" width="15%" src="https://raw.githubusercontent.com/carlosfab/escola-data-science/master/img/novo_logo_bg_claro.png">

#### **Missão: Python do Zero**
*by [sigmoidal.ai](https://sigmoidal.ai)*

---


## Analisando Dados da Empresa com Python

Focando sempre na prática, já vamos ter o nosso primeiro projeto. Aqui vamos ver na prática o poder e quantidade de tempo e trabalho que pode ser poupado em nossas rotinas diárias com **Python**.

Nesse projeto, vamos analisar dados de estoque de uma empresa utilizando Python e uma das bibliotecas mais amplamente utilizadas quando se fala em Análise de Dados com Python: o Pandas.

<center><img width="35%" src="https://image.freepik.com/free-vector/warehouse-worker-checking-inventory_3446-395.jpg
"></center>


#### Importando uma biblioteca para manipular planilhas

O [Pandas](https://pandas.pydata.org/docs/) é uma biblioteca *Open Source* de Python extremamente poderosa que é amplamente utilizada para análise de dados. Uma de suas facilidades é a apresentação tabular (por tabelas) dos dados, o que se assemelha muito ao formato de Excel que estamos acostumados.

Essa familiaridade unida ao poder do Pandas o tornam uma ferramenta imprescindível no dia a dia de qualquer programador Python que trabalha com dados.

Como estamos falando de uma biblioteca, e não do Python nativo, precisamos importá-la. Isso é feito com o comando: `import`. Usamos esse comando sempre que vamos importar uma nova biblioteca.

Mas pandas é um nome maior do que o necessário, o que pode atrapalhar nosso fluxo de trabalho. Por isso, é comum usarmos *aliases*, ou "apelidos" para as bibliotecas. Fazemos isso usando o `as`.

Então quando digitamos:

`import pandas as pd`

Estamos dizendo para o Python que:

`import` o Pandas `como` pd

Ainda sobre *aliases*, é importante saber que podemos dar a eles o nome que preferirmos, mas o ideal é usar a convenção entre os programadores. Isso vai facilitar a leitura do seu código para outras pessoas, e usando isso no seu, você se acostuma a ver isso nos códigos de outras pessoas, o que facilita seu entendimento e aprendizado.

In [None]:
# importar os pacotes necessários
import pandas as pd

#### Importar uma planilha de Excel usando a biblioteca `pandas` do Python

Agora que já importamos nosso pacote, é hora de caregarmos nossa planilha pra dentro do Colab. Para isso, baixe o arquivo disponível nos links úteis desta aula, abra a aba à esquerda aqui do seu navegador, e arraste o arquivo da planilha pra lá. Lembre-se, essses uploads são temporários, e terão que ser feitos novamente toda vez que o notebook for aberto.

Para ler arquivos excel usar função do pandas `pd.read_excel` e , ao carregar a planilha, vamos dar um nome a ela, associando o arquivo a uma variável.

Para importar a planilha com o Pandas, clique com o botão direto no arquivo que você importou dentro da aba à esquerda, e selecione a opção *copy path* para que o pandas saiba onde está o arquivo. Também vamos passar o parâmetro `None`, para carregar todas as abas da planilha.

In [None]:
# importar planilha do Excel
planilha = pd.read_excel("controle_da_empresa.xlsx", None)

Pronto! nossa planilha foi carregada com sucesso. Ao executar a célula com o nome (variável) planilha, observe como todas as abas foram carregadas:

In [None]:
# executando a variável planilha
planilha

#### Acessando uma aba específica da planilha

Em uma planilha com mais de uma aba como a nossa, podemos carregar a aba `Estoque`, por exemplo, executando o comando `planilha["Estoque"]`. Basta colocar entre parêntesis, dentro dos colchetes o nome da aba.

Lembre-se que o Python é *case sensitive*, ou seja, ele é sensível à variação entre maiúsculas e minúsculas. Portanto, para o Python, estoque é diferente de Estoque.

In [None]:
# visualizando a aba Estoque
planilha["Estoque"]

Agora que já sabemos carregar abas específicas, podemos dar uma olhada em outras abas da planilha, como por exemplo, a aba `Vendas`.

Para carregar a aba `Vendas`, digitamos `planilha["Vendas"]`.

In [None]:
# visualizando a aba Vendas
planilha["Vendas"]

Também é bastante útil visualizar as abas existentes na planilha carregada. Isso é essencial ao carregar um arquivo que você não conhece ainda, ou até mesmo para garantir que um que você já conhece foi carregado corretamente.

Para descobrir o nome de todas as abas carregadas, executamos `planilha.keys()`.

In [None]:
# verificando as abas da planilha
planilha.keys()

#### Acessar uma coluna específica da planilha

Já verificamos a planilha inteira, já entramos em diferentes abas, mas como podemos verificar coisas ainda mais específicas? E se quiséssemos acessar uma coluna dentro de uma das abas?

Para fazer isso, vamos acessar a coluna `Total de Vendas` da aba `Vendas` como exemplo.

Basta executar `planilha['aba']['coluna']`.

Veja abaixo:

In [None]:
# acessando uma coluna dentro de uma aba
planilha["Vendas"]["Total de Vendas"]

Acessar as colunas já é bacana, mas precisamos ir além, e conseguir manipular esses valores. Para somar todos os valores, utilizamos o comando `sum`.

In [None]:
# somando os valores de uma coluna
planilha['Vendas']['Total de Vendas'].sum()

Com Python, também é fácil calcular a média aritmética dos valores de uma coluna, basta usar o comando `mean`.

In [None]:
# calculando a média aritmética dos valores de uma coluna
planilha['Vendas']['Total de Vendas'].mean()

Dentro de uma análise estatística, é muito importante entender a distribuição dos dados que estamos trabalhando, e um dos aspectos que precisamos analisar é o desvio padrão.

Em termos simples, o desvio padrão é o quanto os valores analisados variam da média do conjunto.

Com Python, encontrar esse valor é muito fácil. Basta usar o comando `std`, que vem de *Standard Deviation*, termo em inglês para desvio padrão.

In [None]:
# calculando o desvio padrão de uma coluna
planilha['Vendas']['Total de Vendas'].std()

#### Gerando gráficos com dados da planilha

Agora que já conseguimos carregar, ver dados tabulares, e manipular os dados de nossa planilha, é hora de ir além, e gerar visualizações.

Existem muitas bibliotecas de Python criadas especificamente para visualizações, com alto poder gráfico, capazes de gerar visualizações incríveis, completas e complexas.

Mas isso não significa que gerar visualizações informativas precisa ser difícil. O próprio Pandas facilita muito a nossa vida, criando visualizações de forma, simples, prática, fácil e eficaz.

O Pandas já vem com uma infinidade de coisas implementada, inclusive capacidade de plotar gráficos.

In [None]:
# criar uma nova variável (pense como um atalho)
vendas = planilha['Vendas']

In [None]:
# visualizando a variável
vendas

Para selecionar colunas, continuamos fazendo da mesma forma que fizemos anteriormente.

In [None]:
# selecionando uma coluna
vendas["Total de Vendas"]

Com as informações que temos, é possível plotar facilmente um **Gráfico de Linhas** que demonstre o total de vendas em um determinado período de tempo.

No eixo X (horizontal) temos a data, e no eixo Y (vertical) o total de vendas.

In [None]:
# plotando gráfico de linhas
vendas.plot("Data da Venda", "Total de Vendas")

Outra visualização bastante útil e informativa são os [Histogramas](https://pt.khanacademy.org/math/pt-8-ano/probabilidade-e-estatistica-8ano/graficos/a/histograma-grafico-de-barra). O Histograma é uma ferramenta estatística que nos ajuda a verificar a distribuição dos dados. Em termos simples, em determinados intervalos, temos *bins*, ou caixas, que recebem dados que estão dentro daquele intervalo.

É importante não confundir essa visualização com gráficos de barras, pois são usados com objetivos diferentes. Clique [aqui](https://pt.khanacademy.org/math/pt-8-ano/probabilidade-e-estatistica-8ano/graficos/a/histograma-grafico-de-barra) caso queira se aprofundar nessas visualizações.

De qualquer forma, plotar um histograma para ver quanto as pessoas costumam gastar, em sua maioria, por exemplo, é muito simples:

In [None]:
# plotando histograma
vendas.hist("Total de Vendas")

#### Algumas manipulações de datas (apenas para conhecimento)

O Python com Pandas também nos possibilita a manipulação de dados organizados cronologicamente.

Não se preocupe com isso nesse momento. Esse é apenas um exemplo pra mostrar as possibilidades que temos com Python em relação às datas, e como trabalhar com datas em Python pode ser muito mais fácil do que lidar com Excel.

Ao manipular datas com Python, podemos, por exemplo, plotar um histograma para analisarmos a distribuição das vendas por dia da semana.

In [None]:
# lendo a variável vendas
vendas

In [None]:
# verificando a coluna Data da Venda
vendas["Data da Venda"]

In [None]:
# visualizando histograma de vendas por dia da semana
vendas["Data da Venda"].apply(lambda x: x.weekday()).hist(bins=7)