<a href="https://colab.research.google.com/github/alexsandro-matias/lab_dio/blob/main/aula04_Trabalhando_arquivos_Excel.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Utilizando Arquivo do Excel para Análise de Dados

## Lendo os arquivos e depois mesclando-os

In [1]:
import pandas as pd

In [2]:
df1 = pd.read_excel("/content/Aracaju.xlsx")
df2 = pd.read_excel("/content/Fortaleza.xlsx")
df3 = pd.read_excel("/content/Natal.xlsx")
df4 = pd.read_excel("/content/Recife.xlsx")
df5 = pd.read_excel("/content/Salvador.xlsx")

Mesclando as coleções de Dados

In [3]:
df = pd.concat([df1,df2,df3,df4,df5])

In [4]:
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520,1
1,Aracaju,2018-01-01,14.21,1522,6
2,Aracaju,2018-01-01,71.55,1520,1
3,Aracaju,2018-01-01,3.01,1521,7
4,Aracaju,2018-01-01,24.51,1522,8


In [5]:
df.tail()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
235,Salvador,2019-01-03,41.84,1034,1
236,Salvador,2019-01-03,126.29,1035,3
237,Salvador,2019-01-03,38.06,1036,3
238,Salvador,2019-01-03,139.64,1035,1
239,Salvador,2019-01-03,161.41,1037,3


Para uma amostragem aleatória do dataframe.

In [6]:
df.sample(10)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
72,Recife,2019-01-01,42.32,982,2
4,Recife,2019-02-14,19.89,983,7
5,Recife,2019-01-01,13.59,980,3
25,Natal,2019-01-13,611.0,852,2
10,Fortaleza,2019-01-01,179.88,1002,4
38,Natal,2018-02-25,828.0,852,4
135,Natal,2019-01-02,9.95,1037,3
54,Natal,2018-10-03,373.0,852,4
126,Natal,2019-01-02,41.69,1036,2
137,Salvador,2019-03-02,51.66,1036,3


Neste exemplo, como os ID's das lojas não sofrerão nenhum cálculo, esses serão convertidos para o tipo texto.

In [7]:
df['LojaID'] = df['LojaID'].astype("object")

Para testar o efeito, verificaremos o tipo dos ID's:

In [8]:
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID            object
Qtde               int64
dtype: object

# Verificando valores nulos ou faltantes

Primeiramente, verificando os valores faltantes: 

In [9]:
df.isnull().sum()

Cidade    0
Data      0
Vendas    5
LojaID    0
Qtde      0
dtype: int64

Como foram mostrados dados faltantes. Neste contexto, várias abordagens podem ser adotadas. Uma delas é a exclusão desses valores; já outra, a que será abordada neste caso, será executada a média dos valores e depois atribuída aos valores faltantes. 

In [10]:
df["Vendas"].fillna(df["Vendas"].mean(), inplace=True)

Verificando se os valores forem preenchidos:

In [11]:
df.isnull().sum()

Cidade    0
Data      0
Vendas    0
LojaID    0
Qtde      0
dtype: int64

Caso fosse utilizada a abordadem de substituição de zero pelos valores faltantes, poderia feita da seguinte forma:

In [12]:
df["Vendas"].fillna(0, inplace=True)

Para exclusão dos registros que estivessem com valores faltantes:

O parâmetro inplace = True, faz com que haja uma substituição do objeto depois de executados os métodos. Caso seja marcado com **false**, haverá a visualização dos dados com os métodos porém no objeto em memória não será alterado.

In [13]:
df.dropna(inplace=True)

É possível que os valores de saída de **df.isnull().sum()** sejam em diferentes de zero em várias colunas. Para apagar as linhas apenas de determinada coluna podemos selecioná-la para exclusão:

In [13]:
df.dropna(subset=["Vendas"], inplace=True)

Caso a remoção seja apenas se todos os elementos estejam faltantes, ou seja, o registro vazio:

In [None]:
df.dropna(how="all", inplace=True)

# Manipulando colunas

## Criando colunas

Supondo que seja necessário criar um nova coluna chamada **Receita**, onde representa o produto da coluna **Vendas** e a **Qtde**:

In [14]:
df["Receita"] = df["Vendas"].mul(df["Qtde"])

Verificando a alteração teremos:

In [15]:
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
0,Aracaju,2018-01-01,142.0,1520,1,142.0
1,Aracaju,2018-01-01,14.21,1522,6,85.26
2,Aracaju,2018-01-01,71.55,1520,1,71.55
3,Aracaju,2018-01-01,3.01,1521,7,21.07
4,Aracaju,2018-01-01,24.51,1522,8,196.08


Para uma divisão teremos:

In [16]:
df["Quantidade"] = df["Receita"] / df["Vendas"]

In [17]:
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Quantidade
0,Aracaju,2018-01-01,142.0,1520,1,142.0,1.0
1,Aracaju,2018-01-01,14.21,1522,6,85.26,6.0
2,Aracaju,2018-01-01,71.55,1520,1,71.55,1.0
3,Aracaju,2018-01-01,3.01,1521,7,21.07,7.0
4,Aracaju,2018-01-01,24.51,1522,8,196.08,8.0


Para o valor máximo da Receita:

In [18]:
df["Receita"].max()

3544.0

Para o menor valor de Receita:

In [19]:
df["Receita"].min()

3.34

Observa-se que esses valores são apenas retornadas sem muitos detalhes. Para sabermos uma determinada quantidade de registros a partir dos valores máximo ou mínimo de determinado campo executaremos: 

In [20]:
df.nlargest(3, "Receita")

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Quantidade
7,Natal,2019-03-18,886.0,853,4,3544.0,4.0
51,Natal,2018-01-21,859.0,852,4,3436.0,4.0
55,Natal,2019-01-08,859.0,854,4,3436.0,4.0


Neste caso traremos **"3"** maiores valores da coluna **Receita**.

A mesma ideia pode ser aplicada para as menores Receitas:

In [21]:
df.nsmallest(3, "Receita")

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Quantidade
118,Aracaju,2018-01-01,3.34,1522,1,3.34,1.0
65,Recife,2019-01-01,4.01,981,1,4.01,1.0
92,Natal,2019-01-02,4.57,1035,1,4.57,1.0


## Agrupamento por Cidade

A soma das receitas por cidade seria:

In [23]:
df.groupby("Cidade")["Receita"].sum()

Cidade
Aracaju       48936.874612
Fortaleza     38149.542306
Natal        167227.520000
Recife        51936.510000
Salvador      40596.730000
Name: Receita, dtype: float64

Caso se queira a ordenação das 5 maiores receitas:

In [26]:
df.sort_values("Receita" , ascending=False).head(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Quantidade
7,Natal,2019-03-18,886.0,853,4,3544.0,4.0
51,Natal,2018-01-21,859.0,852,4,3436.0,4.0
55,Natal,2019-01-08,859.0,854,4,3436.0,4.0
30,Natal,2018-10-02,856.0,853,4,3424.0,4.0
41,Natal,2018-05-20,835.0,852,4,3340.0,4.0
