# Trabalhando com planilhas no pandas
### Desafio de Projeto - DIO
**Autor:** *Yuri Melo* 

In [1]:
#importando pandas
import pandas as pd

In [2]:
#importando dados
df1 = pd.read_excel("C:/Users/meloy/Documents/PROJETOS_GIT/python-ds/PYTHON-DS/desafio-projeto1/datasets/Aracaju.xlsx")
df2 = pd.read_excel("C:/Users/meloy/Documents/PROJETOS_GIT/python-ds/PYTHON-DS/desafio-projeto1/datasets/Fortaleza.xlsx")
df3 = pd.read_excel("C:/Users/meloy/Documents/PROJETOS_GIT/python-ds/PYTHON-DS/desafio-projeto1/datasets/Natal.xlsx")
df4 = pd.read_excel("C:/Users/meloy/Documents/PROJETOS_GIT/python-ds/PYTHON-DS/desafio-projeto1/datasets/Recife.xlsx")
df5 = pd.read_excel("C:/Users/meloy/Documents/PROJETOS_GIT/python-ds/PYTHON-DS/desafio-projeto1/datasets/Salvador.xlsx")

In [3]:
#juntando todos os arquivos
df = pd.concat([df1, df2, df3, df4, df5])

In [4]:
#mostrando primeiras 5 linhas do dataframe
df.head(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520,1
1,Aracaju,2018-01-01,14.21,1522,6
2,Aracaju,2018-01-01,71.55,1520,1
3,Aracaju,2018-01-01,3.01,1521,7
4,Aracaju,2018-01-01,24.51,1522,8


In [5]:
#alterando tipo de dado da coluna LojaID
df["LojaID"] = df["LojaID"].astype("object")

In [6]:
#verificando o tipo de dado de cada coluna
df.dtypes

Cidade            object
Data      datetime64[ns]
Vendas           float64
LojaID            object
Qtde               int64
dtype: object

**Tratando valores nulos**

In [7]:
#verificando valores nulos nos dados
df.isnull().sum()

Cidade    0
Data      0
Vendas    0
LojaID    0
Qtde      0
dtype: int64

In [8]:
#substituindo valores nulos pela media
df["Vendas"].fillna(df["Vendas"].mean(), inplace=True)

In [9]:
#verificando novamente
df.isnull().sum()

Cidade    0
Data      0
Vendas    0
LojaID    0
Qtde      0
dtype: int64

In [10]:
#apagando as linhas com valores nulos
df.dropna(inplace=True)

In [11]:
#apagando valores nulos com base em uma linha
df.dropna(subset=["Vendas"], inplace=True)

In [12]:
#apagando valores que estejam nulos em todas as linhas
df.dropna(how="all", inplace=True)

In [13]:
#exibindo dados 
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde
0,Aracaju,2018-01-01,142.0,1520,1
1,Aracaju,2018-01-01,14.21,1522,6
2,Aracaju,2018-01-01,71.55,1520,1
3,Aracaju,2018-01-01,3.01,1521,7
4,Aracaju,2018-01-01,24.51,1522,8


**Criando novas colunas**

In [14]:
#criando coluna receita(bruta)
df["Receita"] = df["Vendas"].mul(df["Qtde"])

In [15]:
#exibindo dados
df.head()

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
0,Aracaju,2018-01-01,142.0,1520,1,142.0
1,Aracaju,2018-01-01,14.21,1522,6,85.26
2,Aracaju,2018-01-01,71.55,1520,1,71.55
3,Aracaju,2018-01-01,3.01,1521,7,21.07
4,Aracaju,2018-01-01,24.51,1522,8,196.08


In [16]:
#retornando maior receita
df["Receita"].max()

3544.0

In [17]:
#retornando menor receita
df["Receita"].min()

3.34

In [18]:
#pegando as três melhores receitas com nlargest
df.nlargest(3, "Receita")

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
7,Natal,2019-03-18,886.0,853,4,3544.0
51,Natal,2018-01-21,859.0,852,4,3436.0
55,Natal,2019-01-08,859.0,854,4,3436.0


In [19]:
#pegando as três piores receitas com nsamllest
df.nsmallest(3, "Receita")

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
118,Aracaju,2018-01-01,3.34,1522,1,3.34
65,Recife,2019-01-01,4.01,981,1,4.01
92,Natal,2019-01-02,4.57,1035,1,4.57


In [20]:
#agrupamento por cidade
df.groupby("Cidade")["Receita"].sum()

Cidade
Aracaju       48748.25
Fortaleza     37913.97
Natal        167227.52
Recife        51936.51
Salvador      40596.73
Name: Receita, dtype: float64

In [21]:
#Ordenando o conjunto de dados
df.sort_values("Receita", ascending=False).head(10)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita
7,Natal,2019-03-18,886.0,853,4,3544.0
55,Natal,2019-01-08,859.0,854,4,3436.0
51,Natal,2018-01-21,859.0,852,4,3436.0
30,Natal,2018-10-02,856.0,853,4,3424.0
41,Natal,2018-05-20,835.0,852,4,3340.0
38,Natal,2018-02-25,828.0,852,4,3312.0
10,Natal,2018-10-27,828.0,852,4,3312.0
69,Natal,2019-03-24,817.0,852,4,3268.0
62,Natal,2018-02-10,793.0,854,4,3172.0
52,Natal,2018-04-27,778.0,854,4,3112.0


**Trabalhando com datas**

In [22]:
#convertendo o tipo da coluna data para inteiro
df["Data"] = df["Data"].astype("int64")

In [23]:
#verificando o tipo de dados de cada coluna
df.dtypes

Cidade      object
Data         int64
Vendas     float64
LojaID      object
Qtde         int64
Receita    float64
dtype: object

In [24]:
#transformando coluna data em tipo data de novo
df["Data"] = pd.to_datetime(df["Data"])

In [25]:
#verificando o tipo de dados de cada coluna
df.dtypes

Cidade             object
Data       datetime64[ns]
Vendas            float64
LojaID             object
Qtde                int64
Receita           float64
dtype: object

In [26]:
#agrupamento por ano
df.groupby(df["Data"].dt.year)["Receita"].sum()

Data
2018    118176.53
2019    228246.45
Name: Receita, dtype: float64

In [27]:
#criando uma nova coluna com o ano
df["Ano_Venda"] = df["Data"].dt.year

In [28]:
#pegando amosra do conjunto de dados
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Ano_Venda
79,Recife,2019-01-01,14.53,983,6,87.18,2019
113,Fortaleza,2019-03-02,38.63,980,2,77.26,2019
30,Recife,2019-01-01,12.35,980,5,61.75,2019
71,Aracaju,2018-01-01,228.27,1523,6,1369.62,2018
127,Aracaju,2018-01-01,33.12,1522,9,298.08,2018


In [29]:
#extraindo o mes e o dia
df["mes_venda"], df["dia_venda"] = (df["Data"].dt.month, df["Data"].dt.day)

In [30]:
#pegando amosra do conjunto de dados
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Ano_Venda,mes_venda,dia_venda
62,Salvador,2019-01-01,161.02,1037,3,483.06,2019,1,1
22,Salvador,2019-01-01,32.57,1035,1,32.57,2019,1,1
32,Natal,2019-03-17,244.0,854,2,488.0,2019,3,17
83,Natal,2019-01-02,63.66,1036,2,127.32,2019,1,2
161,Natal,2019-01-02,5.8,1036,1,5.8,2019,1,2


In [31]:
#retornando data mais antiga
df["Data"].min()

Timestamp('2018-01-01 00:00:00')

In [32]:
#criando coluna do trimestre
df["trimestre_venda"] = df["Data"].dt.quarter

In [33]:
#pegando amosra do conjunto de dados
df.sample(5)

Unnamed: 0,Cidade,Data,Vendas,LojaID,Qtde,Receita,Ano_Venda,mes_venda,dia_venda,trimestre_venda
27,Fortaleza,2019-01-01,212.37,1003,6,1274.22,2019,1,1,1
1,Natal,2018-11-25,563.0,853,2,1126.0,2018,11,25,4
21,Salvador,2019-01-01,39.72,1035,3,119.16,2019,1,1,1
129,Aracaju,2018-01-01,13.7,1522,6,82.2,2018,1,1,1
91,Fortaleza,2019-01-01,37.49,1002,1,37.49,2019,1,1,1


**Visualização de dados**

In [None]:
#gráfico de barras
df["LojaID"].value_conuts