# Análise Exploratória de Dados usando Pandas

EDA é o processo de obter, preparar e apresentar dados com o objetivo de obter insights que direcionem o negócio de maneira eficiente e eficaz.

<img src="assets/data_prep_pipeline.png" />

É o processo mais demorado, visto que exige atenção especial para preparar dados corretamente a fim de não produzir resultados enviesados ou mesmos incorretos. 

Vamos começar a analisar os dados mais básicos de um dataset simples. O objetivo aqui é se familiarizar com o pandas, criar funções e sedimentar o conteúdo já visto, preparando o terreno para os próximos assuntos que serão vistos. 

Documentação oficial do Pandas para consulta: [link](https://pandas.pydata.org/docs/user_guide/index.html#user-guide) 

## Pandas in a nutshell

In [None]:
import pandas as pd
lemonades = pd.read_csv('bases/Lemonades.csv', sep = ';')

lemonades.head(n=10) # mostra as n primeiras linhas do dataset - 5 é o padrão

In [None]:
lemonades.columns

É sempre importante olhar os dados e fazer algumas indagações iniciais:
> Quais os tipos de dados presentes no dataset? 

> Existem valores faltantes

> Quantas colunas e quantas linhas estão presentes no dataset

> Das colunas com valores numéricos, que estatísticas eu consigo obter? Soma, média, desvio padrão, etc..

Vamos responder cada uma delas:

In [None]:
# os tipos de dados de cada coluna podem ser obtidos usando o método info()
lemonades.info()

Com esse método, foi possível saber se há ou não valores faltantes no dataset. Observando-o, vemos que faltam dados nas colunas Date e Leaflets. 

Para eximir qualquer duúvida a respeito, podemos usar outro método:

In [None]:
# retorna a soma dos valores faltantes em cada coluna do dataset. 
lemonades.isna().sum()

A quantidade de linhas e colunas foi também mostrada ao usarmos o método info(). Entretanto, há maneiras mais simples de obter essa informação. 

Qual atributo poderíamos usar aqui que retornaria a quantidade de linhas e colunas?

In [None]:
#Resposta
lemonades.shape

In [None]:
#localização
#lemonades.loc[:,'Date'] # usando strings - todas as linhas da coluna Date
lemonades.loc[1:6,'Date':'Location'] # selecionando linhas e colunas específicas

Podemos escrever várias funções para obtermos as estatísticas básicas das colunas numéricas do nosso dataset. 

Exemplo:

In [None]:
def media(coluna):
    return lemonades[coluna].sum()/len(lemonades)
    
media('Price')

Entretanto, essa maneira não seria a mais apropriada (Pythonica). Qual método podemos usar para retornar as principais estatísticas de nosso dataset sem precisar escrever funções?

In [None]:
#resposta
lemonades.describe()

#### Dados categóricos

Até agora, tratamos, principalmente, dados numéricos, porém, há em nosso dataset dados categóricos. Como podemos analisar o comportamento desses dados?

In [None]:
lemonades['Location'].value_counts()

## Tratamento do Dataset

Anteriormente, descobrimos que há elementos faltantes em nosso dataset. Algumas implicações podem ocorrer se treinarmos um modelo de machine learning em dados com essas inconsistências:
> criar um viés nos dados

> erro ao treinar um modelo de machine learning

Além desse problema, há outro que devemos levar em consideração:linhas duplicadas. Vamos, passo a passo, resolver esses problemas.

### Lidando com dados faltantes

In [None]:
#verificando quais colunas possuem dados faltantes
lemonades.isna().sum()

Quando falamos de dados numéricos, uma maneira simples de tratar os dados faltantes é obter a média (ou mediana) dos valores presentes nessa coluna e preencher os dados faltantes com esse valor. 

Uma solução seria:

In [None]:
lemonades['Leaflets']

In [None]:
lemonades['Leaflets'].fillna((lemonades['Leaflets'].median()), inplace=True)
#lemonades['Leaflets'] = lemonades['Leaflets'].fillna(lemonades['Leaflets'].median())

In [None]:
# verificando se o problema foi resolvido
lemonades.isna().sum()

Quando falamos, entretando, de data, o problema pode ser um pouco mais difícil de ser resolvido caso o formato não seja datetime. Se não for, precisamos antes converter para esse tipo e depois tratar os dados faltantes.

In [None]:
# Verificando o tipo de dado presente na coluna Date
lemonades['Date'].dtypes

In [None]:
lemonades.head(3)

In [None]:
from datetime import datetime
#Convertendo para o formato correto
lemonades['Date'] = pd.to_datetime(lemonades['Date'], format="%m/%d/%Y")     

# converte cada valor para segundos
tmp = lemonades['Date'].apply(lambda t: (t-datetime(1970,1,1)).total_seconds())
# faz a interpolação do valor faltante
tmp.interpolate(inplace=True)    
# converte de volta para data
lemonades['Date'] = pd.to_datetime(tmp, unit='s') 
lemonades['Date'] = lemonades['Date'].apply(lambda t: t.date())
#imprimindo para verificar
lemonades

Agora que tratamos todos os valores faltantes, precisamos lidar com os dados duplicados. O Pandas lida com isso de forma simples e intuitiva

In [None]:
# verificando se há dados duplicados
lemonades[lemonades.duplicated()]

In [None]:
# eliminando os valores duplicados
lemonades = lemonades.drop_duplicates()

In [None]:
# verificando se há dados duplicados
lemonades[lemonades.duplicated()]

In [None]:
# para salvar a base corrigida
lemonades.to_csv('resultado.csv', sep = ';')

## Treinando a criação de funções

Vamos criar algumas funções para retornar informações úteis para nossa análise. Antes, vamos preparar o dataset

### 1) Adicione uma coluna chamada "Sales" que contém o total de vendas de limão e laranja

In [None]:
# Resposta

### 2) Adicione uma coluna chamada "Revenue" que calcula o lucro (venda*preço)

In [None]:
# Resposta

### 3) Escreva uma função que retorne o lucro total

In [None]:
# Resposta

### 4) Escreva uma função que receba dois parâmetros, dataset e temp(int). Se temp for 1, ele retorna a máxima temperatura observada no conjunto de dados; se 0, retorna a média do período observado; se -1, retorna a temperatura mínima.

In [None]:
# Resposta

### 5) Escreva uma função que receba dois parâmetros (dataset, localização) e retorne o dataset com o preço do limão e laranja ajustados em 15% se a localização for 'Park' ou ajustados em 10% se a localização for 'Beach'.

In [None]:
# Resposta