<a href="https://colab.research.google.com/github/Rogerio-mack/Analise-de-Dados/blob/main/EDA_T3_Pandas_Aquisicao.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<head>
  <meta name="author" content="Rogério de Oliveira">
  <meta institution="author" content="Universidade Presbiteriana Mackenzie">
</head>

<img src="http://meusite.mackenzie.br/rogerio/mackenzie_logo/UPM.2_horizontal_vermelho.jpg" width=300, align="right"></a>
<!-- <h1 align=left><font size = 6, style="color:rgb(200,0,0)"> optional title </font></h1> -->


<h1 align=left><font size = 6, style="color:rgb(200,0,0)">Dataframes: Aquisição de dados e formatos</font></h1>
<hr>

# Recursos

Os recursos abaixo podem ser úteis para você aprender e empregar o **Pandas**.

> [Pandas](https://pandas.pydata.org/)

> [Pandas Cheat Sheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf) 







# O que é Pandas?

O `Pandas` é uma API (biblioteca) Python para manipulação e análise de dados orientada a colunas. Ela permite organizar dados em dois tipos de estruturas, Séries e DataFrames e operar seleções e transformações sobre essas coleções de dados.

Comece vendo um resumo dos comandos Pandas aqui [Pandas Cheat Sheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf).


* **DataFrame**: você pode imaginar como uma tabela de dados relacionais, com linhas e colunas nomeadas, como no Excel ou SQL.
* **Series**: é uma única coluna de dados, e o DataFrame contém um ou mais Series com um nome para cada uma delas.

O quadro de dados é uma abstração comumente usada para manipulação de dados. Existem implementações similares em faísca e R .


# Import da biblioteca

In [None]:
import pandas as pd
import numpy as np

# Criando um `pd.Series` e um `pd.DataFrame`

Uma `pd.Series` pode ser criada a partir de uma lista e um `pd.Dataframe` empregando-se uma estrutura de dicionário.

In [None]:
student_names = pd.Series(['Adriana', 'Carol', 'Daniel'])
age = pd.Series([18, 19, 19])

students = pd.DataFrame({ 'Student Name': student_names, 'Age': age })

students


Unnamed: 0,Student Name,Age
0,Adriana,18
1,Carol,19
2,Daniel,19


Um outro exemplo:

In [None]:
BMIclass = pd.DataFrame({'Classification': ['UnderWeight','Normal Range','Overweight','Obese'], 
                        'Min': [0, 18.50, 25, 30],
                        'Max': [18.49, 24.99, 29.99, 99]})

BMIclass

Unnamed: 0,Classification,Min,Max
0,UnderWeight,0.0,18.49
1,Normal Range,18.5,24.99
2,Overweight,25.0,29.99
3,Obese,30.0,99.0


# Lendo e Gravando um DataFrame

Mas o Pandas é muito mais útil ao acessar quaisquer dados. Com o Pandas você pode ler e gravar dados de diferetnes fontes como arquivos .csv, .json, .xlsx e arquivos de bancos de dados sql, Mongo etc. 


| Format        | Read           | Save          |
| ------------- |:--------------:| ----------------:|
| csv           | `pd.read_csv()`  |`df.to_csv()`     |
| json          | `pd.read_json()` |`df.to_json()`    |
| xlsx          | `pd.read_excel()`|`df.to_excel()`   |
| hdf           | `pd.read_hdf()`  |`df.to_hdf()`     |
| sql           | `pd.read_sql()`  |`df.to_sql()`     |

E para arquivos, podemos empregar arquivos locais ou ainda na internet.


In [None]:
df1 = pd.read_csv('http://meusite.mackenzie.br/rogerio/data_load/tips.csv')
df1


Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [None]:
df2 = pd.read_excel('http://meusite.mackenzie.br/rogerio/data_load/exercise.xlsx')
df2


Unnamed: 0.1,Unnamed: 0,id,diet,pulse,time,kind
0,0,1,low fat,85,1 min,rest
1,1,1,low fat,85,15 min,rest
2,2,1,low fat,88,30 min,rest
3,3,2,low fat,90,1 min,rest
4,4,2,low fat,92,15 min,rest
...,...,...,...,...,...,...
85,85,29,no fat,135,15 min,running
86,86,29,no fat,130,30 min,running
87,87,30,no fat,99,1 min,running
88,88,30,no fat,111,15 min,running


In [None]:
import os
os.getcwd()

'/content'

In [None]:
BMIclass.to_csv('/content/my_BMI.csv',index=False)

BMInew = pd.read_csv('/content/my_BMI.csv')
BMInew

Unnamed: 0,Classification,Min,Max
0,UnderWeight,0.0,18.49
1,Normal Range,18.5,24.99
2,Overweight,25.0,29.99
3,Obese,30.0,99.0


**Dica** Os dataframes possuem um índice para os registros. Normalmente é o número do registro, para outros valores podem ser empregamos. É um recurso avançado e por hora não faremos uso dele.

Mais adiante veremos como carregar ou fazer o download de um arquivo local no Google Colab.

# Explorando a estrutura básica dos dados 

Antes de explorarmos o conteúdo dos dados é útil termos algumas informações sobre a estrutura dos dados que estamos lidando: os valores que assumem os dados, quantas linhas temos em uma tabela, o número de atributos, o tipo de dados etc. Um dos comandos mais empregados é o `df.head()` que permite enxergar o aspecto dos dados a partir de suas primeiras linhas.

In [None]:
df = pd.read_csv('http://meusite.mackenzie.br/rogerio/data_load/tips.csv')
df.head() # ver também df.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [None]:
df.shape # nr de linhas e colunas

(244, 7)

In [None]:
len(df) # número de linhas

244

In [None]:
df.columns.to_list()

['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size']

In [None]:
df.dtypes # tipo dos atributos

total_bill    float64
tip           float64
sex            object
smoker         object
day            object
time           object
size            int64
dtype: object

In [None]:
df.info() # informações sobre tipo e tamanho

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   total_bill  244 non-null    float64
 1   tip         244 non-null    float64
 2   sex         244 non-null    object 
 3   smoker      244 non-null    object 
 4   day         244 non-null    object 
 5   time        244 non-null    object 
 6   size        244 non-null    int64  
dtypes: float64(2), int64(1), object(4)
memory usage: 13.5+ KB


O comando `describe()` exibe informações estatísticas sumarizadas dos dados.

In [None]:
df.describe(include='all')

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
count,244.0,244.0,244,244,244,244,244.0
unique,,,2,2,4,2,
top,,,Male,No,Sat,Dinner,
freq,,,157,151,87,176,
mean,19.785943,2.998279,,,,,2.569672
std,8.902412,1.383638,,,,,0.9511
min,3.07,1.0,,,,,1.0
25%,13.3475,2.0,,,,,2.0
50%,17.795,2.9,,,,,2.0
75%,24.1275,3.5625,,,,,3.0


# Selecionando Dados

Seleções dos dados são bastante importantes. Você nem sempre estará interessado em todos os dados. Por exemplo você pode ter dados de produção de várias unidades de uma fábrica, mas estar interessado somente em dados das unidades de São Paulo (seleção de linhas ou casos). Ou você pode ter dados de vendas com diversas informações dos produtos (cor, modelo etc.) e dos clientes (nome, CPF etc.) e querer apenas dados de peso e dimensões do produto, e da origem e destino da compra para analisar os preços de frete (seleção de colunas ou atributos). Mais frequentemente ainda você vai realizar as duas seleções criando *slices* dos dados.

Aqui vamos focar na seleção de atributos (colunas) e apenas em alguns casos de seleção de linhas que veremos mais adiante. 

# Selecionando colunas de dados `pd.Series`

Como vimos as colunas de um dataframe são séries do Pandas e podemos selecionar e operar com cada uma das séries de um dataframe.

In [None]:
tip = df.tip

print(tip)
print(type(tip))
print(tip.dtypes)

0      1.01
1      1.66
2      3.50
3      3.31
4      3.61
       ... 
239    5.92
240    2.00
241    2.00
242    1.75
243    3.00
Name: tip, Length: 244, dtype: float64
<class 'pandas.core.series.Series'>
float64


In [None]:
tip = df['tip']

print(tip)
print(type(tip))
print(tip.dtypes)

0      1.01
1      1.66
2      3.50
3      3.31
4      3.61
       ... 
239    5.92
240    2.00
241    2.00
242    1.75
243    3.00
Name: tip, Length: 244, dtype: float64
<class 'pandas.core.series.Series'>
float64


**Dica** Veja que os dois modos de seleção

```
df.tip

df['tip']
```
retornam o mesmo resultado. A segunda forma é útil quando temos nomes de atributos com espaços ou caracteres especiais.




Esse conjunto de dados é um `pd.Series` e podemos fazer uma série de operações sobre essa coleção de dados, como calcular a soma ou a média de valores.

In [None]:
print(f'Média das gorjetas: USD {tip.mean() :.2f} e Total das gorjetas: USD {tip.sum() :.2f}')

Média das gorjetas: USD 3.00 e Total das gorjetas: USD 731.58


**Dica** Pode ser útil também você transformar uma `pd.Series` em uma lista Python para que você possa realizar operações que você já conhece.

In [None]:
dias = df.day
dias = dias.to_list()
dias.count('Sat')

87

# Sumarizando dados

Agor que você conhece a estrutura básica dos dados e sabe selecionar os valores dos atributos, podemos explorar várias informações sobre essas variáveis.

Cada uma das sumarizações do `describe()` você pode agora aplicar a cada atributo que desejar.

In [None]:
print( f'{df.tip.mean() :.2f} , {df.tip.std() :.2f}'  )
print( df.total_bill.max() , ',' , df.total_bill.min() )

3.00 , 1.38
50.81 , 3.07


In [None]:
df.total_bill.quantile() # por padrão retorna a mediana

17.795

In [None]:
df.total_bill.quantile([0, 0.25, 0.5, 0.9]) # exibindo diferentes percentis

0.00     3.0700
0.25    13.3475
0.50    17.7950
0.90    32.2350
Name: total_bill, dtype: float64

# Dados Categóricos e Quantidade de Valores

Mas você deve ter notado que nem todos os dados apresentam média, mediana ou desvio padrão. Para variáveis categóricas (não numéricas) essas medidas não fazem sentido. 


| Dados        | Valores        |   
| ------------- |:--------------:| 
| Numéricos          | Discretos  | 
|           | Contínuos | 
| Categóricos         | Nominais | 
|             | Ordinais  | 

Os dados categóricos nominais não possuem qualquer ideia de ordem (como o atributo `sexo`), já os ordinais têm implicitamente algum sentido de ordem (como por exemplo, `grau de instrução` que pode assumir valores fundamental, médio e superior). 

Para valores categóricos a primeira informação relevante é a frequencia, ou a quantidade de valores que encontramos.

In [None]:
df.day.nunique() # nr de valores únicos

4

In [None]:
df.day.unique() # relação de valores únicos

# ou ainda df.day.unique().to_list()

array(['Sun', 'Sat', 'Thur', 'Fri'], dtype=object)

In [None]:
df.day.value_counts() # valores diferentes e suas quantidades

Sat     87
Sun     76
Thur    62
Fri     19
Name: day, dtype: int64

# Selecionando colunas de dados `pd.DataFrame`

Até aqui você selecionou colunas como `pd.Series` do Pandas. Mas podemos também selecionar uma ou mais colunas na classe `pd.DataFrame`. Veja a diferença: como um dataframe os valores precisam ser referenciados por um nome da coluna (atributo).

In [None]:
tip = df.tip # ou df['tip']
print(type(tip))
print(tip)

tipdf = df[['tip']]
print(type(tipdf))
print(tipdf)

<class 'pandas.core.series.Series'>
0      1.01
1      1.66
2      3.50
3      3.31
4      3.61
       ... 
239    5.92
240    2.00
241    2.00
242    1.75
243    3.00
Name: tip, Length: 244, dtype: float64
<class 'pandas.core.frame.DataFrame'>
      tip
0    1.01
1    1.66
2    3.50
3    3.31
4    3.61
..    ...
239  5.92
240  2.00
241  2.00
242  1.75
243  3.00

[244 rows x 1 columns]


Assim o comando abaixo funciona para série `tip`:

In [None]:
tip.mean()

2.9982786885245902

Mas não pode ser empregada para `tipdf`:

In [None]:
%%script false
tipdf.mean()

sendo necessária a referência do atributo:

In [None]:
tipdf.tip.mean()

2.9982786885245902

**Dica** Para um único atributo, de forma geral, empregue a seleção de `pd.Series` quando estiver interessado apenas em selecionar um atributo e a seleção `pd.DataFrame` quando essa seleção será empregada para criação de outros conjuntos de dados (merge de tabelas, novos conjuntos de dados etc.).

Mas a seleção como `pd.DataFrame` permite a seleção de várias séries de dados (atributos) para construírmos subconjuntos de dados de interesse. Essas seleções de dados também são dataframes e todas as operações anteriores que vimos antes também para dataframes também são aplicáveis. 

In [None]:
df.columns

Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size'], dtype='object')

In [None]:
df2 = df[['total_bill', 'tip', 'size']]
df2.head()

Unnamed: 0,total_bill,tip,size
0,16.99,1.01,2
1,10.34,1.66,3
2,21.01,3.5,3
3,23.68,3.31,2
4,24.59,3.61,4


# Selecionando Maiores e Menores

Vamos ver mais sobre seleção de linhas, mas aqui é oportuno vermos como selecionar linhas que contenham os maiores e os menores valores da coleção.

In [None]:
df.nsmallest(5,'total_bill')

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
67,3.07,1.0,Female,Yes,Sat,Dinner,1
92,5.75,1.0,Female,Yes,Fri,Dinner,2
111,7.25,1.0,Female,No,Sat,Dinner,1
172,7.25,5.15,Male,Yes,Sun,Dinner,2
149,7.51,2.0,Male,No,Thur,Lunch,2


In [None]:
top10 = df.nlargest(10,'total_bill')
top10

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
170,50.81,10.0,Male,Yes,Sat,Dinner,3
212,48.33,9.0,Male,No,Sat,Dinner,4
59,48.27,6.73,Male,No,Sat,Dinner,4
156,48.17,5.0,Male,No,Sun,Dinner,6
182,45.35,3.5,Male,Yes,Sun,Dinner,3
102,44.3,2.5,Female,Yes,Sat,Dinner,3
197,43.11,5.0,Female,Yes,Thur,Lunch,4
142,41.19,5.0,Male,No,Thur,Lunch,5
184,40.55,3.0,Male,Yes,Sun,Dinner,2
95,40.17,4.73,Male,Yes,Fri,Dinner,4


Sendo top10 também um dataframe podemos obter:

In [None]:
print(f'Média das 10 maiores contas: USD {top10.total_bill.mean() :.2f}')

Média das 10 maiores contas: USD 45.02


# Alterando valores

Muitas vezes é necessário você obter dados derivados dos dados originais, como converter os valores para R\$ , o valor das contas descontada a gorjeta ou ainda o valor da conta divido pelos participantes. Essa é uma grande facilidade do Pandas que, sendo orientado a colunas, permite fazer essas operações com um único comando sem a necessidade de laços de programa.

In [None]:
dolar_real_rate = 5.8
df['total_bill'] = df['total_bill'] * dolar_real_rate
df['tip'] = df['tip'] * dolar_real_rate

df['total_bill_minus_tips'] = df['total_bill'] - df['tip']
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,total_bill_minus_tips
0,98.542,5.858,Female,No,Sun,Dinner,2,92.684
1,59.972,9.628,Male,No,Sun,Dinner,3,50.344
2,121.858,20.3,Male,No,Sun,Dinner,3,101.558
3,137.344,19.198,Male,No,Sun,Dinner,2,118.146
4,142.622,20.938,Female,No,Sun,Dinner,4,121.684


In [None]:
df['bill_by_head'] = df['total_bill'] / df['size']
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,total_bill_minus_tips,bill_by_head
0,98.542,5.858,Female,No,Sun,Dinner,2,92.684,49.271
1,59.972,9.628,Male,No,Sun,Dinner,3,50.344,19.990667
2,121.858,20.3,Male,No,Sun,Dinner,3,101.558,40.619333
3,137.344,19.198,Male,No,Sun,Dinner,2,118.146,68.672
4,142.622,20.938,Female,No,Sun,Dinner,4,121.684,35.6555


# Carregando Arquivos locais e do Google Drive no Colab

Você pode querer empregar arquivos no Colab. Para isso o comando `files.upload` permite selecionar um ou mais arquivos para upload no ambiente de execução do Colab.

In [None]:
from google.colab import files

uploaded = files.upload()

for fn in uploaded.keys():
  print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))

e o comando `files.download` invocará o download do arquivo pelo navegador para seu computador local.


In [None]:
from google.colab import files

with open('example.txt', 'w') as f:
  f.write('some content')

files.download('example.txt')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

E com os comandos abaixo é possível acessar os arquivos do seu Google Drive, incluindo os arquivos compartilhados, diretamente na máquina virtual do ambiente de execução do Colab. 

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgf4n4g3pfee6491hc0brc4i.apps.googleusercontent.com&redirect_uri=urn%3Aietf%3Awg%3Aoauth%3A2.0%3Aoob&scope=email%20https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fdocs.test%20https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fdrive%20https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fdrive.photos.readonly%20https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fpeopleapi.readonly&response_type=code
Enter your authorization code:
··········
Mounted at /content/drive


In [None]:
with open('/content/drive/My Drive/foo.txt', 'w') as f:
  f.write('Hello Google Drive!')
!cat /content/drive/My\ Drive/foo.txt

Hello Google Drive!

In [None]:
drive.flush_and_unmount()
print('All changes made in this colab session should now be visible in Drive.')

All changes made in this colab session should now be visible in Drive.


# Exercícios

## Exercício: **CASE Insurance** 

Acesse a base de dados http://meusite.mackenzie.br/rogerio/data_load/insurance.csv para as questões a seguir.

## Q1. Acesse os dados explore a estrutura básica dos dados de `insurance`.

> * Qual o número de caso de seguro? 
> * Quantos atributos são numéricos? 
> * Há quantos valores diferentes para região? 
> * Qual a maior quantidade de filhos? 

## Q2. Qual a quantidade de casos por região?

## Q3. Qual a média dos pagamentos (charges) efetuados?

## Q4. Qual a média dos pagamentos (charges) dos 10 maiores pagamentos efetuados?

## Q5. Calcule a distância interquartis dos pagamentos.

**Dica** IQR = Q3 - Q1



## Q6. Empregue o valor IQR da questão anterior para verificar se existem *outliers* dos pagamentos.

**Dica** *outliers* são dados fora do intervalo $[Q1 - 1.5 IQR, Q3 + 1.5 IQR]$ 

## Q7. Qual a média dos pagamentos efetuados para os 10 casos com menor idade dos segurados? 

## Q8. Revise a questão anterior. De fato calculamos a média de *todos* os seguros de indivíduos com idade entre as 10 menores idades?

**Dica** Verifique quantos indivíduos há com a menor idade