<a href="https://colab.research.google.com/github/GuilhermePelegrina/Mackenzie/blob/main/Aulas/An%C3%A1lise%20de%20Dados/Aula_03_Pandas_Aquisicao_Descricao.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/logo_mackenzie.png'>


# **Introdução à biblioteca Pandas: Criação, leitura e descrição estatística dos dados.**

Nesta aula, iniciamos a Análise de Dados usando a biblioteca (API) Pandas em Python. Dentro dessa biblioteca, temos diversas funções e ferramentas úteis para manipulação e análise de dados orientada a colunas.

Há dois tipos de estruturas usadas em Pandas para manipular os dados:

- `DataFrame`: seria como uma tabela de dados relacionais, com linhas e colunas nomeadas, como no Excel.

- `Series`: é uma única coluna de dados, também nomeada. O `DataFrame` contém uma ou mais `Series` com um nome para cada uma delas.

Ao longo da disciplina, veremos muitas dessas funções. Um resumo dessas funções pode ser acessada em [Pandas_Cheat_Sheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf). Para quem tiver interesse em se aprofundar mais sobre o uso do Pandas, acesse a página [Pandas web page](https://pandas.pydata.org/).

## Importando as bibliotecas Pandas e Numpy

In [None]:
import pandas as pd
import numpy as np

## Criando uma Series e um DataFrame

Uma `Series` pode ser criada a partir de uma lista. Já o `Dataframe`, usamos uma estrutura de dicionário.

In [None]:
nomes = pd.Series(['Pedro', 'Carol', 'Ana'])
ano = pd.Series([3, 5, 2])

dados = pd.DataFrame({ 'Alunos': nomes, 'Ano_Letivo': ano })

dados

Também podemos criar o `DataFrame` adicionando os dados (sem usar `Series` já criadas), como no exemplo abaixo.

In [None]:
dados_df = pd.DataFrame({'Alunos': ['João', 'Matheus', 'Maria'],
                        'Ano_Letivo': [1, 3, 2],
                        'Cidade': ['São Paulo', 'Cajamar', 'Americana']})

dados_df

## Lendo e salvando um DataFrame

Embora temos a opção de criar dados de uma maneira "manual", é mais comum trabalharmos com conjunto de dados já prontos. A partir do Pandas, podemos ler e gravar dados de diferetnes fontes como arquivos. Exemplos são arquivos em .csv, .xlsx e bancos de dados sql (dentre outros). A tabela seguir mostra os comandos para ler a salvar dados de diversos formatos.

| Format        | Read           | Save          |
| ------------- |:--------------:| ----------------:|
| csv           | `pd.read_csv()`  |`df.to_csv()`     |
| json          | `pd.read_json()` |`df.to_json()`    |
| xlsx          | `pd.read_excel()`|`df.to_excel()`   |
| hdf           | `pd.read_hdf()`  |`df.to_hdf()`     |
| sql           | `pd.read_sql()`  |`df.to_sql()`     |


**Lendo dados da internet**

In [None]:
# Bank Marketing

# Note que, para os arquivos .csv, às vezes é necessário indicar como as colunas estão separadas (por "," ou ";")

df1 = pd.read_csv("https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Datasets/data_bank_marketing.csv", sep = ';')
df1

In [None]:
# Bitcoin Prices

df2 = pd.read_excel("https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Datasets/data_bitcoin_prices.xlsx")
df2

**Salvando um DataFrame no ambiente local do Colab e carregando dados**

In [None]:
# Retornando o diretorio de trabalho

import os
os.getcwd()

In [None]:
# Salvando no ambiente local

df1.to_csv('/content/my_df.csv',index=False)

# Carregando os dados a partir do ambiente local

dfnew = pd.read_csv('/content/my_df.csv')
dfnew

**Carregando arquivos do computador e salvando arquivos**

Você pode querer carregar arquivos no Colab a partir de arquivos queestão no seu computador. Para isso o comando `files.upload` permite selecionar um ou mais arquivos para upload no ambiente de execução do Colab.

In [None]:
from google.colab import files

uploaded = files.upload()

for fn in uploaded.keys():
  print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))

Já o comando `files.download` faz o download do arquivo pelo navegador para seu computador local.

In [None]:
files.download('my_df.csv')

## Extraindo informações sobre a estrutura dos dados

Antes de manipularmos e analisarmos os dados coletados, é interessante visualizar algumas informações básicas sobre a estrutura dos dados. Os comandos a seguir são muito úteis para essa tarefa.

- `df.head()`: Permite visualizar as primeiras linhas do `DataFrame`.
- `df.tail()`: Permite visualizar as últimas linhas do `DataFrame`. Tanto para o `df.head()` quanto para o `df.tail()`, a Python, por padrão, apresenta as 5 primeiras ou últimas linhas. Mas podemos especificar quantas linhas queremos colocando o valor desejado entre os parênteses.
- `df.shape`: Fornece o número de linhas e o número de colunas do `DataFrame`.
- `len(df)`: Fornece o número de linhas `DataFrame`.
- `df.columns.to_list()`: Extrai os nomes das linhas e salva em uma lista.
- `df.dtypes`: Extrai os tipos dos atributos.
- `df.info()`: Extrai informações sobre tipo e tamanho das colunas
- `df.describe()`: Extrai informações estatísticas sobre os dados.


In [None]:
# Visualizando as primeiras linhas

df1.head()

In [None]:
# Visualizando as últimas linhas

df1.tail(8)

In [None]:
# Extraindo o número de linhas e de colunas

df1.shape

In [None]:
# Extraindo o número de linhas e de colunas

len(df1)

In [None]:
# Extraindo o nome das colunas e salvando em uma lista

lista_colunas = df1.columns.to_list()
print(lista_colunas)

In [None]:
# Extraindo o tipo dos atributos (em cada coluna)

df1.dtypes

In [None]:
# Extrai informações sobre tipo e tamanho das colunas

df1.info()

In [None]:
# Extraindo informações estatísticas sobre os dados.

df1.describe()

## Selecionando dados

Uma vez coletados os dados e visualidas as informações contidas neles, é comum partirmos para uma etapa de seleção de dados. Muito provavelmente, apenas parte dos dados serão usados para análise. Por exemplo, se estamos interessados em prever a demanda de um determinado produto a ser vendido na cidade de São Paulo, podemos excluir da base de dados informações relativas a outras cidades do estado, uma vez que não são relevantes para o nosso objetivo. Há, também, casos em que temos colunas no conjunto de dados que não servem exatamente para análise (ID de pacientes em hospitais, por exemplo).

# Seleção de colunas

Primeiramente, vamos focar em selecionar colunas que interessam para nossa Análise dos Dados. Lembre-se que colunas em um `DataFrame` são `Series` do Pandas. Então, ao extrair uma única coluna, estamos selecionado uma `Series` do conjunto de dados.

Há basicamente duas formas de seleção de colunas.

In [None]:
idade1 = df1.age

print(idade1)

In [None]:
idade2 = df1['age']

print(idade2)

*dica*: A segunda forma (`df1['age']`) é útil quando temos nomes de atributos com espaços ou caracteres especiais.

Dependendo do que queremos analisar a partir da `Series` coletado, pode ser útil transformá-la em uma lista para poder realizar operações sobre esse tipo de objeto.

In [None]:
estado_civil = df1.marital
estado_civil = estado_civil.to_list()
estado_civil.count('married')

# Extraindo estatísticas individuais de cada `Series`

Quando usamos `df.describe()`, obtemos as estatísticas gerais de todos os atributos. Mas também podemos extrair essas características de cada coluna, individualmente. Ou seja, a partir de uma `Series` extraída do `DataFrame`, podemos aplicar calcular as estatísticas.

In [None]:
# Média, Desvio-padrão, Máximo e Mínimo

print(df1.age.mean())
print('Desvio-padrão:', f'{df1.age.std() :.2f}')
print( df1.age.max() , ',' , df1.age.min() )

In [None]:
# Percentis: Mediana

df1.age.quantile()

In [None]:
# Diferentes percentis

df1.age.quantile([0, 0.25, 0.5, 0.9])

## Estraindo informações sobre dados categóricos

Nos exemplos mencionados acima onde calculamos estatísticas dos dados, isso só foi possível porque as variáveis eram numéricas (contínuas ou discretas). No entanto, em diversos conjunto de dados, há também atributos categóricos. Esses atributos podem ser ordinais, quando há uma noção de ordem (como o nível de escolaridade), ou nominais, quando não há uma noção de ordem (como o sexo).

para variáveis categóricas, os seguintes comandos extraem informações úteis.

In [None]:
# Apresenta o número de categorias

df1.marital.nunique()

In [None]:
# Apresenta quais são as categorias

df1.marital.unique()

In [None]:
 # Apresenta a frequência de cada categoria

df1.marital.value_counts()

## Selecionando mais de uma coluna

Até aqui você selecionou uma única coluna, do tipo `Series` do Pandas. Mas podemos também selecionar mais colunas na classe `pd.DataFrame`.

Primeiramente, vamos recordar quais são as colunas do nosso `DataFrame`.

In [None]:
df1.columns

Agora, vamos criar um novo `DataFrame` que é um subconjunto (das colunas) do original.

In [None]:
df2 = df1[['age', 'marital', 'loan']]
df2.head()

## Alterando valores das colunas

Em certos casos, é interessante alterar valores de uma coluna para, por exemplo, converter os valores para uma outra unidade de medida.

In [None]:
sec_para_min = 1/60
df1['duration'] = df1['duration'] * sec_para_min

min_para_hora = 1/60
df1['duration_hora'] = df1['duration'] * min_para_hora

df1.head()

# **Exercício**

Este exercício contará como parte das Atividades Práticas que vão compor a nota T1 do primeiro período.

O exercício proposto usa a base de dados contida no link abaixo (Auto MPG):

https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Datasets/data_mpg.csv

Este conjunto de dados descreve o consumo de diferentes carros (medido pelo número de milhas percorridas com o uso de um galão de gasolina) com base no seguinte conjunto de características de tais carros:

- cylinders -> Número de cilíndros.

- displacement -> Capacidade do motor.

- horsepower -> Potência (cavalo-vapor).

- weight -> Peso.

- acceleration -> Tempo, em segundos, até atingir a velocidade de 100 km/h (partindo do carro em repouso).

- model_year -> Ano do modelo do carro

- origin -> Local de produção do carro.

- name -> Nome do modelo do carro.


Responda as questões com base nos conceitos / códigos vistos nesta aula.