**Python para Análise de Dados - Pandas 2**

- Iremos trabalhar com base de imóveis do site Kaggle

In [None]:
# Importe a biblioteca Pandas

import pandas as pd

In [None]:
# Lendo a base de dados

arquivo = "https://raw.githubusercontent.com/minerandodados/mdrepo/master/kc_house_data.csv"
dataset = pd.read_csv(arquivo, sep= ",")

In [None]:
# Plota um histograma com a coluna price com 30 bins na cor vermelho

# O uso do ';' no final do comando, é para não apresentar o log

%matplotlib inline
dataset ['price'].hist(bins=30, color='red');

In [None]:
# Plota histogramas das colunas bedrooms e bathrooms lado a lado na cor verde

%matplotlib inline
dataset [['bedrooms','bathrooms']].hist(bins=30, alpha=0.5, color='green');

**Estatística descritiva**

In [None]:
# Imprime o valor médio da coluna bedrooms

dataset['bedrooms'].mean()

In [None]:
# Imprime o valor máximo da coluna bedrooms

dataset['bedrooms'].max()

In [None]:
# Imprime o valor mínimo da coluna bedrooms

dataset['bedrooms'].min()

In [None]:
# Imprime o desvio padrão da coluna bedrooms

dataset['bedrooms'].std()

In [None]:
# Imprime a simetria da coluna bedrooms

dataset['bedrooms'].skew()

In [None]:
# Esse método retorna o valor de simetria de cada coluna do dataset 
# Um valor 0 significa uma distribuição simétrica
# Um valor maior ou menor que 0, significa uma distribuição assimétrica
# Valores acima de 0 podemos dizer que tem uma assimetria positiva
# Valores abaixo de 0 uma assimetria negativa
# Isso quer dizer que valores muito acima de 0 indicam que existem mais valores acima da média
# Valores muito abaixo de 0 indicam que existem mais valores abaixo da média

dataset.skew()

**Gráficos de BoxPlot, correlação de variáveis**
**Extraindo Insights**

- Vamos agora trabalhar com um tipo de gráfico muito interessante 

- Os gráficos do tipo Boxplot são excelentes ferramentas de análise de dados, principalmente para identificar outliers


In [None]:
import pandas as pd
arquivo = "https://raw.githubusercontent.com/minerandodados/mdrepo/master/kc_house_data.csv"
dataset = pd.read_csv(arquivo, sep= ",")

In [None]:
# Plota gráfico do tipo boxplot da coluna bedrooms
# Esse gráfico é muito rico e é possível visualizar outliers

import matplotlib
%matplotlib inline
matplotlib.style.use('ggplot')

dataset.boxplot(column='bedrooms');

In [None]:
# Visualizando os estilos de gráficos disponíveis

matplotlib.style.available

In [None]:
# Plota boxplot da coluna 'price' por números de quarto

%matplotlib inline
dataset.boxplot(column='price', by='bedrooms');

In [None]:
# Imprime a correlação de todas as colunas do dataframe (person) 

dataset.corr()

In [None]:
# Imprime a correlação de Spearman (esta leva em consideração a correção positiva e negativa)

dataset.corr('spearman')

In [None]:
# Imprime a correção de algumas colunas

dataset[['bedrooms', 'bathrooms', 'sqft_living', 'floors', 'waterfront', 'grade', 'price']].corr()

In [None]:
# Plotando a correlação de determinadas colunas 

%matplotlib inline
dataset[['sqft_living', 'waterfront', 'grade', 'price']].corr().plot();

**Tabela Pivot, Manipulação de planilhas do Excel**

In [None]:
# Tabelas Pivot são úteis para fazer agrupamento de dados
# Conta a quantidade de imóveis agrupados pelas colunas waterfront e floors
# O parametro index informa as colunas que serão usadas para agregação
# O parâmetro aggfunc é usado para definir a função de agregação, que poderia ser uma média por exemplo
# O parâmetro margins=True calcula a quantidade total no final da tabela

# Muito interessante a performance dessa operação

dataset.pivot_table('id', index=['waterfront', 'floors'], aggfunc='count', margins=True)

**CrossTab**

In [None]:
# Crosstab ou tabulação cruzada
# Essa funcionalidade cruza valores das variáveis
# Nesse exemplo podemos ver qual a distribuição dos imóveis por número de quartos com relação a sua condição
# Podemos ver que imóveis com 3 quartos estão mais na condição 5

pd.crosstab(dataset['bedrooms'], dataset['condition'])

In [None]:
# Plota a tabulação cruzada
# Usamos o método plot() com um gráfico de barras

table = pd.crosstab(dataset['bedrooms'],dataset['condition'])
table.plot(kind='bar', width= 1.0, color =['red','yellow', 'orange', 'blue', 'green'], title = 'condition by Bedrooms', grid=False);

**Trabalhando com Excel**

- Com o Pandas podemos trabalhar com o Excel

- Isso é muito bom pois, sabemos sabemos que temos muita informação nos dias de hoje em planilhas do excel

- Diante disso você pode usar o pandas para manipular planilhas do Excel e até mesmo gerar novas planilhas a partir de outros dados

In [None]:
# Lendo uma planilha do Excel no Pandas

dataframe_excel = pd.read_excel('C:/Users/Pc Trabalho/Desktop/Studio Sun/Estudo/DSZ/mdrepo-master/Controle-de-Atividades-2.0.xlsx', sheet_name=0, header=1)

In [None]:
dataframe_excel.head()

In [None]:
# Lendo o arquivo indexando pela coluna 'Estado Atual'

arquivo = 'C:/Users/Pc Trabalho/Desktop/Studio Sun/Estudo/DSZ/mdrepo-master/Controle-de-Atividades-2.0.xlsx'
dataframe_excel = pd.read_excel(arquivo, sheet_name=0, header=1, index_col=3)

dataframe_excel.head(6)

In [None]:
# Ordenando o dataframe pela coluna de índice

dataframe_excel.sort_index()

**Gerando planilhas a partir de dataframes** 

In [None]:
# Vou usar o dataset de imóveis para gerar uma planilha

dataset.head()

In [None]:
# Gerando uma planilha com deteminadas colunas

colunas = ['id', 'price', 'bedrooms', 'bathrooms', 'sqft_living', 'floors', 'waterfront']
dataset[colunas].head()

In [None]:
# Escrevendo no disco a planilha sem o valor do índice

dataset[colunas].to_excel('planilha_pandas.xls', index=False)

**Mesclando Dados a partir de diversos DataFrames**

- Consulta os dados em mais de 1 dataset

In [None]:
# Importando a biblioteca Pandas

import pandas as pd

In [None]:
# Carregando os datasets de pedidos

orders = pd.read_csv('C:/Users/Pc Trabalho/Desktop/Studio Sun/Estudo/olist_orders_dataset.csv')
orders.head()

In [None]:
# Carregando o dataset de itens pedidos

orders_items = pd.read_csv('C:/Users/Pc Trabalho/Desktop/Studio Sun/Estudo/olist_order_items_dataset.csv')
orders_items.head()

**Opções de Merge**

Tipos de Join (ligações)

- INNER JOIN (padrão): retorna apenas os registros que contém a mesma palavra chave em ambos os dataframes

- LEFT JOIN: retorna todos os registros do dataframe à esquerda independente se contém um correspondente à direita

- RIGHT JOIN: retorna todos os registros do dataframe à direita indepentende se contém um correspondente à esquerda

- OUTER JOIN OU FULL JOIN: retorna todos os registros de ambos os dataframes

In [None]:
from IPython.display import Image
Image ('C:/Users/Pc Trabalho/Desktop/Studio Sun/Estudo/DSZ/PDF AULAS/MODULO5/materiais-de-apoio-pandas-merge-datasets/joins.png')

**Consultando os dados nos dois datasets e ligando através da chave order_id**

> Selecionando os atributos do dataset orders (pedidos)

- order_id (id do pedido)
- order_status (status do pedido)
- order_approved_at (data e hora da aprovação do pedido)

> Selecionando os atributos do dataset orders_items (itens do pedido)

- product_id (id do produto)
- seller_id (id do vendedor)
- price (preço do produto)
- freight_value (valor do frete)

In [None]:
query = pd.merge (orders[['order_id', 'order_status', 'order_approved_at']],
                  orders_items[['order_id', 'product_id', 'seller_id', 'price', 'freight_value']], on= 'order_id'
                  )

query.head()

In [None]:
# Consulta todos os pedidos independente se contém itens associados (left join)

query = pd.merge (orders[['order_id', 'order_status', 'order_approved_at']],
                  orders_items[['order_id', 'product_id', 'seller_id', 'price', 'freight_value']], on= 'order_id', how= 'left'
                  )

query.head()

In [None]:
# Saber quantos valores vieram nulos na correlação
# Se aparecer 0 é porque vieram todos os valores

query.isnull().sum()

In [None]:
# Consulta todos os pedidos independente se contém itens associados (right join)

query = pd.merge (orders[['order_id', 'order_status', 'order_approved_at']],
                  orders_items[['order_id', 'product_id', 'seller_id', 'price', 'freight_value']], on= 'order_id', how= 'right'
                  )

query.head()

In [None]:
query.isnull().sum()

In [None]:
# Consulta todos os registros no dataframe (Outer join)

query = pd.merge (orders[['order_id', 'order_status', 'order_approved_at']],
                  orders_items[['order_id', 'product_id', 'seller_id', 'price', 'freight_value']], on= 'order_id', how= 'outer'
                  )

In [None]:
query.isnull().sum()

**Criando um DataFrame a partir de uma Tabela do Banco de Dados**

> Instalação das bibliotecas necessárias

In [None]:
import pandas as pd

In [None]:
import sqlalchemy

In [None]:
!pip install pymysql

Engine de conexão ao Banco de Dados MySQL

Sintaxe:
engine = sqlalchemy.create_engine( 'mysql+drive://usuario:senha@ip-servidor:porta/banco-de-dados')

Documentação do SQL Alchemy

https://docs.sqlalchemy.org/en/13/core/engines.html

In [None]:
# Criando a conexão

from sqlalchemy import create_engine
engine = sqlalchemy.create_engine('mysql+pymysql://root:freestepnina@localhost:3306/employees')

Método: read_sql_table

Parâmetros do método read_sql_table

- table_name = nome da tabela onde será feita a leitura dos dados
- con = objeto conexão criado pelo SQLAlchemy 
- schema = schema onde a tabela será armazenada
- index_col = coluna a ser definida como index

In [None]:
 # Lendo toda a tabela Employees e transformando em dataframe

 df = pd.read_sql_table ('employees', engine)

In [None]:
# Listando os dados e informações dos atributos

df.head()

In [None]:
df.info()

In [None]:
# Lendo apenas algumas colunas da tabela

df = pd.read_sql_table ('employees', engine , columns=['first_name','last_name'])
df.head()

**Método: read_sql_query**

- sql = String Sql Query que deverá ser executada para retornar conjuntos de dados
- con = objeto conexão criado pelo SQLAlchemy 
- index_col = coluna a ser definida como index
- params = lista de parametros para serem passados ao método

In [None]:
# Criando um DataFrame a partir de uma query ao banco de dados

df = pd.read_sql_query ('select * from employees', engine)
df.head()

In [None]:
# Criando um dataframe a partir de uma query ao banco de dados utilizando a coluna emp_no como index

df_index = pd.read_sql_query ('select * from employees', engine, index_col = 'emp_no')
df_index.head()

In [None]:
#Criando um DataFrame a partir de uma query utilizando parametros dinamicos
query = 'SELECT first_name, last_name' \
        'FROM employees' \
        'WHERE first_name = %s'

In [None]:
df= pd.read_sql_query (query, engine, params =['Mary'])

df.head()

**Método: read_sql**

Faz o roteamento entre os métodos read_table e read_sql_query

Parâmetros do método read_sql

- sql: String Sql Query que deverá ser executada para retornar o conjunto de dados
- con = objeto conexão criado pelo SQLAlchemy
- index_col = coluna a ser definida como index
- params = lista de parametros para serem passados ao método

In [88]:
# Criando o DataFrame passando apenas o nome da tabela para o método

df = pd.read_sql ('departments', engine)
df.head()

Unnamed: 0,dept_no,dept_name
0,d009,Customer Service
1,d005,Development
2,d002,Finance
3,d003,Human Resources
4,d001,Marketing


In [89]:
# Criando o dataframe a partir de uma query

df = pd.read_sql ('SELECT * FROM departments', engine)
df.head()

Unnamed: 0,dept_no,dept_name
0,d009,Customer Service
1,d005,Development
2,d002,Finance
3,d003,Human Resources
4,d001,Marketing


**Método: to_sql**

Escreve o dataframe para o banco de dados relacional

In [91]:
# Carregando a base de dados e criando o dataframe

import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/minerandodados/mdrepo/master/automobile.csv')
df.head()

Unnamed: 0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.60,...,130,mpfi,3.47,2.68,9.00,111,5000,21,27,13495
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
1,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
2,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
3,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
4,2,?,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250


**Parametros do método to_sql**

- name = nome da tabela que será criada no SGDB
- con = objeto conexão criado pelo SQLAlchemy
- schema = nome do schema onde será criada a tabela
- if_exists = comportamento caso a tabela exista no SGBD
- index = escreve o índice do dataframe como uma coluna na tabela
- index_label = nome da coluna do índice

In [93]:
# Criando a tabela no Banco de Dados a partir do Dataframe

df.to_sql (name = 'tb_automobile', con = engine,)

In [94]:
# Criando a tabela no Banco de Dados a partir do Dataframe sem a coluna indice

df.to_sql (name = 'tb_automobile', con = engine, index = False, if_exists='replace')