In [13]:
import pandas as pd
import numpy as np

In [14]:
# Carregando os dados
nyc_sales = pd.read_csv('nyc-rolling-sales_twentieth.csv')


In [15]:
nyc_sales.head()

Unnamed: 0.1,Unnamed: 0,BOROUGH,NEIGHBORHOOD,BUILDING CLASS CATEGORY,TAX CLASS AT PRESENT,BLOCK,LOT,EASE-MENT,BUILDING CLASS AT PRESENT,ADDRESS,...,RESIDENTIAL UNITS,COMMERCIAL UNITS,TOTAL UNITS,LAND SQUARE FEET,GROSS SQUARE FEET,YEAR BUILT,TAX CLASS AT TIME OF SALE,BUILDING CLASS AT TIME OF SALE,SALE PRICE,SALE DATE
0,4,1,ALPHABET CITY,07 RENTALS - WALKUP APARTMENTS,2A,392,6,,C2,153 AVENUE B,...,5,0,5,1633,6440,1900,2,C2,6625000,2017-07-19 00:00:00
1,5,1,ALPHABET CITY,07 RENTALS - WALKUP APARTMENTS,2,399,26,,C7,234 EAST 4TH STREET,...,28,3,31,4616,18690,1900,2,C7,-,2016-12-14 00:00:00
2,6,1,ALPHABET CITY,07 RENTALS - WALKUP APARTMENTS,2,399,39,,C7,197 EAST 3RD STREET,...,16,1,17,2212,7803,1900,2,C7,-,2016-12-09 00:00:00
3,7,1,ALPHABET CITY,07 RENTALS - WALKUP APARTMENTS,2B,402,21,,C4,154 EAST 7TH STREET,...,10,0,10,2272,6794,1913,2,C4,3936272,2016-09-23 00:00:00
4,8,1,ALPHABET CITY,07 RENTALS - WALKUP APARTMENTS,2A,404,55,,C2,301 EAST 10TH STREET,...,6,0,6,2369,4615,1900,2,C2,8000000,2016-11-17 00:00:00


A primeira coisa que observamos é a coluna Unnamed: 0. Devemos removê-la, já que nem nome ela possui. Essa coluna surge geralmente devido a gravação do índice do dataframe como coluna do csv. Se quisermos evitar que um índice de dataframe seja salvo após nossa análise, passamos o parâmetro index=False para o método .to_csv().

In [16]:
nyc_sales.drop(columns = ['Unnamed: 0'], axis =0, inplace = True)

In [18]:
nyc_sales.head()

Unnamed: 0,BOROUGH,NEIGHBORHOOD,BUILDING CLASS CATEGORY,TAX CLASS AT PRESENT,BLOCK,LOT,EASE-MENT,BUILDING CLASS AT PRESENT,ADDRESS,APARTMENT NUMBER,...,RESIDENTIAL UNITS,COMMERCIAL UNITS,TOTAL UNITS,LAND SQUARE FEET,GROSS SQUARE FEET,YEAR BUILT,TAX CLASS AT TIME OF SALE,BUILDING CLASS AT TIME OF SALE,SALE PRICE,SALE DATE
0,1,ALPHABET CITY,07 RENTALS - WALKUP APARTMENTS,2A,392,6,,C2,153 AVENUE B,,...,5,0,5,1633,6440,1900,2,C2,6625000,2017-07-19 00:00:00
1,1,ALPHABET CITY,07 RENTALS - WALKUP APARTMENTS,2,399,26,,C7,234 EAST 4TH STREET,,...,28,3,31,4616,18690,1900,2,C7,-,2016-12-14 00:00:00
2,1,ALPHABET CITY,07 RENTALS - WALKUP APARTMENTS,2,399,39,,C7,197 EAST 3RD STREET,,...,16,1,17,2212,7803,1900,2,C7,-,2016-12-09 00:00:00
3,1,ALPHABET CITY,07 RENTALS - WALKUP APARTMENTS,2B,402,21,,C4,154 EAST 7TH STREET,,...,10,0,10,2272,6794,1913,2,C4,3936272,2016-09-23 00:00:00
4,1,ALPHABET CITY,07 RENTALS - WALKUP APARTMENTS,2A,404,55,,C2,301 EAST 10TH STREET,,...,6,0,6,2369,4615,1900,2,C2,8000000,2016-11-17 00:00:00


### Verificando os tipos dos dados

In [19]:
nyc_sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16909 entries, 0 to 16908
Data columns (total 21 columns):
BOROUGH                           16909 non-null int64
NEIGHBORHOOD                      16909 non-null object
BUILDING CLASS CATEGORY           16909 non-null object
TAX CLASS AT PRESENT              16909 non-null object
BLOCK                             16909 non-null int64
LOT                               16909 non-null int64
EASE-MENT                         16909 non-null object
BUILDING CLASS AT PRESENT         16909 non-null object
ADDRESS                           16909 non-null object
APARTMENT NUMBER                  16909 non-null object
ZIP CODE                          16909 non-null int64
RESIDENTIAL UNITS                 16909 non-null int64
COMMERCIAL UNITS                  16909 non-null int64
TOTAL UNITS                       16909 non-null int64
LAND SQUARE FEET                  16909 non-null object
GROSS SQUARE FEET                 16909 non-null object
YE

### Vamos tentar algumas conversões? 

### Convertendo tipo object para float - conforme orientação da documentação do dataset

In [20]:
nyc_sales['SALE PRICE'] = pd.to_numeric(nyc_sales['SALE PRICE'],downcast='float', errors='coerce') #posso especificar o type com o parmentro downcast='float'
nyc_sales['SALE PRICE']

0        6625000.0
1              NaN
2              NaN
3        3936272.0
4        8000000.0
           ...    
16904          NaN
16905     712500.0
16906     740000.0
16907    1800000.0
16908          NaN
Name: SALE PRICE, Length: 16909, dtype: float32

### Vamos usar um for para converter as demais


In [21]:
for item in ['GROSS SQUARE FEET', 'LAND SQUARE FEET', 'APARTMENT NUMBER']: #minha lista de colunas
    nyc_sales[item] = pd.to_numeric(nyc_sales[item], errors='coerce')

### AS variáveis categóricas que estão como inteiro iremos converter para ```object```.


In [22]:
for item in ['BLOCK', 'LOT', 'TAX CLASS AT TIME OF SALE' ]:
    nyc_sales[item] =  nyc_sales[item] .astype('object')

## Para as variável BOROUGH, vamos seguir as recomendações da "documentação"


In [23]:
#documentação informa que: Manhattan (1), Bronx (2), Brooklyn (3), Queens (4), and Staten Island (5).
nyc_sales['BOROUGH'] = nyc_sales['BOROUGH'].map({1:'Manhatan', 2:'Bronx', 3:'Brooklyn', 4:'Queens', 5:'Staten Island'})

## Por fim, temos a coluna SALE DATE que é uma data, mas que está como string. Vamos convertê-la para data usando a função pd.to_datetime


In [24]:
nyc_sales['SALE DATE'] = pd.to_datetime(nyc_sales['SALE DATE'], format='%Y-%m-%d')

In [25]:
nyc_sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16909 entries, 0 to 16908
Data columns (total 21 columns):
BOROUGH                           16909 non-null object
NEIGHBORHOOD                      16909 non-null object
BUILDING CLASS CATEGORY           16909 non-null object
TAX CLASS AT PRESENT              16909 non-null object
BLOCK                             16909 non-null object
LOT                               16909 non-null object
EASE-MENT                         16909 non-null object
BUILDING CLASS AT PRESENT         16909 non-null object
ADDRESS                           16909 non-null object
APARTMENT NUMBER                  1156 non-null float64
ZIP CODE                          16909 non-null int64
RESIDENTIAL UNITS                 16909 non-null int64
COMMERCIAL UNITS                  16909 non-null int64
TOTAL UNITS                       16909 non-null int64
LAND SQUARE FEET                  1731 non-null float64
GROSS SQUARE FEET                 1621 non-null float64

## Remoção Por baixa variância

## Variância é uma medida do quão espalhados estão os seus dados ao redor da média.

<img src="https://www.portalaction.com.br/sites/default/files/resize/EstatisticaBasica/figuras/ebe2.2-650x132.png" height=350 widht=150>

Os dados do conjunto 2 estão mais dispersos e, dessa maneira, dizemos que este possui maior variância em relação ao primeiro conjunto.

Quando coletamos dados para utilizar em um modelo de machine learning, é interessante que eles possuam um nível mínimo de variância. Ou iremos filtrar colunas cuja variância seja muito próxima de zero (lembre-se de que já eliminamos aquelas que possuíam todos os elementos iguais).

Vamos demonstrar como remover colunas (variáveis com baixa variância) do dataset.

### Escalonamento

* Antes de tudo nós precisamos realizar o 'escalonamento' dos nossos dados (Vamos fazer isso utilizando o MinMaxScaler do Scikit-Learn.

* depois: calcular a variância.

# instale scikit_learn


conda install -c conda-forge scikit-learn

In [26]:
from sklearn.preprocessing import MinMaxScaler
minmax = MinMaxScaler()

# Verificando variância das colunas numéricas

In [27]:
                                                #busca todos os numéricos possíveis                                      
variaveis_numericas_nyc = nyc_sales.select_dtypes(include=['int16', 'int32', 'int64', 'float16', 'float32', 'float64'])


In [28]:
# aplicando escalonamento - default=(0, 1)
variaveis_numericas_escaladas_nyc = minmax.fit_transform(variaveis_numericas_nyc) 

In [29]:
#armazenando as variáveis já tranformadas em um  novo dataframe
variaveis_numericas_escaladas_nyc = pd.DataFrame(variaveis_numericas_escaladas_nyc, columns=variaveis_numericas_nyc.columns)

In [30]:
variaveis_numericas_escaladas_nyc.head()

Unnamed: 0,APARTMENT NUMBER,ZIP CODE,RESIDENTIAL UNITS,COMMERCIAL UNITS,TOTAL UNITS,LAND SQUARE FEET,GROSS SQUARE FEET,YEAR BUILT,SALE PRICE
0,,0.956609,0.003047,0.0,0.003025,0.004246,0.002884,0.941993,0.002998
1,,0.956609,0.017063,0.007109,0.018754,0.012443,0.008567,0.941993,
2,,0.956609,0.00975,0.00237,0.010284,0.005837,0.003516,0.941993,
3,,0.956609,0.006094,0.0,0.00605,0.006001,0.003048,0.948438,0.001781
4,,0.956609,0.003656,0.0,0.00363,0.006268,0.002037,0.941993,0.00362


### Calculando variância com método np.var() - numpy


Não queremos variância muito próximas de zero, então vamos filtrar variancia > 0.001

In [1]:
#verificando variância da coluna numérica 'LAND SQUARE FEET'


In [2]:
#verificando variância da coluna numérica ''COMMERCIAL UNITS'



## Melhor usar for para percorrer as colunas numéricas

In [33]:
listLowVariance = []
for col in variaveis_numericas_escaladas_nyc.columns:
    if np.var(variaveis_numericas_escaladas_nyc[col]) > 0.001:
        print(f'{col} possui variância considerável')
    else:
        print(f'{col} possui baixa variância')
        listLowVariance.append(col)

APARTMENT NUMBER possui variância considerável
ZIP CODE possui variância considerável
RESIDENTIAL UNITS possui baixa variância
COMMERCIAL UNITS possui baixa variância
TOTAL UNITS possui baixa variância
LAND SQUARE FEET possui variância considerável
GROSS SQUARE FEET possui variância considerável
YEAR BUILT possui variância considerável
SALE PRICE possui baixa variância


In [34]:
listLowVariance

['RESIDENTIAL UNITS', 'COMMERCIAL UNITS', 'TOTAL UNITS', 'SALE PRICE']

# Exemplos:


* manter casos de alta variância: cenário de detecção de fraude - medir distância da moradia e local em que cliente solicitou cartão (maior distância, mais suspeito de fraude)

* manter casos de baixa variância: classificar raça de cachorro - uma das features é altura (exemplo pastor alemão macho possui altura de 60 cm a 65 cm, casos que  estão fora dessa faixa, não pertencem a raça que está sendo investigada)

# Agenda

> Data: 24/02/2020<br>
> Aula: 10 <br>
> Módulo: 00 <br>


## Data Wrangling (Parte II)

**Tópicos**:
 - **Apresentação Joins com Pandas

 

referência: https://estatsite.com.br/2019/04/30/join-merge-no-python-pandas/

In [10]:
import pandas as pd
import numpy as np


### Assim como aprendemos no SQL como unir bases de dados de diferentes maneiras, o Pandas nos permite fazer estas tratativas no Python. Abaixo, vamos aprender como fazer as uniões de tabelas e algumas táticas que podem facilitar sua vida.

# Joins

Joins são operações entre tabelas e servem para unir informações, combiando-as em uma única tabela. Os tipos de joins mais comuns são: left join, right join, inner join e full outer join.

<img src="https://datascience.quantecon.org/assets/_static/merge_files/merge_venns.png" height=700 width=700>

* Left join: Nem sempre há correspondência em todas as linhas das duas tabelas. Pode acontecer de um registro da tabela 1 não estar contido na tabela 2 e vice-versa. Mesmo assim, às vezes temos a necessidade de trazer todos os registros de uma tabela específica. No Left Join ele mantém os registros da tabela da esquerda.

* Right join:  é o contrário do Left Join. Ou seja, quando não houver correspondência, mesmo assim os registros da tabela da direita serão mantidos.

* Inner join é a operação que nos trará registros das duas tabelas que compartilham pelo menos uma informação em comum

* Full outer join: é a união das duas tabelas mesmo sem correspondência de um lado ou de outro

Para construir joins no pandas, temos duas formas: join e merge. O método merge é o mais usado, funciona com colunas:

## Exemplo: 

Vamos construir alguns datasets para serem usados de exemplos. Vamos supor que você trabalhe numa companhia que vende eletrodomésticos. Você possui as informações de clientes que foram até a loja A e realizaram o cadastro em algum momento, também possui informações de clientes que se cadastraram na loja B e possui uma terceira base com todas informações de compras já feitas em qualquer uma das duas lojas:

In [4]:
# criando dicionário para cadastro da loja a
cadastro_a = {'Id': ['AA2930','BB4563','CC2139','DE2521','GT3462','HH1158'],
'Nome': ['Andre', 'Amanda', 'Bruna', 'Carlos', 'Jose', 'Maria'],
'Idade': [20,35,40,54,29,25],
'CEP': ['00092-029','11111-111','22222-888','00000-999','99999-111','55555-666']
}


In [5]:
df_cadastro_a = pd.DataFrame(cadastro_a, columns = ['Id','Nome','Idade','CEP'])
df_cadastro_a

Unnamed: 0,Id,Nome,Idade,CEP
0,AA2930,Andre,20,00092-029
1,BB4563,Amanda,35,11111-111
2,CC2139,Bruna,40,22222-888
3,DE2521,Carlos,54,00000-999
4,GT3462,Jose,29,99999-111
5,HH1158,Maria,25,55555-666


In [6]:
# Cadastro da loja b
cadastro_b = {'Id': ['CC9999','EF4488','DD9999','GT3462','HH1158'],
'Nome': ['Marcos', 'Patricia', 'Rafaela', 'Jose', 'Maria'],
'Idade': [19,30,22,29,25],
'CEP': ['00092-029','11111-111','22222-888','99999-111','55555-666']
}


In [7]:
df_cadastro_b = pd.DataFrame(cadastro_b, columns = ['Id','Nome','Idade','CEP'])
df_cadastro_b

Unnamed: 0,Id,Nome,Idade,CEP
0,CC9999,Marcos,19,00092-029
1,EF4488,Patricia,30,11111-111
2,DD9999,Rafaela,22,22222-888
3,GT3462,Jose,29,99999-111
4,HH1158,Maria,25,55555-666


In [8]:
# Registro de compras de todas unidades
compras = {'Id': ['AA2930','EF4488','CC2139','EF4488','CC9999','AA2930','HH1158','HH1158'],
'Data': ['2019-01-01','2019-01-30','2019-01-30','2019-02-01','2019-02-20','2019-03-15','2019-04-01','2019-04-10'],
'Valor': [200,100,40,150,300,25,50,500]
}

In [9]:
df_compras = pd.DataFrame(compras, columns = ['Id','Data','Valor'])
df_compras

Unnamed: 0,Id,Data,Valor
0,AA2930,2019-01-01,200
1,EF4488,2019-01-30,100
2,CC2139,2019-01-30,40
3,EF4488,2019-02-01,150
4,CC9999,2019-02-20,300
5,AA2930,2019-03-15,25
6,HH1158,2019-04-01,50
7,HH1158,2019-04-10,500


### Seja para fazer um modelo ou uma análise exploratória em que se busque entender como gastam os clientes de acordo com a localização ou a idade, unir as tabelas será essencial.

## pd.merge()

sintaxe: O merge da biblioteca Pandas é bem intuitivo. Em suma, você precisa fornecer as duas bases, indicar qual coluna deve ser utilizada para unir – i.e., qual coluna as duas tabelas possuem em comum – e qual o tipo de join a ser feito:

pd.merge(tabela_da_esquerda, tabela_da_direita, on="coluna_coincidente", how="left|right|inner|outer)

## INNER JOIN

Suponha que a loja A e B sejam marcas diferentes dentro da rede de marcas da companhia. Você quer saber quais clientes frequentam tanto a loja A quanto a loja B. Ou seja, você quer a intersecção das duas tabelas de cadastro. Neste caso, você deve utilizar a função pd.merge() com o argumento how=’inner’. Como aqui não importa qual tabela recebe a informação, vamos colocar a tabela da direita como sendo o cadastro da loja A:



Temos somente o José e a Maria cadastrados nas duas lojas. Veja que trouxemos todas as informações das duas tabelas. Vamos supor que você só estivesse fazendo isso para verificar se o cadastro dos dois estava igual. Ou seja, você quisesse trazer somente as informações de idade e CEP do cadastro da loja B. Neste caso, faça o join com a base de cadastro da loja B filtrada com as colunas que você quer:

Você pode também alterar o sufixo das colunas coincidentes. Veja que por padrão, a função altera os nomes para ‘_x’ e ‘_y’. Mas existe o argumento suffixes para a função merge que faz as alterações que você deseja:

## LEFT JOIN

Agora, uma outra pedida – talvez a que eu mais tenha observado ao longo do tempo – é a de trazer informação de uma tabela para outra. Por exemplo, o gerente da loja A quer saber quais os clientes que fizeram compras na loja e o valor gasto. Para isso, você precisa trazer as informações da terceira tabela do nosso exemplo para a primeira, utilizando o left join:

Agora temos as informações das compras feitas e quais os valores gastos em cada uma. Caso você queira saber o total gasto, você pode aplicar o groupby 

## Outer - semelhante ao full outer join do SQL

* Caso queiramos todas as informações, de ambas tabelas, fazemos um merge “outer”:

A função necessita que haja uma correspondência total entre os campos da Tabela 1 e da Tabela 2. Se não houver ligação entre as tabelas os valores da tabela que não contém o registro retorna nulo.

Agora, seu empregador pode querer ter uma base com todos os clientes de todas as lojas da companhia. Ou seja, você vai precisar unir as tabelas de cadastro da loja A e da loja B. Isso se resolve com um full outer join.

### pd.concat()

Nesse sentido, também  podemos  usar a função concat:

consultar (explica merge com animação)  - https://datascience.quantecon.org/pandas/merge.html

### Importante:

### Caso os nomes das colunas utilizadas para a união sejam diferentes, você pode indicar o nome que a coluna coincidente possui na tabela da esquerda com o LEFT_ON e o nome que ela possui na tabela da direita com o RIGHT_ON, ao invés de utilizar somente o ON.

pd.merge(tabela_da_esquerda, tabela_da_direita, right_on=["coluna_direita_1","coluna_direita_2"], left_on=["coluna_esquerda_1","coluna_esquerda_2"], how="left|right|inner|outer")

### Havendo mais de uma coluna que você queira utilizar para unir as tabelas 

pd.merge(tabela_da_esquerda, tabela_da_direita, on=["coluna_1","coluna_2"], how="left|right|inner|outer")

### Exercício - fazer sozinho!

### Para os dois dataframes abaixo faça o que se pede:

In [43]:
df_student_data1 = pd.DataFrame({
        'student_id': ['S1', 'S2', 'S3', 'S4', 'S5'],
         'name': ['Danniella Fenton', 'Ryder Storey', 'Bryce Jensen', 'Ed Bernal', 'Kwame Morin'], 
        'marks': [200, 210, 190, 222, 199]})
df_student_data1

Unnamed: 0,student_id,name,marks
0,S1,Danniella Fenton,200
1,S2,Ryder Storey,210
2,S3,Bryce Jensen,190
3,S4,Ed Bernal,222
4,S5,Kwame Morin,199


In [44]:
df_student_data2 = pd.DataFrame({
        'student_id': ['S4', 'S5', 'S6', 'S7', 'S8'],
        'name': ['Ed Bernal', 'Kwame Morin', 'Dante Morse', 'Kaiser William', 'Madeeha Preston'], 
        'marks': [201, 200, 198, 219, 201]})
df_student_data2

Unnamed: 0,student_id,name,marks
0,S4,Ed Bernal,201
1,S5,Kwame Morin,200
2,S6,Dante Morse,198
3,S7,Kaiser William,219
4,S8,Madeeha Preston,201


### * 1. Junte  os dados que tem o mesmo 'student_id' em df_student_data1 e df_student_data2

### * 2. Junte  todos os valores em df_student_data1 e df_student_data2, com registros correspondentes de ambos os lados, quando disponíveis

### Para  pesquisar!

## 3. Junte os dois dataframes ao longo das colunas e atribua esse resultado a um novo dataframe chamado 'df_todas_colunas' 