In [56]:
import pandas as pd
import numpy as np
import statistics as st
import matplotlib.pyplot as plt
import plotly.express as px
from sklearn import preprocessing
from sklearn.preprocessing import RobustScaler
from sklearn.decomposition import PCA

df = pd.read_csv('Sao_Paulo_State_of_Sao_Paulo.csv', delimiter=",", encoding = 'cp1252')

df

Unnamed: 0,Ref,Name,Category,Address,Days,Hours,Number of Reviews,Rating,Excellent,Very Good,Average,Poor,Terrible,Certified
0,/Attraction_Review-g303631-d311966-Reviews-Par...,Parque Ibirapuera,Natureza e parques,"Av. Pedro Álvares Cabral | Vila Mariana, São P...",Dom - Sáb,05:00 - 00:00,36.534,45,65%,29%,4%,1%,1%,True
1,/Attraction_Review-g303631-d550339-Reviews-Pau...,Avenida Paulista,Pontos turísticos e de interesse,"Av. Paulista, São Paulo, Estado de São Paulo 0...",,,29.104,45,62%,29%,7%,1%,1%,True
2,/Attraction_Review-g303631-d4377562-Reviews-Co...,Arena Corinthians,Pontos turísticos e de interesse,"Avenida Miguel Ignacio Curi, 111 | Itaquera, S...",Dom - Sáb,09:30 - 16:30,4.423,45,81%,14%,3%,1%,1%,True
3,/Attraction_Review-g303631-d2349915-Reviews-Al...,Allianz Parque,Pontos turísticos e de interesse,Avenida Francisco Matarazzo 1705 | Água Branca...,Dom - Sáb,10:00 - 17:00,5.138,45,74%,21%,3%,1%,1%,True
4,/Attraction_Review-g303631-d1407969-Reviews-Mu...,Museu do Futebol,Museus,"Praça Charles Miller, S/N | Estádio do Pacaemb...",Ter - Dom,09:00 - 17:00,9.404,45,61%,32%,5%,1%,1%,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
639,/Attraction_Review-g303631-d19460671-Reviews-P...,Pracinha do João,Parques,"R. Lutécia, 1782 | Vila Carrao, São Paulo, Est...",,,1.000,50,100%,0%,0%,0%,0%,False
640,/Attraction_Review-g303631-d10454488-Reviews-A...,Andreus Galeria,Galerias de arte,"Rua Nestor Pestana 109 | Consolação, São Paulo...",,,4.000,45,50%,50%,0%,0%,0%,False
641,/Attraction_Review-g303631-d4377553-Reviews-Sa...,Museu de Saúde Pública Emílio Ribas,Museus especializados,"Rua Tenente Pena 100 | Bom Retiro, São Paulo, ...",,,2.000,40,0%,100%,0%,0%,0%,False
642,/Attraction_Review-g303631-d15850874-Reviews-M...,Mercado Municipal Da Vila Formosa,Feiras livres,"Praça Canárias S/N | Vila Formosa, São Paulo, ...",,,1.000,40,0%,100%,0%,0%,0%,False


## Pré processamento

### Remoção de atributos irrelevantes
O atributo Ref foi eliminado, pois a utilidade dele foi no processo de coleta de dados para obter mais informações individuais sobre as atrações, não tendo uso prático para a análise dos dados.

In [57]:
df = df.drop(columns = ['Ref'])

### Tratamento de dados ausentes

In [43]:
df.isnull().sum()

Name                                  0
Address                               0
Days                                467
Hours                               467
Number of Reviews                     0
                                   ... 
Trilhas para ciclismo                 0
Universidades e escolas               0
Zoológicos                            0
Zoológicos e aquários                 0
Áreas históricas para caminhadas      0
Length: 82, dtype: int64

### Tratamento de dados duplicados

In [28]:
df = df.drop_duplicates(['Name', 'Address'])

Unnamed: 0,Name,Category,Address,Days,Hours,Number of Reviews,Rating,Excellent,Very Good,Average,Poor,Terrible,Certified
0,Parque Ibirapuera,Natureza e parques,"Av. Pedro Álvares Cabral | Vila Mariana, São P...",Dom - Sáb,05:00 - 00:00,36.534,45,65%,29%,4%,1%,1%,True
1,Avenida Paulista,Pontos turísticos e de interesse,"Av. Paulista, São Paulo, Estado de São Paulo 0...",,,29.104,45,62%,29%,7%,1%,1%,True
2,Arena Corinthians,Pontos turísticos e de interesse,"Avenida Miguel Ignacio Curi, 111 | Itaquera, S...",Dom - Sáb,09:30 - 16:30,4.423,45,81%,14%,3%,1%,1%,True
3,Allianz Parque,Pontos turísticos e de interesse,Avenida Francisco Matarazzo 1705 | Água Branca...,Dom - Sáb,10:00 - 17:00,5.138,45,74%,21%,3%,1%,1%,True
4,Museu do Futebol,Museus,"Praça Charles Miller, S/N | Estádio do Pacaemb...",Ter - Dom,09:00 - 17:00,9.404,45,61%,32%,5%,1%,1%,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...
639,Pracinha do João,Parques,"R. Lutécia, 1782 | Vila Carrao, São Paulo, Est...",,,1.000,50,100%,0%,0%,0%,0%,False
640,Andreus Galeria,Galerias de arte,"Rua Nestor Pestana 109 | Consolação, São Paulo...",,,4.000,45,50%,50%,0%,0%,0%,False
641,Museu de Saúde Pública Emílio Ribas,Museus especializados,"Rua Tenente Pena 100 | Bom Retiro, São Paulo, ...",,,2.000,40,0%,100%,0%,0%,0%,False
642,Mercado Municipal Da Vila Formosa,Feiras livres,"Praça Canárias S/N | Vila Formosa, São Paulo, ...",,,1.000,40,0%,100%,0%,0%,0%,False


## Conversão de atributos não numéricos

One hot encoding para o atributo 'Category'

In [58]:
oh = pd.get_dummies(df['Category'])

df = df.drop(columns = ['Category'])

df = df.join(oh)

oh = pd.get_dummies(df['Rating'])

df = df.drop(columns = ['Rating'])

df = df.join(oh)

In [61]:
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 644 entries, 0 to 643
Data columns (total 90 columns):
Name                                644 non-null object
Address                             644 non-null object
Days                                177 non-null object
Hours                               177 non-null object
Number of Reviews                   644 non-null float64
Excellent                           644 non-null object
Very Good                           644 non-null object
Average                             644 non-null object
Poor                                644 non-null object
Terrible                            644 non-null object
Certified                           644 non-null bool
Antiquários                         644 non-null uint8
Arenas e estádios                   644 non-null uint8
Atividades ao ar livre              644 non-null uint8
Autódromos                          644 non-null uint8
Bairros                             644 non-null uint8
Bibli

## Usando K-NN pra (tentar) inferir se uma atração é certificada ou não

In [6]:
import matplotlib.pyplot as plt
from sklearn import cluster, neighbors, svm, metrics, preprocessing

In [62]:
df = df.drop(columns = ['Name', 'Address', 'Days', 'Hours', 'Excellent', 'Very Good', 'Average', 'Poor', 'Terrible'])

In [66]:
trainSample = df.sample(frac = 0.7, random_state = 1) # 80 / 20

testSample = pd.concat([df, trainSample]).drop_duplicates(keep=False)
trainTarget = trainSample["Certified"]
testTarget = testSample["Certified"]


del testSample["Certified"]
del trainSample["Certified"]

In [67]:
knn = neighbors.KNeighborsClassifier(n_neighbors= 3, algorithm="auto") #k vizinhos mais próximos = n_neighbors
knn.fit(trainSample, trainTarget)
resultKNN = knn.predict(testSample)

In [68]:
print("\nK-NN")
print("Acurácia: %0.2f" % (metrics.accuracy_score(testTarget, resultKNN)))


matrizConfusao = metrics.confusion_matrix(testTarget, resultKNN)
print("Matriz de Confusão:\n",matrizConfusao)


K-NN
Acurácia: 0.89
Matriz de Confusão:
 [[108   5]
 [ 11  19]]
