<a href="https://colab.research.google.com/github/LaviniBastos/Analise-Exploratoria-de-Dados/blob/main/Agrupamentos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Neste exercício o próposito é entender como podemos sumarizar dados, fazer um resumo para simplificar a massa de dados, alguns exemplos são: calcular média de uma coluna, ou a soma, dessa forma entendemos a situação geral de toda a coluna.

A situação é a seguinte: Queremos abrir um negócio, mais precisamente um restaurante, e queremos que o restaurante esteja na melhor combinação possível de caracteristicas para que ele tenha sucesso. Queremos abri-lo no Central Park. Como podemos saber qual culinária podemos adotar e que é mais interessante para essa região?


In [2]:
import numpy as np
import pandas as pd

In [11]:
cuisine_rating = pd.read_csv('/Cuisine_rating.csv')

In [13]:
cuisine_rating.head()

Unnamed: 0,User ID,Area code,Location,Gender,YOB,Marital Status,Activity,Budget,Cuisines,Alcohol,Smoker,Food Rating,Service Rating,Overall Rating,Often A S
0,1,153,"Upper East Side,NY",Female,2006,Single,Professional,3,Japanese,Never,Never,5,4,4.5,No
1,2,123,"St. George,NY",Female,1991,Married,Student,3,Indian,Never,Socially,1,1,1.0,No
2,3,122,"Upper West Side,NY",Male,1977,Single,Student,5,Seafood,Often,Often,5,5,5.0,Yes
3,4,153,"Upper East Side,NY",Female,1956,Married,Professional,5,Japanese,Never,Socially,3,1,2.0,No
4,5,129,"Central Park,NY",Male,1997,Single,Student,4,Filipino,Socially,Never,2,4,3.0,No


Uma função que podemos utilizar para começar uma sumarização é a "describe()".
Ela calcula um conjunto de estatisticas descritivas, como "quantidade, média, desvio padrão minimo e máximo", para cada coluna numérica do dataset

In [14]:
cuisine_rating.describe()

Unnamed: 0,User ID,Area code,YOB,Budget,Food Rating,Service Rating,Overall Rating
count,200.0,200.0,200.0,200.0,200.0,200.0,200.0
mean,100.5,141.06,1984.83,3.815,3.22,3.23,3.225
std,57.879185,26.130257,16.809339,1.056578,1.411226,1.526022,1.079445
min,1.0,101.0,1955.0,1.0,1.0,1.0,1.0
25%,50.75,123.0,1971.0,3.0,2.0,2.0,2.5
50%,100.5,135.0,1987.0,4.0,3.0,3.0,3.0
75%,150.25,158.0,2000.0,5.0,5.0,5.0,4.0
max,200.0,199.0,2009.0,5.0,5.0,5.0,5.0


Claro que alguma informações não terá tanto uso, mas por outras já podemos tirar algumas informações como por exemplo, a pessoa mais nova registrada no dataset na coluna YOB nasceu em 2009, e a mais velha é de 1955.

As informações dos quartis também estão disponíveis, são distribuições dos nossos dados, o 50% é chamado de mediana, é a pessoa que está no meio da  coluna. 25% é quem está em 1/4 da coluna, e o 75% é quem está no 3/4 da coluna.


Para entender a coluna localidade já que estamos baseando nossa análise na região em específico, vamos verificar a frequência das localidades. A função value_counts() por si já faz uma sumarização bem interessante.

In [15]:
cuisine_rating['Location'].value_counts()

Unnamed: 0_level_0,count
Location,Unnamed: 1_level_1
"St. George,NY",46
"Upper East Side,NY",30
"Riverdale,NY",28
"Central Park,NY",24
"China Town, NY",22
"Market City, NY",20
"Upper West Side,NY",18
"Central Park,ny",8
"Market City, MY",2
"Cedar Hill, NY",2


Podemos notar que exatamente o dado que precisamos para análise está precisando de tratamento ou seja ele aparece de duas formas (ny e NY). Pelo escopo da aula essa etapa foi pulada por não ter muita distorção no resultado, mas decidi fazer o tratamento por conta própria, já que a falta do tratamento nos dados pode implicar em outputs diferentes.


In [18]:
cuisine_rating['Location'] = (
    cuisine_rating['Location']
    .str.strip() #removerá espaços extra no inicio ou/e fim
    .str.title() #Coloca cada palavra com inicial maiúscula
    .str.replace('Ny', 'NY', regex=False) #Faz a substituição

)


In [19]:
cuisine_rating['Location'].value_counts()

Unnamed: 0_level_0,count
Location,Unnamed: 1_level_1
"St. George,NY",46
"Central Park,NY",32
"Upper East Side,NY",30
"Riverdale,NY",28
"China Town, NY",22
"Market City, NY",20
"Upper West Side,NY",18
"Market City, My",2
"Cedar Hill, NY",2


Agora podemos descobrir com mais assertividade qual é a culinária mais bem avaliada no Central Park. Para isso vamos calcular a média das avaliações agrupando por região.
Com a ajuda no Numpy vamos fazer um filtro onde queremos somente as colunas com tipos numéricos

In [20]:
cuisine_rating.select_dtypes(include=np.number)

Unnamed: 0,User ID,Area code,YOB,Budget,Food Rating,Service Rating,Overall Rating
0,1,153,2006,3,5,4,4.5
1,2,123,1991,3,1,1,1.0
2,3,122,1977,5,5,5,5.0
3,4,153,1956,5,3,1,2.0
4,5,129,1997,4,2,4,3.0
...,...,...,...,...,...,...,...
195,196,175,1982,4,1,2,1.5
196,197,170,2000,4,1,2,1.5
197,198,160,2006,5,5,2,3.5
198,199,130,2002,3,3,2,2.5


Adicionamos em uma variável e transformamos em uma lista para filtrar o dataset só para isso, quando for preciso. Trata-se de uma forma de abstrair as colunas numericas, para não transformar todo o dataset em uma lista.

In [22]:
numeric_cols = cuisine_rating.select_dtypes(include=np.number).columns.to_list()

In [24]:
cuisine_rating[numeric_cols]

Unnamed: 0,User ID,Area code,YOB,Budget,Food Rating,Service Rating,Overall Rating
0,1,153,2006,3,5,4,4.5
1,2,123,1991,3,1,1,1.0
2,3,122,1977,5,5,5,5.0
3,4,153,1956,5,3,1,2.0
4,5,129,1997,4,2,4,3.0
...,...,...,...,...,...,...,...
195,196,175,1982,4,1,2,1.5
196,197,170,2000,4,1,2,1.5
197,198,160,2006,5,5,2,3.5
198,199,130,2002,3,3,2,2.5


Agora podemos usar a função Groupby() para agrupar a localidade com avaliações

In [25]:
cuisine_rating.groupby(['Location'])[numeric_cols].mean()

Unnamed: 0_level_0,User ID,Area code,YOB,Budget,Food Rating,Service Rating,Overall Rating
Location,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
"Cedar Hill, NY",141.0,169.5,1960.0,4.0,2.0,5.0,3.5
"Central Park,NY",91.0,141.5625,1990.3125,3.375,3.34375,3.65625,3.5
"China Town, NY",106.181818,132.5,1983.818182,3.454545,2.681818,3.636364,3.159091
"Market City, My",82.0,156.5,1971.0,1.0,4.0,2.0,3.0
"Market City, NY",104.2,155.5,1977.9,3.9,4.05,3.4,3.725
"Riverdale,NY",94.071429,127.821429,1983.714286,4.285714,3.035714,3.071429,3.053571
"St. George,NY",105.086957,137.956522,1986.434783,3.978261,3.413043,2.826087,3.119565
"Upper East Side,NY",96.4,155.2,1985.533333,3.866667,2.966667,3.066667,3.016667
"Upper West Side,NY",109.0,134.666667,1984.777778,4.0,3.0,3.277778,3.138889


Podemos ver que a avaliação média no Central Park está em 3.5. Ainda não chegamos exatamente onde queremos, que é saber a culinária mais bem avaliada no Central Park, mas estamos no caminho. Basta além de *"Location"*, adicionarmos a coluna *"Cuisines"*


In [27]:
cuisine_rating.groupby(['Location', 'Cuisines'])[numeric_cols].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,User ID,Area code,YOB,Budget,Food Rating,Service Rating,Overall Rating
Location,Cuisines,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
"Cedar Hill, NY",Indian,141.0,169.5,1960.0,4.0,2.0,5.0,3.5
"Central Park,NY",Chinese,60.0,129.0,1995.0,4.0,4.5,2.5,3.5
"Central Park,NY",Filipino,89.75,148.75,1983.5,3.25,2.5,4.5,3.5
"Central Park,NY",French,109.666667,135.666667,1994.333333,3.666667,4.666667,3.0,3.833333
"Central Park,NY",Indian,78.666667,135.166667,1991.0,3.666667,2.166667,4.333333,3.25
"Central Park,NY",Italian,115.0,152.5,1996.0,4.0,5.0,5.0,5.0
"Central Park,NY",Japanese,98.0,138.5,2002.0,2.5,4.25,4.0,4.125
"Central Park,NY",Seafood,80.5,149.5,1980.0,3.0,2.5,1.5,2.0
"China Town, NY",Chinese,96.0,106.5,1976.0,3.0,2.0,5.0,3.5
"China Town, NY",Filipino,130.0,125.0,1998.0,1.0,1.0,5.0,3.0


Podemos ver na coluna "Overall Rating" que a culinária Japonesa está com a nota média melhor para a região do Central Park. Esse é um bom começo para aprofundar em mais detalhes, e estruturar melhor as decisões nesse novo empreendimento.
(A italiana provavelmente está com alguma inconscistência nos registros, e precisariamos aprofundar mais para entender, já que ela está com uma nota mais elevada)

Por desencargo de consciência resolvi aplicar um filtro para entender essa nota "italiana" e porque ela está tão alta. E pelo output podemos ver que ela não é confiável pois possui apenas 2 registros para a região, o que não suficiente considerando todos os registros das outras culinárias (mesmo que anota seja alta).

In [42]:
cuisine_rating[
    (cuisine_rating['Cuisines'] == 'Italian') &
    (cuisine_rating['Location'] == 'Central Park,NY')
    ]

Unnamed: 0,User ID,Area code,Location,Gender,YOB,Marital Status,Activity,Budget,Cuisines,Alcohol,Smoker,Food Rating,Service Rating,Overall Rating,Often A S
64,65,129,"Central Park,NY",Female,1996,Single,Student,4,Italian,Never,Never,5,5,5.0,No
164,165,176,"Central Park,NY",Female,1996,Single,Student,4,Italian,Never,Never,5,5,5.0,No


Podemos concluir com esse DataSet que a ***Culinária Japonesa*** é a melhor avaliada no Central Park, região onde queremos instalar nosso restaurante.