# Análise Exploratória de Dados I

In [1]:
import numpy as np
import pandas as pd

In [2]:
cuisine_rating = pd.read_csv('Cuisine_rating.csv')

Quando queremos dar uma primeira olhada, uma boa função que o Pandas nos oferece é a ```head()```.

In [3]:
cuisine_rating.head()

Unnamed: 0,User ID,Area code,Location,Gender,YOB,Marital Status,Activity,Budget,Cuisines,Alcohol,Smoker,Food Rating,Service Rating,Overall Rating,Often A S
0,1,153,"Upper East Side,NY",Female,2006,Single,Professional,3,Japanese,Never,Never,5,4,4.5,No
1,2,123,"St. George,NY",Female,1991,Married,Student,3,Indian,Never,Socially,1,1,1.0,No
2,3,122,"Upper West Side,NY",Male,1977,Single,Student,5,Seafood,Often,Often,5,5,5.0,Yes
3,4,153,"Upper East Side,NY",Female,1956,Married,Professional,5,Japanese,Never,Socially,3,1,2.0,No
4,5,129,"Central Park,NY",Male,1997,Single,Student,4,Filipino,Socially,Never,2,4,3.0,No


Assim, nós conseguimos ter uma primeira visualização dos dados que essa tabela nos trouxe, sobre os quais construiremos nossa análise.

É ideal entrarmos em contato com quem forneceu os dados a fim de conhecer os dados que as tabelas nos trazem.

O Kaggle, de onde foi extraído o dataset em questão, nos traz o contexto desses dados. Além disso, nos traz um pequeno resumo das colunas.

Com isso feito, é interessante verificar se o Pandas interpretou os dados de maneira correta e se temos dados nulos. Para isso, podemos usar a função ```info()```.

In [5]:
cuisine_rating.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   User ID         200 non-null    int64  
 1   Area code       200 non-null    int64  
 2   Location        200 non-null    object 
 3   Gender          200 non-null    object 
 4   YOB             200 non-null    int64  
 5   Marital Status  200 non-null    object 
 6   Activity        200 non-null    object 
 7   Budget          200 non-null    int64  
 8   Cuisines        200 non-null    object 
 9   Alcohol         200 non-null    object 
 10  Smoker          200 non-null    object 
 11  Food Rating     200 non-null    int64  
 12  Service Rating  200 non-null    int64  
 13  Overall Rating  200 non-null    float64
 14  Often A S       200 non-null    object 
dtypes: float64(1), int64(6), object(8)
memory usage: 23.6+ KB


Verifica-se que o dataset tem 200 registros e em nenhuma das colunas há dados nulos. Além disso, é possível ver os tipos de dados das colunas. As colunas de texto possuem dados do tipo object e as demais, int ou float.

Para enxergar os dados com uma cara de sumarização utilizaremos a função ```describe()```. Essa função calcula um conjunto de estatística descritiva pra cada coluna numérica do dataset.

In [12]:
cuisine_rating.describe()

Unnamed: 0,User ID,Area code,YOB,Budget,Food Rating,Service Rating,Overall Rating
count,200.0,200.0,200.0,200.0,200.0,200.0,200.0
mean,100.5,141.06,1984.83,3.815,3.22,3.23,3.225
std,57.879185,26.130257,16.809339,1.056578,1.411226,1.526022,1.079445
min,1.0,101.0,1955.0,1.0,1.0,1.0,1.0
25%,50.75,123.0,1971.0,3.0,2.0,2.0,2.5
50%,100.5,135.0,1987.0,4.0,3.0,3.0,3.0
75%,150.25,158.0,2000.0,5.0,5.0,5.0,4.0
max,200.0,199.0,2009.0,5.0,5.0,5.0,5.0


**Vamos tentar responder algumas perguntas**:

- Qual tipo de culinária parece ser o mais popular?

A função ```value_counts()``` conta a frequência que cada culinária aparece na base de dados.

In [7]:
cuisine_rating['Cuisines'].value_counts()

Cuisines
Japanese    36
Filipino    34
French      34
Indian      32
Chinese     24
Seafood     22
Italian     18
Name: count, dtype: int64

Para dar uma olhada somente nos restaurantes de culinária japonesa:

In [10]:
cuisine_rating[cuisine_rating['Cuisines'] == 'Japanese']

Unnamed: 0,User ID,Area code,Location,Gender,YOB,Marital Status,Activity,Budget,Cuisines,Alcohol,Smoker,Food Rating,Service Rating,Overall Rating,Often A S
0,1,153,"Upper East Side,NY",Female,2006,Single,Professional,3,Japanese,Never,Never,5,4,4.5,No
3,4,153,"Upper East Side,NY",Female,1956,Married,Professional,5,Japanese,Never,Socially,3,1,2.0,No
17,18,153,"Upper East Side,NY",Male,2004,Single,Student,3,Japanese,Often,Often,1,5,3.0,Yes
25,26,123,"St. George,NY",Male,1969,Single,Professional,3,Japanese,Never,Socially,4,3,3.5,No
34,35,129,"Central Park,NY",Male,2001,Divorced,Student,1,Japanese,Socially,Often,5,5,5.0,No
35,36,107,"Riverdale,NY",Male,1998,Single,Professional,5,Japanese,Never,Socially,1,3,2.0,No
36,37,154,"Market City, NY",Male,2006,Single,Student,4,Japanese,Often,Often,5,2,3.5,Yes
42,43,123,"St. George,NY",Male,1985,Married,Student,5,Japanese,Never,Never,3,1,2.0,No
49,50,107,"Riverdale,NY",Female,1974,Married,Student,5,Japanese,Socially,Socially,2,5,3.5,No
50,51,107,"Riverdale,NY",Female,2007,Single,Student,4,Japanese,Often,Often,5,5,5.0,Yes


Para obter a média da coluna ```'Overal Rating'``` para os restaurantes de comida japonesa:

In [11]:
cuisine_rating[cuisine_rating['Cuisines'] == 'Japanese']['Overall Rating'].mean()

3.5972222222222223

Quando estamos trabalhando com dados, tentando entender uma massa de dados, muitas vezes é interessante fazermos resumo desses dados, sumarização desses dados. É quando fazemos uso de algumas funções para simplificar a massa em uma informação mais simples.

- Qual é a culinária mais bem avaliada do Central Park?

In [13]:
cuisine_rating['Location'].value_counts()

Location
St. George,NY         46
Upper East Side,NY    30
Riverdale,NY          28
Central Park,NY       24
China Town, NY        22
Market City, NY       20
Upper West Side,NY    18
Central Park,ny        8
Market City, MY        2
Cedar Hill, NY         2
Name: count, dtype: int64

Observa-se que há um erro de grafia em alguns registros em que NY está escrito em minúsculo, o que separa esses registros do grupo majoritário "Central Park,NY".

In [15]:
cuisine_rating.groupby(['Location', 'Cuisines'])[['Overall Rating']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Overall Rating
Location,Cuisines,Unnamed: 2_level_1
"Cedar Hill, NY",Indian,3.5
"Central Park,NY",Chinese,3.5
"Central Park,NY",Filipino,3.5
"Central Park,NY",French,3.75
"Central Park,NY",Indian,2.5
"Central Park,NY",Italian,5.0
"Central Park,NY",Japanese,4.125
"Central Park,NY",Seafood,2.0
"Central Park,ny",Filipino,3.5
"Central Park,ny",French,4.0


- **Solução alternativa**. Passo a passo para obter somente as colunas numéricas e realizar a média de todas elas simultanteamente:

Para obter as colunas numéricas:

In [22]:
numeric_cols = cuisine_rating.select_dtypes(include=np.number)

numeric_cols

Unnamed: 0,User ID,Area code,YOB,Budget,Food Rating,Service Rating,Overall Rating
0,1,153,2006,3,5,4,4.5
1,2,123,1991,3,1,1,1.0
2,3,122,1977,5,5,5,5.0
3,4,153,1956,5,3,1,2.0
4,5,129,1997,4,2,4,3.0
...,...,...,...,...,...,...,...
195,196,175,1982,4,1,2,1.5
196,197,170,2000,4,1,2,1.5
197,198,160,2006,5,5,2,3.5
198,199,130,2002,3,3,2,2.5


Para obter o nome dessas colunas númericas:

In [23]:
numeric_cols = numeric_cols.columns

numeric_cols

Index(['User ID', 'Area code', 'YOB', 'Budget', 'Food Rating',
       'Service Rating', 'Overall Rating'],
      dtype='object')

Para obter o nome dessas colunas numéricas em formato de lista:

In [24]:
numeric_cols = numeric_cols.tolist()

numeric_cols

['User ID',
 'Area code',
 'YOB',
 'Budget',
 'Food Rating',
 'Service Rating',
 'Overall Rating']

In [26]:
cuisine_rating.groupby(['Location', 'Cuisines'])[numeric_cols].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,User ID,Area code,YOB,Budget,Food Rating,Service Rating,Overall Rating
Location,Cuisines,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
"Cedar Hill, NY",Indian,141.0,169.5,1960.0,4.0,2.0,5.0,3.5
"Central Park,NY",Chinese,60.0,129.0,1995.0,4.0,4.5,2.5,3.5
"Central Park,NY",Filipino,83.666667,144.166667,1990.666667,3.333333,2.333333,4.666667,3.5
"Central Park,NY",French,116.0,144.75,2003.5,4.0,4.5,3.0,3.75
"Central Park,NY",Indian,77.0,131.5,2001.0,3.0,2.0,3.0,2.5
"Central Park,NY",Italian,115.0,152.5,1996.0,4.0,5.0,5.0,5.0
"Central Park,NY",Japanese,98.0,138.5,2002.0,2.5,4.25,4.0,4.125
"Central Park,NY",Seafood,80.5,149.5,1980.0,3.0,2.5,1.5,2.0
"Central Park,ny",Filipino,108.0,162.5,1962.0,3.0,3.0,4.0,3.5
"Central Park,ny",French,97.0,117.5,1976.0,3.0,5.0,3.0,4.0
