# <span style="color:green">Projeto de Visualização de Dados</span> 

Neste notebook farei a limpeza e tratamento dos dados para posteriormente carregá-lo no Power BI Desktop e gerar visualizações.

## Fonte dos dados:
https://www.kaggle.com/residentmario/ramen-ratings

Trata-se de um dataset que contém diversas variedades de Lámen com avaliações dos consumidores provenientes de diversos países.

## Dicionário:

<ol>
 <li>Review - Id do Review</li>
 <li>Brand - Marca do Lámen</li>
 <li>Variety - Variedade</li>
 <li>Style - Estilo</li>
 <li>Country - País</li>
 <li>Stars - Estrelas</li>
 <li>Top Ten - Informa se o Lamen está entre os Top 10</li>   
</ol>

## Objetivo:

Analisar o Dataset e descobrir os lamens melhores avaliados, e quais os países que mais contribuíram para a pesquisa.

## Pacotes:

In [83]:
import matplotlib
import pandas as pd
import seaborn as sns
import numpy as np

## Importando os Dados:

In [84]:
dados = pd.read_csv('ramen-ratings.csv')

In [85]:
# Visualizando algumas linhas do DataSet
dados.head()

Unnamed: 0,Review #,Brand,Variety,Style,Country,Stars,Top Ten
0,2580,New Touch,T's Restaurant Tantanmen,Cup,Japan,3.75,
1,2579,Just Way,Noodles Spicy Hot Sesame Spicy Hot Sesame Guan...,Pack,Taiwan,1.0,
2,2578,Nissin,Cup Noodles Chicken Vegetable,Cup,USA,2.25,
3,2577,Wei Lih,GGE Ramen Snack Tomato Flavor,Pack,Taiwan,2.75,
4,2576,Ching's Secret,Singapore Curry,Pack,India,3.75,


In [86]:
# Verificando a quantidade de valores nulos do DataSet
dados.isnull().sum()

Review #       0
Brand          0
Variety        0
Style          2
Country        0
Stars          0
Top Ten     2539
dtype: int64

In [87]:
dados.shape

(2580, 7)

In [88]:
# Primeiro irei analisar os valores de cada coluna
marcas = dados['Brand'].value_counts()
# São 355 marcas diferentes e a Marca Nissin é a mais frequente.
# Como se trata apenas de um projeto para estudo irei utilizar apenas as 10 marcas mais votadas.
marcas = pd.DataFrame(marcas[0:10])
marcas = list(marcas.index)
marcas

['Nissin',
 'Nongshim',
 'Maruchan',
 'Mama',
 'Paldo',
 'Myojo',
 'Indomie',
 'Samyang Foods',
 'Ottogi',
 'Vina Acecook']

In [89]:
selecao = dados['Brand'].isin(marcas)
dados_2 = dados[selecao]
dados_2
dados = dados_2
dados

Unnamed: 0,Review #,Brand,Variety,Style,Country,Stars,Top Ten
2,2578,Nissin,Cup Noodles Chicken Vegetable,Cup,USA,2.25,
5,2575,Samyang Foods,Kimchi song Song Ramen,Pack,South Korea,4.75,
12,2568,Nongshim,Mr. Bibim Stir-Fried Kimchi Flavor,Pack,South Korea,4.25,
13,2567,Nissin,Deka Buto Kimchi Pork Flavor,Bowl,Japan,4.5,
14,2566,Nissin,Demae Ramen Bar Noodle Aka Tonkotsu Flavour In...,Pack,Hong Kong,5,
...,...,...,...,...,...,...,...
2558,22,Nongshim,Ansungtangmyun Noodle Soup,Pack,South Korea,3.75,
2559,21,Nongshim,Champong Oriental Noodles,Pack,South Korea,4,
2560,20,Nongshim,Neoguri (Seafood'n'Spicy),Pack,South Korea,3.5,
2561,19,Nongshim,Shin Ramyun,Pack,South Korea,4,


In [90]:
dados['Brand'].value_counts()

Nissin           381
Nongshim          98
Maruchan          76
Mama              71
Paldo             66
Myojo             63
Indomie           53
Samyang Foods     52
Ottogi            46
Vina Acecook      34
Name: Brand, dtype: int64

In [91]:
dados['Variety'].value_counts()
# São 2413 variedades diferentes.

Kokomen Spicy Chicken                                            3
Shin Ramyun                                                      2
Champong Oriental Noodles                                        2
Cup Noodles Minced Pork Flavour                                  2
Premium Instant Noodles Spicy Beef Flavour                       2
                                                                ..
Raoh Tonkotsu                                                    1
Raoh Rich Soy Sauce With Roast Pork (2 Slices)                   1
Instant Noodles Creamy Shrimp Tom Yum Flavour                    1
Bowl Taste Of Asia Hearty Pork Flavor Tonkotsu Ramen             1
Demae Iccho Black Garlic Oil Tonkotsu Flavour Instant Noodles    1
Name: Variety, Length: 908, dtype: int64

In [92]:
paises = dados['Country'].value_counts()
print (paises)
print(paises.shape)
# 38 países participaram da pesquisa

South Korea      214
USA              187
Japan            178
Thailand          75
Hong Kong         67
Indonesia         54
Singapore         43
Vietnam           34
Mexico            24
Germany           22
China              8
India              6
Colombia           6
Brazil             5
Myanmar            5
Cambodia           4
Bangladesh         4
United States      1
Nigeria            1
Philippines        1
Hungary            1
Name: Country, dtype: int64
(21,)


In [93]:
dados['Stars'].unique()
# Existem notas marcadas como 'Unrated', irei optar por retirar esses registros do Dataset.

array(['2.25', '4.75', '4.25', '4.5', '5', '4', 'Unrated', '3.75', '2',
       '3', '1.5', '3.5', '3.25', '2.5', '0.5', '4.00', '5.0', '5.00',
       '4.0', '3.50', '0', '3.8', '4.3', '4.50', '3.0', '2.75', '1',
       '1.75', '1.1', '3.1', '4.125', '3.125', '2.125', '0.1', '3.6',
       '2.8'], dtype=object)

In [94]:
selecao = dados['Stars'] == 'Unrated'
dados = dados[~selecao]

In [95]:
dados['Stars'].unique()

array(['2.25', '4.75', '4.25', '4.5', '5', '4', '3.75', '2', '3', '1.5',
       '3.5', '3.25', '2.5', '0.5', '4.00', '5.0', '5.00', '4.0', '3.50',
       '0', '3.8', '4.3', '4.50', '3.0', '2.75', '1', '1.75', '1.1',
       '3.1', '4.125', '3.125', '2.125', '0.1', '3.6', '2.8'],
      dtype=object)

In [96]:
# Verificando de sobraram valores nulos na coluna.
dados['Stars'].isnull().sum()

0

In [97]:
# Para a finalidade desta análise a coluna Top Ten se torna irrelevante 
# pois as visualizações já fazem destaque para o registro ou resgistros de maiores notas.
dados = dados.drop(['Top Ten'],axis = 1)

In [98]:
dados.head()

Unnamed: 0,Review #,Brand,Variety,Style,Country,Stars
2,2578,Nissin,Cup Noodles Chicken Vegetable,Cup,USA,2.25
5,2575,Samyang Foods,Kimchi song Song Ramen,Pack,South Korea,4.75
12,2568,Nongshim,Mr. Bibim Stir-Fried Kimchi Flavor,Pack,South Korea,4.25
13,2567,Nissin,Deka Buto Kimchi Pork Flavor,Bowl,Japan,4.5
14,2566,Nissin,Demae Ramen Bar Noodle Aka Tonkotsu Flavour In...,Pack,Hong Kong,5.0


In [99]:
#Verificando novamente se sobraram registros nulos:
dados.isnull().sum()

Review #    0
Brand       0
Variety     0
Style       0
Country     0
Stars       0
dtype: int64

In [100]:
# Eliminando registros nulos da coluna Styles
dados.dropna(subset = ['Style'], inplace = True)
dados.isnull().sum()

Review #    0
Brand       0
Variety     0
Style       0
Country     0
Stars       0
dtype: int64

In [101]:
# Também não há necessidade da Coluna Review.
dados = dados.drop(['Review #'],axis = 1)

In [102]:
dados.head()

Unnamed: 0,Brand,Variety,Style,Country,Stars
2,Nissin,Cup Noodles Chicken Vegetable,Cup,USA,2.25
5,Samyang Foods,Kimchi song Song Ramen,Pack,South Korea,4.75
12,Nongshim,Mr. Bibim Stir-Fried Kimchi Flavor,Pack,South Korea,4.25
13,Nissin,Deka Buto Kimchi Pork Flavor,Bowl,Japan,4.5
14,Nissin,Demae Ramen Bar Noodle Aka Tonkotsu Flavour In...,Pack,Hong Kong,5.0


## Salvando os dados Tratados:

In [103]:
dados.to_csv('ramen_ratings_tratados', index = False)