---
# DELL LEAD - Curso de Visualização de Dados 📊

<b> Oficina - Aula 1.1 </b>

Este notebook tem como objetivo analisar os dados sobre o consumo de litros de álcool por pessoa em países no ano de 2010. Os dados podem ser baixados [aqui](https://d11s0xq1vqg039.cloudfront.net/videos_conteudo/visual/micro01/oficina/arquivos/dadosoficina01.txt).

Por: Pedro Florencio de Almeida Neto

---

#### Importando da Biblioteca Pandas

In [1]:
import pandas as pd

#### Carregando os dados e definindo como um DataFrame

In [2]:
df = pd.read_csv("drinks.txt")
df

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
0,Afghanistan,0,0,0,0.0
1,Albania,89,132,54,4.9
2,Algeria,25,0,14,0.7
3,Andorra,245,138,312,12.4
4,Angola,217,57,45,5.9
...,...,...,...,...,...
188,Venezuela,333,100,3,7.7
189,Vietnam,111,2,1,2.0
190,Yemen,6,0,0,0.1
191,Zambia,32,19,4,2.5



#### Verificando das principais informações acerca do dataset

In [3]:
df.head() # 5 primeiras linhas do dataset

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
0,Afghanistan,0,0,0,0.0
1,Albania,89,132,54,4.9
2,Algeria,25,0,14,0.7
3,Andorra,245,138,312,12.4
4,Angola,217,57,45,5.9


In [4]:
df.describe() # Quantidade de amostras em cada variável, média, desvio padrão, quartis e valores mínimos e máximos

Unnamed: 0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
count,193.0,193.0,193.0,193.0
mean,106.160622,80.994819,49.450777,4.717098
std,101.143103,88.284312,79.697598,3.773298
min,0.0,0.0,0.0,0.0
25%,20.0,4.0,1.0,1.3
50%,76.0,56.0,8.0,4.2
75%,188.0,128.0,59.0,7.2
max,376.0,438.0,370.0,14.4


In [5]:
df.info() # Informações sobre quantidade de observações e tipos dos dados de cada um dos atributos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 193 entries, 0 to 192
Data columns (total 5 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   country                       193 non-null    object 
 1   beer_servings                 193 non-null    int64  
 2   spirit_servings               193 non-null    int64  
 3   wine_servings                 193 non-null    int64  
 4   total_litres_of_pure_alcohol  193 non-null    float64
dtypes: float64(1), int64(3), object(1)
memory usage: 7.7+ KB


In [6]:
df.isnull().sum() # Verificando se há dados nulos no dataset

country                         0
beer_servings                   0
spirit_servings                 0
wine_servings                   0
total_litres_of_pure_alcohol    0
dtype: int64

In [7]:
df[df["total_litres_of_pure_alcohol"]==0].count() # Verificando se há 0 de consumo no dataset

country                         13
beer_servings                   13
spirit_servings                 13
wine_servings                   13
total_litres_of_pure_alcohol    13
dtype: int64

---
✏ O conjunto de dados drinks é compostos por <b>193</b> amostras que correspondem a países do mundo. Para cada país há 4 atributos que se referem ao consumo de litros de <b>cerveja</b>, <b>vinho</b>, <b>licor</b> e o volume total consumido  por pessoa de <b>álcool puro</b>. Conforme observado, não há dados <b>NaN</b> no dataset (que posteriormente deveriam ser tratados). Entretanto, há 13 países com o valor de consumo 0, como no Afeganistão por exemplo. Lá, como em outros 12 países segundo [notícia](https://www.bol.uol.com.br/listas/13-paises-que-aboliram-o-consumo-de-bebidas-alcoolicas.htm) da UOL de 2015, o consumo de bebidas alcóolicas é proibido ou restrito. Todavia, sabe-se que há o consumo de forma clandestina. <b>Afirmar que nesses países não há consumo de bebidas alcoolicas é um erro</b>. Podemos verificar se os 13 países da publicação, são os mesmos que constam no dataset.

---


In [8]:
zeroCountries = df[df["total_litres_of_pure_alcohol"]==0]
zeroCountries['country']

0           Afghanistan
13           Bangladesh
46          North Korea
79                 Iran
90               Kuwait
97                Libya
103            Maldives
106    Marshall Islands
107          Mauritania
111              Monaco
128            Pakistan
147          San Marino
158             Somalia
Name: country, dtype: object

---
✏ Afeganistão, Bangladesh, Brunei, Índia, Irã, Líbia, Mauritânia, Paquistão, Sharjah, Arábia Saudita, Sudão, Kuwait e Iêmen são os países da reportagem. Conforme visto, há países que não constam nesta lista de restrição mas que há 0 de consumo. Problemas com a <b> coleta de dados </b> podem ter ocorrido nestas nações. Os que constam na lista da UOL e há o consumo de bebida alcoolica no dataset, pode ser explicado por uma restrição parcial ou tipo de bebida permitida, como no Sudão. Além disso, há uma diferença de 5 anos entre os dados e a publicação, podendo ter ocorrido mudanças nas leis que regulamentam o consumo de bebida alcoolica nestes países. 


In [9]:
df[df['country']=='Sudan']

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
162,Sudan,8,13,0,1.7


---

## Questões da Atividade 📚


---
<b> 1. Qual a média e desvio padrão do consumo de cerveja, licor, vinho e total de álcool? </b> 

In [10]:
desc = df.describe()
desc

Unnamed: 0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
count,193.0,193.0,193.0,193.0
mean,106.160622,80.994819,49.450777,4.717098
std,101.143103,88.284312,79.697598,3.773298
min,0.0,0.0,0.0,0.0
25%,20.0,4.0,1.0,1.3
50%,76.0,56.0,8.0,4.2
75%,188.0,128.0,59.0,7.2
max,376.0,438.0,370.0,14.4


* A <b>média</b> do consumo de cerveja, licor, vinho e total de álcool são, respectivamente: 106.16 L, 81 L, 49.45 L e 4.71 L.

* O <b>desvio padrão</b> do consumo de cerveja, licor, vinho e total de álcool são, respectivamente: 101.14, 88.28, 79.69 e 3.77.

* Verifica-se que devido ao alto desvio padrão, os dados parecem ser muito dispersos.



Para verificarmos a dispersão dos dados podemos utilizar o coeficiente de variação.

$ (CV = Desvio Padrão/ Média)*100 $

Se CV:

menor ou igual a 15% - Baixa dispersão

Entre 15 e 30% - Média dispersão.

maior que 30% - Alta dispersão


In [11]:
cv = (desc.loc['std']/desc.loc['mean'])*100
cv

beer_servings                    95.273653
spirit_servings                 108.999950
wine_servings                   161.165512
total_litres_of_pure_alcohol     79.991932
dtype: float64

✏ Uma alta dispersão é observada nos dados, isto é, muitos deles se encontram distantes da média. Logo, os países tendem a se diferir bastante quanto ao consumo de bebidas alcoolicas.

<b> 2. Qual o consumo de licor na França? </b>

In [12]:
df[df['country']=='France'][['spirit_servings','country']]

Unnamed: 0,spirit_servings,country
61,151,France


O consumo de licor na França em 2010 foi de 151L

<b> 3. Quais os 5 países nos quais se consome mais vinho? </b>

In [13]:
fiveCountries = df.sort_values(by='spirit_servings',ascending=False).head(5)[['country','spirit_servings']]
fiveCountries 

Unnamed: 0,country,spirit_servings
68,Grenada,438
15,Belarus,373
73,Haiti,326
141,Russian Federation,326
144,St. Lucia,315


<b> 4. Quais os países nos quais o consumo de cerveja está acima da média? </b>

In [14]:
beerCountries = df[df['beer_servings']>df['beer_servings'].mean()][['country','beer_servings']]
beerCountries.sort_values(by='beer_servings', ascending=False)

Unnamed: 0,country,beer_servings
117,Namibia,376
45,Czech Republic,361
62,Gabon,347
65,Germany,346
135,Poland,343
...,...,...
11,Bahamas,122
145,St. Vincent & the Grenadines,120
185,Uruguay,115
189,Vietnam,111


São 76 os países em que o consumo de cerveja está acima da média.

<b>5. Quais países nos quais o consumo total de álcool está acima do Brasil, em ordem do menor para o maior?<b/>

In [40]:
consumoBrasil = float(df[df['country']=='Brazil']['total_litres_of_pure_alcohol'])
maioresQueBrasil = df[df['total_litres_of_pure_alcohol']>consumoBrasil][['country','total_litres_of_pure_alcohol']].sort_values(by='total_litres_of_pure_alcohol')
maioresQueBrasil

Unnamed: 0,country,total_litres_of_pure_alcohol
132,Paraguay,7.3
35,Chile,7.6
188,Venezuela,7.7
143,St. Kitts & Nevis,7.7
159,South Africa,8.2
32,Canada,8.2
44,Cyprus,8.2
6,Argentina,8.3
179,Uganda,8.3
67,Greece,8.3


In [39]:
consumoBrasil

7.2

In [38]:
len(maioresQueBrasil)

47

É 47 o número de países que tem o consumo total de álcool por pessoa maior do que o brasileiro (Maior que 7.2 litros).