## Boas-vindas
Desejamos boas-vindas ao Google Colab! Uma plataforma que vai te auxiliar nesse primeiro passo que você está dando dentro da carreira em Ciência de Dados. Abaixo preparamos um breve resumo sobre esta ferramenta e suas funcionalidades.

## Introdução

O Google Colab é uma plataforma online gratuita que permite aos usuários executarem código Python em um ambiente de notebook Jupyter. **O que é notebook Jupyter?** É importante destacar que os códigos que são rodados no Colab não serão rodados em seu computador, mas sim em servidores da Google. Esse fato tem como consequência os principais motivos por termos escolhido o Google Colab para uso: permitir que os usuários colaborem em projetos com outras pessoas em tempo real, fazer com que os códigos dentro do Colab sejam executados sem ter que instalar nada no computador e, consequentemente, não causar o sobrecarregamento da sua máquina por causa da execução dos códigos (pois os códigos de manipulação de dados podem ser muito custosos computacionalmente).

## Integração com outros Serviços do Google

O Google Colab se integra a vários outros serviços do Google, incluindo o Google Drive e o Google Sheets (Google Planilhas). Isso torna fácil importar e exportar dados para e de notebooks do Colab. Os usuários também podem usar o Google Sheets como uma fonte de dados para modelos de aprendizado de máquina, o que pode ser especialmente útil para projetos que exigem dados em tempo real.

## Botando a mão na massa

Tá bom, chega de lero-lero. Provavelmente você não vê a hora de começar, e para isto reunimos alguns materiais importantes para te guiar neste inicio de jornada. Mas antes disso, aqui vai uma breve lista do que vamos abordar:
- Onde encontrar uma base de dados para utilizar;
- Como importar uma base de dados para o Google Colab;
- Como Manipular a base de dados importada.


# Introdução




Antes de prosseguirmos, é importante ressaltar que na comunidade de dados geralmente nos referimos a um "conjunto de dados" como "Dataset", então, a partir de agora usaremos apenas o termo Dataset, belê?

### Prosseguindo

Um local que recomendamos para encontrar Datasets, é o [Kaggle](https://kaggle.com/). Nele, uma vez que você encontrar o Dataset que quiser utilizar, você deve importá-lo para o Google Colab.
Para esse Colab vamos utilizar [winemag-data-130k-v2](https://www.kaggle.com/datasets/zynicide/wine-reviews). Para te ajudar nesse processo preparamos esse [tutorial](https://app.tango.us/app/workflow/Como-baixar-e-importar-um-Dataset-para-o-Colab-a7fa2f3515be4beab9c01197079dac3c) que mostra como baixar e ler o Dataset dentro do Colab.

O tutorial foi feito em uma versão anterior do Google colab. A unica distinção para o que temos agora é que na hora de dar permissões de acesso ao google drive, é necessário marcar todas as opções para permitir o acesso do Colab ao seu google drive pessoal. Na antiga versão, essas permissões eram concedidas de forma direta.

# Encontrando e importando um Dataset

Isso abaixo é uma célula de código, você pode clicar no botão de "play" para executar ela.
O código dentro dela irá "montar" o seu drive pessoal dentro do Colab.

*É necessário dar permissão para o colab acessar o seu Drive.*

In [None]:
from google.colab import drive
drive.mount('/content/drive')

A célula abaixo permitirá que o colab leia os conteúdos do nosso Dataset. Para que isso ocorra é necessário importar a biblioteca pandas

o import no python pode ser feito de algumas formas

1) import simples da biblioteca:
```
import pandas
```
2) apelidando a biblioteca:

```
import pandas as pd
```

nesse caso, quando chamamos a biblioteca pandas podemos escrever apenas 'pd' em vez de 'pandas'.

3) A última forma é importar apenas um módulo da biblioteca:

```
from pandas import DataFrame
```

aqui estamos importando apenas o módulo "DataFrame" da biblioteca "pandas"

Nesse nosso exemplo, usaremos a segunda forma.




In [None]:
import pandas as pd

Uma vez importada a biblioteca, podemos utilizar a função read_csv() para ler o arquivo do google drive

OBS: verifique se o caminho passado dentro da função está correto em relação ao local que o arquivo foi salvo dentro do seu drive.

In [None]:
df = pd.read_csv("winemag-data-130k-v2.csv")

Agora que conseguimos ler o Dataset usando o Pandas, ele passa a ser um Dataframe. Por isso armazenamos ele numa variável chamada "df", mas poderia ser qualquer nome.

## sobre o Dataframe


Esse conjunto de dados que estamos utilizando como exemplo possui informações de vários vinhos e uma descrição feita por algum sommelier. As variáveis que ele possui são:

**country**: o país de origem do vinho

**description**: descrição do sommellier

**designation**: vinha de origem do vinho

**points**: nota que o vinho recebeu no "WineEnthusiast"

**price**: preço de uma garrafa do vinho

**province**: província (ou estado) de onde o vinho veio

**region_1**: província do plantio da uva

**region_2**: área específica dentro da província de plantio

**taster_name**: nome do sommelier

**taster_twitter_handle**: twitter do sommelier

**title**: nome do vinho

**variety**: tipo do vinho

**winery**: vinícula de origem do vinho

# Manipulando o Dataframe

Tendo o Dataframe em mãos e sabemos do que se trata, podemos prossguir para a etapa de manipulação.

## Visualizando trechos do Dataframe

Para verficar as primeiras 5 linhas do Dataframe, podemos utilizar a função head() do Pandas. Execute a célula abaixo para ver a saída.

In [None]:
df.head()

Podemos inserir um número como parâmetros para quantas linhas queremos ver. No exemplo abaixo utilizamos o valor "10", sinta-se a vontade para mudar e testar com os valores que quiser.

In [None]:
df.head(10)

Analogamente, podemos visualizar as últimas linhas do Dataframe usando a função tail() do Pandas.

In [None]:
df.tail()

O mesmo conceito de quantidade de linhas se aplica a essa função.

In [None]:
df.tail(10)

Caso você prefira, poderá utilizar a função sample() do Pandas que, como o nome em inglês diz, exibirá uma amostra aleatória do Dataframe.

In [None]:
df.sample(5)

Para ter uma melhor noção das dimensões do Dataframe usamos o atributo shape. Nesse caso temos 14 colunas e 12.9971 linhas. Lembrando que nosso Dataframe basicamente é uma tabela com 14 colunas e 12.9971 linhas.

In [None]:
df.shape

A função a seguir é a describe(). Com ela podemos ter vários tipos de métricas úteis para uma análise superficial dos dados numéricos do Dataframe.

Somente são utilizadas as variáveis numéricas do dataset, uma vez que a função describe retorna valores estatísticos. Os valores retornados são:










*   **count**: número de observações daquela variável
*   **mean**: valor médio dessa variável
*   **std**: desvio padrão da variável
*   **min**: valor mínimo registrado
*   **25%**: valor que separa o primeiro quartil
*   **50%**: valor que separa o segundo quartil
*   **75%**: valor que separa o terceiro quartil
*   **max**: valor máximo registrado






In [None]:
df.describe()

O atributo columns fornece uma lista de todas as colunas do Dataframe

In [None]:
df.columns

A função info() do Pandas permite extrair informações como: quantidade de colunas, quantidade de linhas não nulas e o tipo de dado de cada uma.

In [None]:
df.info()

# Seleção de trechos do Dataframe

Todos os métodos descritos acima foram aplicados no dataframe completo. É possível também fazer uma seleção de trechos espcíficos do dataset.

A primeira forma que podemos "fatiar" o nosso dataset é por **colunas**.Para fazer isso, basta fornecer o nome da coluna desejada, entre aspas, dentro dos colchetes, como mostrado no exemplo abaixo.

In [None]:
df['country']

Isso que está na célula acima é uma Serie.

Serie é um tipo de dado muito similar a lista. É um a sequência de valores de um mesmo tipo. No caso, temos uma Serie de strings(palavras) que representam o país de origem do vinho.

É possível converter uma Serie para uma lista utilizando o seguinte código:


```
lista = df['country'].to_list()
```

Da mesma forma, podemos converter uma lista em uma Serie assim:

```
serie = pd.Series(lista)
```

Por serem estruturas muito parecidas, existem métodos que podem ser aplicados nas duas.

##splice em listas
Um exemplo que nos interessa é o splice de listas.

dado uma lista [1,3,5,7,9,11,13], é possível selecionar intervalos dela com a sintaxe:

```
lista[primeiro_elemento : ultimo_elemento ]
```

olhe o exemplo abaixo

Obs: note que a primeiro elemento é incluido na lista, mas o último não. Tome cuidado para passar os valores certos na hora de selecionar elementos da lista

In [None]:
lista = [1,3,5,7,9,11,13]  # lista completa
lista

In [None]:
lista[0:5] # entre elementos 0 e 5 (elemento 5 não incuído)

In [None]:
lista[2:7] # entre elementos 2 e 7 (elemento 7 não incuído)

Podemos passar apenas um valor dentro do colchete para selecionar apenas um indice da lista

In [None]:
lista[5] # elemento indice 5

In [None]:
lista[3] # elemento indice 3

É possível passar valores negativos também, dessa forma a contagem de elementos é feita de traz para a frente

In [None]:
lista[-3] # 3º elemento contando do final ([1,3,5,7,9,11,13])

In [None]:
lista[-5] # 5º elemento contando do final ([1,3,5,7,9,11,13])

In [None]:
lista[1:-3] # do elemento indice 1 até o indice -3 (contagem de traz para a frente)

## Splice em Series

Da mesma forma que em listas, podemos fazer esse fatiamento em Series.

In [None]:
serie = df['country']
serie

essa série de países tem 129971 observações

Vamos pegar a observação de indice 500

In [None]:
serie[500]  # observação 500

In [None]:
serie[12005] # observação 12005

In [None]:
serie[10:20] # da observação 10 até a 20

In [None]:
serie[1000:-1000] # eliminando os primeiros e os ultimos 1000 registros

## Seleção de mais de uma coluna

O conceito de series é muito importante pois um Dataframe nada mais é do que um varias series juntas. Por isso é importante saber manipulá-las bem.

Quando quisermos selecionar mais de uma coluna de um dataset, a estratégia é criar um dataset novo com as colunas desejadas.

Para fazer isso precisamos passar os nomes das colunas, entre aspas, entre **DOIS** colchetes

In [None]:
df_novo = df[['country','variety']]
df_novo

In [None]:
df_novo2 = df[['country','variety','province', 'region_1',]]
df_novo2

## Seleção de linhas

###loc e iloc

Agora que voce já sabe separar colunas, vamos para a seleção de linhas.

Em séries individuais, podemos usar o método de slice normalmente. Mas, quando estamos trabalhando com um dataframe precisamos utilizar os métodos .loc e .iloc

Para os dois métodos, devemos utilizar a mesma sintaxe de splice em listas mas com eses métodos na frente.

Aqui abaixo tem um exemplo do uso.

In [None]:
df_novo2.iloc[5] #linha 5

isso retorna os valores de todas as variáveis na linha

In [None]:
df_novo2.iloc[5:20] # entre linha 5 e 20

A única diferença entre .loc e .iloc é que com o iloc é passado a posição numérica da linha desejada.

Já no .loc devemos passar o rótulo da linha e não a usa posição (o rótulo seria essa primeira coluna que fica a esquerda da tabela com os números em negrito)

Nesse caso, como as linhas estão ordenadas o loc e o iloc fazem a mesma coisa. Mas nos casos em que o rótulo não coincide com a posição devemos nos atentar a qual usar.

###Filtro por valor

Outra forma que podemos utilizar para filtrar linhas desejadas do dataset é com a síntaxe abaixo



```
df[(condicao_desejada)]
```

Esse exemplo abaixo separa apenas os vinhos de origem francesa.


In [None]:
df_novo = df[df['country'] == 'France']  #filtrando quando df['country'] for igual a 'France'
df_novo.head()

É possível passar mais de uma condição para o filtro também, basta usar os operadores lógicos "&" e "|" e colocar as condições entre parenteses

In [None]:
df_novo = df[(df['country'] == 'France') & (df['designation'] == 'Nouveau')]  #filtrando quando df['country'] for igual a 'France' e df['designation'] == 'Nouveau'
df_novo.head()

# Agrupamento por valor




Uma outra ferramenta muito interessante que temos para organizar dataframes que temos é a função groupby().

Esse é o tipo de função que é mais fácil ver funcionando do que explicar o que ela faz.

Passamos uma variável do dataset como parâmetro da função que será utilizada como referência para agrupar as outras variáveis numéricas(nesse caso "country"). Mas como assim agrupar as outras variáveis numéricas??

A forma de agrupamento é passada com esse método no final (.mean()) isso diz ao programa que o nosso objetivo é juntar todas as observações de um mesmo país e tirar a média os valores numéricos das outras variáveis.

Primeiro, vamos criar um dataset com apenas a coluna que queremos utilizar como base para o agrupamento e as colunas numéricas de interesse.

Após isso, aplicamos a função groupby no dataset

In [None]:
df_group = df[['country','points','price']]

df_group = df_group.groupby('country').mean()
df_group

Dessa forma, podemos ver qual a média de cada variável numérica para cada um dos países. É possível, por exemplo, ver a média de preço em cada país e saber quais são os países que possuem o vinho mais caro ou o mais barato.

OBS: o ".mean()" poderia também ser: .sum(), .std(), .min() e .max() (soma dos valores, desvio padrão, valor mínimo e valor máximo respectivamente)

Caso queira ordenar os valores, podemos utilzar a função

```
df_group.sort_values(by='points', ascending=True)
```
devemos passar o nome da coluna considerada na ordenação no atributo "by". O atributo ascending diz se será ordenado de forma crescente ou decrescente. Ascending = True é ordenação crescente e ascending = False é ordenação decrescente

vej como fica os países ordenados pela média de pontuação por exemplo

In [None]:
df_group.sort_values(by='points', ascending=False)

# Dados nulos

É importante que você saiba que algo muito comum ao se trabalhar com datasets é a existência de dados faltantes, também conhecidos como dados nulos. Dados faltantes basicamente são dados não registrados, ou seja, uma determinada célula do dataframe que não possui nenhum dado lá dentro. Saiba que é comum que os dados nulos sejam chamados de "NaN" (Not a Number) no dataframe. Por fim, é importante que você saiba quais motivos levam a um dado faltante.

## Dados nulos aleatórios

O primeiro motivo para a existência para um dado nulo é por causa aleatória. Daremos alguns exemplos para que fique mais claro:



*   Imagine que há um dispositivo que mede a salinidade da água. Esse dispositivo consiste em uma boia com um cilindro metálico acoplado. A boia é jogada no mar, e tem como finalidade fazer com que o dispositivo como um todo flutue. Por sua vez, o cilindro metálico é a parte que justamente tem como finalidade medir a salinidade da água. O cilindro mede e armazena a salinidade que ele detectou na água a cada exatos 1 minuto. Entretanto, devido a agitação das ondas do mar, a boia pode se mexer de forma que, quando o cilindro for medir a salinidade, o cilindro se encontra fora da água. E quando isso acontece, o dispositivo armazena um dado nulo, pois não foi possível armazenar um dado de salinidade da água. Perceba que nesse caso o motivo da existência do dado nulo é totalmente aleatória. Ou seja, não há um padrão para a existência do dado nulo.
*   Um questionário pode ser perdido acidentalmente no correio de forma aleatória (imprevisível)
*   Uma amostra de sangue pode ser danificada acidentalmente no laboratório de forma aleatória (imprevisível)

Portanto, quando dizemos que faltam dados completamente ao acaso, queremos dizer que a falta não tem nada a ver com o objeto que está sendo estudado.







## Dados nulos devido a razão sistemática


Por outro lado, também há a possibilidade de que a existência dos dados nulos não seja aleatória. Ou seja, pode ser que a falta se deva a uma razão sistemática. Vamos para alguns exemplos para que isso fique mais claro:


*   Imagine que está sendo feita uma pesquisa, sendo que essa pesquisa é feita de forma a perguntar ao entrevistado algumas informações sobre si. Porém, o candidato pode optar por não querer responder a uma determinada pergunta. Uma das perguntas é declarar qual é a renda mensal do entrevistado. É conhecido o fato de que indivíduos com alta renda tendem a não revelar o quanto ganham de salário (para fins didáticos, imagine que pessoas com baixa ou média renda tendem a declarar sem problemas seu salário). Quando os dados de todos os entrevistados foram coletados, percebeu-se que alguns candidatos não declararam qual era seu salário, ou seja, possuíam um dado nulo. Porém, perceba que neste caso o dado nulo não se deve à causa aleatória, pois sabemos que eles se devem provavelmente ao fato daquela pessoa possui alta renda. Neste caso, a existência do dado nulo está provavelmente atrelada a um motivo conhecido.
*   Imagine que uma pessoa deveria comparecer hoje a um exame para detectar se ela está sob o efeito de drogas. Entretanto, a pessoa não compareceu ao exame (e também não será punida por isso). Ou seja, o resultado daquele exame se tornou um dado nulo, uma informação faltante em relação àquela pessoa. Porém, sabe-se que uma pessoa que não está drogada não deveria ter problemas em fazer o exame, ou seja, se a pessoa faltou no exame é devido uma tentativa de esconder que está drogada. Perceba que novamente neste caso o motivo da existência do dado nulo não é totalmente aleatória, pois a existência do dado nulo está provavelmente atrelada a um motivo conhecido (sistemático).


Perceba que nesse contexto, diferentemente dos dados nulos aleatórios, a existência de um dado nulo nos revela uma (provável) informação sobre aquela pessoa sendo estudada. Ou seja, o dado nulo nos fornece uma informação sobre o objeto estudado.





# Como identificar e tratar dados nulos

Nesta seção você irá estudar sobre como identificar dados nulos em um dataframe, assim como de que forma pode tratá-los. Inicialmente, comece estudando os conteúdos abaixo:

[Como lidar com dados faltantes (NaN) em um Dataset](https://www.youtube.com/watch?v=k1zi4EwIXoc)

[Como tratar dados nulos no dataset?](https://medium.com/horadecodar/como-tratar-dados-nulos-no-dataset-4f0470b22d38)

A seguir, revisaremos os conteúdos abordados!

A função isnull() mostrará se cada linha possui algum valor nulo.

In [None]:
df.isnull()

A função isnull() por si só não nos fornece uma visão muito boa, pois seria necessário vasculhar o Dataset inteiro procurando por algum "True".

Para isso pode ser melhor usar a função sum(), que vai somar e retornar a quantidade de valores nulos para cada coluna.

In [None]:
df.isnull().sum()

Como visto acima, existem muitos valores nulos e isso pode nos atrapalhar.

Uma forma de tratar esse problema é eliminando todas as linhas com valores nulos.

Para isso existe a função dropna() do Pandas. Ela remove todas as linhas que possuem algum valor nulo.

In [None]:
df = df.dropna()
df

# Dados duplicados

Para verificar linhas duplicadas usamos a função duplicated(). Porém, ela possui o mesmo problema da função isnull(), isto é, ela é dificil de interpretar.

In [None]:
df.duplicated()

Para facilitar, podemos usar novamente a função sum(), que nos retornará a quantidade de linhas duplicadas. No caso não existem linhas duplicadas.

In [None]:
df.duplicated().sum()

Mas se existissem, poderíamos usar a função drop_duplicates().

In [None]:
df = df.drop_duplicates()

# E aí curtiu?

Agora é sua vez! Vá no Colab chamado "Desafio" e complete as informações faltantes;