<h1> Introdução </h1>

Neste tutorial, nós vamos aprender como <b>investigar</b> os tipos de dados que estão no DataFrame. Nós também vamos aprender como achar e substituir entradas.

<h1>Tipos de Dados</h1>

Um tipo de dado para uma coluna em um DataFrame é conhecido como <b>dtype</b>

Você pode usar a propriedade `dtype` para pegar um tipo de uma coluna específica. Por exemplo, nós podemos pegar o dtype da coluna `price` no Dataframe `df`

In [2]:
import pandas as pd
df = pd.read_csv("winemag-data-130k-v2.csv", index_col=0)
pd.set_option('max_rows', 5)

In [3]:
df["price"].dtype

dtype('float64')

De forma alternativa, podemos usar a propriedade `dtypes` para todas colunas no DataFrame:

In [6]:
df.dtypes

country        object
description    object
                ...  
variety        object
winery         object
Length: 13, dtype: object

Tipos de dados nos contam sobre como pandas está guardando seus dados internamente. `float64` significa que está usando 64-bit floating point number. `int64` significa o mesmo só que para inteiros.

Uma peculiaridade para se manter na cabeça é que colunas que consistem inteiramente de strings, não possuem um tipo próprio. Eles são chamados de tipos `objetos`

É possivel converter uma coluna de um tipo em outro tipo, porém essa conversão faz sentido usando a função `astype()`.Por exemplo, nós queremos transformar a coluna `points` de `int64` para `float64`:

In [7]:
df.points.astype("float64")

0         87.0
1         87.0
          ... 
129969    90.0
129970    90.0
Name: points, Length: 129971, dtype: float64

O Dataframe ou Series index tem também seu próprio tipo:

In [8]:
df.index.dtype

dtype('int64')

Pandas também suporta tipos mais exóticos de dados, como categóricos e timeseries. Por conta que esses tipos de dados são mais raramente usados, vamos omitilos desta lição. Porém falaremos mais deles, em tópicos mais avançados.

<h1> Valores vazios </h1>

Entradas que não possuem uma valor são especificados como `NaN`, uma abreviação de `Not a Number`. Por razões técnicas, esses `NaN` são sempre dados do tipo `float64`.

Pandas nos dá alguns métodos específicos para dados "faltantes". Para selecionar as entradas `NaN` você pode utilizar o `pd.isnull()`:

In [9]:
df[pd.isnull(df.country)]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
913,,"Amber in color, this wine has aromas of peach ...",Asureti Valley,87,30.0,,,,Mike DeSimone,@worldwineguys,Gotsa Family Wines 2014 Asureti Valley Chinuri,Chinuri,Gotsa Family Wines
3131,,"Soft, fruity and juicy, this is a pleasant, si...",Partager,83,,,,,Roger Voss,@vossroger,Barton & Guestier NV Partager Red,Red Blend,Barton & Guestier
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129590,,"A blend of 60% Syrah, 30% Cabernet Sauvignon a...",Shah,90,30.0,,,,Mike DeSimone,@worldwineguys,Büyülübağ 2012 Shah Red,Red Blend,Büyülübağ
129900,,This wine offers a delightful bouquet of black...,,91,32.0,,,,Mike DeSimone,@worldwineguys,Psagot 2014 Merlot,Merlot,Psagot


Substituir os valores "faltantes" é uma operação comum. Pandas ofereçe um método bastante útil para lidar com esse problema: `fillna()`. `fillna()` nos dá algumas diferentes estratégias para mitigar tais dados. Por exemplo, nós podemos simplesmente substituir cada `NaN` por `"Unknown"`:

In [10]:
df.region_2.fillna("Unknown")

0         Unknown
1         Unknown
           ...   
129969    Unknown
129970    Unknown
Name: region_2, Length: 129971, dtype: object

Ou podemos preencher cada valor ausente com o primeiro valor não nulo que aparece algum tempo depois do registro fornecido no banco de dados. Isso é conhecido como estratégia de aterramento.

Como alternativa, podemos ter um valor não nulo que gostaríamos de substituir. Por exemplo, suponha que, desde que este conjunto de dados foi publicado, o revisor Kerin O'Keefe mudou seu identificador no Twitter de @kerinokeefe para @kerino. Uma maneira de refletir isso no conjunto de dados é usando o método replace ():

In [11]:
df.taster_twitter_handle.replace("@kerinokeefe", "@kerino")

0            @kerino
1         @vossroger
             ...    
129969    @vossroger
129970    @vossroger
Name: taster_twitter_handle, Length: 129971, dtype: object

Vale a pena mencionar o método replace () aqui porque é útil para substituir dados ausentes que recebem algum tipo de valor sentinela no conjunto de dados: coisas como "Desconhecido", "Não divulgado", "Inválido" e assim por diante.

Lembrando que abordaremos o tema de limpeza de dados nas próximas lições. Tenha em mente que utilizar as ferramentas descritas neste tutorial pode fazer com que seu dataset perca sua "integridade".

<h1>Exercícios</h1>

In [12]:
import pandas as pd

df = pd.read_csv("winemag-data-130k-v2.csv", index_col=0)
print("Setup complete.")

Setup complete.


## 1. 
Qual o tipo de dado da coluna `points` no dataset?

In [13]:
#Digite aqui sua reposta. Não esqueça de mostrar os resultados.

<details><summary>Clique aqui para ver a resposta.</summary>

```python
dtype = df.points.dtype
```     
</details>

## 2. 
Crie uma Series a partir da coluna pontos, porém converta suas entradas para strings.

In [14]:
#Digite aqui sua reposta. Não esqueça de mostrar os resultados.

<details><summary>Clique aqui para ver a resposta.</summary>

```python
point_strings = df["points"].astype(str)
```     
</details>

## 3.
Algumas vezes o preço na coluna é nulo. Quantos reviews no dataset são valores perdidos de preço?

In [15]:
#Digite aqui sua reposta. Não esqueça de mostrar os resultados.

<details><summary>Clique aqui para ver a resposta.</summary>

```python
n_missing_prices = df["price"].isnull().sum()
```     
</details>