# Lista 03 - Análise Exploratória de Dados

Continuando da última lista, vamos agora realizar um pouco dos passos da análise exploratória de dados. Em particular, vamos passar pelos passos de:

1. Carregamento dos dados
1. Limpeza dos dados
1. Análise exploratória com gráficos e estatísticas simples

## Imports Básicos

As células abaixo apenas configuram nosso notebook para ficar mais parecido com os das aulas

In [1]:
from numpy.testing import assert_almost_equal
from numpy.testing import assert_equal

from numpy.testing import assert_array_almost_equal
from numpy.testing import assert_array_equal

In [2]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [3]:
plt.rcParams['figure.figsize']  = (16, 10)
plt.rcParams['axes.labelsize']  = 20
plt.rcParams['axes.titlesize']  = 20
plt.rcParams['legend.fontsize'] = 20
plt.rcParams['xtick.labelsize'] = 20
plt.rcParams['ytick.labelsize'] = 20
plt.rcParams['lines.linewidth'] = 4

In [4]:
plt.ion()
plt.style.use('seaborn-colorblind')

## Novos Dados

Como falamos na última lista, em muitos cenários do mundo real, os dados são carregados de fontes como arquivos. Vamos substituir o DataFrame das notas dos alunos pelo conteúdo de um arquivo de texto. 

In [5]:
df = pd.read_csv('grades.csv', sep=',', header=0)
df.head()

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0


O método `read_csv` do `DataFrame` é usado para carregar dados de arquivos de texto. Como você pode ver no código de exemplo, você pode especificar opções como o delimitador de coluna e qual linha (se houver) contém cabeçalhos de coluna (neste caso, o delimitador é uma vírgula e a primeira linha contém os nomes das colunas).

Além do mais, a chamada `head` imprime as primeiras cinco linhas da nossa tabela.

### Dados Faltantes

Um dos problemas mais comuns com os quais os cientistas de dados precisam lidar são dados incompletos ou ausentes. Como podemos saber que o DataFrame contém valores ausentes? Você pode usar o método `isnull` para tal tarefa.

In [6]:
df.isnull()

Unnamed: 0,Name,StudyHours,Grade
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
5,False,False,False
6,False,False,False
7,False,False,False
8,False,False,False
9,False,False,False


Obseve como a última linha falta com o número de horas estudadas. Nas dúas últimas, faltam as notas. Caso você deseja saber a quantidade de dados faltantes, basta somar os `True`s da tabela acima. Aqui é importante saber que Python tratta `True` de forma similar ao número 1. Portanto, basta você somar a tabela inteira para pegar tal quantidade de dados faltantes.

In [7]:
df.isnull().sum()

Name          0
StudyHours    1
Grade         2
dtype: int64

Lembrando que a chamada `iloc` pega uma linha com base no número da mesma, vamos observar a última linha da tabela de dados. Observe como os valores faltantes viram `NaN`s. Além do mais, lembre-se que podemos indexar de trás para frente com o -1. -1 é a última linha, -2 a penúltima. Para entender a lógica, em um vetor de tamanho `n`, `n-1` é o último elemento. Indexar `-1` indica `n-1`.

In [8]:
df.iloc[-1]

Name          Ted
StudyHours    NaN
Grade         NaN
Name: 23, dtype: object

A penúltima.

In [9]:
df.iloc[-2]

Name          Bill
StudyHours       8
Grade          NaN
Name: 22, dtype: object

Agora que encontramos os valores faltantes, o que podemos fazer a respeito deles?

#### fillna

Uma abordagem comum é imputar valores de substituição. Por exemplo, se o número de horas de estudo está faltando, podemos simplesmente supor que o aluno estudou por um período médio de tempo e substituir o valor faltante com as horas de estudo médias. Para fazer isso, podemos usar o método fillna, como este:

In [10]:
df['StudyHours'].fillna(df['StudyHours'].mean())

0     10.000000
1     11.500000
2      9.000000
3     16.000000
4      9.250000
5      1.000000
6     11.500000
7      9.000000
8      8.500000
9     14.500000
10    15.500000
11    13.750000
12     9.000000
13     8.000000
14    15.500000
15     8.000000
16     9.000000
17     6.000000
18    10.000000
19    12.000000
20    12.500000
21    12.000000
22     8.000000
23    10.413043
Name: StudyHours, dtype: float64

Observe que a última linha foi alterada! Porém, o DataFrame original não foi.

In [11]:
df.iloc[-1]

Name          Ted
StudyHours    NaN
Grade         NaN
Name: 23, dtype: object

Para alterar, podemos trocar a coluna. Abaixo faço tal operação em uma cópia dos dados. Realizei tal escolha apenas para não mudar a tabela original.

In [12]:
df_novo = df.copy() # criar uma cópia apenas para o exemplo
df_novo['StudyHours'] = df_novo['StudyHours'].fillna(df_novo['StudyHours'].mean())
df_novo.iloc[-1]

Name             Ted
StudyHours    10.413
Grade            NaN
Name: 23, dtype: object

Observe como não mudamos nada das notas. O `fillna` pode receber uma série indexada para alterar várias colunas. Primeiramente, observe como a chamada `mean` pega a média de todas as colunas.

In [13]:
df.mean()

StudyHours    10.413043
Grade         49.181818
dtype: float64

O `fillna` então vai pegar o índice dessa série, o nome da coluna, e utilizar como chave para quais colunas imputar. O valor da série indica o valor que será imputado. Observe como os novos dados abaixo estão sem NaNs.

In [14]:
df_novo = df.fillna(df.mean())
df_novo

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0
6,Frederic,11.5,53.0
7,Jimmie,9.0,42.0
8,Rhonda,8.5,26.0
9,Giovanni,14.5,74.0


In [15]:
df_novo.isnull().sum()

Name          0
StudyHours    0
Grade         0
dtype: int64

#### dropna

Outra opção é simplesmente remover todas as linhas com dados faltantes. Para tal, fazemos uso da chamada `dropna`.

In [16]:
df_novo = df.dropna()
df_novo.shape

(22, 3)

In [17]:
df.shape

(24, 3)

Observe como o novo DataFrame tem duas linhas a menos do que o anterior. A escolha de como limpar dados faltantes depende do tipo de análise que você vai realizar. Aqui, vamos seguir com o drop no `df`.

In [18]:
df.dropna(inplace=True) # on inplace=True altera o dataframe atual, não retorna um novo
df

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0
6,Frederic,11.5,53.0
7,Jimmie,9.0,42.0
8,Rhonda,8.5,26.0
9,Giovanni,14.5,74.0


### Exercício 01

Altere a função abaixo para retornar a mediana do valor dos sortvetes e o número de elementos no array.

In [19]:
def median_and_size(array):
    # Retorne uma tupla, abaixo temos um return de exemplo
    # return (median, size)
    return None

Novamente, vanos carregar os módulos de testes

Nosso teste

In [None]:
median, size = median_and_size(ice_cream_v)
assert_equal(1000, median)
assert_equal(12, size)

In [None]:
len(ice_cream_v)

## Pandas

Embora o NumPy forneça muitas das funcionalidades de que você precisa para trabalhar com números, quando você começa a lidar com tabelas de dados bidimensionais, o pacote Pandas oferece uma estrutura mais conveniente para trabalhar - o DataFrame.

Agora, vamos criar alguns dados de vendas de outros produtos. Além do mais, vamos criar um array de meses.

In [None]:
ice_cream = np.array([3000, 2600, 1400, 1500, 1200, 500, 300, 400, 700, 600, 800, 1900])
sunglasses = np.array([1000, 800, 100, 70, 50, 190, 60, 50, 100, 120, 130, 900])
coats = np.array([10, 20, 80, 120, 100, 500, 900, 780, 360, 100, 120, 20])
labels = np.array(["Jan", "Fev", "Mar", "Abr", "Mai", "Jun", "Jul", "Ago", "Set", "Out", "Nov", "Dez"])

O código abaixo cria um DataFrame na mão. É mais comum ler dados de arquivos. Porém, neste laboratório inicial, vamos usar um DataFrame com a pequna base de dados acima. A tabela vai ser da seguinte forma:

```
       icecream   sunglasses   coats
------------------------------------
Jan     3000        1000        10
Fev     2600        800         20
...     ...         ...        ...
Dez     1900        900         20
```

Observe que, além das colunas que você especificou, o DataFrame inclui um índice para identificar cada linha de forma exclusiva.

In [None]:
df = pd.DataFrame({'icecream': ice_cream,      # coluna 0
                   'sunglasses': sunglasses,   # coluna 1
                   'coats': coats},            # coluna 2
                   index=labels)

A chamada head mostra as 5 primeiras linhas do DataFrame. 

In [None]:
df.head()

### Exercício 02

Lembre-se da sala de aula que pandas contém chamadas `loc` e `iloc` para acessar o índice. Sabendo disto, implemente a função abaixo que retorna a quantidade de vendas em um dado mês na forma de `string`. A sua função deve retorna uma Series do pandas. Por exemplo, segue a saída esperada para 'Jan'.

```python
month_sales(df, 'Jan')
```

```
icecream      3000
sunglasses    1000
coats           10
Name: Jan, dtype: int64
```

In [None]:
def month_sales(df, month: str):
    return None

In [None]:
series = month_sales(df, 'Jan')
assert_equal(3000, series.loc['icecream'])
assert_equal(1000, series.loc['sunglasses'])
assert_equal(10, series.loc['coats'])

series = month_sales(df, 'Jan')
assert_equal(3000, series.loc['icecream'])
assert_equal(1000, series.loc['sunglasses'])
assert_equal(10, series.loc['coats'])

### Exercício 03

Agora, implemente uma função que retorna uma linha do DataFrame via um inteiro.

In [None]:
def row_sales(df, row: int):
    return None

In [None]:
series = row_sales(df, 0)
assert_equal(3000, series.loc['icecream'])
assert_equal(1000, series.loc['sunglasses'])
assert_equal(10, series.loc['coats'])

### Exercício 04 (Sem correção Automática)

Agora, faça um gráfico estilo o abaixo para entender a venda de produtos ao longo dos meses. Esta tarefa não tem correção automática, use o gráfico abaixo para saber se acertou ou não.

Lembre-se que em Pandas os data frames contém um método [plot](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html). Leia a documentação do mesmo caso necessário.

![](https://raw.githubusercontent.com/icd-ufmg/icd-ufmg.github.io/master/listas/l2/plot1.png)

### Exercício 05

Agora, altere a função abaixo para retornar 'Norte' caso você acha ache que o país das vendas acima é do hemisfério norte. Retorne 'Sul' caso contraŕio.

In [None]:
def north_or_south():
    # retorne 'Norte' ou 'Sul'
    return ''

### Exercício 06

Por fim, crie um método que retorne as estatísticas agregadas. Seu método deve retornar um novo DataFrame do seguinte formato.

```
          icecream   sunglasses       coats
count    12.000000    12.000000   12.000000
mean   1241.666667   297.500000  259.166667
std     879.522942   367.896354  308.676304
min     300.000000    50.000000   10.000000
25%     575.000000    67.500000   65.000000
50%    1000.000000   110.000000  110.000000
75%    1600.000000   342.500000  395.000000
max    3000.000000  1000.000000  900.000000
```

Uma única chamada Pandas resolve este problema!

In [None]:
def questao6(df):
    return None

## Arquivos

É bem mais comum fazer uso de DataFrames que já existem em arquivos. Note que o trabalho do cientista de dados nem sempre vai ter tais arquivos prontos. Em várias ocasiões, você vai ter que coletar e organizar os mesmos. Limpeza e coleta de dados é uma parte fundamental do seu trabalho. Durante a matéria, boa parte dos notebooks já vão ter dados prontos.

Neste último exercício, vamos fazer uso dos dados de [John Snow](http://blog.rtwilson.com/john-snows-cholera-data-in-more-formats/). Os dados já foram limpos para a tarefa.

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/icd-ufmg/icd-ufmg.github.io/master/listas/l2/snow.csv')
df.head()

A coluna Count indica o número de mortes em uma casa. A NearestPumpID indica qual bomba d'água é a mais próxima da casa. Os dados não vão bater com os da aula, pois eu não sabia exatamente onde cada casa pegava água. Apenas assumi ser no local mais próximo!

## Groupby

Vamos responder uma pergunta com a função groupby. Lembrando a ideia é separar os dados com base em valores comuns, ou seja, agrupar por nomes e realizar alguma operação. O comando abaixo agrupa todos os recem-náscidos por nome. Imagine a mesma fazendo uma operação equivalente ao laço abaixo:

```python
buckets = {}                    # Mapa de dados
names = set(df['Name'])         # Conjunto de nomes únicos
for idx, row in df.iterrows():  # Para cada linha dos dados
    name = row['Name']
    if name not in buckets:
        buckets[name] = []      # Uma lista para cada nome
    buckets[name].append(row)   # Separa a linha para cada nome
```
O código acima é bastante lento!!! O groupby é optimizado. Com base na linha abaixo, o mesmo nem retorna nehum resultado ainda. Apenas um objeto onde podemos fazer agregações.

### Exercício 07

Implemente uma função que retorna a quantidade de mortes para cada bomba. Use o `groupby`.

In [None]:
def mortes_por_pump(df):
    return None