# Introdução à análise de dados em Python 🐍

## Importando os dados

No **Python**, os dados provenientes de uma *base de dados* (planilha, tabela em um banco SQL, etc) são representados em formato de uma matriz linha/coluna. Cada linha representa uma *observação amostral* e cada coluna representa *uma variável*. A estrutura de dados que armazena este conteúdo no *R* é **data frame** pela **biblioteca Pandas**.

In [None]:
import pandas as pd

## Criando um *DataFrame*

Para criar um *data frame* no *Python* usamos a *biblioteca pandas*. É suficiente ler o arquivo de dados com algum dos métodos `read_` da biblioteca pandas (de acordo com o tipo de arquivo). Além disto, a biblioteca *seaborn* apresenta alguns conjuntos de dados de exemplo. Neste tutorial será utilizado um dos conjuntos de dados da biblioteca *seaborn*.

In [None]:
import seaborn as sns
df = sns.load_dataset('mpg')
df.head()

## Confirmando as propriedades do *data frame*

A propriedade `shape` expõe a dimensão do *data frame*.

In [None]:
df.shape

De forma análoga, o método `describe()` exibe estatísticas descritivas do objeto. Para cada variável numérica são expostos a **contagem** (*count*), a **média** (*mean*), o **desvio-padrão** (*std*), o **valor mínimo** (*min*), o **primeiro quartil** (*25%*), a **mediana** (*50%*), o **terceiro quartil** (*75%*) e o **valor máximo** (*max*).




In [None]:
df.describe()

O método `info()` exibe informações sobre a estrutura do *data frame*.

In [None]:
df.info()

Nosso conjunto de dados é composto por 12 variáveis:

* **mpg** - consumo em milhas por galão.
* **cylinders** - número de cilindros no motor.
* **displacement** - volume dos cilindros (em polegadas cúbicas).
* **horsepower** - potência do motor (em horse-power).
* **weight** - peso (em 1.000 libras).
* **acceleration** - velocidade final após 1/4 de milha.
* **model_year** - ano de modelo do veiculo.
* **origin** - país de origem do veículo.
* **name** - nome do veículo.

## Convertendo as variáveis categóricas

Algumas das variáveis, apesar de apresentarem como sequências numéricas, representam categorias. Estas variáveis podem ser convertidas para variáveis categóricas usando um comando na forma:

```python
df['nome_variavel'].astype('category')
```

O comando acima apenas converte os valores e retorna um vetor com estes valores. Para converter as variáveis é necessário atribuir o resultado à elas:

In [None]:
df['cylinders'] = df['cylinders'].astype('category')   # Número de cilindros

É possível confirmar a transformação destas variáveis usando o método `describe()`, mas solicitando apenas as colunas categorizadas:

In [None]:
df.describe(include='category')

Esta saída mostra algumas estatísticas descritivas para as variáveis. Quais os valores mais frequentes, quantas categorias distintas, etc.

Ao exibir a informação sobre o *data frame* é póssível ver que as variáveis agora são categoricas.

In [None]:
df.info()

## Visualização dos dados

A biblioteca **pandas** disponibiliza uma série de métodos para a obtenção de estatísticas descritivas dos dados. Por exemplo, para obter a média do consumo dos veículos na amostra:

In [None]:
df['mpg'].mean()

De forma análoga (mas não necessária) é possível atribuir o vetor dos valores de consumo para uma variável e utilizar esta variável para criar uma *tupla* com estatísticas descritivas.

In [None]:
mpg = df['mpg']
mpg.min(), mpg.mean(), mpg.median(), mpg.max()

### Utilizando a biblioteca *Seaborn*

Duas bibliotecas gráficas são bastante utilizadas no *Python*: **Matplotlib** e **Seaborn**. A biblioteca **Seaborn** é uma extensão da biblioteca *Matplotlib* que define os gráficos mais utilizados em análises estatísticas..

Para carregar a biblioteca utiliza-se a cláusula `import`. É uma convensão chamar a biblioteca pelo "apelido" `sns`:

In [None]:
import seaborn as sns

### Criando um histograma

Os histogramas são criados com o método `histplot()` (*histogram plot*).

In [None]:
sns.histplot(x= df['mpg'])

Algumas coisas para se observar:

* O método `histplot()` retorna um valor `AxesSubplot`. Como este objeto não será necessário por enquanto, podemos limpar a saída acrescentando um `;` (*ponto-e-vírgula*) após a chamada do método.

* A biblioteca *Seaborn* estima o número ótimo de intervalos. A quantidade de intervalos pode ser configurado. Além disto, é possível desenhar junto uma estimativa da função de densidade.

In [None]:
sns.histplot(x=df['mpg'], bins=10, kde=True);

Evidentemente, outros parâmetros podem ser alterados (cor, títulos, etc).

In [None]:
sns.histplot(x= df['mpg'], bins= 10, kde= False,
             stat= "probability", color='green');

### Criando um *boxplot*

O *boxplot* é um gráfico bastante utilizado em análises estatísticas. O retângulo central representa os valores entre o 1º e o 3º quartil, a linha central representa a mediana, as hastes são prolongadas até os limites inferiores e superiores (se houver valores além destes pontos) ou aos mínimo e máximo (caso contrário). Valores que excedem os limites são marcados por pontos (são valores aberrantes).

In [None]:
sns.boxplot(x= df['mpg']);

Se preferir o gráfico na posição vertical, desenhe o gráfico para a variável `y` ao invés da variável `x`. Também pode ser interessante marcar a posição da média para visualizar a distância com relação à mediana. Em distribuições assimétricas esta diferença tende à aumentar em direção à cauda da distribuição.

In [None]:
sns.boxplot(y= df['mpg'],  color='lightgreen', showmeans=True);

### Filtrando os dados

Em diversas situações a filtragem de valores de um banco de dados é necessária. Isto pode ser feito através do uso de **vetores booleanos**.

Por exemplo, o vetor abaixo sinaliza aqueles automóveis com motor em V.

In [None]:
df['cylinders'] == 4   # Motores com 4 cilindros.

O comando acima não faz a filtragem em si, ele apenas sinaliza as linhas que atendem à condição solicitada. Para filtrar a base de dados é possível usar este vetor aleatório como índice do *data frame*:

In [None]:
df[df['cylinders'] == 4]

É possível atribuir este resultado para um *data frame* auxiliar (ou ao próprio *data frame* original).

In [None]:
temp = df[df['cylinders'] == 4]
type(temp)

O método `type()` do *Python* exibe o tipo de dado contido na variável. Observe que foi criado um novo *data frame*.

Agora é possível calcular estatísticas com este objeto da forma usual. Por exemplo, o consumo dos veículos com motor em V pode ser obtido por:

In [None]:
temp['mpg'].mean()

O resultado pode ser arredondado com o comando `round()`:

In [None]:
round(temp['mpg'].mean(), 2)

### Combinando critérios de filtragem

Os vetores booleanos podem ser criados combinando condições com `&` (*e*) e `|` (*ou*). O único truque é isolar cada condição entre parênteses:

In [None]:
(df['cylinders'] == 4) & (df['horsepower'] < 100)   # 4 cilindros e menos de 100 cavalos.

A filtragem é realizada da forma usual.

In [None]:
df[(df['cylinders'] == 4) & (df['horsepower'] < 100)]

### Filtrando usando uma lista

Uma forma conveniente de se filtrar um conjunto de dados pode ser interessante combinar os valores desejados em uma lista. É possível verificar se os valores da variável em teste está contido na lista com o método `isin()`.

In [None]:
lowcyl = [2, 3, 4]
df[df['cylinders'].isin(lowcyl)]

## Recodificando os dados

É possível adicionar uma coluna ("*Series*") em um *data frame*. No código abaixo uma coluna chamada "*dummy*" é criada com todos os valores iguais a ZERO.

In [None]:
df['dummy'] = 0
df.head()

Ajustar todos os valores de "*dummy"* para uma constante não é muito útil, então vamos remover a coluna. Isto é feito com o método `drop()` e requer um argumento `axis` (em que 0 = linha e 1 = coluna). O argumento `inplace = True` é comum no *pandas*: isto equivale a atribuir o valor ao próprio *data frame*.

In [None]:
df.drop('dummy', axis=1, inplace=True)
df.head()

### O método *where* da biblioteca *numpy*

A biblioteca *Numpy* do *Python* define o método `where()` que funciona como um operador ternário: `where(<condição lógica>, <valor se verdadeiro>, <valor se falso>)`.

In [None]:
import numpy as np
df['SportCar'] = np.where((df['cylinders'] == 8) & (df['horsepower'] > 120), 1, 0)
df.head()

### Aplicando uma função

O *pandas* possui o método `apply()` que permite aplicar o resultado de uma função para um vetor de dados. Isto pode ser feito, por exemplo, através de uma função:

In [None]:
def my_recode(sport_car):
    if sport_car == 0:
        return "usual"
    else:
        return "esportivo"

Uma vez definida, a função pode ser utilizada para recodificar os valores da variável em questão:

In [None]:
my_recode(0), my_recode(1)

Agora, aplicando o método `apply()` do *pandas* na coluna **SportCar** é possível criar uma variável auxiliar com os valores recodificados:

In [None]:
df['tipo_carro'] = df['SportCar'].apply(my_recode)
df.head()

### Aplicando uma função lambda

Uma forma mais interessante de aplicar uma recodificação é definir uma **função lambda**. Uma *função lambda* é uma função simples, anônima e definida em uma única linha.

In [None]:
df['tipo_carro'] = df['SportCar'].apply(lambda x: "normal" if x == 0 else "muscle")
df.head()

A vantagem óbvia do método `apply()` é que a função (explícita ou lambda) pode ser arbitrariamente complexa. Por exemplo, se o interesse for calcular o consumo em quilômetros por litro (como é usual no Brasil) pode-se fazer:

In [None]:
df['kml'] = df['mpg'].apply(lambda x: round(0.425142954325581 * x, 2))
df.head()

### Substituindo valores de uma lista

A biblioteca *pandas* possui o método `replace()` que recebe 2 listas: uma lista de códigos atuais e uma lista com os valores correspondentes recodificados.

In [None]:
codes  = [0, 1]
labels = ["normal", "esportivo"]

df['SportCar'] = df['SportCar'].replace(codes, labels)
df[10:15]

### Calculando variáveis na escala logarítmica

Em algumas aplicações é interessante utilizar variáveis na escala logaritmica. A função `log()` da biblioteca *NumPy* permite calcular uma variável na escala logarítmica (com base natural):

In [None]:
import seaborn as sns
sns.kdeplot(x= df['weight'], fill= True, linewidth= 2);

O uso de funções lambda podem ser aplicadas para transformar escalas de variáveis. Por exemplo, o código abaixo cria uma variável **wt** que é o peso do automóvel em libras na escala logarítmica.

In [None]:
df['wt'] = df['weight'].apply(lambda w: 1000 * w)
df['wt'] = np.log(df['wt'])
df.head()

Observe que a distribuição desta variável é diferente da original. Se parece um pouco simétrica. Este é um método que pode ser utilizado para ajustar a distribuição das variáveis para fins estatísticos.

In [None]:
import seaborn as sns
sns.kdeplot(x= df['wt'], fill= True, linewidth= 2);