# Introdu√ß√£o √† an√°lise de dados em Python üêç

## Importando os dados

No **Python**, os dados provenientes de uma *base de dados* (planilha, tabela em um banco SQL, etc) s√£o representados em formato de uma matriz linha/coluna. Cada linha representa uma *observa√ß√£o amostral* e cada coluna representa *uma vari√°vel*. A estrutura de dados que armazena este conte√∫do no *R* √© **data frame** pela **biblioteca Pandas**.

In [None]:
import pandas as pd

## Criando um *DataFrame*

Para criar um *data frame* no *Python* usamos a *biblioteca pandas*. √â suficiente ler o arquivo de dados com algum dos m√©todos `read_` da biblioteca pandas (de acordo com o tipo de arquivo). Al√©m disto, a biblioteca *seaborn* apresenta alguns conjuntos de dados de exemplo. Neste tutorial ser√° utilizado um dos conjuntos de dados da biblioteca *seaborn*.

In [None]:
import seaborn as sns
df = sns.load_dataset('mpg')
df.head()

## Confirmando as propriedades do *data frame*

A propriedade `shape` exp√µe a dimens√£o do *data frame*.

In [None]:
df.shape

De forma an√°loga, o m√©todo `describe()` exibe estat√≠sticas descritivas do objeto. Para cada vari√°vel num√©rica s√£o expostos a **contagem** (*count*), a **m√©dia** (*mean*), o **desvio-padr√£o** (*std*), o **valor m√≠nimo** (*min*), o **primeiro quartil** (*25%*), a **mediana** (*50%*), o **terceiro quartil** (*75%*) e o **valor m√°ximo** (*max*).




In [None]:
df.describe()

O m√©todo `info()` exibe informa√ß√µes sobre a estrutura do *data frame*.

In [None]:
df.info()

Nosso conjunto de dados √© composto por 12 vari√°veis:

* **mpg** - consumo em milhas por gal√£o.
* **cylinders** - n√∫mero de cilindros no motor.
* **displacement** - volume dos cilindros (em polegadas c√∫bicas).
* **horsepower** - pot√™ncia do motor (em horse-power).
* **weight** - peso (em 1.000 libras).
* **acceleration** - velocidade final ap√≥s 1/4 de milha.
* **model_year** - ano de modelo do veiculo.
* **origin** - pa√≠s de origem do ve√≠culo.
* **name** - nome do ve√≠culo.

## Convertendo as vari√°veis categ√≥ricas

Algumas das vari√°veis, apesar de apresentarem como sequ√™ncias num√©ricas, representam categorias. Estas vari√°veis podem ser convertidas para vari√°veis categ√≥ricas usando um comando na forma:

```python
df['nome_variavel'].astype('category')
```

O comando acima apenas converte os valores e retorna um vetor com estes valores. Para converter as vari√°veis √© necess√°rio atribuir o resultado √† elas:

In [None]:
df['cylinders'] = df['cylinders'].astype('category')   # N√∫mero de cilindros

√â poss√≠vel confirmar a transforma√ß√£o destas vari√°veis usando o m√©todo `describe()`, mas solicitando apenas as colunas categorizadas:

In [None]:
df.describe(include='category')

Esta sa√≠da mostra algumas estat√≠sticas descritivas para as vari√°veis. Quais os valores mais frequentes, quantas categorias distintas, etc.

Ao exibir a informa√ß√£o sobre o *data frame* √© p√≥ss√≠vel ver que as vari√°veis agora s√£o categoricas.

In [None]:
df.info()

## Visualiza√ß√£o dos dados

A biblioteca **pandas** disponibiliza uma s√©rie de m√©todos para a obten√ß√£o de estat√≠sticas descritivas dos dados. Por exemplo, para obter a m√©dia do consumo dos ve√≠culos na amostra:

In [None]:
df['mpg'].mean()

De forma an√°loga (mas n√£o necess√°ria) √© poss√≠vel atribuir o vetor dos valores de consumo para uma vari√°vel e utilizar esta vari√°vel para criar uma *tupla* com estat√≠sticas descritivas.

In [None]:
mpg = df['mpg']
mpg.min(), mpg.mean(), mpg.median(), mpg.max()

### Utilizando a biblioteca *Seaborn*

Duas bibliotecas gr√°ficas s√£o bastante utilizadas no *Python*: **Matplotlib** e **Seaborn**. A biblioteca **Seaborn** √© uma extens√£o da biblioteca *Matplotlib* que define os gr√°ficos mais utilizados em an√°lises estat√≠sticas..

Para carregar a biblioteca utiliza-se a cl√°usula `import`. √â uma convens√£o chamar a biblioteca pelo "apelido" `sns`:

In [None]:
import seaborn as sns

### Criando um histograma

Os histogramas s√£o criados com o m√©todo `histplot()` (*histogram plot*).

In [None]:
sns.histplot(x= df['mpg'])

Algumas coisas para se observar:

* O m√©todo `histplot()` retorna um valor `AxesSubplot`. Como este objeto n√£o ser√° necess√°rio por enquanto, podemos limpar a sa√≠da acrescentando um `;` (*ponto-e-v√≠rgula*) ap√≥s a chamada do m√©todo.

* A biblioteca *Seaborn* estima o n√∫mero √≥timo de intervalos. A quantidade de intervalos pode ser configurado. Al√©m disto, √© poss√≠vel desenhar junto uma estimativa da fun√ß√£o de densidade.

In [None]:
sns.histplot(x=df['mpg'], bins=10, kde=True);

Evidentemente, outros par√¢metros podem ser alterados (cor, t√≠tulos, etc).

In [None]:
sns.histplot(x= df['mpg'], bins= 10, kde= False,
             stat= "probability", color='green');

### Criando um *boxplot*

O *boxplot* √© um gr√°fico bastante utilizado em an√°lises estat√≠sticas. O ret√¢ngulo central representa os valores entre o 1¬∫ e o 3¬∫ quartil, a linha central representa a mediana, as hastes s√£o prolongadas at√© os limites inferiores e superiores (se houver valores al√©m destes pontos) ou aos m√≠nimo e m√°ximo (caso contr√°rio). Valores que excedem os limites s√£o marcados por pontos (s√£o valores aberrantes).

In [None]:
sns.boxplot(x= df['mpg']);

Se preferir o gr√°fico na posi√ß√£o vertical, desenhe o gr√°fico para a vari√°vel `y` ao inv√©s da vari√°vel `x`. Tamb√©m pode ser interessante marcar a posi√ß√£o da m√©dia para visualizar a dist√¢ncia com rela√ß√£o √† mediana. Em distribui√ß√µes assim√©tricas esta diferen√ßa tende √† aumentar em dire√ß√£o √† cauda da distribui√ß√£o.

In [None]:
sns.boxplot(y= df['mpg'],  color='lightgreen', showmeans=True);

### Filtrando os dados

Em diversas situa√ß√µes a filtragem de valores de um banco de dados √© necess√°ria. Isto pode ser feito atrav√©s do uso de **vetores booleanos**.

Por exemplo, o vetor abaixo sinaliza aqueles autom√≥veis com motor em V.

In [None]:
df['cylinders'] == 4   # Motores com 4 cilindros.

O comando acima n√£o faz a filtragem em si, ele apenas sinaliza as linhas que atendem √† condi√ß√£o solicitada. Para filtrar a base de dados √© poss√≠vel usar este vetor aleat√≥rio como √≠ndice do *data frame*:

In [None]:
df[df['cylinders'] == 4]

√â poss√≠vel atribuir este resultado para um *data frame* auxiliar (ou ao pr√≥prio *data frame* original).

In [None]:
temp = df[df['cylinders'] == 4]
type(temp)

O m√©todo `type()` do *Python* exibe o tipo de dado contido na vari√°vel. Observe que foi criado um novo *data frame*.

Agora √© poss√≠vel calcular estat√≠sticas com este objeto da forma usual. Por exemplo, o consumo dos ve√≠culos com motor em V pode ser obtido por:

In [None]:
temp['mpg'].mean()

O resultado pode ser arredondado com o comando `round()`:

In [None]:
round(temp['mpg'].mean(), 2)

### Combinando crit√©rios de filtragem

Os vetores booleanos podem ser criados combinando condi√ß√µes com `&` (*e*) e `|` (*ou*). O √∫nico truque √© isolar cada condi√ß√£o entre par√™nteses:

In [None]:
(df['cylinders'] == 4) & (df['horsepower'] < 100)   # 4 cilindros e menos de 100 cavalos.

A filtragem √© realizada da forma usual.

In [None]:
df[(df['cylinders'] == 4) & (df['horsepower'] < 100)]

### Filtrando usando uma lista

Uma forma conveniente de se filtrar um conjunto de dados pode ser interessante combinar os valores desejados em uma lista. √â poss√≠vel verificar se os valores da vari√°vel em teste est√° contido na lista com o m√©todo `isin()`.

In [None]:
lowcyl = [2, 3, 4]
df[df['cylinders'].isin(lowcyl)]

## Recodificando os dados

√â poss√≠vel adicionar uma coluna ("*Series*") em um *data frame*. No c√≥digo abaixo uma coluna chamada "*dummy*" √© criada com todos os valores iguais a ZERO.

In [None]:
df['dummy'] = 0
df.head()

Ajustar todos os valores de "*dummy"* para uma constante n√£o √© muito √∫til, ent√£o vamos remover a coluna. Isto √© feito com o m√©todo `drop()` e requer um argumento `axis` (em que 0 = linha e 1 = coluna). O argumento `inplace = True` √© comum no *pandas*: isto equivale a atribuir o valor ao pr√≥prio *data frame*.

In [None]:
df.drop('dummy', axis=1, inplace=True)
df.head()

### O m√©todo *where* da biblioteca *numpy*

A biblioteca *Numpy* do *Python* define o m√©todo `where()` que funciona como um operador tern√°rio: `where(<condi√ß√£o l√≥gica>, <valor se verdadeiro>, <valor se falso>)`.

In [None]:
import numpy as np
df['SportCar'] = np.where((df['cylinders'] == 8) & (df['horsepower'] > 120), 1, 0)
df.head()

### Aplicando uma fun√ß√£o

O *pandas* possui o m√©todo `apply()` que permite aplicar o resultado de uma fun√ß√£o para um vetor de dados. Isto pode ser feito, por exemplo, atrav√©s de uma fun√ß√£o:

In [None]:
def my_recode(sport_car):
    if sport_car == 0:
        return "usual"
    else:
        return "esportivo"

Uma vez definida, a fun√ß√£o pode ser utilizada para recodificar os valores da vari√°vel em quest√£o:

In [None]:
my_recode(0), my_recode(1)

Agora, aplicando o m√©todo `apply()` do *pandas* na coluna **SportCar** √© poss√≠vel criar uma vari√°vel auxiliar com os valores recodificados:

In [None]:
df['tipo_carro'] = df['SportCar'].apply(my_recode)
df.head()

### Aplicando uma fun√ß√£o lambda

Uma forma mais interessante de aplicar uma recodifica√ß√£o √© definir uma **fun√ß√£o lambda**. Uma *fun√ß√£o lambda* √© uma fun√ß√£o simples, an√¥nima e definida em uma √∫nica linha.

In [None]:
df['tipo_carro'] = df['SportCar'].apply(lambda x: "normal" if x == 0 else "muscle")
df.head()

A vantagem √≥bvia do m√©todo `apply()` √© que a fun√ß√£o (expl√≠cita ou lambda) pode ser arbitrariamente complexa. Por exemplo, se o interesse for calcular o consumo em quil√¥metros por litro (como √© usual no Brasil) pode-se fazer:

In [None]:
df['kml'] = df['mpg'].apply(lambda x: round(0.425142954325581 * x, 2))
df.head()

### Substituindo valores de uma lista

A biblioteca *pandas* possui o m√©todo `replace()` que recebe 2 listas: uma lista de c√≥digos atuais e uma lista com os valores correspondentes recodificados.

In [None]:
codes  = [0, 1]
labels = ["normal", "esportivo"]

df['SportCar'] = df['SportCar'].replace(codes, labels)
df[10:15]

### Calculando vari√°veis na escala logar√≠tmica

Em algumas aplica√ß√µes √© interessante utilizar vari√°veis na escala logaritmica. A fun√ß√£o `log()` da biblioteca *NumPy* permite calcular uma vari√°vel na escala logar√≠tmica (com base natural):

In [None]:
import seaborn as sns
sns.kdeplot(x= df['weight'], fill= True, linewidth= 2);

O uso de fun√ß√µes lambda podem ser aplicadas para transformar escalas de vari√°veis. Por exemplo, o c√≥digo abaixo cria uma vari√°vel **wt** que √© o peso do autom√≥vel em libras na escala logar√≠tmica.

In [None]:
df['wt'] = df['weight'].apply(lambda w: 1000 * w)
df['wt'] = np.log(df['wt'])
df.head()

Observe que a distribui√ß√£o desta vari√°vel √© diferente da original. Se parece um pouco sim√©trica. Este √© um m√©todo que pode ser utilizado para ajustar a distribui√ß√£o das vari√°veis para fins estat√≠sticos.

In [None]:
import seaborn as sns
sns.kdeplot(x= df['wt'], fill= True, linewidth= 2);