<a href="https://colab.research.google.com/github/vitormiro/estatistica_ppger_ufc/blob/main/python_fundamentos_7_pandas_p1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análise de dados com o Pandas


A biblioteca **Pandas** é construída em cima da biblioteca **NumPy**.

para saber mais sobre o Pandas, acesse o [guia de usuário do Pandas](https://pandas.pydata.org/docs/user_guide/index.html) (em inglês).

Como estamos usando o Colab, o Pandas vem instalado por padrão. Ou seja, a única coisa que você precisa é importar o pacote. 

Vamos importar a biblioteca **pandas** usando o aliás `pd`.


In [None]:
import pandas as pd

Por meio do Pandas, você consegue importar dados (arquivos `csv`, `xls` e `xlsx`, entre outros), tratar esses dados, transformá-los e realizar análises estatísticas.

Para carregar os dados em um arquivo do tipo .csv podemos utilizar o método `pd.read_excel`.

No Colab vamos precisar carregar o arquivo no notebook primeiro.
O Colab possibilita que você insira arquivos do seu computador no notebook através do método `files` do módulo `google.colab`. 

Ao chamar `files.upload()`, uma caixa de seleção vai aparecer e você pode procurar e carregar o arquivo desejado.


In [None]:
from google.colab import files
uploaded = files.upload()

Depois de escolher o arquivo, o objeto `uploaded` acima, que é um arquivo de excel, devmos carregar os dados para obter um objeto tratado pelo pandas. Para isso, usamos a biblioteca io, como mostrado no exemplo abaixo.Usamos o `import io` e podemos carregar os dados com o `pd.read_excel`.

In [None]:

df = pd.read_excel('AtlasBrasil_ce2010.xlsx')
print(df)

In [None]:
# identificar o volume de dados do DataFrame
print("Entradas:\t {}".format(df.shape[0]))
print("Variáveis:\t {}\n".format(df.shape[1]))

Para simplesmente listar os nomes das colunas do nosso *DataFrame* - basta executar o método `.columns`:

In [None]:
df.columns


Para conhecer os tipos de variáveis de cada coluna, use `df.dtypes`.

In [None]:
df.dtypes

Uma outra maneira de descobrir o tipo das variáveis e ainda ver os valores ausentes nas células, é por meio do método `df.info()`.

Veja como ele consegue retornar essas informações de maneira tabular.

In [None]:
df.info()

Um dos motivos da popularidade do Pandas é por causa dessa capacidade de conseguir mostrar os dados como se estivessem em uma tabela, um formato bem amigável.

O método `.head()` irá mostrar, por padrão, as 5 primeiras linhas do conjunto de dados dentro de um objeto do pandas.


In [None]:
df.head()

Podemos definir quantas linhas o `.head` vai mostrar:

In [None]:
df.head(10)

Para ver as últimas linhas do dataframe, usmaos o `.tail()`

In [None]:
df.tail()

### Selecionar colunas



Há diversas maneiras de selecionar um sub-conjunto de dados em uma estrutura *DataFrame*.

Na maioria dos casos, o que queremos fazer é selecionar apenas uma coluna de todo o *DataFrame*.

Para selecionar uma variável, você deve colocar o nome da coluna entre colchetes, referenciando a variável onde os seus dados foram importados.

In [None]:
df['pobres']

Caso o nome das coluna não contenha espaços em branco e caracteres especiais, você pode selecioná-la de outra maneira.

No lugar de `df['pobres']` você pode usar `df.pobres`, obtendo o mesmo resultado.

In [None]:
df.pobres

Podemos calcular uma média com o método `mean()`.

In [None]:
df.pobres.mean()

Ou ter um resumo estatístico com o médodo `.describe()`.

In [None]:
# ver o resumo estatístico das variáveis numéricas
df.pobres.describe()

Veja que aplicando o método `.describe()` temos um resumo contendo algumas das principais informações estatísticas relevantes da variável:

* **count** - quantidade de entradas válidas
* **mean** - média dos valores
* **std** - desvio padrão
* **min** - menor valor da coluna
* **25%** - percentil 25
* **50%** - percentil 50 (e mediana)
* **75%** - percentil 75
* **max** - maior valor da coluna

Vamos usar o método `.describe()` em todo o *DataFrame*.

In [None]:
df.describe()

# Vizualizando os dados

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

#### Histogramas

Histogramas são uma das principais ferramentas da estatística para extrair informações sobre frequencia e distribuição dos nossos dados.

In [None]:
# plotar histograma do volume
df['pobres'].hist();

Podemos criar histogramas de várias variáveis:

In [None]:
# plotar o histograma para várias variáveis numéricas
df[['indicegini', 'rendapercapita', 'pobres', 'pessoasdombanheiroagua', 'mortalidade5anos']].hist(bins=15, figsize=(15,10));

#### Gráfico de Dispersão (*Scatter Plot*)
O gráfico de dispersão é um gráfico ideal para ver a correlação entre duas variáveis quaisquer.

In [None]:
# plotar um gráfico de dispersão
df.plot.scatter('rendapercapita', 'mortalidade5anos')

In [None]:
# plotar um gráfico de dispersão
df.plot.scatter('pessoasdombanheiroagua', 'mortalidade5anos')

#### *Boxplot*

O Boxplot é um tipo de gráfico que conseguem fornecer um maior número de informações estatísticas.

Com ele é possível ter em uma imagem os valores máximos, mínimos, quartis e mediana. *Outliers* também são representados como pontos acima do valor máximo ou abaixo do valor mínimo.

In [None]:
df.rendapercapita.plot(kind="box");

In [None]:
df.rendapercapita.plot(kind='box', vert=False, figsize=(10, 3))

## Selecionando conjuntos de variáveis

Podemos construir outro *Dataframe* selecionando apenas algumas variáveis.

In [None]:
df2 = df[['municipio', 'indicegini', 'rendapercapita', 'pobres']]

df2.head(10)

### Correlação

Podemos construir uma matriz com os coeficiente de correlação entre as variáveis selecionadas.


In [None]:
corr = df2.corr()
display(corr)

Podemos vizualizar esta matriz de correlação por meio de um **heatmap**.

Um *heatmap* é um gráfico para identificar padrões, principalmente quando relacionameos muitas variáveis. Essencialmente o *heatmap* necessita de 3 variáveis: uma variável resposta e duas outras variáveis para compor os eixos x e y. 

No Python, podemos gerar um *heatmap* a partir usando a biblioteca `seaborn`.
Vamos gerar um *heatmap* para a nossa matriz de correlação.



In [None]:
sns.heatmap(corr, cmap='RdBu', fmt='.2f', square=True, linecolor='white', annot=True);

Como já conhecemos, outra forma de vizualizar a relação entre variáveis é por meio do gráfico de dispersão.

In [None]:
# plotar um gráfico de dispersão
df.plot.scatter('rendapercapita', 'pobres')

## Regressão

In [None]:
import statsmodels.api as sm

In [None]:
# Uma regressão linear simples
reg1 = sm.OLS(endog=df['mortalidade5anos'], exog=df['rendapercapita'])
reg1 = reg1.fit()
print(reg1.summary())