<a href="https://colab.research.google.com/github/vitormiro/estatistica_ppger_ufc/blob/main/python_fundamentos_7_pandas_p1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análise de dados com o Pandas


O **Pandas** é uma biblioteca Python que fornece estruturas e ferramentas de análise de dados.
A biblioteca Pandas é construída em cima da biblioteca **NumPy** e permite:
- Importar e/ou acessar dados.


para saber mais sobre o Pandas, acesse o [guia de usuário do Pandas](https://pandas.pydata.org/docs/user_guide/index.html) (em inglês).

Como estamos usando o Colab, o Pandas vem instalado por padrão. Ou seja, a única coisa que você precisa é importar o pacote. 

Vamos importar a biblioteca **pandas** usando o aliás `pd`.


In [None]:
import pandas as pd

No Pandas temos duas estruturas de dados:
- Series
- Data Frames

#### Series
Uma *Series* é um objeto do tipo array unidimensional, contendo uma sequência de valores e um array associado de rótulos/indice.

#### Dataframes
Um *DataFrame* é uma estrutura de dados semelhante a planilha do Microsoft Excel, composto por linhas e colunas. As linhas e colunas são indexadas. Uma vantagem da estrutura da DataFrame é que ela permite dados de tipos diferentes (numéricos, textos, booleanos, etc).


## Carregando dados

O Pandas posusi uma série de funções para ler dados tabulares.

No Pandas temos funções para ler dados em diferentes formatos (arquivos `csv`, `xls` e `xlsx`, entre outros), tratar esses dados, transformá-los e realizar análises estatísticas.

Para carregar os dados em um arquivo do tipo `.csv` podemos utilizar o método `pd.read_csv`.

Para carregar os dados em um arquivo do tipo `.xls` ou `.xlsx` podemos utilizar o método `pd.read_excel`.


No Colab vamos precisar carregar o arquivo no notebook primeiro.
O Colab possibilita que você insira arquivos do seu computador no notebook através do método `files` do módulo `google.colab`. 

Ao chamar `files.upload()`, uma caixa de seleção vai aparecer e você pode procurar e carregar o arquivo desejado.

In [None]:
from google.colab import files
uploaded = files.upload()

Depois de escolher o arquivo, o objeto `uploaded` acima, que é um arquivo de excel, devemos carregar os dados para obter um objeto a ser tratado pelo pandas.

Podemos carregar os dados com o `pd.read_excel`.

In [None]:
# Carregar dados no Notebook atribuindo o nome df
df = pd.read_excel('AtlasBrasil_ce2010.xlsx')
# imprimir df
print(df)

O atributo `shape` resulta em um tupla na qual o primeiro argumento é o número de linhas e o segundo é o número de colunas.

In [None]:
# Dimensão do DataFrame
df.shape

In [None]:
df.shape[0]

In [None]:
df.shape[1]

Para simplesmente listar os nomes das colunas do nosso *DataFrame* - basta executar o atributo `columns`.

In [None]:
df.columns


Para conhecer os tipos de variáveis de cada coluna, usamos o atributo `dtypes`.

In [None]:
df.dtypes

Uma outra maneira de descobrir o tipo das variáveis e ainda ver os valores ausentes nas células, é por meio do método `info()`.

Veja como ele consegue retornar essas informações de maneira tabular.

In [None]:
# Sumarizando informações do DataFrame
df.info()

Um dos motivos da popularidade do Pandas é por causa dessa capacidade de conseguir mostrar os dados como se estivessem em uma tabela, um formato bem amigável.

O método `head()` irá mostrar, por padrão, as 5 primeiras linhas do conjunto de dados dentro de um objeto do pandas.


In [None]:
df.head()

Podemos definir quantas linhas o `head()` vai mostrar:

In [None]:
df.head(10)

Para ver as últimas linhas do *DataFrame*, usamos o método `tail()`

In [None]:
df.tail()

### Selecionar colunas



Há diversas maneiras de selecionar um sub-conjunto de dados em uma estrutura *DataFrame*.

Na maioria dos casos, o que queremos fazer é selecionar apenas uma coluna de todo o *DataFrame*.

Para selecionar uma variável, você deve colocar o nome da coluna entre colchetes, referenciando a variável onde os seus dados foram importados.

In [None]:
df['pobres']

Caso o nome das coluna não contenha espaços em branco e caracteres especiais, você pode selecioná-la de outra maneira.

No lugar de `df['pobres']` você pode usar `df.pobres`, obtendo o mesmo resultado.

In [None]:
df.pobres

Podemos calcular uma média com o método `mean()`. E medidas de variância e desvio-padrão com os métodos `var()` e `std()`, respectivamente.

In [None]:
# Média
df.pobres.mean()

In [None]:
# Variância
df.pobres.var()

In [None]:
# Desvio-padrão
df.pobres.std()

Também podemos obter um resumo estatístico com o médodo `describe()`.

In [None]:
# ver o resumo estatístico das variáveis numéricas
df.pobres.describe()

Veja que aplicando o método `describe()` temos um resumo contendo algumas das principais informações estatísticas relevantes da variável:

* **count** - quantidade de entradas válidas
* **mean** - média dos valores
* **std** - desvio padrão
* **min** - menor valor da coluna
* **25%** - percentil 25
* **50%** - percentil 50 (e mediana)
* **75%** - percentil 75
* **max** - maior valor da coluna

Vamos usar o método `describe()` em todo o *DataFrame*.

In [None]:
df.describe()

Podemos verificar uma linha específica a partir de um valor determinado da variável.

In [None]:
df[df['pessoasdomagua']==13.46]

In [None]:
df[df['municipio']=='Fortaleza']

# Vizualizando os dados

Para visualizar dados, vamos utilizar as bibliotecas [Matplotlib](https://matplotlib.org/) e [Seaborn](https://seaborn.pydata.org/).


In [None]:
# importar o Matplotlib 
import matplotlib.pyplot as plt
# Importat o Seaborn
import seaborn as sns

#### Histogramas

Histogramas são uma das principais ferramentas da estatística para extrair informações sobre frequencia e distribuição dos nossos dados.

In [None]:
# plotar histograma do volume
df['pobres'].hist();

In [None]:
df['rendimentomedioocupados18'].hist(bins=30);

In [None]:
df['indicegini'].hist(bins=10, figsize=(5,5));

Podemos criar histogramas de várias variáveis:

In [None]:
# plotar o histograma para várias variáveis numéricas
df[['indicegini', 'rendapercapita', 'pobres', 'pessoasdombanheiroagua', 'mortalidade5anos']].hist(bins=15, figsize=(15,10));

#### Gráfico de Dispersão (*Scatter Plot*)
O gráfico de dispersão é um gráfico ideal para ver a correlação entre duas variáveis quaisquer.

In [None]:
# plotar um gráfico de dispersão
df.plot.scatter('rendapercapita', 'mortalidade5anos');

In [None]:
# plotar um gráfico de dispersão
df.plot.scatter('pessoasdombanheiroagua', 'mortalidade5anos');

#### *Boxplot*

O Boxplot é um tipo de gráfico que conseguem fornecer um maior número de informações estatísticas.

Com ele é possível ter em uma imagem os valores máximos, mínimos, quartis e mediana. *Outliers* também são representados como pontos acima do valor máximo ou abaixo do valor mínimo.

In [None]:
df.rendapercapita.plot(kind="box");

In [None]:
df.rendapercapita.plot(kind='box', vert=False, figsize=(10, 3))

## Selecionando conjuntos de variáveis

Podemos construir outro *Dataframe* selecionando apenas algumas variáveis.

In [None]:
df2 = df[['municipio', 'indicegini', 'rendapercapita', 'pobres']]

df2.head(10)

### Correlação

Podemos construir uma matriz com os coeficiente de correlação entre as variáveis selecionadas.


In [None]:
corr = df2.corr()
display(corr)

Podemos vizualizar esta matriz de correlação por meio de um **heatmap**.

Um *heatmap* é um gráfico para identificar padrões, principalmente quando relacionameos muitas variáveis. Essencialmente o *heatmap* necessita de 3 variáveis: uma variável resposta e duas outras variáveis para compor os eixos x e y. 

No Python, podemos gerar um *heatmap* a partir usando a biblioteca `seaborn`.
Vamos gerar um *heatmap* para a nossa matriz de correlação.



In [None]:
sns.heatmap(corr, cmap='RdBu', fmt='.2f', square=True, linecolor='white', annot=True);

Como já conhecemos, outra forma de vizualizar a relação entre variáveis é por meio do gráfico de dispersão.

In [None]:
# plotar um gráfico de dispersão
df.plot.scatter('rendapercapita', 'pobres');

## Regressão Linear Simples

Uma regressão linear simples estabelece a relação entre duas variáveis por meio de uma expressão do tipo:

\begin{equation}
  y_{i}=\beta_{1}+\beta_{2}x_{i}+e_{i}
\end{equation}

onde:
- $y_{i}$ é a variável dependente, explicada ou endógena.
- $x_{i}$ é a variável independente, explicativa ou exógena.
- $\beta_{1}$ é um parâmetro que representa o intercepto;
- $\beta_{2}$ é um parâmetro que representa o coeficiente angular da relação linear;
- $e_{i}$ é o termo de erro.

A equação acima exprime um modelo populacional.
Com dados amostrais podemos utilizar diferentes métodos de estimação para obter estimativas dos parâmetros $\beta_{1}$ e $\beta_{2}$, representadas por $\hat{\beta}_{1}$ e $\hat{\beta}_{2}$.

Com estimativas dos parâmetros temos:
\begin{equation}
  \hat{y}_{i}=\hat{\beta}_{1}+\hat{\beta}_{2}x_{i}
\end{equation}

em que $\hat{y}_{i}$ é um valor predito para $y_{i}$ com base no modelo estimado e valores de $x_{i}$.

### Statsmodels

[Statsmodels](https://www.statsmodels.org/stable/index.html) é um módulo Python que fornece classes e funções para a estimativa de muitos modelos estatísticos diferentes, bem como para a realização de testes estatísticos e exploração de dados estatísticos.

In [None]:
# importar o statsmodels
import statsmodels.api as sm

Vamos estimar um modelo linear simples para a relação entre a proporção de pobres e a renda per capita.

O primeiro passo é definir as variáveis $y$ e $X$ (que inclui uma contante).

In [None]:
y = df['pobres']
X = sm.add_constant(df['rendapercapita'])

In [None]:
# Estimando uma regressão linear simples
reg1 = sm.OLS(y, X)
reg1 = reg1.fit()
print(reg1.summary())

Vamos estimar um modelo de regressão linear simples para a relação entre a taxa de mortalidade infantil e a renda per capita.

In [None]:
# Definindo as variáveis
mortinfant = df['mortalidade5anos']
X = sm.add_constant(df['rendapercapita'])

In [None]:
# Estimando uma regressão linear simples
reg2 = sm.OLS(y, X)
reg2 = reg2.fit()
print(reg2.summary())

Posteriormente no curso vamos estudar com mais detalhes a estimação de modelos de regressão linear e a avaliação destas estimativas.