<a href="https://colab.research.google.com/github/Gus-1003/Geoestatistica_Estudos_Dados/blob/main/Semagraria/Patricia_aula1_dataframes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## *Dataframes* no Python

Itens a serem vistos:

- leitura de *dataframes* com o pandas  
- manipulação de *dataframes*  
- medidas resumo
- gráficos e diagramas de dispersão

*Dataframes*:

- expressam o conteúdo de planilhas
- uma das principais estruturas de dados (usamos o pacote *pandas*)
- bidimensionais e heterogêneos
- linhas representam as observações (começando na posição 0)
- colunas representam as variáveis
- podem ser importados (.csv, .xls etc.) ou podem ser criados

In [None]:
import pandas as pd

# para gráficos
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style='whitegrid', palette='pastel') 

**Usando pandas (dataframes)**

Lendo arquivo csv a partir de um link. Os dados foram retirados do PAM (Produção Agrícola Municipal) do IBGE: 

- dados de MG em 2017 
- quantidade total (toneladas) produzida de 14 culturas
- informações por município

In [None]:
# ler uma planilha csv
dados = pd.read_csv('https://raw.githubusercontent.com/patriciasiqueira/patriciasiqueira.github.io/master/arquivos/qtde-14.csv', encoding='latin1')

In [None]:
# visualizar parte das linhas do dataframe
dados.head()

Lendo arquivo csv salvo no computador:

Primeiro é preciso carregar o arquivo no painel à esquerda

- Arquivos > Fazer upload


In [None]:
# ler um arquivo salvo no computador
dados1 = pd.read_csv('populacao_argentina.csv', encoding='latin1')
dados1.head()

Não usaremos esse conjunto de dados nessa aula. Ele serviu apenas para exemplificar como carregar um arquivo que está salvo no computador.

Continuando com o conjunto de dados do PAM 2017:

In [None]:
# verificar os tipos de dados
dados.dtypes

In [None]:
# nomes das variáveis
dados.columns

In [None]:
# renomear colunas
# 'ibge7' será 'mun' (código do município)
# 'mun' será 'município' (nome do município)
dados.rename(columns={'mun': 'municipio'}, inplace=True)  # inplace = True modifica o dataframe
dados.rename(columns={'ibge7': 'mun'}, inplace=True)

In [None]:
# mostrar apenas os valores
dados.values

In [None]:
# transpor se necessário
dados.T

**Medidas resumo (estatísticas)**

In [None]:
# resumo estatístico de uma variável
dados.describe()

In [None]:
dados.iloc[:, 3:].describe()

In [None]:
# média
dados.mean()

In [None]:
# histograma de uma das culturas
dados.cafe_arab.plot.hist();

In [None]:
dados.cafe_arab.plot.hist(bins=3);

In [None]:
# histograma suavizado
dados.cafe_arab.plot.kde();

In [None]:
# valor máximo de uma variável
dados.cafe_arab.max()

In [None]:
# retornar o município com valor máximo de alguma variável
dados.sort_values('cafe_arab', ascending=False).head(10)

In [None]:
# como seria para mostrar o menor valor?
dados.sort_values('cafe_arab', ascending=True).head(20)

In [None]:
# variância
dados.cana.var()

In [None]:
# desvio padrão
dados.cana.std()

In [None]:
# correlação entre duas variáveis
dados.cana.corr(dados.cafe_arab)

In [None]:
# correlação entre todas as variáveis do conjunto de dados
dados.corr()

In [None]:
sns.boxplot(dados.cafe_arab, orient='v');

In [None]:
sns.boxplot(dados.query('cafe_arab < 10000').cafe_arab, orient='v');

In [None]:
q3 = dados.cafe_arab.quantile(.75)   # terceiro quartil
sns.boxplot(dados.query('cafe_arab < @q3').cafe_arab, orient='v');

**Diagrama de dispersão**

In [None]:
dados.plot.scatter('cafe_arab', 'cana', s=50, c='blue');

In [None]:
dados.describe()

In [None]:
# mostrar os 5 municípios com maiores produções de café
dados.sort_values('cafe_arab', ascending=False).round(0).head(5)

In [None]:
# agrupar por meso
dados.groupby('nome_meso').cafe_arab.mean()

In [None]:
# ordenar o resultado anterior
dados.groupby('nome_meso').cafe_arab.mean().sort_values(ascending=False).round(2)

**Mostrar valores que atendam a alguma condição específica:**

In [None]:
# Mostrar os municípios que têm produção da cultura
dados.query('cafe_arab > 0')

In [None]:
# outro comando com a mesma ideia
dados[dados.cafe_arab > 0]

In [None]:
dados[dados.abacaxi > 0].shape