# Dataframes no Python

*Dataframes*:

- expressam o conteúdo de planilhas
- uma das principais estruturas de dados (usamos o pacote *pandas*)
- bidimensionais e heteogêneos
- linhas representam as observações (começando na posição 0)
- colunas representam as variáveis
- podem ser importados (.csv, .xls etc.) ou podem ser criados

In [None]:
# importar pacotes 
%matplotlib inline
import pandas as pd
import seaborn as sns
sns.set(style='whitegrid')

**Usando pandas (dataframes)**

In [None]:
# criar colunas do dataframe como listas
estado = ['mg', 'sp', 'pr', 'rj', 'ba']
pib = [516634000, 1858196000, 348084000, 671077000, 223930000]   # x1000 R$
populacao = [21119536, 45094866, 11320892, 16718956, 15344447]
# criar dataframe com 3 variáveis
dados = pd.DataFrame({'estado':estado, 'pib':pib, 'populacao':populacao}) # transforma as listas em um dataframe
dados

In [None]:
# verificar os tipos de dados
dados.dtypes

In [None]:
# mostrar os 5 primeiros valores do dataframe
dados.head()   # argumento n

In [None]:
# mostrar os 5 últimos valores
dados.tail()

In [None]:
# mudando a ordem das colunas
pd.DataFrame(dados, columns=['estado', 'populacao', 'pib'])

In [None]:
# se indicar coluna que não existe, ela é preenchida com NaN
dados2 = pd.DataFrame(dados, columns=['estado', 'pib', 'populacao', 'pibpc'])
dados2

In [None]:
# selecionar dados por coluna
dados2.loc[:,['pib', 'estado']]

In [None]:
# redefinir valores
dados2['pibpc'] = dados2.pib / dados2.populacao
dados2

In [None]:
# Para subselecionar uma coluna, é possível usar notação de dicionário ou de atributo
dados2['pib'] # notação de dicionário

In [None]:
dados2.pib # notação de atributo

In [None]:
# renomear coluna
dados2.rename(columns={'populacao': 'pop'})  # inplace = True modifica o dataframe

In [None]:
# criar coluna com um teste booleano
dados2['maiores_pibpc'] = dados2.pibpc >= 40
dados2

In [None]:
# apagar coluna
dados2.drop('maiores_pibpc', axis=1, inplace=True)   # opção inplace = True para modificar o dataframe
dados2

In [None]:
# mostrar apenas os valores
dados2.values

In [None]:
# apagar linha
dados2.drop([1, 4])   # opção inplace

In [None]:
dados2

In [None]:
# transpor
dados2.T

In [None]:
dados2

**Diagrama de dispersão de população e *pibpc***

In [None]:
dados2.plot.scatter('populacao', 'pibpc', s=50);    # há opções (usar SHIFT TAB)

**Medidas resumo (estatísticas)**

In [None]:
# resumo estatístico de uma variável
dados.populacao.describe()

In [None]:
# média
dados.populacao.mean()

In [None]:
# histograma
dados.populacao.plot.hist();

In [None]:
dados.populacao.plot.hist(bins=3);

In [None]:
# histograma suavizado
dados.populacao.plot.kde();

In [None]:
# valor máximo de uma variável
dados.populacao.max()

In [None]:
# retornar o estado com valor máximo de alguma variável
dados.sort_values('populacao', ascending=False).head(1)

In [None]:
# como seria para mostrar o menor valor?

In [None]:
# variância
dados2.pib.var()

In [None]:
# desvio padrão
dados2.pib.std()

In [None]:
# correlação entre duas variáveis
dados2.pib.corr(dados.populacao)

In [None]:
# correlação entre todas as variáveis do conjunto de dados
dados2.corr()

In [None]:
# como calcular o CV?


# Importar um conjunto de dados em csv

In [None]:
atlas = pd.read_csv('atlas.csv')

In [None]:
atlas

In [None]:
# nomes das variáveis
atlas.columns

In [None]:
atlas.describe()

In [None]:
# mostrar os 5 municípios com maiores fectot
atlas.sort_values('fectot', ascending=False).round(0).head(5)

In [None]:
# agrupar por estado a fectot média
atlas.groupby('nome_uf').fectot.mean()

In [None]:
# ordenar o resultado anterior
atlas.groupby('nome_uf').fectot.mean().sort_values(ascending=False).round(2)

**Mostrar valores que atendam a alguma condição específica:**

In [None]:
# Quais os municípios que têm população maior do que um milhão de habitantes?

In [None]:
# códigos dos estados
atlas.groupby('nome_uf').uf.unique()

In [None]:
# Quais os municípios que têm mais de 1 milhão de habitantes e que ficam fora da região sudeste?