# Pandas 1 - Trabalhando com DataFrames

<br>
<img src="img/pandas_dataframe.png">
<br>

O que são os DataFrames do Pandas?

Antes de começar, vamos fazer uma breve recapitulação do que são os DataFrames.

DataFrames são uma maneira de armazenar dados em grades tabelas que podem ser facilmente visualizadas. Cada linha dessas grades corresponde a medidas ou valores de uma instância (observação), enquanto cada coluna é um vetor que contém dados para uma variável específica. Isso significa que as linhas de um frame de dados não precisam conter, mas podem conter o mesmo tipo de valores: elas podem ser numéricas, de caracteres, lógicas, etc.

Agora, os DataFrames em Python são muito semelhantes: eles vêm com a biblioteca Pandas e são definidos como estruturas de dados bidimensionais rotuladas com colunas de tipos potencialmente diferentes.

Em geral, você poderia dizer que o Pandas DataFrame consiste em três componentes principais: os dados, o índice e as colunas.

Em primeiro lugar, o DataFrame pode conter dados que são:

- um DataFrame Pandas
- uma série Pandas: um array rotulado unidimensional capaz de conter qualquer tipo de dados com rótulos ou índices de eixo. Um exemplo de um objeto de série é uma coluna de um DataFrame.
- um ndarray NumPy, que pode ser um registro ou estruturado
- um ndarray bidimensional
- dicionários de ndarray, listas, dicionários ou séries unidimensionais.

Para documentação oficial [clique aqui](https://pypi.org/project/pandas/)

Para artigo no Wikipedia [clique aqui](https://en.wikipedia.org/wiki/Pandas_(software))

Para acesso à comunidade do Pandas na PyData [clique aqui](https://pandas.pydata.org/about.html)

28 comandos úteis de Pandas que talvez você não conheça [clique aqui](https://paulovasconcellos.com.br/28-comandos-%C3%BAteis-de-pandas-que-talvez-voc%C3%AA-n%C3%A3o-conhe%C3%A7a-6ab64beefa93)

___________

# Conhecendo DataFrames

Estrutura de dados tabulares bidimensionais mutáveis, potencialmente heterogêneos, com eixos rotulados (linhas e colunas). As operações aritméticas são alinhadas nos rótulos de linha e coluna. Pode ser considerado como um contêiner de tipo dict para objetos da Série. A estrutura de dados primária dos pandas.

Vamos criar o primeiro DataFrame a partir de uma *Series* e verificar a apresentação de uma tabela

Para documentação oficial dos DataFrames [clique aqui](https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.DataFrame.html)

## Importando as bibliotecas

In [1]:
import pandas as pd
import numpy as np

import warnings
warnings.filterwarnings("ignore")


## Definindo uma Series em Pandas: somente para números

In [19]:
# Criando uma série -- somente para trabalhar com números

data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [20]:
data.values


array([0.25, 0.5 , 0.75, 1.  ])

In [21]:
data.index


RangeIndex(start=0, stop=4, step=1)

In [22]:
data[1]

0.5

In [23]:
data[1:3]

1    0.50
2    0.75
dtype: float64

## Indexação

In [24]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [25]:
data['b']

0.5

## Criando um DataFrame a partir de duas Series e realizando soma

In [26]:
serie1 = pd.Series([1, 2, 3, 4, 5, 6, 7, 8])
serie2 = pd.Series([.99, .97, .95, .93, .91, .89, .87])

In [27]:
type(serie1), type(serie2)

(pandas.core.series.Series, pandas.core.series.Series)

In [28]:
df = pd.DataFrame({'coluna1':serie1, 'coluna2':serie2})
df


Unnamed: 0,coluna1,coluna2
0,1,0.99
1,2,0.97
2,3,0.95
3,4,0.93
4,5,0.91
5,6,0.89
6,7,0.87
7,8,


In [29]:
soma = df['coluna1'] + df['coluna2']
soma

0    1.99
1    2.97
2    3.95
3    4.93
4    5.91
5    6.89
6    7.87
7     NaN
dtype: float64

In [30]:
df.sum(axis=1)

0    1.99
1    2.97
2    3.95
3    4.93
4    5.91
5    6.89
6    7.87
7    8.00
dtype: float64

In [31]:
df.sum(axis=0)

coluna1    36.00
coluna2     6.51
dtype: float64

In [32]:
df['soma_c12'] = df.sum(axis=1)
df

Unnamed: 0,coluna1,coluna2,soma_c12
0,1,0.99,1.99
1,2,0.97,2.97
2,3,0.95,3.95
3,4,0.93,4.93
4,5,0.91,5.91
5,6,0.89,6.89
6,7,0.87,7.87
7,8,,8.0


___________

# Criando um DataFrame com dados reais

<br>
<img src="img/dataframe_basico.png">
<br>

Agora vamos trabalhar com dados reais através da criação de *Series* em **Pandas** que darão origem a um DataFrame. Com isso, vamos realizar operações básicas de separação de dados e criação de uma coluna.

## Criando uma Series population a partir de um dicionário

In [33]:
population_dict = {'California': 38332521,
                   'Florida': 19552860,
                   'Illinois': 12882135,
                   'New York': 19651127,  
                   'Texas': 26448193,}
population = pd.Series(population_dict)
population

California    38332521
Florida       19552860
Illinois      12882135
New York      19651127
Texas         26448193
dtype: int64

In [34]:
population['California']

38332521

In [35]:
population['California':'Illinois']

California    38332521
Florida       19552860
Illinois      12882135
dtype: int64

## Criando uma Series area a partir de um dicionário

In [36]:
area_dict = {'California': 423967, 
             'Florida': 170312,
             'Illinois': 149995,
             'New York': 141297,    
             'Texas': 695662}
area = pd.Series(area_dict)
area

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
dtype: int64

## Criando um DataFrame states com dados de 'population' e 'area'

In [37]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Florida,19552860,170312
Illinois,12882135,149995
New York,19651127,141297
Texas,26448193,695662


## Identificando os tipos das variáveis

In [None]:
type(states)

In [None]:
type(states["population"])

In [None]:
type([states["population"]])

In [None]:
list(states["population"])

In [None]:
states["population"].astype

## Verificando as características do DataFrame

In [None]:
states.shape

In [None]:
states.info()

In [None]:
states.index

In [None]:
states.columns

In [None]:
states['area']

In [None]:
states.area

## Criando uma coluna 'density' a partir da divisão da 'population' pela 'area'

In [None]:
states['density'] = states['population'] / states['area']
states

## Ordenando os dados por estados mais populados, maiores e mais populosos

In [None]:
states.sort_values(['population'], ascending = True)

In [None]:
states.sort_values(['population'],ascending=False)

In [None]:
states.sort_values(['area'], ascending = True)

In [None]:
states.sort_values(['density'], ascending = False)

## Selecionando dados

In [None]:
states

In [None]:
states['Florida':'Illinois']

In [None]:
states[1:3]

## Trabalhando com Máscaras

In [None]:
data_pop = (states['population'] > 19552860) & (states['area']>423967)
data_pop

In [None]:
type(data_pop)

In [None]:
states[(states['population'] > 19552860) & (states['area']>423967)]

In [None]:
states[['area','density']]

In [None]:
states[states.density > 100]

In [None]:
states.loc[states.density > 100, ['population', 'density']]

In [None]:
states.loc['California', 'density']

In [None]:
states.iloc[0, 2]

In [None]:
states['density']['California']

__________

# Caso Real - Lendo e visualizando os dados do nosso arquivo do IBGE

<br>
<img src="img/caso_real.png">
<br>


In [None]:
df = pd.read_csv(r'../../99 Datasets/demografia.csv')

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df.corr().round(2)

In [None]:
%matplotlib inline 

df.salario.plot.hist()

In [None]:
df.salario.plot.hist(bins=100,range=(0.1, 100000))

In [None]:
# Código para a melhor visualização dos dados em um histograma das idades



Clique duas vezes para ver a resposta

<!--
df.idade.plot.hist(bins=20)
-->

In [None]:
# Código para melhor visualização dos dados em um histograma de anos de estudo



Clique duas vezes para ver a resposta

<!--
df.anos_estudo.plot.hist(bins=30, range=(4,16))
-->

In [None]:
# Contagem ascendente das quantidades de pessoas por anos de estudo

df.anos_estudo.value_counts()

In [None]:
# Plotagem de um gráfico de barras ascendente de númeor de pessoas por anos de estudo

df.anos_estudo.value_counts().plot(kind='bar')

In [None]:
# Código para melhor visualização dos dados em um histograma de estado civil



Clique duas vezes para ver a resposta

<!--
df.estado_civil.plot.hist(orientation='horizontal')
-->

In [None]:
# Código para visualização da dispersão de idade Vs. Salário



Clique duas vezes para ver a resposta

<!--
df.plot.scatter(x='idade',y='salario')
-->

In [None]:
# Código para visualização da dispersão de anos de estudo Vs. Salário



Clique duas vezes para ver a resposta

<!--
df.plot.scatter(x='anos_estudo',y='salario')
-->

In [None]:
# Código para visualização da dispersão de estado civil Vs. Salário



Clique duas vezes para ver a resposta

<!--
df.plot.scatter(x='estado_civil',y='salario')
-->

Iremos trabalhar com estes dados na próxima seção, com utilização de Pandas para tratamento das variáveis para análise e visualização dos dados. Vamos a outro exemplo

------------

# Outro exemplo: trabalhando com um arquivo de vendas UKretail

<br>
<img src="img/uk_retail.png">
<br>

O conjunto de dados chamado 'UKretail.csv' contém uma amostra de dados no nível da transação de um varejo on-line não-varejista com sede no Reino Unido e registrado. A empresa vende principalmente presentes exclusivos para todas as ocasiões. Muitos clientes da empresa são atacadistas. Os dados abrangem o período entre 01-12-2010 e 2011-12-09 e derivam do Repositório de Aprendizado de Máquina da UCI (publicamente disponível).

Vamos ler e entender um banco de dados real de vendas para verificação e análise dos valores como segue.

- Leitura dos dados e acesso por um DataFrame
- Identificação dos tipos de variáveis
- Descrição básica dos dados
- Seleção de dados
- Criação de uma coluna para o faturamento
- Tratamento dos valores negativos contidos no faturamento
- Obtenção do total faturado por país com agrupamento (*Groupby*)
- Visualização dos dados de consumo para um cliente por histograma
- Visualização do consumo de um produto por histograma
- Tratamento de valores nulos

## Lendo e verificando os dados

In [None]:
# Código para ler e verificar os dados



Clique duas vezes para ver a resposta

<!--
sales = pd.DataFrame(pd.read_csv('../../99 Datasets/UKretail.csv.zip',encoding='latin'))
sales.head
-->


In [None]:
# Verificando o final do DataFrame

sales.tail()


## Identificando os tipos de variáveis

In [None]:
type(sales)

In [None]:
type(sales["CustomerID"])

In [None]:
type([sales["CustomerID"]])

In [None]:
list(sales["CustomerID"])

## Descrição básica dos dados

In [None]:
sales.shape

In [None]:
sales.columns

In [None]:
sales.columns.values

In [None]:
sales.info()

In [None]:
sales.CustomerID.isnull().sum()

In [None]:
sales.describe() #somente colunas numéricas

## Selecionando dados

In [None]:
# Código para selecionar as primeiras dez linhas do DataFrame



Clique duas vezes para a resposta

<!--
sales[:10]
-->

In [None]:
sales["CustomerID"].head()

In [None]:
sales.loc[:,['Quantity']].head()

In [None]:
sales.iloc[:,[3]].head()

In [None]:
sales.iloc[0:6,2:5]

## Criando uma nova coluna de 'Revenue' com total de vendas (multiplicação da 'Quantity' pelo 'UnitPrice')

In [None]:
sales['Revenue'] = sales.Quantity*sales.UnitPrice

In [None]:
sales.head()

## Criando um novo DataFrame somente com os dados que compõe o 'Revenue'

In [None]:
# Código para criar um DataFrame raw_sales com os dados que formam o Revenue



Clique duas vezes para a resposta

<!--
raw_sales = sales[["Quantity","UnitPrice", "Revenue"]]
-->

In [None]:
raw_sales.head()

In [None]:
raw_sales.info()

## Análisando e trantando os dados da variável 'Revenue'

In [None]:
sales.plot(x="InvoiceDate", y="Revenue", kind="line")


### Como existem dados negativos, vamos eliminar os valores menores que 0 

In [None]:
cancels = sales[sales["Revenue"]<0]
cancels.shape


In [None]:
sales.shape[0],cancels.shape[0]


In [None]:
porc_cancels = round((cancels.shape[0] / sales.shape[0])*100,2)
print ('Cancelamentos(%) =',porc_cancels,'%')


In [None]:
cancels.head()


In [None]:
cancels.Description.value_counts().head()


In [None]:
cancels.plot(x="InvoiceDate", y="Revenue", kind="line")


In [None]:
sales.drop(sales[sales.Revenue < 0].index, inplace=True)
sales.shape


In [None]:
sales.plot(x="InvoiceDate", y="Revenue", kind="line")


____________

# Avançado - Groupby

## Encontrando o total do 'Revenue' por país agrupando a coluna 'Country' pelo 'Revenue'

In [None]:
CountryGroups = sales.groupby("Country")["Revenue"].sum().reset_index()


In [None]:
CountryGroups.sort_values(by= "Revenue", ascending=False)


In [None]:
CountryGroups.shape


## Encontrando o Revenue e o número de transações por dia e por país

In [None]:
CountryGroups = sales.groupby(['InvoiceDate',"Country"])["Revenue",'Quantity'].sum().reset_index()


In [None]:
CountryGroups.head()


In [None]:
CountryGroups.Country.value_counts()


## Plotando um histograma do consumo ou 'revenue' para um cliente

In [None]:
sales.head()


In [None]:
# Histograma do faturamento(Revenue) de cada uma das vendas feitas para o cliente 17850.0 em um histograma

sales[sales["CustomerID"] == 17850.0]["Revenue"].plot(kind="hist")

### Para explorar as variáveis que estão sendo visualizadas no gráfico, vamos isolar o código da máscara e da função em uma lista

In [None]:
# Valores da distribuição do faturamento (Revenue) de cada uma das vendas feitas para o cliente 17850.0

list(sales[sales["CustomerID"] == 17850.0]["Revenue"])

## Plotando um histograma da quantidade vendida de um produto

In [None]:
# Gráfico da distribuição do faturamento (Revenue) de cada uma das vendas feitas para o produto 71053

sales[sales["StockCode"] == '71053']["Revenue"].hist(bins=50,grid=False)

### Para explorar as variáveis que estão sendo visualizadas no gráfico, vamos isolar o código da máscara e da função em uma lista

In [None]:
# Lista com a distribuição do faturamento (Revenue) de cada uma das vendas feitas para o produto 71053

list(sales[sales["StockCode"] == '71053']["Revenue"])

##  Identificando e tratando dados nulos no DataFrame original

In [None]:
sales.info()

In [None]:
sales.CustomerID.value_counts(dropna=False).nlargest(5)

In [None]:
# Calculando a porcentagem de valores nulos para a coluna CustomerID

round(80756/319557,4) * 100


### A mesma operação com os valoes em código

In [None]:
sales.CustomerID.isnull().sum()

In [None]:
len(sales.CustomerID)

In [None]:
# Com sódigo, calculando a procentagem de valores nulos para a coluna CustomerID

round(sales.CustomerID.isnull().sum()/len(sales.CustomerID),4) * 100


### Foram identificados 80756 valores NaN em 'CustomerID', vamos preencher com 0

In [None]:
sales.CustomerID.fillna(0, inplace=True)

In [None]:
sales[sales.CustomerID.isnull()]

In [None]:
sales.CustomerID.value_counts().nlargest(3)

In [None]:
sales.info()

## Substituindo os nomes dos países por números

In [None]:
sales.Country.value_counts()

In [None]:
mymap = {'United Kingdom':1, 'Netherlands':2, 'Germany':3, 'France':4, 'USA':5}       

sales = sales.applymap(lambda s: mymap.get(s) if s in mymap else s)

In [None]:
sales.head()

In [None]:
sales.Country.value_counts().nlargest(7)