# Python para Data Science
## PGEB UFF 2020
### Prof. Dr. Jorge Zavaleta
#### zavaleta.jorge@gmail.com
##### Niterói, 17 ao 20 fevreiro, 2020

---

# Módulo 03 - Pandas

A biblioteca **Pandas** do Python permite Visualizar Dados ou fazer Análise de Dados. O **Pandas** fornece uma implementação eficiente de *DataFrames*. Os DataFrames são matrizes essencialmente multidimensionais com rótulos de linha e coluna anexados e geralmente com métodos de tipos heterogêneos e/ou dados ausentes.

Tipos de  Estrutura de Dados no Pandas:
* Serie: **Vetor** unidimensional homogêneo.
* DataFrame: **Tabela** (bidimensional) rotulada.
* Panel: **Matriz** tridimensional.

In [None]:
# pandas-exemplo-01
# importar biblioteca numpy e pandas
import numpy as np
import pandas as pd
pd.__version__

## Pandas Series

In [None]:
# pandas-exemplo-02
# importando as bibliotecas***
# import numpy as np
# import pandas as pd
dados = pd.Series([0.25, 0.5, 0.75, 1.0])
dados

In [None]:
# pandas-exemplo-03
# mostra valores
dados.values

In [None]:
# pandas-exemplo-04
# mostrando os indices
dados.index

### Series como Array NumPy

In [None]:
# pandas-exemplo-05
# dados de uma serie com indice
data = pd.Series([0.25, 0.5, 0.75, 1.0, -1.0],
                 index=['a', 'b', 'c', 'd','e'])
data

In [None]:
# pandas-exemplo-06
# acessar dados da serie usando o indice
data['c']

In [None]:
# pandas-exemplo-07
# serie com indice não-sequencial
sn = pd.Series([0.25, 0.5, 0.75, 1.0],
                  index=[2, 5, 3, 7])
sn[5]

### Series como Dicionários Especializados

In [None]:
# pandas-exemplo-08
# serie com dicionario
estados_dict = {'RJ': 'Rio de Janeiro','SP': 'São Paulo','POA': 'Porto Alegre',
                   'SC': 'Santa Catarina','ES': 'Vitória'}
estados_br = pd.Series(estados_dict)
print(estados_br)

In [None]:
# pandas-exemplo-09
# acessar um elemento da serie usando um indice do dic
estados_br['RJ']

In [None]:
# pandas-exemplo-10
# acessar elementos com subindices do dicionario
estados_br['RJ':'SC']

In [None]:
# pandas-exemplo-11
# definir: pd.Series(data, index=index). Index = opcional
s = pd.Series([0,2,4,6,8,10,12])
print(s)

In [None]:
# pandas-exemplo-12
# serie com indice modificado
s1 = pd.Series([0,2,4,6,8,10,12],index=[100,110,120,130,140,150,160])
print(s1)

In [None]:
# pandas-exemplo-13
# indices não-sequenciais
s2 = pd.Series({2:'a', 1:'b', 3:'c'})
print(s2)

In [None]:
# pandas-exemplo-14
# sub-indice de uma serie
s3 = pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])
print(s3)

In [None]:
# pandas-exemplo-15
# criar serie aleatoria
serie = pd.Series([np.random.randn(50)])
print('serie : ',serie)

In [None]:
# pandas-exemplo-15.0
# Média constante e gráfico
import matplotlib.pyplot as plt # biblioteca para os gráficos
np.random.seed(2)
serie = [5] * 50 + np.random.randn(50) * 0.2 # serie de 50 valores
# calcula a média até cada dia anterior
media = [np.mean(serie[:x]) for x in range(len(serie))]
plt.figure(figsize=(18,4))
plt.plot(serie, label='Valor')
plt.plot(media, label='Média')
plt.xlabel('Valores da Série')
plt.ylabel('Valor da Média')
plt.title('Série com Média constante')
plt.legend()
plt.show()

**Questão**: Porque acontece a mensagem do pandas-exemplo-15.0

In [None]:
# pandas-exemplo-15.1
# leitura de dados de uma serie em formato csv
data_air = pd.read_csv('data/AirPassengers.csv')
print(data_air.head())

In [None]:
# pandas-exemplo-15.2
# acessa uma coluna com o indece ='Month'
mes = data_air['Month']
print('Mês : \n',mes)
pas = data_air['#Passengers']
print('Pasageiros :\n ',pas)
plt.plot(mes,pas)
;

### DataFrame

In [None]:
# pandas-exemplo-16
# dataFrame
df = pd.DataFrame({'Idade': np.random.randint(20,high=60,size=100), 
                   'Altura':1+np.random.rand(100),'Peso':(np.random.rand(100))*10+50})
df

Podemos extrair varias informações diferentes de um **DataFrame**.

In [None]:
# pandas-exemplo-17
# Mostrando o cabeçalho (head), mostra só 10 linhas
df.head()

In [None]:
# pandas-exemplo-18
# mostra as colunas do dataFrame
df.columns

In [None]:
# pandas-exemplo-19
# acessando uma coluna
df['Idade']

In [None]:
# pandas-exemplo-20
# Métrica sobre a serie/dataframe
df.describe()

O métodos **describe** mostra os percentis que são a divisão de uma amostra em percentuais. Por exemplo, na tabela anterior (pandas-exemplo-20) diz que:
* 25% dos elementos são inferiores a 30.7 anos, a 1.26 m e 52.5 kg (pode variar por ser aleatório a geração)
* 50% dos elementos são inferioes a 39.0 anos, a 1.53 m e 55.3 kg
* 75%  dos elementos são inferiores a 49.0 anos, a 1.81 m e 57.2 kg


In [None]:
# pandas-exemplo-21
# Mostrando os valores do DataFrame
df.values

In [None]:
# pandas-exemplo-22
# Transpor uma dataFrame como se for uma matriz
df.T

In [None]:
# pandas-exemplo-23
# "fatiar" um dataframe
serie1 = df['Idade']
print(type(serie1))
serie1.head()

In [None]:
# pandas-exemplo-24
# "fatiar" um dataframe selecionando linhas
df[(df.Idade > 30) & (df.Idade <= 40)]

### Combinação de Datasets

In [None]:
# pandas-exemplo-24
# DataFrames sobre alunos do curso de PGEB
df1 = pd.DataFrame({'aluno': ['Ana Luiza', 'Anderson', 'Breno', 'Vanessa'],'universidade': ['UFRRJ', 'UFF', 'UFF', 'UFRJ']})
df2 = pd.DataFrame({'aluno': ['Breno', 'Ana Luiza', 'Anderson', 'Vanessa'],'ano_ingresso': [2016, 2017, 2018, 2020]})
print(df1); print('\n',df2)

In [None]:
# pandas-exemplo-25
# combinda dois dataframes: MERGE() (one-to-one)
df3 = pd.merge(df1,df2)
df3.head()

In [None]:
# pandas-exemplo-26
#  combina 2 DataFrmes de dimensões distintas: MERGE() (one-to-one)
df4 = pd.DataFrame({'aluno': ['Breno', 'Ana Luiza', 'Anderson'],'ano_ingresso': [2016, 2017, 2018]})
df5 = pd.merge(df2,df4)
df5.head()

A função **pd.merge()** reconhece que cada DataFrame possui uma coluna "aluno" e se junta automaticamente usando essa coluna como chave (key)

In [None]:
# pandas-exemplo-27
# combinação muitos-para-um: many-to-one
df6 = pd.DataFrame({'universidade': ['UFRRJ', 'UFF', 'UFF', 'UFRJ'],'orientador': ['Fabio', 'Helder', 'Gustavo','José']})
print(df3); print('\n',df6); print('\n',pd.merge(df3, df6))

As combinações (**Joins**) muitos-para-um (*many-to-one*) são *joins* nas quais uma das duas colunas principais contém **entradas duplicadas**. No caso de muitos-para-um, o DataFrame resultante preservará essas entradas duplicadas conforme seja o caso.

In [None]:
# pandas-exemplo-28
# combinação muitos-para-muitos
df7 = pd.DataFrame({'universidade': ['UFRRJ', 'UFRRJ', 'UFF','UFF', 'UFRJ','UFRJ'],
                    'disciplinas': ['matemática', 'programação', 'pesquisa', 'python', 'pesquisa','filosofia']})
df8 = pd.merge(df1, df7)

print('DF1: \n',df1)
print('DF7: \n',df7)
print('DF8: \n',df8)

### Especificação da chave para fazer a Combinação

In [None]:
# pandas-exemplo-29
#  merge suando chave(key) = 'aluno'
# a chave deve ser unica!!!
print('df1 : \n',df1)
print('df2 : \n',df2)
df9 = pd.merge(df1, df2, on='aluno')
print('df9 : \n', df9)

In [None]:
# pandas-exemplo-30
#  merge left_on e right_on
df10 = pd.DataFrame({'nome': ['Ana Luiza', 'Anderson','Breno','Vanessa'],'salario': [7000, 8000, 12000, 9000]})
print('df1 : \n',df1)
print('\n')
print('df10 : \n',df10)
df11 = pd.merge(df1, df10,left_on='aluno',right_on='nome')
print('\n')
print('df11 : \n', df11)

In [None]:
# pandas-exemplo-31
# elimina uma coluna = axis=1
df12 = pd.merge(df1, df10,left_on='aluno',right_on='nome').drop('nome',axis=1)
print('df12 : \n', df12)

### Leitura de arquivos em Pandas

In [None]:
# pandas-exemplo-32
#  carregar arquivos externos: CSV, JSON, XLS, etc.
dataset = pd.read_csv("data/diabetes.csv")
dataset

In [None]:
# pandas-exemplo-33
# métricas da diabetes
dataset.describe()

In [None]:
# pandas-exemplo-34
# carregar arquivos externos: CSV, JSON, XLS, etc.
data_temp = pd.read_csv("data/daily-min-temperatures.csv")
data_temp.head()

In [None]:
# pandas-exemplo-35
# metricas da temperature
data_temp.describe()

In [None]:
# pandas-exemplo-36
# carregar arquivos externos: CSV, JSON, XLS, etc.
data_ex = pd.read_csv("data/example_data.csv", delimiter=';')
data_ex.head()

In [None]:
# pandas-exemplo-37
# carregar arquivos externos: CSV, JSON, XLS, etc.
data_cod = pd.read_csv("data/IRIS.txt", delimiter=';')
data_cod.head()

In [None]:
# pandas-exemplo-38
# leitura de dados em Excel
data_excel = pd.read_excel("data/iris.xlsx")
data_excel.head()

In [None]:
# pandas-exemplo-39
# Métricas dos dados em excel
data_excel.describe()

In [None]:
# pandas-exemplo-40
# index: loc - localiza a linha = 1 
data_excel.loc[1]

In [None]:
# pandas-exemplo-41
# loc[1:4] - localiza as linhas 1 a 4
data_excel.loc[1:4]

In [None]:
# pandas-exemplo-42
# index: iloc
data_excel.iloc[1]

In [None]:
# pandas-exemplo-43
# index: iloc[1:4]- mostra linhas 1 até 3
data_excel.iloc[1:4]

In [None]:
# pandas-exemplo-44
# dados como matriz bidimensional
data_excel.values

In [None]:
# pandas-exemplo-45
# Transposta da matriz
data_excel.T

In [None]:
# pandas-exemplo-46
# valores 0: primeira linha
data_excel.values[0]

In [None]:
# pandas-exemplo-47
# fatia até a linha 3 e até a coluna 2
data_excel.iloc[:3,:2]

### Exemplo

In [None]:
# pandas-exemplo-48
# Leitura de arquivos csv
pop = pd.read_csv('data/state-population.csv')
areas = pd.read_csv('data/state-areas.csv')
uf = pd.read_csv('data/state-abbrevs.csv')
print('População: \n',pop.head())
print('\n')
print(areas.head())
print('\n')
print(uf.head())

In [None]:
# pandas-exemplo-49
# Combinando arquivos
mistura = pd.merge(pop, uf, how='outer',left_on='state/region', right_on='abbreviation')
print(mistura) 
# eliminando colunas
ndf = mistura.drop('abbreviation', 1) # eliminando informação duplicada
ndf.head()

### NaN: Dados Númericos Ausentes

In [None]:
# pandas-exemplo-50
# vetor com falta de valores
valores = np.array([-1, 0, 1, 2, np.nan, 4, 5])
valores.dtype

In [None]:
# pandas-exemplo-51
# soma de NaN
print('s: ',1 + np.nan)
print('p: ',0*np.nan)

In [None]:
# pandas-exemplo-52
# operações basicas (agregadores) sempre são nulas
valores.sum() # min(), max()

In [None]:
# pandas-exemplo-53
# soma de NaN
ss = np.nansum(valores)
ss

In [None]:
# pandas-exemplo-54
# NaN e None
serie_p = pd.Series([4, np.nan, 2, 3, None])
serie_p.head()

In [None]:
# pandas-exemplo-55
# usando while para NaN
index = 0
while index < len(serie_p): 
    print(index, serie_p[index])
    index += 1

In [None]:
# pandas-exemplo-56
# detectanado valores nulos (true)
serie_p.isnull()

In [None]:
# pandas-exemplo-57
#
serie0 = serie_p[serie_p.notnull()]
serie0

In [None]:
# pandas-exemplo-58
# dropna() descartará todas as linhas nas quais qualquer valor nulo estiver presente
nserie = serie_p.dropna()
nserie

In [None]:
# pandas-exemplo-59
# mudando valores nulos
serie_teste = pd.DataFrame([[1, np.nan, 2],[2, 3, 5],[np.nan, 4, 6]])
print(serie_teste)
nova_serie = serie_teste.dropna(axis='columns')
print(nova_serie)
# fill com 0=NaN
serie_teste0 = serie_teste.fillna(0)
print(serie_teste0)

------
Jorge Zavaleta &copy; 2020. zavaleta.jorge@gmail.com