# <font color='blue'>Data Science Academy - Python Fundamentos - Capítulo 8</font>

## Download: http://github.com/dsacademybr

## Pandas

Para poder trabalhar com Pandas, você deve conhecer bem estas duas estruturas: Series e DataFrame.

Para importar o pandas, utilize: 
import pandas as pd

Você também pode utilizar: 
from pandas import Series, DataFrame  

Para atualizar o Pandas, abra o prompt de comando ou terminal e digite: pip install pandas -U

## Series

Series é um array unidimensional que contém um array de dados e um array de labels, chamado índice.


In [3]:
from pandas import Series

In [4]:
import pandas as pd

In [5]:
pd.__version__

'0.25.3'

In [6]:
# Criando uma série sem especificar os índices
Obj = Series([67, 78, -56, 13])

In [7]:
Obj

0    67
1    78
2   -56
3    13
dtype: int64

In [8]:
type(Obj)

pandas.core.series.Series

In [9]:
Obj.values

array([ 67,  78, -56,  13], dtype=int64)

In [10]:
Obj.index

RangeIndex(start=0, stop=4, step=1)

In [11]:
# Criando uma série e especificando os índices
Obj2 = Series([67, 78, -56, 13], index = ['a', 'b', 'c', 'd'])

In [12]:
Obj2

a    67
b    78
c   -56
d    13
dtype: int64

In [13]:
Obj2.values

array([ 67,  78, -56,  13], dtype=int64)

In [14]:
Obj2.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [15]:
Obj2[Obj2 > 3]

a    67
b    78
d    13
dtype: int64

In [16]:
Obj2['b']

78

In [17]:
'd' in Obj2

True

In [None]:
# Criando uma série de dados passando um dicionário como parâmetro
dict = {'Futebol':5200, 'Tenis': 120, 'Natação':698, 'Volleyball':1550}

In [None]:
# Criando uma série a partir de um dicionário
Obj3 = Series(dict)

In [None]:
Obj3

In [None]:
type(Obj3)

In [None]:
# Criando uma lista
esportes = ['Futebol', 'Tenis', 'Natação', 'Basktetball']

In [None]:
# Criando uma serie e usando uma lista como índice
Obj4 = Series(dict, index=esportes)

In [None]:
Obj4

In [None]:
pd.isnull(Obj4)

In [None]:
pd.notnull(Obj4)

In [None]:
Obj4.isnull()

In [None]:
# Concatenando Series
Obj3 + Obj4

In [None]:
Obj4.name = 'população'

In [None]:
Obj4.index.name = 'esporte'

In [None]:
Obj4

## Dataframes

Dataframes representam uma estrutura tabular semelhante a estrutura de uma planilha do Excel, contendo uma coleção de colunas em que cada uma pode ser um diferente tipo de valor (número, string, etc...). Os Dataframes possuem index e linhas e esta estrutura é muito semelhante a um dataframe em R. Os dados de um dataframe são armazenados e um ou mais blocos bidimensionais, ao invés de listas, dicionários ou alguma outra estrutura de array.

In [None]:
from pandas import DataFrame

In [None]:
data = {'Estado': ['Santa Catarina', 'Paraná', 'Goiás', 'Bahia', 'Minas Gerais'], 
        'Ano': [2002, 2003, 2004, 2005, 2006], 
        'População': [1.5, 1.7, 3.6, 2.4, 2.9]}

In [None]:
frame = DataFrame(data)

In [None]:
frame

In [None]:
type(frame)

In [None]:
DataFrame(data, columns=['Ano', 'Estado', 'População'])

In [None]:
# Criando outro dataframe com os mesmo dados anteriores mas adicionando uma coluna
frame2 = DataFrame(data, columns = ['Ano', 'Estado', 'População', 'Débito'], 
                   index = ['um', 'dois', 'três', 'quatro', 'cinco'])

In [None]:
# Imprimindo o Dataframe
frame2

In [None]:
# Imprimindo apenas uma coluna do Dataframe
frame2['Estado']

In [None]:
type(frame2)

In [None]:
frame2.index

In [None]:
frame2.columns

In [None]:
frame2.values

In [None]:
frame2.dtypes

In [None]:
frame2['Ano']

In [None]:
frame2.Ano

In [None]:
frame2[:2]

## Usando NumPy e Pandas

In [None]:
# Importando o NumPy
import numpy as np

In [None]:
# Usando o NumPy para alimentar uma das colunas do dataframe
frame2['Débito'] = np.arange(5.)

In [None]:
frame2

In [None]:
frame2.values

In [None]:
# Resumo do Dataframe
frame2.describe()

In [None]:
frame2['dois':'quatro']

In [None]:
frame2 < 5

## Localizando Registros Dentro do Dataframe

In [None]:
frame2.loc['quatro']

In [None]:
frame2.iloc[2]

## Invertendo as Colunas e Índices

In [None]:
# Criando um dicionário
web_stats = {'Dias':[1, 2, 3, 4, 5, 6, 7], 
             'Visitantes':[45, 23, 67, 78, 23, 12, 14], 
             'Taxas':[11, 22, 33, 44, 55, 66, 77]}

In [None]:
df = pd.DataFrame(web_stats)

In [None]:
print(df)

In [None]:
# Visualizando uma coluna  index
print(df.set_index('Dias'))

In [None]:
print(df.head())

In [None]:
print(df['Visitantes'])

In [None]:
print(df[['Visitantes', 'Taxas']])

## Dataframes e Arquivos csv

In [None]:
# Usando o método read_csv
df = pd.read_csv('salarios.csv')

In [None]:
df

In [None]:
# Usando o método read_table
df = pd.read_table('salarios.csv', sep = ',')

In [None]:
df

In [None]:
# No Windows use !type. No Mac ou Linux use !head
!head salarios.csv
# !type salarios.csv

In [None]:
# Alterando o título das colunas
df = pd.read_csv('salarios.csv', names = ['a', 'b', 'c', 'd'])

In [None]:
df

In [None]:
import sys

In [None]:
data = pd.read_csv('salarios.csv')

In [None]:
data.to_csv(sys.stdout, sep = '|')

In [None]:
# Criando um Dataframe
dates = pd.date_range('20180101', periods = 10)
df = pd.DataFrame(np.random.randn(10,4), index = dates, columns = list('ABCD'))

In [None]:
df

In [None]:
df.head()

In [None]:
# quick data summary
df.describe()

In [None]:
# Calculando a média
df.mean()

In [None]:
# Pivot e cálculo da média
df.mean(1)

In [None]:
# Usando métodos
df.apply(np.cumsum)

In [None]:
# Merge de Dataframes
left = pd.DataFrame({'chave': ['chave1', 'chave2'], 'coluna1': [1, 2]})
right = pd.DataFrame({'chave': ['chave1', 'chave2'], 'coluna2': [4, 5]})
pd.merge(left, right, on='chave')

In [None]:
# Adicionando um elemento ao Dataframe
df = pd.DataFrame(np.random.randn(8, 4), columns=['A', 'B', 'C', 'D'])

In [None]:
df

In [None]:
s = df.iloc[3]

In [None]:
# Adicionando um elemento ao Dataframe
df.append(s, ignore_index=True)

## Time Series

In [None]:
# Criando um range de datas com frequência de segundos
rng = pd.date_range('1/1/2018', periods = 50, freq = 'S')

In [None]:
ts = pd.Series(np.random.randint(0, 500, len(rng)), index = rng)

In [None]:
ts

In [None]:
# Criando um range de datas com frequência de meses
rng = pd.date_range('1/1/2016', periods=5, freq='M')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

## Plotting

In [None]:
import matplotlib.pyplot as plt
from matplotlib import style
%matplotlib inline

In [None]:
# Time Series Plot
ts = pd.Series(np.random.randn(500), index=pd.date_range('1/1/2016', periods=500))
ts = ts.cumsum()
ts.plot()

In [None]:
# DataFrame Plot
df = pd.DataFrame(np.random.randn(500, 4), index = ts.index, columns = ['A', 'B', 'C', 'D'])
df = df.cumsum()
plt.figure(); df.plot(); plt.legend(loc = 'best')

## Outuput

In [None]:
# Import
import os

In [None]:
# Verificando se o arquivo existe. No Windows use !type teste-df-output.xlsx
!head teste-df-output.xlsx

In [None]:
# Gerando um arquivo excel a partir de um Dataframe
df.to_excel('teste-df-output.xlsx', sheet_name='Sheet1')

In [None]:
# Verificando se o arquivo existe. No Windows use !type teste-df-output.xlsx
!head teste-df-output.xlsx

In [None]:
# Lendo o arquivo excel para um Dataframe
newDf2 = pd.read_excel('teste-df-output.xlsx', 'Sheet1', index_col=None, na_values=['NA'])

In [None]:
newDf2.head()

In [None]:
os.remove('teste-df-output.xlsx')

In [None]:
# Verificando se o arquivo existe. No Windows use !type teste-df-output.xlsx
!head teste-df-output.xlsx

Conheça a Formação Cientista de Dados, um programa completo, 100% online e 100% em português, com 340 horas, mais de 1.200 aulas em vídeos e 26 projetos, que vão ajudá-lo a se tornar um dos profissionais mais cobiçados do mercado de análise de dados. Clique no link abaixo, faça sua inscrição, comece hoje mesmo e aumente sua empregabilidade:

https://www.datascienceacademy.com.br/pages/formacao-cientista-de-dados

# Fim

### Obrigado - Data Science Academy - <a href="http://facebook.com/dsacademybr">facebook.com/dsacademybr</a>