<center> <h1>Estruturas para armazenamento de dados em Python </h1> </center>
<center> <h3>Pré-processamento de dados usando Python</h3> </center>

## A biblioteca Pandas

A biblioteca Pandas oferece duas novas estruturas de dados: Series (unidimensional) e DataFrame (bidimensional), que une o melhor dos mundos vistos antes:

* mutáveis
* heterogêneas
* vetorizáveis
* indexadas por índices específicos

In [1]:
import pandas as pd    
import numpy as np

As unidades básicas de trabalho com Pandas são as <b>'Series'</b> e os <b>'DataFrames'</b>. 

## <u>Series: </u>

são um conjunto de elementos de 1 dimensão com índices. Series podem conter basicamente qualquer objeto: int , float, string, etc...
A forma mais fácil para criar uma series é através da função <i>pd.Series(data=, index=):</i>

In [7]:
s1 = pd.Series(data = [10., 20, 30, 40, 50], 
               index =['a', 'b', 'c', 'd','e'])
s1

a    10.0
b    20.0
c    30.0
d    40.0
e    50.0
dtype: float64

In [6]:
s1[0]

10.0

In [9]:
s1['d']

40.0

In [14]:
s2 = pd.Series([10, 20, 30, 40, 50],
               ['a', 'b', 'c', 'd','e'])
s2

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [15]:
s2.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [17]:
s2[2]


30

In [18]:
s2['e']

50

In [19]:
# usando um dicionário
d = {'Campeão': 'Flamengo', 
     'Vice':'Vasco', 
     'Terceiro':'Bangu'}
d

{'Campeão': 'Flamengo', 'Vice': 'Vasco', 'Terceiro': 'Bangu'}

In [20]:
s2 = pd.Series(d)
s2

Campeão     Flamengo
Vice           Vasco
Terceiro       Bangu
dtype: object

In [23]:
d = {2: 1, 'a': 0, 6: 2}
s3 = pd.Series(d, index=range(2,7,2))
s3

2    1.0
4    NaN
6    2.0
dtype: float64

In [24]:
# usando um numpy array
dados = np.random.random(4)
indices = np.arange(0, 8, 2)
s4 = pd.Series(dados, indices)
s4

0    0.094147
2    0.924487
4    0.392097
6    0.685907
dtype: float64

In [25]:
# usando uma variável escalável
s5 = pd.Series(-9, index=['a', 'b', 'c', 'd'])
s5

a   -9
b   -9
c   -9
d   -9
dtype: int64

## <u>DataFrames: </u>

 são simplesmente um conjunto de séries que compartilham o mesmo índice. Similiar a uma tabela ou planilha do excel. É objeto Pandas mais utilizado! Por isso é muito importante dominar todas as operações que envolvam dataframes. Existem várias formas de criar dataframes, vamos ver as mais importantes:

1)  Através da função:   <i>pd.DataFrame(data= , index= , columns=)

In [32]:
df1 = pd.DataFrame(data = [[10., 20], 
                           [10., 20],
                           [10., 20], 
                           [10., 20],
                           [10., 20]], 
               index=['a', 'b', 'c', 'd', 'e'],
                columns=['A', 'B'])
df1

Unnamed: 0,A,B
a,10.0,20
b,10.0,20
c,10.0,20
d,10.0,20
e,10.0,20


In [34]:
# Dicionário
d = {'Times Paulistas': 
     ['São Paulo', 'Santos', 'Corinthians'], 
     'Times Cariocas': ['Flamengo', 'Fluminense', 'Botafogo'], 
     'Times Ruins': ['Palmeiras', 'Vasco', 'Remo']}
df = pd.DataFrame(d, index = [2,4,6])
df

Unnamed: 0,Times Paulistas,Times Cariocas,Times Ruins
2,São Paulo,Flamengo,Palmeiras
4,Santos,Fluminense,Vasco
6,Corinthians,Botafogo,Remo


In [36]:
g = {'Campeão': [1], 
     'Vice':[1], 
     'Terceiro':[1]}
df2 = pd.DataFrame(g)
df2

Unnamed: 0,Campeão,Vice,Terceiro
0,1,1,1


In [37]:
# Arrays
dados = np.random.random((5,3))
df2 = pd.DataFrame(data = dados, 
                   index = np.arange(5), 
                   columns = np.random.randint(1, 100, 3))
df2

Unnamed: 0,85,51,4
0,0.076505,0.253538,0.446233
1,0.393591,0.235672,0.527515
2,0.875235,0.297414,0.267951
3,0.631395,0.991611,0.203921
4,0.313029,0.390545,0.389089


In [38]:
print(df2)

         85        51        4 
0  0.076505  0.253538  0.446233
1  0.393591  0.235672  0.527515
2  0.875235  0.297414  0.267951
3  0.631395  0.991611  0.203921
4  0.313029  0.390545  0.389089


In [39]:
# Listas ou Tuplas
listas = [[9,3,6], [6,2,9], [6,1,6]]
df3 = pd.DataFrame(listas, 
                   index = (2,3,4), 
                   columns = ['A', 'B', 'C'])
df3

Unnamed: 0,A,B,C
2,9,3,6
3,6,2,9
4,6,1,6


2)   Por leitura de arquivo de diferentes formatos com os métodos:  
    <i>pd.read_csv();
    pd.read_excel();
    pd.read_pickle();
    pd.read_sql();
    pd.read_json();
    pd.read_html() e outros...
    

In [None]:
# basta passar a localização do arquivo para criar um novo dataframe

df = pd.read_csv('https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv')
df

Todos os outros métodos são bem semelhantes, o que muda um pouco é o read_html(). Veja o exemplo:

In [None]:
# Criamos um dataframe chamado fut e passamos o link que contém a tabela que queremos:
fut = pd.read_html("https://pt.wikipedia.org/wiki/Campeonato_Carioca_de_Futebol")
len(fut)

Perceba que o Pandas pega todas as tabelas presentes na página, como só queremos uma delas, selecionamos a escolhida:

In [None]:
fut = fut[5]   
fut

### Output:

Pandas dá a opção de salvar nosso df em diferentes formatos: (análogo aos métodos de leitura)

    to_csv(); to_excel(), to_pickle(), to_json(), to_sql(), to_html e outros...

In [None]:
# Aquela tabela que lemos no formato .html, podemos salvar assim:

fut.to_excel('Tabela dos Campeões.xlsx')           # Excel
fut.to_csv('Tabela dos Campeões.csv')              # Arquivo .csv

## Atributos e Funções:

Podemos obter muitas informações dos nossos dataframes, para isso basta conhecer as principais funções disponíveis:

.head() e .tail()

In [None]:
# Criamos nosso dataframe
df = pd.read_csv('https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv')

In [None]:
# Como já vimos, para retornar as n primeiras usamos:
df.head(2)   # se não passar nenhum valor, o padrão é 5

In [None]:
# Para ver as últimas linhas do nosso df:
df.tail(10)

In [None]:
# Para obter as colunas de seu dataframe:
df.columns

In [None]:
# Para obter os índices de seu dataframe:

df.index

Para obter informações rápidas, use os métodos .info() e .describe()

In [None]:
# Retorna quantidade de linhas, colunas, tipo de dados...

df.info()

#### Para ser aplicado nas colunas (lembre que cada coluna de um df é um Series):

In [None]:
# Para saber quais são os valores únicos que determinada coluna possui, use .unique()

df['species'].unique()

In [None]:
# Existem duas formas de saber a quantidade de valores únicos:

print(len(df['species'].unique()))
print(df['species'].nunique())

In [None]:
# Outro método importante é o .value_counts() , retorna a contagem de cada valor presente na coluna:

df['species'].value_counts()