<center> <h1>Estruturas para armazenamento de dados em Python </h1> </center>
<center> <h3>Pré-processamento de dados usando Python</h3> </center>

## A biblioteca Pandas

A biblioteca Pandas oferece duas novas estruturas de dados: Series (unidimensional) e DataFrame (bidimensional), que une o melhor dos mundos vistos antes:

* mutáveis
* heterogêneas
* vetorizáveis
* indexadas por índices específicos

In [1]:
import pandas as pd    
import numpy as np

As unidades básicas de trabalho com Pandas são as <b>'Series'</b> e os <b>'DataFrames'</b>. 

## <u>Series: </u>

são um conjunto de elementos de 1 dimensão com índices. Series podem conter basicamente qualquer objeto: int , float, string, etc...
A forma mais fácil para criar uma series é através da função <i>pd.Series(data=, index=):</i>

In [2]:
s1 = pd.Series(data = [10., 20, 30, 40, 50], 
               index =['a', 'b', 'c', 'd','e'])
s1

a    10.0
b    20.0
c    30.0
d    40.0
e    50.0
dtype: float64

In [3]:
s1[0]

10.0

In [4]:
s1['d']

40.0

In [5]:
s2 = pd.Series([10, 20, 30, 40, 50],
               ['a', 'b', 'c', 'd','e'])
s2

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [6]:
s2.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [7]:
s2[2]


30

In [8]:
s2['e']

50

In [9]:
# usando um dicionário
d = {'Campeão': 'Flamengo', 
     'Vice':'Vasco', 
     'Terceiro':'Bangu'}
d

{'Campeão': 'Flamengo', 'Vice': 'Vasco', 'Terceiro': 'Bangu'}

In [10]:
s2 = pd.Series(d)
s2

Campeão     Flamengo
Vice           Vasco
Terceiro       Bangu
dtype: object

In [11]:
d = {2: 1, 'a': 0, 6: 2}
s3 = pd.Series(d, index=range(2,7,2))
s3

2    1.0
4    NaN
6    2.0
dtype: float64

In [12]:
# usando um numpy array
dados = np.random.random(4)
indices = np.arange(0, 8, 2)
s4 = pd.Series(dados, indices)
s4

0    0.117464
2    0.453092
4    0.901600
6    0.583200
dtype: float64

In [13]:
# usando uma variável escalável
s5 = pd.Series(-9, index=['a', 'b', 'c', 'd'])
s5

a   -9
b   -9
c   -9
d   -9
dtype: int64

## <u>DataFrames: </u>

 são simplesmente um conjunto de séries que compartilham o mesmo índice. Similiar a uma tabela ou planilha do excel. É objeto Pandas mais utilizado! Por isso é muito importante dominar todas as operações que envolvam dataframes. Existem várias formas de criar dataframes, vamos ver as mais importantes:

1)  Através da função:   <i>pd.DataFrame(data= , index= , columns=)

In [14]:
df1 = pd.DataFrame(data = [[10., 20], 
                           [10., 20],
                           [10., 20], 
                           [10., 20],
                           [10., 20]], 
               index=['a', 'b', 'c', 'd', 'e'],
                columns=['A', 'B'])
df1

Unnamed: 0,A,B
a,10.0,20
b,10.0,20
c,10.0,20
d,10.0,20
e,10.0,20


In [15]:
# Dicionário
d = {'Times Paulistas': 
     ['São Paulo', 'Santos', 'Corinthians'], 
     'Times Cariocas': ['Flamengo', 'Fluminense', 'Botafogo'], 
     'Times Ruins': ['Palmeiras', 'Vasco', 'Remo']}
df = pd.DataFrame(d, index = [2,4,6])
df

Unnamed: 0,Times Paulistas,Times Cariocas,Times Ruins
2,São Paulo,Flamengo,Palmeiras
4,Santos,Fluminense,Vasco
6,Corinthians,Botafogo,Remo


In [16]:
g = {'Campeão': [1], 
     'Vice':[1], 
     'Terceiro':[1]}
df2 = pd.DataFrame(g)
df2

Unnamed: 0,Campeão,Vice,Terceiro
0,1,1,1


In [17]:
# Arrays
dados = np.random.random((5,3))
df2 = pd.DataFrame(data = dados, 
                   index = np.arange(5), 
                   columns = np.random.randint(1, 100, 3))
df2

Unnamed: 0,99,11,36
0,0.753465,0.959976,0.059631
1,0.728643,0.669208,0.749335
2,0.017694,0.143171,0.282581
3,0.844242,0.466908,0.332359
4,0.562,0.809962,0.317228


In [18]:
print(df2)

         99        11        36
0  0.753465  0.959976  0.059631
1  0.728643  0.669208  0.749335
2  0.017694  0.143171  0.282581
3  0.844242  0.466908  0.332359
4  0.562000  0.809962  0.317228


In [19]:
# Listas ou Tuplas
listas = [[9,3,6], [6,2,9], [6,1,6]]
df3 = pd.DataFrame(listas, 
                   index = (2,3,4), 
                   columns = ['A', 'B', 'C'])
df3

Unnamed: 0,A,B,C
2,9,3,6
3,6,2,9
4,6,1,6


2)   Por leitura de arquivo de diferentes formatos com os métodos:  
    <i>pd.read_csv();
    pd.read_excel();
    pd.read_pickle();
    pd.read_sql();
    pd.read_json();
    pd.read_html() e outros...
    

In [20]:
# basta passar a localização do arquivo para criar um novo dataframe

df = pd.read_csv('https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv')
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


Todos os outros métodos são bem semelhantes, o que muda um pouco é o read_html(). Veja o exemplo:

In [21]:
# Criamos um dataframe chamado fut e passamos o link que contém a tabela que queremos:
fut = pd.read_html("https://pt.wikipedia.org/wiki/Campeonato_Carioca_de_Futebol")
len(fut)

55

Perceba que o Pandas pega todas as tabelas presentes na página, como só queremos uma delas, selecionamos a escolhida:

In [22]:
fut = fut[5]   
fut

Unnamed: 0,Ano,Campeão,Placar(es),Vice,3º lugar,4º lugar
0,1960Detalhes,America (7),[nota 1],Fluminense,Botafogo,Flamengo
1,1961Detalhes,Botafogo (11),[nota 8],FlamengoVasco da Gama,Não houve,FluminenseBangu
2,1962Detalhes,Botafogo (12),[nota 1],Flamengo,Fluminense,Vasco da Gama
3,1963Detalhes,Flamengo (14),[nota 1],Fluminense,Bangu,Botafogo
4,1964Detalhes,Fluminense (18),1 – 03 – 1,Bangu,Flamengo,Botafogo
5,1965Detalhes,Flamengo (15),[nota 1],Bangu,FluminenseBotafogo,Não houve
6,1966Detalhes,Bangu (2),[nota 8],Flamengo,FluminenseBotafogo,Não houve
7,1967Detalhes,Botafogo (13),[nota 8],Bangu,Fluminense,America
8,1968Detalhes,Botafogo (14),[nota 8],Vasco da GamaFlamengo,Não houve,AmericaBanguFluminense
9,1969Detalhes,Fluminense (19),[nota 1],Flamengo,Botafogo,Vasco da Gama


### Output:

Pandas dá a opção de salvar nosso df em diferentes formatos: (análogo aos métodos de leitura)

    to_csv(); to_excel(), to_pickle(), to_json(), to_sql(), to_html e outros...

In [23]:
# Aquela tabela que lemos no formato .html, podemos salvar assim:

fut.to_excel('Tabela dos Campeões.xlsx')           # Excel
fut.to_csv('Tabela dos Campeões.csv')              # Arquivo .csv

ModuleNotFoundError: No module named 'openpyxl'

## Atributos e Funções:

Podemos obter muitas informações dos nossos dataframes, para isso basta conhecer as principais funções disponíveis:

.head() e .tail()

In [None]:
# Criamos nosso dataframe
df = pd.read_csv('https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv')

In [None]:
# Como já vimos, para retornar as n primeiras usamos:
df.head(2)   # se não passar nenhum valor, o padrão é 5

In [None]:
# Para ver as últimas linhas do nosso df:
df.tail(10)

In [None]:
# Para obter as colunas de seu dataframe:
df.columns

In [None]:
# Para obter os índices de seu dataframe:

df.index

Para obter informações rápidas, use os métodos .info() e .describe()

In [None]:
# Retorna quantidade de linhas, colunas, tipo de dados...

df.info()

#### Para ser aplicado nas colunas (lembre que cada coluna de um df é um Series):

In [None]:
# Para saber quais são os valores únicos que determinada coluna possui, use .unique()

df['species'].unique()

In [None]:
# Existem duas formas de saber a quantidade de valores únicos:

print(len(df['species'].unique()))
print(df['species'].nunique())

In [None]:
# Outro método importante é o .value_counts() , retorna a contagem de cada valor presente na coluna:

df['species'].value_counts()