# Pandas
O pandas é um pacote Python que fornece estruturas de dados rápidas, flexíveis e expressivas, projetadas para tornar o trabalho com dados “relacionais” ou “rotulados” fáceis e intuitivos. 

###### Link da documentação do pandas para mais informações: https://pandas.pydata.org/pandas-docs/stable/api.html#dataframe

In [1]:
import pandas as pd

In [2]:
import numpy as np

# Série
Série é um array de uma dimensão


In [3]:
pd.Series([1,3,5,np.nan,6,8])

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

# DataFrame
DataFrame uma matriz

In [4]:
pd.DataFrame([[6, 2, np.nan, 3],                   
             [np.nan, 3, 4, 8],
             [9, np.nan, 1, 5],
             [1, 3, 5, 0]],
            )

Unnamed: 0,0,1,2,3
0,6.0,2.0,,3
1,,3.0,4.0,8
2,9.0,,1.0,5
3,1.0,3.0,5.0,0


# Lendo arquivo CSV
Para ler tabelas em arquivos CSV usasse o .read_csv(arquivo.csv, names= nomes das colunas) 

Nomes das colunas são os nomes que representam aqueles dados. No exemplo a seguir os dados contém informações sobre flores.

Lembrando que esse arquivo tem que estar na mesma pasta onde você esta desenvolvendo o algoritmo e que pode-se ler outros formatos de arquivo.

###### Link do dataset Iris : https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

In [27]:
nomesColunas = ['comprimento da sepala','largura da sepala','comprimento da petala', 'largura da petala','tipo de flor']
df = pd.read_csv('iris.csv', names=nomesColunas)

# Funções de representação e visualização dos dados

##### df.head(n) 
retorna as n primeiras linhas

In [28]:
df.head(10)

Unnamed: 0,comprimento da sepala,largura da sepala,comprimento da petala,largura da petala,tipo de flor
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa


##### df.shape 
retorna uma tupla com as dimensoes do df

In [29]:
df.shape

(150, 5)

##### df.loc[ "rotulos" ] 
mostra as informaçãoes que contem os rótulos passados.

In [30]:
df.loc[(df['tipo de flor'] == "Iris-setosa") & (df['comprimento da petala'] == 1.4)]

Unnamed: 0,comprimento da sepala,largura da sepala,comprimento da petala,largura da petala,tipo de flor
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
12,4.8,3.0,1.4,0.1,Iris-setosa
17,5.1,3.5,1.4,0.3,Iris-setosa
28,5.2,3.4,1.4,0.2,Iris-setosa
33,5.5,4.2,1.4,0.2,Iris-setosa
45,4.8,3.0,1.4,0.3,Iris-setosa


###### pode-se fazer assim também, que mostra apenas as colunas que você quer

In [35]:
df.loc[(df['tipo de flor'] == "Iris-setosa") & (df['comprimento da petala'] == 1.4), ['tipo de flor', 'comprimento da petala']]

Unnamed: 0,tipo de flor,comprimento da petala
0,Iris-setosa,1.4
1,Iris-setosa,1.4
4,Iris-setosa,1.4
6,Iris-setosa,1.4
8,Iris-setosa,1.4
12,Iris-setosa,1.4
17,Iris-setosa,1.4
28,Iris-setosa,1.4
33,Iris-setosa,1.4
45,Iris-setosa,1.4


##### df.drop(labels = None, axis = 0, columns = None) onde 
    
    - labels é o indice ou o nome que quer excluir
    - axis representa se quer mexer com as linhas (axis=0) ou colunas (axis=1)
    - columns é as colunas que quer excluir ex: df.drop(columns = [ 'B' ,  'C' ])

Retorna a tabela com colunas ou linhas excluidas

Lembrando que existem mais parametro nessa função!!!

In [36]:
df = df.drop('tipo de flor', axis=1) 
df.head(10)

Unnamed: 0,comprimento da sepala,largura da sepala,comprimento da petala,largura da petala
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
5,5.4,3.9,1.7,0.4
6,4.6,3.4,1.4,0.3
7,5.0,3.4,1.5,0.2
8,4.4,2.9,1.4,0.2
9,4.9,3.1,1.5,0.1


##### df.min() 
retorna o menor valor do df

In [37]:
df.min()

comprimento da sepala    4.3
largura da sepala        2.0
comprimento da petala    1.0
largura da petala        0.1
dtype: float64

##### df.max() 
retorna o maior valor do df

In [12]:
df.max()

comprimento da sepala    7.9
largura da sepala        4.4
comprimento da petala    6.9
largura da petala        2.5
dtype: float64

##### df.describe() 
retorna um resumo estatístico

In [13]:
df.describe() 

Unnamed: 0,comprimento da sepala,largura da sepala,comprimento da petala,largura da petala
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


##### df.info()

Imprime um resumo conciso do DataFrame

In [41]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
comprimento da sepala    150 non-null float64
largura da sepala        150 non-null float64
comprimento da petala    150 non-null float64
largura da petala        150 non-null float64
dtypes: float64(4)
memory usage: 4.8 KB


##### df.dtypes

Retorna os tipos de dados de cada coluna.

In [43]:
df.dtypes

comprimento da sepala    float64
largura da sepala        float64
comprimento da petala    float64
largura da petala        float64
dtype: object

##### df.corr ( )

Computa a correlação paritária de colunas, excluindo valores NA / null

In [49]:
df.corr

<bound method DataFrame.corr of      comprimento da sepala  largura da sepala  comprimento da petala  \
0                      5.1                3.5                    1.4   
1                      4.9                3.0                    1.4   
2                      4.7                3.2                    1.3   
3                      4.6                3.1                    1.5   
4                      5.0                3.6                    1.4   
5                      5.4                3.9                    1.7   
6                      4.6                3.4                    1.4   
7                      5.0                3.4                    1.5   
8                      4.4                2.9                    1.4   
9                      4.9                3.1                    1.5   
10                     5.4                3.7                    1.5   
11                     4.8                3.4                    1.6   
12                     4.8      

# Funções de manipulação de dados na situação que existe dados faltando

In [14]:
df = pd.DataFrame([[6, 2, np.nan,3],                   
                   [np.nan, 3, np.nan,8],
                   [np.nan, np.nan, np.nan,np.nan],                   
                   [1, 3, 5,0]],
                   columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
0,6.0,2.0,,3.0
1,,3.0,,8.0
2,,,,
3,1.0,3.0,5.0,0.0


##### df.isnull( )
detecta valores que estão faltando, indicando com True quando encontra

In [15]:
df.isnull()

Unnamed: 0,A,B,C,D
0,False,False,True,False
1,True,False,True,False
2,True,True,True,True
3,False,False,False,False


##### df.isnull( ).sum( )
mostra a soma de valores faltando em cada coluna.

In [16]:
df.isnull().sum()

A    2
B    1
C    3
D    1
dtype: int64

##### Quando existe linhas ou colunas com muitos dados faltando é melhor excluir, por não ter dados suficientes para assumir qualquer informação

##### df.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

    - axis representan linha(axis=0) ou colunas(axis=1)
    - how aceita a string "all" para exclui a linha que tenham todos os seu valores igual a NaN ou a string "any" para excluir se achar algum NaN
    - thresh representa o valor mínimo de dados que deseja em uma coluna, se na coluna tiver menos que esse valor ela sera eliminada
    - subset representa a coluna que se deseja analizar        
    
retorna a tabela com espacos omitidos

In [17]:
#nesse exemplo queremos as linhas que tem no mínimo 3 elementos não nulos
df.dropna(thresh=3)

Unnamed: 0,A,B,C,D
0,6.0,2.0,,3.0
3,1.0,3.0,5.0,0.0


In [18]:
df.dropna(how='all')

Unnamed: 0,A,B,C,D
0,6.0,2.0,,3.0
1,,3.0,,8.0
3,1.0,3.0,5.0,0.0


In [19]:
df.dropna(how='any')

Unnamed: 0,A,B,C,D
3,1.0,3.0,5.0,0.0


In [20]:
#nesse exemplo ele retira todas as linhas que na coluna 'C' estão com dados faltando.
df.dropna(subset=['C'])

Unnamed: 0,A,B,C,D
3,1.0,3.0,5.0,0.0


In [21]:
#retira todas as linhas que tem valores faltando
df.dropna(axis=0)

Unnamed: 0,A,B,C,D
3,1.0,3.0,5.0,0.0


In [22]:
#retira todas as colunas que tem valores faltando
df.dropna(axis=1)

0
1
2
3


# Funções para manipulação de dados qualitativos

Dados qualitativos são um pouco difíceis de ligar quando se quer testar o desempenho de vários modelos, pois nem todos trabalham bem com strings. Então devemos transformar esses dados em números para que todos os modelos que queiram testar possam trabalhar da melhor forma.


In [23]:
df = pd.DataFrame([['green', 'M', 10.1],
                   ['red', 'L', 13.5],
                   ['blue', 'XL', 15.3]])

df.columns = ['color', 'size', 'price']
df

Unnamed: 0,color,size,price
0,green,M,10.1
1,red,L,13.5
2,blue,XL,15.3


Devemos analisar os dados e verificar qual a melhor forma de converter os dados qualitativos para dados quantitativos. Mesmo que sejam strings, alguns dados tem uma ordem implicita, ou seja, faz diferença o jeito que você ordena eles.

Por exemplo: A coluna size, mostra os tamanho de blusas, sabemos que P M G é a ordem do menor para o maior e que a ordem P G M não faz sentido. Isso é ordem implicita, sabemos que eles representam valores em ordem. Para fazer a conversão sem bagunçar os dados, uma ideia é fazer um mapa manualmente colocando a string e seu valor representativo da sua escolha e depois substituir essas regras na tabela.

##### Substituição de dados qualitativos para dados quantitativos usando mapa feito manualmente
Para fazer a conversão sem bagunçar os dados, uma ideia é fazer um mapa manualmente colocando a string e seu valor representativo da sua escolha e depois substituir essas regras na tabela.

In [24]:
size_mapping = {'XL': 3,
                'L': 2,
                'M': 1}

df['size'] = df['size'].map(size_mapping)
df

Unnamed: 0,color,size,price
0,green,1,10.1
1,red,2,13.5
2,blue,3,15.3


##### Substituição de dados qualitativos para dados quantitativos usando mapa com enumerate
Para dados que sabemos não ter ordem implicita como por exemplo as cores, que não importa qual cor vem primeiro, podemos simplesmente fazer um mapa com um enumerate e substituir essas regras na tabela

In [25]:
color_mapping = {label: idx for idx, label in enumerate(np.unique(df['color']))}
color_mapping

{'blue': 0, 'green': 1, 'red': 2}

In [26]:
df['color'] = df['color'].map(color_mapping)
df

Unnamed: 0,color,size,price
0,1,1,10.1
1,2,2,13.5
2,0,3,15.3
