<h1>Pandas</h1>

Para importar a biblioteca Pandas usamos o seguinte comando:

In [1]:
import pandas as pd

Um dos objetos mais importantes da biblioteca pandas é o Data Frame. Um Data Frame pode ser criado a partir de um dicionário, como segue:

In [2]:
dict_golf = {"outlook":["overcast","overcast","sunny","rainny","sunny","sunny"],
              "temp":[83,94,70,68,85,80],
              "hum":[86,65,90,75,None,90],
              "wind":[None,True,False,False,False,True],
              "play":["yes","yes","yes","yes","no","no"]}
df_golf = pd.DataFrame(dict_golf)
df_golf

Unnamed: 0,hum,outlook,play,temp,wind
0,86.0,overcast,yes,83,
1,65.0,overcast,yes,94,True
2,90.0,sunny,yes,70,False
3,75.0,rainny,yes,68,False
4,,sunny,no,85,False
5,90.0,sunny,no,80,True


Observe que as keys do dicionário se tornam os rótulos das colunas do Data Frame. Esses rótulos são chamados de <b>features</b>. Para saber quais as features de um Data Frame:

In [3]:
df_golf.columns

Index(['hum', 'outlook', 'play', 'temp', 'wind'], dtype='object')

O Data Frame acima possui apenas 6 amostras. No entanto em casos reais podemos ter muito mais. Para ver apenas as 5 primeiras amostras de um data frame usa-se o comando:

In [4]:
df_golf.head()

Unnamed: 0,hum,outlook,play,temp,wind
0,86.0,overcast,yes,83,
1,65.0,overcast,yes,94,True
2,90.0,sunny,yes,70,False
3,75.0,rainny,yes,68,False
4,,sunny,no,85,False


Para ver as 5 últimas amostras do Data Frame, usa-se:

In [5]:
df_golf.tail()

Unnamed: 0,hum,outlook,play,temp,wind
1,65.0,overcast,yes,94,True
2,90.0,sunny,yes,70,False
3,75.0,rainny,yes,68,False
4,,sunny,no,85,False
5,90.0,sunny,no,80,True


É possível determinar o número de amostras tanto através do método head, tanto quanto através do método tail. Por exemplo, para mostrar apenas as três primeiras amostras fazemos:

In [6]:
df_golf.head(3)

Unnamed: 0,hum,outlook,play,temp,wind
0,86.0,overcast,yes,83,
1,65.0,overcast,yes,94,True
2,90.0,sunny,yes,70,False


Para obter estatísticas rápidas sobre o Data Frame, utilizamos o método describe:

In [7]:
df_golf.describe()

Unnamed: 0,hum,temp
count,5.0,6.0
mean,81.2,80.0
std,10.94075,9.736529
min,65.0,68.0
25%,75.0,72.5
50%,86.0,81.5
75%,90.0,84.5
max,90.0,94.0


O método describe só fornece informações sobre colunas numéricas. Dentre essas informações temos a média, o desvio padrão, o máximo, o mínimo e os percentis. Outra maneira de obter informações sobre o Data Frame é através do método info.

In [8]:
df_golf.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 5 columns):
hum        5 non-null float64
outlook    6 non-null object
play       6 non-null object
temp       6 non-null int64
wind       5 non-null object
dtypes: float64(1), int64(1), object(3)
memory usage: 320.0+ bytes


Observe que apesar de termos 5 entradas, as colunas hum, outlook e wind apresentam apenas 5 não nulas. Observamos também que a coluna hum tem objetos do tipo float e a coluna temp possui objetos do tipo int. Para ver melhor a coluna wind, usamos:

In [9]:
df_golf.wind

0     None
1     True
2    False
3    False
4    False
5     True
Name: wind, dtype: object

Vejamos qual o tipo do objeto df_golf.wind:

In [10]:
type(df_golf.wind)

pandas.core.series.Series

Temos aqui outro objeto importante da biblioteca pandas, a saber, Series. Outra sintaxe para obter a mesma série é:

In [11]:
df_golf['wind']

0     None
1     True
2    False
3    False
4    False
5     True
Name: wind, dtype: object

Para obter a mesma colunas, porém como um objeto do tipo Data Frame, fazemos:

In [12]:
df_golf[['wind']]

Unnamed: 0,wind
0,
1,True
2,False
3,False
4,False
5,True


In [13]:
type(df_golf[['wind']])

pandas.core.frame.DataFrame

Podemos restringir as colunas dessa forma:

In [14]:
df_golf[['temp','hum']]

Unnamed: 0,temp,hum
0,83,86.0
1,94,65.0
2,70,90.0
3,68,75.0
4,85,
5,80,90.0


Suponhamos agora que tenhamos um segundo Data Frame.

In [15]:
dict_golf2 = {"outlook":["overcast","sunny","rainny"],
              "temp":[63,80,70],
              "hum":[17,65,80],
              "wind":[True,False,False],
              "play":["yes","yes","no"]}
df_golf2 = pd.DataFrame(dict_golf2)
df_golf2

Unnamed: 0,hum,outlook,play,temp,wind
0,17,overcast,yes,63,True
1,65,sunny,yes,80,False
2,80,rainny,no,70,False


Para juntar dois Data Frames, utilizamos:

In [16]:
df = df_golf.append(df_golf2)
df

Unnamed: 0,hum,outlook,play,temp,wind
0,86.0,overcast,yes,83,
1,65.0,overcast,yes,94,True
2,90.0,sunny,yes,70,False
3,75.0,rainny,yes,68,False
4,,sunny,no,85,False
5,90.0,sunny,no,80,True
0,17.0,overcast,yes,63,True
1,65.0,sunny,yes,80,False
2,80.0,rainny,no,70,False


Observe que os índices ficam desconfigurados após a concatenação. Para resetar os índices basta usar o seguinte comando:

In [17]:
df.reset_index(inplace=True)
df

Unnamed: 0,index,hum,outlook,play,temp,wind
0,0,86.0,overcast,yes,83,
1,1,65.0,overcast,yes,94,True
2,2,90.0,sunny,yes,70,False
3,3,75.0,rainny,yes,68,False
4,4,,sunny,no,85,False
5,5,90.0,sunny,no,80,True
6,0,17.0,overcast,yes,63,True
7,1,65.0,sunny,yes,80,False
8,2,80.0,rainny,no,70,False


Observe, também, que apesar dos índices terem sido resetados, uma nova coluna com os índices antigos foi gerada. Para deletar uma coluna de um Data Frame usamos o método drop.

In [18]:
df.drop('index',1,inplace=True)
df

Unnamed: 0,hum,outlook,play,temp,wind
0,86.0,overcast,yes,83,
1,65.0,overcast,yes,94,True
2,90.0,sunny,yes,70,False
3,75.0,rainny,yes,68,False
4,,sunny,no,85,False
5,90.0,sunny,no,80,True
6,17.0,overcast,yes,63,True
7,65.0,sunny,yes,80,False
8,80.0,rainny,no,70,False


Para utilizar a modelagem, a maioria dos algoritmos tem como entrada Data Frame totalmente numéricos. Dessa forma é necessário transformar as colunas outlook, temp e wind. Primeiramente vamos transformar a coluna wind.

In [19]:
def discretizeWind(wind):
    if wind == True:
        return 1
    elif wind == False:
        return 0
    else:
        return wind
df['wind'] = df['wind'].map(discretizeWind)
df

Unnamed: 0,hum,outlook,play,temp,wind
0,86.0,overcast,yes,83,
1,65.0,overcast,yes,94,1.0
2,90.0,sunny,yes,70,0.0
3,75.0,rainny,yes,68,0.0
4,,sunny,no,85,0.0
5,90.0,sunny,no,80,1.0
6,17.0,overcast,yes,63,1.0
7,65.0,sunny,yes,80,0.0
8,80.0,rainny,no,70,0.0


Discretizaremos agora a coluna play:

In [20]:
def discretizePlay(play):
    if play == 'yes':
        return 1
    elif play == 'no':
        return 0
    else:
        return play
df['play'] = df['play'].map(discretizePlay)
df

Unnamed: 0,hum,outlook,play,temp,wind
0,86.0,overcast,1,83,
1,65.0,overcast,1,94,1.0
2,90.0,sunny,1,70,0.0
3,75.0,rainny,1,68,0.0
4,,sunny,0,85,0.0
5,90.0,sunny,0,80,1.0
6,17.0,overcast,1,63,1.0
7,65.0,sunny,1,80,0.0
8,80.0,rainny,0,70,0.0


Por fim, discretizaremos a coluna outlook. No entanto, observe que a coluna outlook possui três possíveis valores:

In [21]:
df['outlook'].unique()

array(['overcast', 'sunny', 'rainny'], dtype=object)

Quando temos mais que 2 valores utilizamos a função get_dummy:

In [22]:
# criando dummies
outlook_dummies = pd.get_dummies(df['outlook'],prefix='outlook')
# concatenando os dummies ao Data frame
df = pd.concat([df,outlook_dummies],axis=1)
# removendo a antiga coluna outlook
df.drop('outlook',1,inplace=True)
# mostrando o novo df
df

Unnamed: 0,hum,play,temp,wind,outlook_overcast,outlook_rainny,outlook_sunny
0,86.0,1,83,,1,0,0
1,65.0,1,94,1.0,1,0,0
2,90.0,1,70,0.0,0,0,1
3,75.0,1,68,0.0,0,1,0
4,,0,85,0.0,0,0,1
5,90.0,0,80,1.0,0,0,1
6,17.0,1,63,1.0,1,0,0
7,65.0,1,80,0.0,0,0,1
8,80.0,0,70,0.0,0,1,0


Antes de prosseguir, veremos algumas estatísticas de cada coluna:

In [23]:
# média da coluna hum
df['hum'].mean()

71.0

In [24]:
# desvio padrão da coluna temp
df['temp'].std()

9.886859966642595

In [25]:
# máximo da coluna temp
df.temp.max()

94

In [26]:
# minimo da coluna hum
df.hum.min()

17.0

In [27]:
# mediana da coluna hum
df.hum.median()

77.5

In [28]:
# variância da coluna temp
df.temp.var()

97.75

In [29]:
# moda da coluna wind
df.wind.mode()

0    0.0
dtype: float64

Podemos também calcular a correlação entre duas colunas:

In [30]:
# correlação entre a coluna temp e a coluna hum
df.temp.corr(df.hum)

0.32565830849564142

In [31]:
# Podemos contar quantas vezes cada valor aparece na coluna temp
df.temp.value_counts()

70    2
80    2
63    1
94    1
85    1
68    1
83    1
Name: temp, dtype: int64

In [32]:
# para saber quantas linhas e quantas colunas tem nosso DataFrame
df.shape

(9, 7)

Outro método importante é o groupby. Ele agrupa as colunas de acordo com seus valores únicos. Vejamos um exemplo:

In [33]:
# agrupando por play e vento
grouped = df.groupby(['play','wind'])
# mostrando a média da temperatura de cada classe
grouped[['temp']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,temp
play,wind,Unnamed: 2_level_1
0,0.0,77.5
0,1.0,80.0
1,0.0,72.666667
1,1.0,78.5


In [34]:
# agrupando por play
grouped = df.groupby(['play'])
# mostrando a média da temperatura em cada classe
grouped[['temp']].mean()

Unnamed: 0_level_0,temp
play,Unnamed: 1_level_1
0,78.333333
1,76.333333


Temos ainda alguns valores não preenchidos no Data Frame. Preencheremos os valores perdidos da coluna hum com a média dessa mesma coluna:

In [35]:
df['hum'] = df['hum'].fillna( df['hum'].mean())
df

Unnamed: 0,hum,play,temp,wind,outlook_overcast,outlook_rainny,outlook_sunny
0,86.0,1,83,,1,0,0
1,65.0,1,94,1.0,1,0,0
2,90.0,1,70,0.0,0,0,1
3,75.0,1,68,0.0,0,1,0
4,71.0,0,85,0.0,0,0,1
5,90.0,0,80,1.0,0,0,1
6,17.0,1,63,1.0,1,0,0
7,65.0,1,80,0.0,0,0,1
8,80.0,0,70,0.0,0,1,0


Há também valores perdidos na coluna wind. Não faz sentido preencher com a média. Portanto, preencheremos com a moda.

In [36]:
df['wind'] = df['wind'].fillna( df['wind'].mode())
df

Unnamed: 0,hum,play,temp,wind,outlook_overcast,outlook_rainny,outlook_sunny
0,86.0,1,83,0.0,1,0,0
1,65.0,1,94,1.0,1,0,0
2,90.0,1,70,0.0,0,0,1
3,75.0,1,68,0.0,0,1,0
4,71.0,0,85,0.0,0,0,1
5,90.0,0,80,1.0,0,0,1
6,17.0,1,63,1.0,1,0,0
7,65.0,1,80,0.0,0,0,1
8,80.0,0,70,0.0,0,1,0


Como estamos nos preparando para modelar os dados, para que uma coluna que possua maior peso não interfira de forma errada nos resultados, normalizaremos os dados:

In [37]:
df_norm = (df - df.mean()) / (df.max() - df.min())
df_norm

Unnamed: 0,hum,play,temp,wind,outlook_overcast,outlook_rainny,outlook_sunny
0,0.205479,0.333333,0.193548,-0.333333,0.666667,-0.222222,-0.444444
1,-0.082192,0.333333,0.548387,0.666667,0.666667,-0.222222,-0.444444
2,0.260274,0.333333,-0.225806,-0.333333,-0.333333,-0.222222,0.555556
3,0.054795,0.333333,-0.290323,-0.333333,-0.333333,0.777778,-0.444444
4,0.0,-0.666667,0.258065,-0.333333,-0.333333,-0.222222,0.555556
5,0.260274,-0.666667,0.096774,0.666667,-0.333333,-0.222222,0.555556
6,-0.739726,0.333333,-0.451613,0.666667,0.666667,-0.222222,-0.444444
7,-0.082192,0.333333,0.096774,-0.333333,-0.333333,-0.222222,0.555556
8,0.123288,-0.666667,-0.225806,-0.333333,-0.333333,0.777778,-0.444444


Pronto, agora você está pronto para começar a modelar os dados!