# Pandas - métodos úteis

In [None]:
import pandas as pd
import numpy as np

data = pd.read_csv('http://joaomrcarvalho.github.io/datasets/dm/adult.data')

print(data.info())

### Indexação booleana

In [None]:
selected_data = data.loc[data['age'] > 34]
print(selected_data.head())

print('---------------------------------------------------------------------------')

print(selected_data['over_50k'].value_counts())


print('---------------------------------------------------------------------------')

selected_data = data.loc[(data['age'] > 34) & (data['hours-per-week'] >= 40)]
print(selected_data['over_50k'].value_counts())


print('---------------------------------------------------------------------------')

selected_data = data.loc[(data['age'] > 34) & (data['hours-per-week'] >= 40) & (data['education'] ==  ' Bachelors')]
print(selected_data['over_50k'].value_counts())

**Sugestão de exercício:** Encontrar um subgrupo de indivíduos com uma grande percentagem de pessoas que ganha mais de 50k por ano.

### Valores em falta (missing values)

In [None]:
data['age'].loc[[0,5,100,200,300,1000]]  = np.nan

print(data['age'].head(10))

print("----------------------------------")

age_mean = data['age'].mean()

print(age_mean)

data['age'].fillna(int(age_mean),inplace=True)

print("----------------------------------")

print(data['age'].head(10))

###  A função apply

In [None]:
ms = list(set(data['marital-status']))
print(ms)

print("-----------------------------------------")

f = lambda x: ms.index(x)

data.loc[:,'marital-status'] = data['marital-status'].apply(f)

print(data['marital-status'].head())

In [None]:
somas = data[['capital-gain','capital-loss']].sum().values 
print(somas)

print("----------------------")

f = lambda x: x/somas

data.loc[:,['capital-gain','capital-loss']] = data[['capital-gain','capital-loss']].apply(f, axis=1)

print(data[['capital-gain','capital-loss']].head(10))

### crosstab

In [None]:
print(pd.crosstab(data['education'],data['over_50k'],margins=True))

print('-------------------------------------------------------------------------------------')

def to_percent(vector):
    """ 
        Divide cada elmento de um vector pelo último elemento do mesmo.
    """
    return vector/vector[-1]

print(pd.crosstab(data['education'],data['over_50k'],margins=True).apply(to_percent,axis=1))

### Merge de Dataframes 

In [None]:
df_1 = pd.DataFrame({'id':['12345','45628','90362','02716','01526'],
                      'nome':['João','Cláudia','Manuel','John','Kinoko']})

df_2 = pd.DataFrame({'id':['45628','12345','01526','90362','02716'],
                     'país':['Portugal','Portugal','Japão','Portugal','Canada']})

print(df_1)
print('------------------------------------------------------------------------------------------')
print(df_2)
print('------------------------------------------------------------------------------------------')

df_1.merge(right=df_2, how='inner', left_on='id', right_on='id')

### A função groupby

In [None]:
sex_data = data[['sex','age']]

gp_data = sex_data.groupby('sex')

print(gp_data)

gp_data.mean()


### Trabalhar com dados de texto

In [None]:
df = pd.DataFrame({'x1':['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'],
                     'x2':['aBad','Bacon','aaa','1dg',np.nan,'h23dakl','a','b',2]})

df.loc[:,'x1'] = df['x1'].str.lower()
print(df)

print("------------------------------------")

for col in df.columns:
    df.loc[:, col] = df[col].str.lower() 

print(df)

In [None]:
print(df['x1'].str.len())

In [None]:
df = pd.DataFrame({'coluna_1 ':['A ', ' B', ' C ', ' Aaba', ' Baca', np.nan, 'CABA ', 'dog ', '  cat '],
                   ' coluna_2  ':['aBad','Bacon',' aaa',' 1dg',np.nan,'h23dakl ','a',' b ',2]})

df.columns = df.columns.str.strip(' ') 

for col in df.columns:
    
    df.loc[:,col] = df[col].str.strip() 

    
print(df.values)

In [None]:
series = pd.Series(['a_b_c', 'c_d_e', np.nan, 'f_g_h'])

print(series)

print('-------------------------------------------------------------------------------------------------')

series_splited = series.str.split('_')

print(series_splited)


print('-------------------------------------------------------------------------------------------------')

print(series_splited.str.get(0))


print('-------------------------------------------------------------------------------------------------')

print(series.str.split('_', expand=True, n=1))

print('------------------------------------------------------------------------------------------------')

print(series.str.rsplit('_',expand=True,n=1))

In [None]:
series = pd.Series(['a_b_c', 'c_d_e', np.nan, 'f_g_h'])

print(series.str.replace('_','-'))

**Sugestão de Exercício:** Transformar o texto abaixo num DataFrame separado, onde cada palavra fique numa coluna distinta:

In [None]:
texto = "Aqui será colocado algum texto. \n\
         Primeiro esse texto terá que ser separado em linhas.\n\
         Depois disso vamos transformá-lo num dataframe."


print("Este é o resultado esperado:")

resultado_final = pd.DataFrame([['Aqui', 'será', 'colocado', 'algun', 'texto.', None, None, None,
        None],
       ['Primeiro', 'esse', 'texto', 'será', 'que', 'ser', 'separado',
        'em', 'linhas.'],
       ['Apos', 'isso', 'o', 'transformamos', 'em', 'um', 'dataframe.',
        None, None]], columns=list('abcdfghij'))


print(resultado_final)


### Transformações wide-to-narrow (melt) e narrow-to-wide (pivot_table)

In [None]:
dic = {'data':np.arange(100)}

# um pequeno truque para acrecentar várias chaves ao dicionário num for loop, para simplificar o exemplo
for x in range(1000):
    dic['x_{}'.format(x)] = np.random.randint(0,10000,100)

df = pd.DataFrame(dic)
print(df)              

print('---------------------------------------------------------------------------------------')

df = pd.melt(df, id_vars=['data'], value_vars=list(df.columns)[1:])

print(df)

print('---------------------------------------------------------------------------------------')

df = df.sort_values(by='data')
print(df)

In [None]:
df = pt=df.pivot_table(values='value',columns='variable',index='data')

print(df)