# Pandas

## Estrutura de Dados

### Series

In [None]:
from pandas import Series, DataFrame
import pandas as pd
obj = Series([4, 7, -5, 3])
obj

In [None]:
print(obj.values)
print(obj.index) #obj.index.values

In [None]:
obj2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

Comparado com o numpy array, você pode usar rótulos no índice quando seleciona um único valor ou um conjunto de valores:

In [None]:
obj2["a"]

In [None]:
obj2["d"] = 6 #atribuição

In [None]:
obj2[["c", "a", "d"]] #uma lista de índices

In [None]:
import numpy as np
print(obj2[obj2 > 0])
print()
print(obj2 * 2) #OPERAÇÃO vetorizada
print()
print(np.exp(obj2))

In [None]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = Series(sdata)
obj3

Podemos converter a série num dicionário novamente usando o método `to_dict`:

In [None]:
obj3.to_dict()

In [None]:
states = ['Oregon', 'Texas','California', 'Ohio']
obj4 = Series(sdata, index=states)
obj4

In [None]:
print(pd.isna(obj4)) #isnull
print(pd.notna(obj4)) # notnull

In [None]:
print(obj3)
print()
print(obj4)
print()
obj3 + obj4

In [None]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4

In [None]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

### DataFrame

In [None]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
df = DataFrame(data)
df

Para grandes DataFrames, podemos usar os métodos `head()`e `tail()`para visualizar apenas uma parte dos dados:

In [None]:
df.head() #mostra as 5 primeiras linhas

In [None]:
df.tail(2) #mostra as 2 últimas linhas

In [None]:
df2 = DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                index=['one', 'two', 'three', 'four', 'five'])
df2

In [None]:
df2.columns

In [None]:
print(df['state'])
print()
print(df.year)

In [None]:
print(df2.loc['four']) #label
print()
print(df.iloc[0]) #int

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])
data.loc['Colorado'] #seleciona a linha cujo índice é Colorado

In [None]:
data.loc[["Colorado", "New York"]] #seleciona as linhas Colorado e New York

In [None]:
data.loc["Colorado", ["two", "three"]] #seleciona a linha Colorado e as colunas two e three

In [None]:
data.iloc[2]#linha 2

In [None]:
data.iloc[[2, 1]] #linhas 2 e 1, nessa ordem

In [None]:
data.iloc[2, [3, 0, 1]] #linha 2, colunas 3, 0 e 1, nessa ordem

In [None]:
data.iloc[[1, 2], [3, 0, 1]] #linhas 1 e 2, colunas 3,0 e 1, nessa ordem

In [None]:
# todas as linhas, as 3 primeiras colunas, desde que seja maior que 5
data.iloc[:, :3][data.three > 5] 

In [None]:
data.loc[data.three >= 5]

In [None]:
df2['debt'] = np.arange(len(df2))
df2

In [None]:
val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
df2['debt'] = val
df2

In [None]:
df2['eastern'] = df2.state == 'Ohio'
df2

In [None]:
del df2['eastern']
df2

In [None]:
df2.values # df2.to_numpy()

In [None]:
obj = Series(range(3), index=['a', 'b', 'c'])
obj.index.values

In [None]:
print('state' in df2.columns)
print(0 in df.index)

## Eliminando entradas de um dos eixos

In [None]:
import numpy as np
obj = pd.Series(np.arange(5.), index=["a", "b", "c", "d", "e"])
obj

In [None]:
new_obj = obj.drop("c")
new_obj

In [None]:
obj.drop(["d", "c"])

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])
data

In [None]:
data.drop(index=["Colorado", "Ohio"]) #linhas

In [None]:
data.drop(columns=["two"]) #colunas

In [None]:
data.drop("two", axis=1)

In [None]:
data.drop(["two", "four"], axis="columns")

## Aplicação de Função e Mapeamento

In [None]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

In [None]:
list('abc')

In [None]:
df = DataFrame(np.random.randn(4, 3), columns=list('bde'),
                  index=['Utah', 'Ohio', 'Texas', 'Oregon'])
print(df)
print()
np.abs(df) #retorna valor absoluto

In [None]:
f = lambda x: x.max() - x.min()
print(df.apply(f))
print()
print(df.apply(f, axis=1))

In [None]:
def f2(x):
    return Series([x.min(), x.max()], index=['min', 'max'])

df.apply(f2)

In [None]:
df

In [None]:
format2 = lambda x: '%.2f' % x
df.applymap(format2)

## Ordenação e Ranking

In [None]:
obj = Series(range(4), index=['d', 'a', 'b', 'c'])
df2 = DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'],
                  columns=['d', 'a', 'b', 'c'])
print(obj)
print()
print(df2)
print()
print(obj.sort_index())
print()
print(df2.sort_index())
print()
print(df2.sort_index(axis=1))

In [None]:
obj = Series([4, 7, -3, 2])
obj.sort_values(ascending=False) #igual para pandas DataFrame

In [None]:
data = {'name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'], 
        'nota': [8, 7, 7.5, 10, 8]}
df4 = DataFrame(data)
print(df4)
print()
df4['rank'] = df4['nota'].rank(ascending=0)
df4.sort_values('rank')

## Sumarização e Estatística Descritiva

In [None]:
df5 = DataFrame([[1.4, np.nan], [7.1, -4.5],
                [np.nan, np.nan], [0.75, -1.3]],
               index=['a', 'b', 'c', 'd'],
               columns=['one', 'two'])
print(df5)
print()
print(df5.sum())
print()
print(df5.sum(axis=1))
print()
print(df5.count())

In [None]:
df5.size

In [None]:
df5.describe()

In [None]:
obj = pd.Series(["a", "a", "b", "c"] * 4)
obj

In [None]:
obj.describe()

In [None]:
obj = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
uniques = obj.unique()
uniques

In [None]:
mask = obj.isin(['b', 'c'])
mask

## Manipulação de Valores Faltantes 

In [None]:
string_data = Series(['laranja', 'uva', np.nan, 'abacate'])
print(string_data)
print()
print(string_data.isnull())
string_data[0] = None
print()
print(string_data.isnull())

In [None]:
data = DataFrame([[1., 6.5, 3.], [1., np.nan, np.nan],
                  [np.nan, np.nan, np.nan], [np.nan, 6.5, 3.]])
print(data)
cleaned = data.dropna()
print('\n',cleaned)
print()
data.dropna(how='all')

In [None]:
print(data.fillna(0))
print()
print(data.fillna(data.mean()))

## TODO Section

### Manipulação de DataFrame

        > Crie, a partir do dicionário abaixo, um DataFrame cujo index seja os valores da variável labels
        > encontre a média dos valores da coluna age e preencha os valores faltantes dessa coluna com o valor da média
        > crie uma nova coluna chamada 'rank', que mostre os animais que receberam mais visitas
        > qual o animal que recebeu a maior quantidade de visitas? Use o método max()

In [None]:
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

In [None]:
#resposta

## Carregamento e Armazenamento de Dados

### Arquivo CSV

In [None]:
import pandas as pd
poke = pd.read_csv('bases/Pokemon.csv')
poke.head(n=10)

### Arquivo JSON

In [None]:
obj = """
{"name": "Wes",
"places_lived": ["United States", "Spain", "Germany"],
"pet": null,
"siblings": [{"name": "Scott", "age": 25, "pet": "Zuko"},
{"name": "Katie", "age": 33, "pet": "Cisco"}]
}
"""
print(type(obj))
print(obj)

In [None]:
import json
result = json.loads(obj)
result

In [None]:
type(result)

In [None]:
asjson = json.dumps(result)
print(type(asjson))
asjson

In [None]:
siblings = pd.DataFrame(result['siblings'], columns=['name', 'age'])
siblings

## Combinação de Dados

In [None]:
import pandas as pd

In [None]:
df1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                 'data1': range(7)})

df2 = pd.DataFrame({'key': ['a', 'b', 'd','b'],
                 'data2': range(4)})

pd.merge(df1,df2) #default inner

In [None]:
df3 = pd.DataFrame({'lkey': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                 'data1': range(7)})

df4 = pd.DataFrame({'rkey': ['a', 'b', 'd'],
                 'data2': range(3)})
pd.merge(df3, df4, left_on='lkey', right_on='rkey')

In [None]:
df3

In [None]:
df4

In [None]:
pd.merge(df3, df4, how='outer',left_on='lkey',right_on='rkey')

In [None]:
left = pd.DataFrame({'key1': ['foo', 'foo', 'bar'],
                  'key2': ['one', 'two', 'one'],
                  'lval': [1, 2, 3]})
right = pd.DataFrame({'key1': ['foo', 'foo', 'bar', 'bar'],
                   'key2': ['one', 'one', 'one', 'two'],
                   'rval': [4, 5, 6, 7]})
pd.merge(left, right, on=['key1', 'key2'], how='outer')

In [None]:
import numpy as np
arr = np.arange(12).reshape((3, 4))
print(arr)
print()
np.concatenate([arr, arr], axis=1)

In [None]:
s1 = pd.Series([0, 1], index=['a', 'b'])
s2 = pd.Series([2, 3, 4], index=['c', 'd', 'e'])
s3 = pd.Series([5, 6], index=['f', 'g'])
pd.concat([s1, s2, s3])

In [None]:
df1 = pd.DataFrame(np.arange(6).reshape(3, 2), 
                index=['a', 'b', 'c'],
                columns=['one', 'two'])
df2 = pd.DataFrame(5 + np.arange(4).reshape(2, 2), 
                index=['a', 'c'],
                columns=['three', 'four'])
print(df1)
print()
print(df2)
print()
pd.concat([df1, df2], axis=1)

## TODO Section

### Manipulação de Dados usando Pandas

Usando o dataset Pokemon.csv, faça:

    1) Verifique em qual(is) coluna(s) existem valores faltantes
    2) Preencha os valores faltantes da coluna Type 2 com os valores correspondentes da coluna Type 1
    3) Crie um DataFrame a partir dos dados originais contendo apenas pokemons lendários. Imprima os 5 primeiros
    4) Use apply/applymap para passar todos os valores das colunas Name, Type 1 e Type 2 para minúscula

In [None]:
poke = pd.read_csv('bases/Pokemon.csv')
poke.head(n=10)

In [None]:
# Resposta 1

In [None]:
# Resposta 2

In [None]:
# Resposta 3

In [None]:
# Resposta 4