# Pandas - estudo

In [4]:
import numpy as np
import pandas as pd
from string import ascii_lowercase

In [55]:
# Data structures
# Series - data pode ser array, lista, dicionário, etc.
serie_lista = pd.Series(data=['maça', 'banana', 'uva', 'pêra', 'limão'], index=['fruta_'+str(i) for i in range (5)])
serie_dicionario = pd.Series(data={letra: numero for letra, numero in zip(ascii_lowercase, range(len(ascii_lowercase)))})

# Series podem ser referenciadas como um dicionário
serie_lista[1]

# Operações vetorizadas funcionam
serie_num = pd.Series(data=[np.random.randint(10) for _ in range(10)])
serie_num*2
np.exp(serie_num)

# E é possível dar nome
serie_name = pd.Series(data={letra: numero for letra, numero in zip(ascii_lowercase, range(len(ascii_lowercase)))}, name="letras")
serie_name.name
# E renomear
serie_name = serie_name.rename("caracteres")
serie_name.name


# Dataframes - criados a partir de um dicionário de séries
d = {
    "one": pd.Series([1.0, 2.0, 3.0], index=["a", "b", "c"]),
    "two": pd.Series([1.0, 2.0, 3.0, 4.0], index=["a", "b", "c", "d"]),
}

df = pd.DataFrame(d)
df

# É possível acessar o índice, nome das colunas, tipos de dados, etc
df.index
df.columns
df.dtypes

# E também ver o começo e o fim de um dataframe
df.head(2)
df.tail(1)

# Converter um conteúdo para um numpy array, sem índices ou nomes de colunas
df.to_numpy()

# É possível também sumarizar as principais estatísticas associadas ao df
df2 = pd.DataFrame(
    {
        "A": 1.0,
        "B": pd.Timestamp("20130102"),
        "C": pd.Series(1, index=list(range(4)), dtype="float32"),
        "D": np.array([3] * 4, dtype="int32"),
        "E": pd.Categorical(["test", "train", "test", "train"]),
        "F": "foo",
    }
)

df2.describe()

# E transpor (os índices viram os nomes das colunas e vice-versa)
df2.T

# Selecionando uma coluna
df2['B']

# Ou um range de linhas
df2[2:4]

# Ou os dois!
df2.loc[2:4, ['B', 'C']]

# Dá para selecionar por posição também
df2.iloc[1:4, 3:5]

# Valor específico
df2.iloc[1,4]

# Todas as colunas (todas as linhas é a mesma coisa, mas ao contrário)
df2.iloc[2:4, :]

#Selecionando por operação
dates = pd.date_range("20130101", periods=6)
df3 = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))

df3[df3['A']>0]
df3[df3>0]

# Operações gerais em: https://pandas.pydata.org/docs/user_guide/cookbook.html#cookbook

  serie_lista[1]


Unnamed: 0,A,B,C,D
2013-01-01,,0.369873,1.17776,0.155161
2013-01-02,1.123493,0.350329,,
2013-01-03,,,,
2013-01-04,1.931442,,,
2013-01-05,,,0.616724,1.470692
2013-01-06,,0.022695,,
