In [2]:
import pandas as pd
import numpy as np

"""
Estruturas de dados básicas em pandas:

O Pandas fornece dois tipos de classes para lidar com dados:

    1: uma matriz rotulada unidimensional(Series) contendo dados de qualquer tipo
    como números inteiros, strings, objetos Python etc.

    2: uma estrutura de dados bidimensional(DataFrame) que contém dados como uma matriz de duas dimensões ou 
    uma tabela com linhas e colunas.

"""

"Passando uma lista de valores(Series)"

series = pd.Series([1,4,2,7,np.nan,"3","9",True])
series

0       1
1       4
2       2
3       7
4     NaN
5       3
6       9
7    True
dtype: object

In [3]:
"""
Criando um DataFrame
Criando um DataFrame passando uma matriz NumPy com um índice datetime usando data_range e rotulando colunas:

class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)

* data: ndarray (structured or homogeneous), Iterable, dict, or DataFrame
    - Dict pode conter Series, arrays, constantes, classe de dados ou objetos semelhantes a listas.
    Se data é um dict, a ordem das colunas segue a ordem de inserção.
* index: 
    - Índice a ser usado para o quadro resultante.
* columns: 
    - Rótulos de coluna a serem usados para o quadro resultante quando os dados não os tiverem
* dtype:
    - Tipo de dados a ser forçado. Apenas um único dtype é permitido. Se Nenhum, inferir.
* copy:
    - 
"""

"""
pandas.date_range(start=None, end=None, periods=None, freq=None, tz=None, normalize=False, name=None, inclusive='both', *, unit=None, **kwargs)[source]

Retorna o intervalo de pontos de tempo igualmente espaçados (onde a diferença entre qualquer dois pontos adjacentes é especificado pela frequência dada)

* start: str ou datetime-like, opcional
    -Limite à esquerda para gerar datas.

* end : str ou datetime-like, opcional
    -Limite certo para gerar datas.

* períodos : int, opcional
    -Número de períodos a serem gerados.(DIAS)

* freq: str, Timedelta, datetime.timedelta ou DateOffset, padrão 'D'
    -As cadeias de frequência podem ter múltiplos, por exemplo, '5h'. Veja
"""

dates = pd.date_range(start="20130101",end="20131231")
print(dates)
dates = pd.date_range(start="20130101",periods=6)
print(dates)

df = pd.DataFrame(data=np.random.randn(6,4), index=dates,columns=list("ABCD"),dtype="float64")
print(df["A"].dtypes)
print(df)

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06', '2013-01-07', '2013-01-08',
               '2013-01-09', '2013-01-10',
               ...
               '2013-12-22', '2013-12-23', '2013-12-24', '2013-12-25',
               '2013-12-26', '2013-12-27', '2013-12-28', '2013-12-29',
               '2013-12-30', '2013-12-31'],
              dtype='datetime64[ns]', length=365, freq='D')
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')
float64
                   A         B         C         D
2013-01-01  0.334968 -0.986846  0.028398 -0.806920
2013-01-02 -0.015381  0.752579 -0.476254 -0.445303
2013-01-03 -0.555081 -1.340993 -0.455596  0.507872
2013-01-04  0.039660  1.289133 -1.019199 -0.150763
2013-01-05  0.467169  1.745320 -0.217423 -1.364124
2013-01-06 -0.951645  0.510476 -1.194419 -0.849616


In [4]:
"""
Criando um DataFrame passando um dicionário de objetos onde as chaves são a coluna rótulos e os valores são os valores da coluna.

class pandas.Series(data=None, index=None, dtype=None, name=None, copy=None, fastpath=<no_default>)
* data: valor semelhante a uma matriz, iterável, dict ou escalar
    - Contém dados armazenados em série, Se data for um dict, a ordem dos argumentos será mantida.
* index: semelhante a uma matriz ou índice (1d)
os valores devem ser hashable e ter o mesmo comprimento que os dados. Valores índice não exclusivos são permitidos. O paderão será RangeIndex(0,1,2,3,...,n) se não fort fornecido. 
Se os dados forem semelhantes a dicionarios e index for None, a Series resultante será reindexada com os valores de indice.

* name: hashable, padrão nenhum
    - nome da Series
* copy: boolean, por padrão False
    - Controla se oo objeto Series vai efetuar uma cópia dos dados ou vai trabalhar com a referencia de mémoria, recebe um boolean.
    Mesmo quanto Falso, em muitos casos ele ainda assim faz a cópia dos dados, caso não consiga acessar os dados na memória,mais comum ocorrer essa referencia com o array do NumPy
    """

df2 = pd.DataFrame({
            "A":1.0,
            "B": pd.Timestamp(ts_input="20001010"),
            "C": pd.Series(1,index=list(range(4)), dtype="float32"),
            "D": np.array([3]*4,dtype="int32"),
            "E": pd.Categorical(['teste','train','teste','train']),
            "F":"foo",
            })
print(df2)
print("\n\n",df2.dtypes)



     A          B    C  D      E    F
0  1.0 2000-10-10  1.0  3  teste  foo
1  1.0 2000-10-10  1.0  3  train  foo
2  1.0 2000-10-10  1.0  3  teste  foo
3  1.0 2000-10-10  1.0  3  train  foo


 A          float64
B    datetime64[s]
C          float32
D            int32
E         category
F           object
dtype: object


In [5]:
"Note que quando o parametro copy do objeto Series é falso terá alguns casosonde ele pode assumir a referencia da estrutura de dados original ao inves de fazer uma copia dos dados"
print("Exemplo 1:\n")
r = np.array([1, 2])
ser = pd.Series(r, copy=False)
print(r)
ser.iloc[0] = 999
print("============")
print(ser)
print(r)
print("============")
r[0]=3
print(r)
print(ser)

print("\n\nExemplo 2:\n")
r = [1, 2]
ser = pd.Series(r, copy=False)
print(r)
ser.iloc[0] = 999
print("============")
print(ser)
print(r)
print("============")
r[0]=3
print(r)
print(ser)



Exemplo 1:

[1 2]
0    999
1      2
dtype: int64
[999   2]
[3 2]
0    3
1    2
dtype: int64


Exemplo 2:

[1, 2]
0    999
1      2
dtype: int64
[1, 2]
[3, 2]
0    999
1      2
dtype: int64


In [6]:
"""
VISUALIZAÇÃO DE DADOS 

DataFrame.head(): espera um int como entrada, defalt 5
Dataframe.tail(): espera um int como entrada, defalt 5
"""


print(df.head())
print("\n\n\n================================================")
print(df.tail())
print("\n\n\n================================================")
print(df.index)
print("\n\n\n================================================")
print(df.columns)





                   A         B         C         D
2013-01-01  0.334968 -0.986846  0.028398 -0.806920
2013-01-02 -0.015381  0.752579 -0.476254 -0.445303
2013-01-03 -0.555081 -1.340993 -0.455596  0.507872
2013-01-04  0.039660  1.289133 -1.019199 -0.150763
2013-01-05  0.467169  1.745320 -0.217423 -1.364124



                   A         B         C         D
2013-01-02 -0.015381  0.752579 -0.476254 -0.445303
2013-01-03 -0.555081 -1.340993 -0.455596  0.507872
2013-01-04  0.039660  1.289133 -1.019199 -0.150763
2013-01-05  0.467169  1.745320 -0.217423 -1.364124
2013-01-06 -0.951645  0.510476 -1.194419 -0.849616



DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')



Index(['A', 'B', 'C', 'D'], dtype='object')


In [7]:
"""
Transferindo DataFrame para um array NumPy
"""

df.to_numpy()


array([[ 0.33496827, -0.98684577,  0.02839809, -0.80691987],
       [-0.01538054,  0.75257857, -0.47625389, -0.44530301],
       [-0.55508096, -1.34099285, -0.45559553,  0.50787186],
       [ 0.03966041,  1.28913268, -1.01919891, -0.15076261],
       [ 0.46716865,  1.7453195 , -0.21742263, -1.36412419],
       [-0.95164465,  0.51047629, -1.1944186 , -0.84961586]])

In [8]:
"""
Os arrays NumPy têm um dtype para todo o array, enquanto os DataFrames do pandas têm um dtype por coluna, 
ao utilizar a função to_numpy() o pandas encontrará o dtype que possa conter todos os tipos de dados existentes no DatraFrame
"""
print(df2.dtypes)

df2.to_numpy()

A          float64
B    datetime64[s]
C          float32
D            int32
E         category
F           object
dtype: object


array([[1.0, Timestamp('2000-10-10 00:00:00'), 1.0, 3, 'teste', 'foo'],
       [1.0, Timestamp('2000-10-10 00:00:00'), 1.0, 3, 'train', 'foo'],
       [1.0, Timestamp('2000-10-10 00:00:00'), 1.0, 3, 'teste', 'foo'],
       [1.0, Timestamp('2000-10-10 00:00:00'), 1.0, 3, 'train', 'foo']],
      dtype=object)

In [9]:
"""
DataFrame.describe(percentiles=None, include=None, exclude=None)
"""
df.describe()




Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.113385,0.328278,-0.555749,-0.518142
std,0.542008,1.23778,0.467916,0.648372
min,-0.951645,-1.340993,-1.194419,-1.364124
25%,-0.420156,-0.612515,-0.883463,-0.838942
50%,0.01214,0.631527,-0.465925,-0.626111
75%,0.261141,1.154994,-0.276966,-0.224398
max,0.467169,1.74532,0.028398,0.507872


In [10]:
"""Transpondo dados"""

df.T

Unnamed: 0,2013-01-01,2013-01-02,2013-01-03,2013-01-04,2013-01-05,2013-01-06
A,0.334968,-0.015381,-0.555081,0.03966,0.467169,-0.951645
B,-0.986846,0.752579,-1.340993,1.289133,1.74532,0.510476
C,0.028398,-0.476254,-0.455596,-1.019199,-0.217423,-1.194419
D,-0.80692,-0.445303,0.507872,-0.150763,-1.364124,-0.849616


In [11]:
"""DataFrame.sort_index(*, axis=0, level=None, ascending=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True, ignore_index=False, key=None)[source]
"""

df.sort_index(axis=1, ascending=False)


Unnamed: 0,D,C,B,A
2013-01-01,-0.80692,0.028398,-0.986846,0.334968
2013-01-02,-0.445303,-0.476254,0.752579,-0.015381
2013-01-03,0.507872,-0.455596,-1.340993,-0.555081
2013-01-04,-0.150763,-1.019199,1.289133,0.03966
2013-01-05,-1.364124,-0.217423,1.74532,0.467169
2013-01-06,-0.849616,-1.194419,0.510476,-0.951645


In [12]:
"""
DataFrame.sort_values(by, *, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False, key=None)
Clasifica por valor
"""

df.sort_values(by="A")


Unnamed: 0,A,B,C,D
2013-01-06,-0.951645,0.510476,-1.194419,-0.849616
2013-01-03,-0.555081,-1.340993,-0.455596,0.507872
2013-01-02,-0.015381,0.752579,-0.476254,-0.445303
2013-01-04,0.03966,1.289133,-1.019199,-0.150763
2013-01-01,0.334968,-0.986846,0.028398,-0.80692
2013-01-05,0.467169,1.74532,-0.217423,-1.364124


In [13]:
"""
Obter Items 
Esse tipo de operação ao passar uma unica coluna ele 
gera um objeto Series 
"""
"""Obtendo coluna A"""

"Gera um Series"
print(df["A"])

"Gera um DataFrame"
print(df[["A","B"]])

2013-01-01    0.334968
2013-01-02   -0.015381
2013-01-03   -0.555081
2013-01-04    0.039660
2013-01-05    0.467169
2013-01-06   -0.951645
Freq: D, Name: A, dtype: float64
                   A         B
2013-01-01  0.334968 -0.986846
2013-01-02 -0.015381  0.752579
2013-01-03 -0.555081 -1.340993
2013-01-04  0.039660  1.289133
2013-01-05  0.467169  1.745320
2013-01-06 -0.951645  0.510476


In [14]:
"""Seleção por linhas"""
print(df[2:3])
print(df[1:6])

                   A         B         C         D
2013-01-03 -0.555081 -1.340993 -0.455596  0.507872
                   A         B         C         D
2013-01-02 -0.015381  0.752579 -0.476254 -0.445303
2013-01-03 -0.555081 -1.340993 -0.455596  0.507872
2013-01-04  0.039660  1.289133 -1.019199 -0.150763
2013-01-05  0.467169  1.745320 -0.217423 -1.364124
2013-01-06 -0.951645  0.510476 -1.194419 -0.849616


In [15]:
"""seleção por rótulo"""

df.loc[dates[0]]

A    0.334968
B   -0.986846
C    0.028398
D   -0.806920
Name: 2013-01-01 00:00:00, dtype: float64

In [16]:
"Selecione todas as linhas com rótulos de colunas selecionadas"
df.loc[:,["A","B"]]

Unnamed: 0,A,B
2013-01-01,0.334968,-0.986846
2013-01-02,-0.015381,0.752579
2013-01-03,-0.555081,-1.340993
2013-01-04,0.03966,1.289133
2013-01-05,0.467169,1.74532
2013-01-06,-0.951645,0.510476


In [17]:
df.loc["20130102":"20130104",["A","B"]]

Unnamed: 0,A,B
2013-01-02,-0.015381,0.752579
2013-01-03,-0.555081,-1.340993
2013-01-04,0.03966,1.289133


In [18]:
"Seleção por pela posição lógica"

print("\n\n=================\n",df.iloc[3])
"Pega as posições 1,2 e 4 e também a posição de colunas 0 e 2"

print("\n\n=================\n",df.iloc[[1, 2, 4], [0, 2]])

"Filtrando por intervalo de posição"
print("\n\n=================\n",df.iloc[1:4, 1:3])






 A    0.039660
B    1.289133
C   -1.019199
D   -0.150763
Name: 2013-01-04 00:00:00, dtype: float64


                    A         C
2013-01-02 -0.015381 -0.476254
2013-01-03 -0.555081 -0.455596
2013-01-05  0.467169 -0.217423


                    B         C
2013-01-02  0.752579 -0.476254
2013-01-03 -1.340993 -0.455596
2013-01-04  1.289133 -1.019199


In [19]:
"Para fatiar linhas explicitamente"
print("\n\n=================\n",df.iloc[1:3, :])

"Fatiar coluna explicitadamente"

print("\n\n=================\n",df.iloc[:, 1:3])



                    A         B         C         D
2013-01-02 -0.015381  0.752579 -0.476254 -0.445303
2013-01-03 -0.555081 -1.340993 -0.455596  0.507872


                    B         C
2013-01-01 -0.986846  0.028398
2013-01-02  0.752579 -0.476254
2013-01-03 -1.340993 -0.455596
2013-01-04  1.289133 -1.019199
2013-01-05  1.745320 -0.217423
2013-01-06  0.510476 -1.194419


In [20]:
"Para obter um valor explicitamente"
"Comandos equivalentes:"
print(df.iloc[1,1])
print(df.iat[1,1])

0.7525785656225745
0.7525785656225745


In [21]:
"""
Indexação Booleana:
"""

#df[df["A"]>0]
"""Retorna um series com os valores verdadeiros e falsos"""
print(df["A"]>0)



2013-01-01     True
2013-01-02    False
2013-01-03    False
2013-01-04     True
2013-01-05     True
2013-01-06    False
Freq: D, Name: A, dtype: bool


In [22]:
"""Seleciona valores de um DataFrame de acordo com a condição lógica"""
df[df > 0]

Unnamed: 0,A,B,C,D
2013-01-01,0.334968,,0.028398,
2013-01-02,,0.752579,,
2013-01-03,,,,0.507872
2013-01-04,0.03966,1.289133,,
2013-01-05,0.467169,1.74532,,
2013-01-06,,0.510476,,


In [23]:
"""Ao atribuir um dataframe ao um outro tenha conhecimento caso 
você não passe do dataframe com a função .copy() os dois DataFrames 
terão o mesmo endereço de memoria"""
df3 = pd.DataFrame(df.copy())
df3.iloc[0,0] = 1
print(df3)
df


                   A         B         C         D
2013-01-01  1.000000 -0.986846  0.028398 -0.806920
2013-01-02 -0.015381  0.752579 -0.476254 -0.445303
2013-01-03 -0.555081 -1.340993 -0.455596  0.507872
2013-01-04  0.039660  1.289133 -1.019199 -0.150763
2013-01-05  0.467169  1.745320 -0.217423 -1.364124
2013-01-06 -0.951645  0.510476 -1.194419 -0.849616


Unnamed: 0,A,B,C,D
2013-01-01,0.334968,-0.986846,0.028398,-0.80692
2013-01-02,-0.015381,0.752579,-0.476254,-0.445303
2013-01-03,-0.555081,-1.340993,-0.455596,0.507872
2013-01-04,0.03966,1.289133,-1.019199,-0.150763
2013-01-05,0.467169,1.74532,-0.217423,-1.364124
2013-01-06,-0.951645,0.510476,-1.194419,-0.849616


In [24]:
df3["E"] =  ["one", "one", "two", "three", "four", "three"]
df3

Unnamed: 0,A,B,C,D,E
2013-01-01,1.0,-0.986846,0.028398,-0.80692,one
2013-01-02,-0.015381,0.752579,-0.476254,-0.445303,one
2013-01-03,-0.555081,-1.340993,-0.455596,0.507872,two
2013-01-04,0.03966,1.289133,-1.019199,-0.150763,three
2013-01-05,0.467169,1.74532,-0.217423,-1.364124,four
2013-01-06,-0.951645,0.510476,-1.194419,-0.849616,three


In [25]:
"""Ambiente: A configuração de uma nova coluna alinha automaticamente os dados pelos índices"""
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range("20130102", periods=6))
s1

2013-01-02    1
2013-01-03    2
2013-01-04    3
2013-01-05    4
2013-01-06    5
2013-01-07    6
Freq: D, dtype: int64

In [26]:
df["F"] = s1
df

Unnamed: 0,A,B,C,D,F
2013-01-01,0.334968,-0.986846,0.028398,-0.80692,
2013-01-02,-0.015381,0.752579,-0.476254,-0.445303,1.0
2013-01-03,-0.555081,-1.340993,-0.455596,0.507872,2.0
2013-01-04,0.03966,1.289133,-1.019199,-0.150763,3.0
2013-01-05,0.467169,1.74532,-0.217423,-1.364124,4.0
2013-01-06,-0.951645,0.510476,-1.194419,-0.849616,5.0


In [27]:
df.at[dates[0],"A"]=0
df

Unnamed: 0,A,B,C,D,F
2013-01-01,0.0,-0.986846,0.028398,-0.80692,
2013-01-02,-0.015381,0.752579,-0.476254,-0.445303,1.0
2013-01-03,-0.555081,-1.340993,-0.455596,0.507872,2.0
2013-01-04,0.03966,1.289133,-1.019199,-0.150763,3.0
2013-01-05,0.467169,1.74532,-0.217423,-1.364124,4.0
2013-01-06,-0.951645,0.510476,-1.194419,-0.849616,5.0


In [None]:
df.iat[0,1]=0
