In [2]:
import pandas as pd
import numpy as np

"""
Estruturas de dados básicas em pandas:

O Pandas fornece dois tipos de classes para lidar com dados:

    1: uma matriz rotulada unidimensional(Series) contendo dados de qualquer tipo
    como números inteiros, strings, objetos Python etc.

    2: uma estrutura de dados bidimensional(DataFrame) que contém dados como uma matriz de duas dimensões ou 
    uma tabela com linhas e colunas.

"""

"Passando uma lista de valores(Series)"

series = pd.Series([1,4,2,7,np.nan,"3","9",True])
series

0       1
1       4
2       2
3       7
4     NaN
5       3
6       9
7    True
dtype: object

In [3]:
"""
Criando um DataFrame
Criando um DataFrame passando uma matriz NumPy com um índice datetime usando data_range e rotulando colunas:

class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)

* data: ndarray (structured or homogeneous), Iterable, dict, or DataFrame
    - Dict pode conter Series, arrays, constantes, classe de dados ou objetos semelhantes a listas.
    Se data é um dict, a ordem das colunas segue a ordem de inserção.
* index: 
    - Índice a ser usado para o quadro resultante.
* columns: 
    - Rótulos de coluna a serem usados para o quadro resultante quando os dados não os tiverem
* dtype:
    - Tipo de dados a ser forçado. Apenas um único dtype é permitido. Se Nenhum, inferir.
* copy:
    - 
"""

"""
pandas.date_range(start=None, end=None, periods=None, freq=None, tz=None, normalize=False, name=None, inclusive='both', *, unit=None, **kwargs)[source]

Retorna o intervalo de pontos de tempo igualmente espaçados (onde a diferença entre qualquer dois pontos adjacentes é especificado pela frequência dada)

* start: str ou datetime-like, opcional
    -Limite à esquerda para gerar datas.

* end : str ou datetime-like, opcional
    -Limite certo para gerar datas.

* períodos : int, opcional
    -Número de períodos a serem gerados.(DIAS)

* freq: str, Timedelta, datetime.timedelta ou DateOffset, padrão 'D'
    -As cadeias de frequência podem ter múltiplos, por exemplo, '5h'. Veja
"""

dates = pd.date_range(start="20130101",end="20131231")
print(dates)
dates = pd.date_range(start="20130101",periods=6)
print(dates)

df = pd.DataFrame(data=np.random.randn(6,4), index=dates,columns=list("ABCD"),dtype="float64")
print(df["A"].dtypes)
print(df)

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06', '2013-01-07', '2013-01-08',
               '2013-01-09', '2013-01-10',
               ...
               '2013-12-22', '2013-12-23', '2013-12-24', '2013-12-25',
               '2013-12-26', '2013-12-27', '2013-12-28', '2013-12-29',
               '2013-12-30', '2013-12-31'],
              dtype='datetime64[ns]', length=365, freq='D')
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')
float64
                   A         B         C         D
2013-01-01  1.367373  0.590434  1.926646 -0.054785
2013-01-02  0.592945 -2.451957  0.020458  0.439599
2013-01-03 -0.431889  0.617618 -2.024632 -1.313544
2013-01-04  0.715444 -2.285810 -0.280339 -2.036589
2013-01-05 -0.569325 -0.666184  0.003039  0.368850
2013-01-06  0.735655  0.793711 -0.628512  0.145097


In [None]:
"""
Criando um DataFrame passando um dicionário de objetos onde as chaves são a coluna rótulos e os valores são os valores da coluna.

class pandas.Series(data=None, index=None, dtype=None, name=None, copy=None, fastpath=<no_default>)
* data: valor semelhante a uma matriz, iterável, dict ou escalar
    - Contém dados armazenados em série, Se data for um dict, a ordem dos argumentos será mantida.
* index: semelhante a uma matriz ou índice (1d)
os valores devem ser hashable e ter o mesmo comprimento que os dados. Valores índice não exclusivos são permitidos. O paderão será RangeIndex(0,1,2,3,...,n) se não fort fornecido. 
Se os dados forem semelhantes a dicionarios e index for None, a Series resultante será reindexada com os valores de indice.

* name: hashable, padrão nenhum
    - nome da Series
* copy: boolean, por padrão False
    - Controla se oo objeto Series vai efetuar uma cópia dos dados ou vai trabalhar com a referencia de mémoria, recebe um boolean.
    Mesmo quanto Falso, em muitos casos ele ainda assim faz a cópia dos dados, caso não consiga acessar os dados na memória,mais comum ocorrer essa referencia com o array do NumPy
    """

df2 = pd.DataFrame({
            "A":1.0,
            "B": pd.Timestamp(ts_input="20001010"),
            "C": pd.Series(1,index=list(range(4)), dtype="float32"),
            "D": np.array([3]*4,dtype="int32"),
            "E": pd.Categorical(['teste','train','teste','train']),
            "F":"foo",
            })
print(df2)
print("\n\n",df2.dtypes)



     A          B    C  D      E    F
0  1.0 2000-10-10  1.0  3  teste  foo
1  1.0 2000-10-10  1.0  3  train  foo
2  1.0 2000-10-10  1.0  3  teste  foo
3  1.0 2000-10-10  1.0  3  train  foo


 A          float64
B    datetime64[s]
C          float32
D            int32
E         category
F           object
dtype: object


In [6]:
"Note que quando o parametro copy do objeto Series é falso terá alguns casosonde ele pode assumir a referencia da estrutura de dados original ao inves de fazer uma copia dos dados"
print("Exemplo 1:\n")
r = np.array([1, 2])
ser = pd.Series(r, copy=False)
print(r)
ser.iloc[0] = 999
print("============")
print(ser)
print(r)
print("============")
r[0]=3
print(r)
print(ser)

print("\n\nExemplo 2:\n")
r = [1, 2]
ser = pd.Series(r, copy=False)
print(r)
ser.iloc[0] = 999
print("============")
print(ser)
print(r)
print("============")
r[0]=3
print(r)
print(ser)



Exemplo 1:

[1 2]
0    999
1      2
dtype: int64
[999   2]
[3 2]
0    3
1    2
dtype: int64


Exemplo 2:

[1, 2]
0    999
1      2
dtype: int64
[1, 2]
[3, 2]
0    999
1      2
dtype: int64


In [13]:
"""
VISUALIZAÇÃO DE DADOS 

DataFrame.head(): espera um int como entrada, defalt 5
Dataframe.tail(): espera um int como entrada, defalt 5
"""


print(df.head())
print("\n\n\n================================================")
print(df.tail())
print("\n\n\n================================================")
print(df.index)
print("\n\n\n================================================")
print(df.columns)





                   A         B         C         D
2013-01-01  1.367373  0.590434  1.926646 -0.054785
2013-01-02  0.592945 -2.451957  0.020458  0.439599
2013-01-03 -0.431889  0.617618 -2.024632 -1.313544
2013-01-04  0.715444 -2.285810 -0.280339 -2.036589
2013-01-05 -0.569325 -0.666184  0.003039  0.368850



                   A         B         C         D
2013-01-02  0.592945 -2.451957  0.020458  0.439599
2013-01-03 -0.431889  0.617618 -2.024632 -1.313544
2013-01-04  0.715444 -2.285810 -0.280339 -2.036589
2013-01-05 -0.569325 -0.666184  0.003039  0.368850
2013-01-06  0.735655  0.793711 -0.628512  0.145097



DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')



Index(['A', 'B', 'C', 'D'], dtype='object')


In [14]:
"""
Transferindo DataFrame para um array NumPy
"""

df.to_numpy()


array([[ 1.36737257,  0.59043431,  1.92664627, -0.05478517],
       [ 0.59294469, -2.45195686,  0.02045812,  0.43959925],
       [-0.43188885,  0.61761794, -2.02463158, -1.31354417],
       [ 0.71544391, -2.28581   , -0.28033873, -2.03658886],
       [-0.56932498, -0.66618389,  0.0030388 ,  0.36885007],
       [ 0.73565512,  0.79371054, -0.6285122 ,  0.14509711]])

In [15]:
"""
Os arrays NumPy têm um dtype para todo o array, enquanto os DataFrames do pandas têm um dtype por coluna, 
ao utilizar a função to_numpy() o pandas encontrará o dtype que possa conter todos os tipos de dados existentes no DatraFrame
"""
print(df2.dtypes)

df2.to_numpy()

A          float64
B    datetime64[s]
C          float32
D            int32
E         category
F           object
dtype: object


array([[1.0, Timestamp('2000-10-10 00:00:00'), 1.0, 3, 'teste', 'foo'],
       [1.0, Timestamp('2000-10-10 00:00:00'), 1.0, 3, 'train', 'foo'],
       [1.0, Timestamp('2000-10-10 00:00:00'), 1.0, 3, 'teste', 'foo'],
       [1.0, Timestamp('2000-10-10 00:00:00'), 1.0, 3, 'train', 'foo']],
      dtype=object)

In [16]:
"""
DataFrame.describe(percentiles=None, include=None, exclude=None)
"""
df.describe()




Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,0.4017,-0.567031,-0.16389,-0.408562
std,0.750576,1.490752,1.274675,1.022243
min,-0.569325,-2.451957,-2.024632,-2.036589
25%,-0.17568,-1.880903,-0.541469,-0.998854
50%,0.654194,-0.037875,-0.13865,0.045156
75%,0.730602,0.610822,0.016103,0.312912
max,1.367373,0.793711,1.926646,0.439599


In [17]:
"""Transpondo dados"""

df.T

Unnamed: 0,2013-01-01,2013-01-02,2013-01-03,2013-01-04,2013-01-05,2013-01-06
A,1.367373,0.592945,-0.431889,0.715444,-0.569325,0.735655
B,0.590434,-2.451957,0.617618,-2.28581,-0.666184,0.793711
C,1.926646,0.020458,-2.024632,-0.280339,0.003039,-0.628512
D,-0.054785,0.439599,-1.313544,-2.036589,0.36885,0.145097


In [18]:
"""DataFrame.sort_index(*, axis=0, level=None, ascending=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True, ignore_index=False, key=None)[source]
"""

df.sort_index(axis=1, ascending=False)


Unnamed: 0,D,C,B,A
2013-01-01,-0.054785,1.926646,0.590434,1.367373
2013-01-02,0.439599,0.020458,-2.451957,0.592945
2013-01-03,-1.313544,-2.024632,0.617618,-0.431889
2013-01-04,-2.036589,-0.280339,-2.28581,0.715444
2013-01-05,0.36885,0.003039,-0.666184,-0.569325
2013-01-06,0.145097,-0.628512,0.793711,0.735655


In [20]:
"""
DataFrame.sort_values(by, *, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False, key=None)
Clasifica por valor
"""

df.sort_values(by="A")


Unnamed: 0,A,B,C,D
2013-01-05,-0.569325,-0.666184,0.003039,0.36885
2013-01-03,-0.431889,0.617618,-2.024632,-1.313544
2013-01-02,0.592945,-2.451957,0.020458,0.439599
2013-01-04,0.715444,-2.28581,-0.280339,-2.036589
2013-01-06,0.735655,0.793711,-0.628512,0.145097
2013-01-01,1.367373,0.590434,1.926646,-0.054785


In [None]:
"""
Obter Items
"""
"""Obtendo coluna A"""

df["A"]

2013-01-01    1.367373
2013-01-02    0.592945
2013-01-03   -0.431889
2013-01-04    0.715444
2013-01-05   -0.569325
2013-01-06    0.735655
Freq: D, Name: A, dtype: float64

In [None]:
"""Seleção por linhas"""
print(df[2:3])
print(df[1:6])

                   A         B         C         D
2013-01-03 -0.431889  0.617618 -2.024632 -1.313544
                   A         B         C         D
2013-01-02  0.592945 -2.451957  0.020458  0.439599
2013-01-03 -0.431889  0.617618 -2.024632 -1.313544
2013-01-04  0.715444 -2.285810 -0.280339 -2.036589
2013-01-05 -0.569325 -0.666184  0.003039  0.368850
2013-01-06  0.735655  0.793711 -0.628512  0.145097


In [25]:
"""seleção por rótulo"""

df.loc[dates[0]]

A    1.367373
B    0.590434
C    1.926646
D   -0.054785
Name: 2013-01-01 00:00:00, dtype: float64

In [27]:
"Selecione todas as linhas com rótulos de colunas selecionadas"
df.loc[:,["A","B"]]

Unnamed: 0,A,B
2013-01-01,1.367373,0.590434
2013-01-02,0.592945,-2.451957
2013-01-03,-0.431889,0.617618
2013-01-04,0.715444,-2.28581
2013-01-05,-0.569325,-0.666184
2013-01-06,0.735655,0.793711


In [32]:
df.loc["20130102":"20130104",["A","B"]]

Unnamed: 0,A,B
2013-01-02,0.592945,-2.451957
2013-01-03,-0.431889,0.617618
2013-01-04,0.715444,-2.28581


In [33]:
"Seleção por index"

df.iloc[3]



A    0.715444
B   -2.285810
C   -0.280339
D   -2.036589
Name: 2013-01-04 00:00:00, dtype: float64

In [34]:
df.iloc[[1, 2, 4], [0, 2]]

Unnamed: 0,A,C
2013-01-02,0.592945,0.020458
2013-01-03,-0.431889,-2.024632
2013-01-05,-0.569325,0.003039
