In [2]:
import pandas as pd
import numpy as np

"""
Estruturas de dados básicas em pandas:

O Pandas fornece dois tipos de classes para lidar com dados:

    1: uma matriz rotulada unidimensional(Series) contendo dados de qualquer tipo
    como números inteiros, strings, objetos Python etc.

    2: uma estrutura de dados bidimensional(DataFrame) que contém dados como uma matriz de duas dimensões ou 
    uma tabela com linhas e colunas.

"""

"Passando uma lista de valores(Series)"

series = pd.Series([1,4,2,7,np.nan,"3","9",True])
series

0       1
1       4
2       2
3       7
4     NaN
5       3
6       9
7    True
dtype: object

In [16]:
"""
Criando um DataFrame
Criando um DataFrame passando uma matriz NumPy com um índice datetime usando data_range e rotulando colunas:

class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)

* data: ndarray (structured or homogeneous), Iterable, dict, or DataFrame
    - Dict pode conter Series, arrays, constantes, classe de dados ou objetos semelhantes a listas.
    Se data é um dict, a ordem das colunas segue a ordem de inserção.
* index: 
    - Índice a ser usado para o quadro resultante.
* columns: 
    - Rótulos de coluna a serem usados para o quadro resultante quando os dados não os tiverem
* dtype:
    - Tipo de dados a ser forçado. Apenas um único dtype é permitido. Se Nenhum, inferir.
* copy:
    - 
"""

"""
pandas.date_range(start=None, end=None, periods=None, freq=None, tz=None, normalize=False, name=None, inclusive='both', *, unit=None, **kwargs)[source]

Retorna o intervalo de pontos de tempo igualmente espaçados (onde a diferença entre qualquer dois pontos adjacentes é especificado pela frequência dada)

* start: str ou datetime-like, opcional
    -Limite à esquerda para gerar datas.

* end : str ou datetime-like, opcional
    -Limite certo para gerar datas.

* períodos : int, opcional
    -Número de períodos a serem gerados.(DIAS)

* freq: str, Timedelta, datetime.timedelta ou DateOffset, padrão 'D'
    -As cadeias de frequência podem ter múltiplos, por exemplo, '5h'. Veja
"""

dates = pd.date_range(start="20130101",end="20131231")
print(dates)
dates = pd.date_range(start="20130101",periods=6)
print(dates)

df = pd.DataFrame(data=np.random.randn(6,4), index=dates,columns=list("ABCD"),dtype="float64")
print(df["A"].dtypes)
print(df)

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06', '2013-01-07', '2013-01-08',
               '2013-01-09', '2013-01-10',
               ...
               '2013-12-22', '2013-12-23', '2013-12-24', '2013-12-25',
               '2013-12-26', '2013-12-27', '2013-12-28', '2013-12-29',
               '2013-12-30', '2013-12-31'],
              dtype='datetime64[ns]', length=365, freq='D')
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')
float64
                   A         B         C         D
2013-01-01  0.430403 -0.061060  0.382196 -0.158853
2013-01-02  0.151611 -1.489192 -1.955970 -0.218252
2013-01-03  0.274210 -2.272318  0.104335 -0.647601
2013-01-04 -1.237952  0.992537  1.736223  0.576302
2013-01-05 -0.290049  0.516788 -0.954074 -0.351136
2013-01-06 -0.116166  1.057261 -0.640737 -2.950333


In [None]:
"""
Criando um DataFrame passando um dicionário de objetos onde as chaves são a coluna rótulos e os valores são os valores da coluna.

class pandas.Series(data=None, index=None, dtype=None, name=None, copy=None, fastpath=<no_default>)
* data: valor semelhante a uma matriz, iterável, dict ou escalar
    - Contém dados armazenados em série, Se data for um dict, a ordem dos argumentos será mantida.
* index: semelhante a uma matriz ou índice (1d)
os valores devem ser hashable e ter o mesmo comprimento que os dados. Valores índice não exclusivos são permitidos. O paderão será RangeIndex(0,1,2,3,...,n) se não fort fornecido. 
Se os dados forem semelhantes a dicionarios e index for None, a Series resultante será reindexada com os valores de indice.

* name: hashable, padrão nenhum
    - nome da Series
* copy: boolean, por padrão False
    - Controla se oo objeto Series vai efetuar uma cópia dos dados ou vai trabalhar com a referencia de mémoria, recebe um boolean.
    Mesmo quanto Falso, em muitos casos ele ainda assim faz a cópia dos dados, caso não consiga acessar os dados na memória,mais comum ocorrer essa referencia com o array do NumPy
    """

df2 = pd.DataFrame({
            "A":1.0,
            "B": pd.Timestamp(ts_input="20001010"),
            "C": pd.Series(1,index=list(range(4)), dtype="float32"),
            "D": np.array([3]*4,dtype="int32"),
            "E": pd.Categorical(['teste','train','teste','train']),
            "F":"foo",
            })
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2000-10-10,1.0,3,teste,foo
1,1.0,2000-10-10,1.0,3,train,foo
2,1.0,2000-10-10,1.0,3,teste,foo
3,1.0,2000-10-10,1.0,3,train,foo


In [40]:
r = np.array([1, 2])
ser = pd.Series(r, copy=False)
ser.iloc[0] = 999
print(r)
print(ser)
print(r)
r[0]=3
print(r)
print(ser)



[999   2]
0    999
1      2
dtype: int64
[999   2]
[3 2]
0    3
1    2
dtype: int64
