<a href="https://colab.research.google.com/github/gabrielvieiraf/ProjetosPython/blob/master/GoogleColab/Pandas/Introducao_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

> # Introdução ao Pandas

> ## Importando biblioteca mais comuns

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

> ## Criando Objetos

> ### Criando uma [```Series```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html) passando uma lista de valores, permitindo a criação de um index inteiro padrão

Uso: ``` pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)```








Uma séries é uma lista de valores que possuem um index. O index  serve para ajudar a referenciar valores, nos permitindo acessá-los pelos seus rótulos.


In [2]:
lista_de_valores = [1,2,3,np.nan,5,6,7,8,9]
serie = pd.Series(lista_de_valores)
# Mostrando todos os valores dentro da nossa serie
display(serie)

print()

# Mostrando no display apenas o valor do index 0
display(serie[0])

0    1.0
1    2.0
2    3.0
3    NaN
4    5.0
5    6.0
6    7.0
7    8.0
8    9.0
dtype: float64




1.0

> ## Criando um [```DataFrame```](https://https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) passando um array numpy, com um índex datetime e colunas nomeadas

uso : ```  pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False) ```


In [3]:
datas = pd.date_range('20200201',periods=10)
datas

DatetimeIndex(['2020-02-01', '2020-02-02', '2020-02-03', '2020-02-04',
               '2020-02-05', '2020-02-06', '2020-02-07', '2020-02-08',
               '2020-02-09', '2020-02-10'],
              dtype='datetime64[ns]', freq='D')

In [4]:
lista_colunas = ['Coluna_1','Coluna_2','Coluna_3','Coluna_4','Coluna_5','Coluna_6']
df = pd.DataFrame(np.random.randn(10,6), index=datas, columns= lista_colunas)
df

Unnamed: 0,Coluna_1,Coluna_2,Coluna_3,Coluna_4,Coluna_5,Coluna_6
2020-02-01,-0.289619,-1.763019,0.645946,-0.297356,1.562807,2.359756
2020-02-02,-0.065921,0.103278,-1.698709,-0.370761,2.099022,2.001117
2020-02-03,0.169227,-0.525319,-1.255965,1.495975,-0.062286,0.291526
2020-02-04,-1.204275,-1.52525,-0.153588,-2.128064,1.294407,-1.598468
2020-02-05,1.374545,0.523885,-0.922959,-0.942346,-0.899317,0.211526
2020-02-06,0.764156,1.039352,-0.880943,-0.730071,-0.967862,2.091847
2020-02-07,1.642094,1.02929,0.262801,0.59883,0.176675,-0.508796
2020-02-08,-1.099962,0.215155,-0.437886,0.992226,0.993246,0.288808
2020-02-09,0.655818,0.695256,-1.859091,-0.412978,-0.601338,-1.048222
2020-02-10,-0.120044,-0.110786,-1.211694,-1.234215,0.24951,0.265677


> ## Criando um ```DataFrame``` passando um dicionário de objetos que podem ser convertido em ```Series```.

In [5]:
dic = { 'Coluna_1': pd.date_range('20200201',periods=10),
        'Coluna_2': pd.Series(np.random.randn(10),index=list(range(10)),
                              dtype='float32'),
        'Coluna_3': pd.Categorical(["teste","treino","teste","treino",
                                    "teste","treino","teste","treino",
                                    "teste","treino"])
}
df_2 = pd.DataFrame(dic)
df_2

Unnamed: 0,Coluna_1,Coluna_2,Coluna_3
0,2020-02-01,-0.380843,teste
1,2020-02-02,-1.043489,treino
2,2020-02-03,-1.430312,teste
3,2020-02-04,-0.305398,treino
4,2020-02-05,1.747468,teste
5,2020-02-06,1.352453,treino
6,2020-02-07,0.232247,teste
7,2020-02-08,0.367277,treino
8,2020-02-09,0.049926,teste
9,2020-02-10,-0.501801,treino


> ### Observe que as colunas possuem diferentes [```dtypes```](https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html)

---



In [6]:
df_2.dtypes

Coluna_1    datetime64[ns]
Coluna_2           float32
Coluna_3          category
dtype: object

> ## ```head()``` e ```tail()``` de um ```DataFrame``` ou de uma ```Series``` 


Podemos usar uma pequena amostra de um objeto Series ou DataFrame usando os métodos ```head()``` e ```tail()```.
O número padrão de elementos a serem exibidos é cinco, mas você pode passar um número personalizado.
Vamos aos exemplos:

> ###  Head, do inglês "Cabeça", permite com que você pegue os primeiros elementos de uma ```Series``` ou ```DataFrame```. 

In [7]:
df_2.head()

Unnamed: 0,Coluna_1,Coluna_2,Coluna_3
0,2020-02-01,-0.380843,teste
1,2020-02-02,-1.043489,treino
2,2020-02-03,-1.430312,teste
3,2020-02-04,-0.305398,treino
4,2020-02-05,1.747468,teste


> ###  Como visto, o parâmetro padrão é 5, mas podemos pegar mais ou menos linhas se desejarmos.

In [8]:
display(df_2.head(1))
print()
display(df_2.head(2))
print()
display(df_2.head(3))

Unnamed: 0,Coluna_1,Coluna_2,Coluna_3
0,2020-02-01,-0.380843,teste





Unnamed: 0,Coluna_1,Coluna_2,Coluna_3
0,2020-02-01,-0.380843,teste
1,2020-02-02,-1.043489,treino





Unnamed: 0,Coluna_1,Coluna_2,Coluna_3
0,2020-02-01,-0.380843,teste
1,2020-02-02,-1.043489,treino
2,2020-02-03,-1.430312,teste


> ### Tail, do inglês "Calda", permite com que você pegue os primeiros elementos de uma ```Series``` ou ```DataFrame```

In [9]:
display(df_2.tail(1))
print()
display(df_2.tail(2))
print()
display(df_2.tail(3))

Unnamed: 0,Coluna_1,Coluna_2,Coluna_3
9,2020-02-10,-0.501801,treino





Unnamed: 0,Coluna_1,Coluna_2,Coluna_3
8,2020-02-09,0.049926,teste
9,2020-02-10,-0.501801,treino





Unnamed: 0,Coluna_1,Coluna_2,Coluna_3
7,2020-02-08,0.367277,treino
8,2020-02-09,0.049926,teste
9,2020-02-10,-0.501801,treino


> ## Podemos utilizar o [```Describe()```](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) para verificar algumas estatísticas de nosso  ```DataFrame```:


Uso:  ```DataFrame.describe(percentiles=None, include=None, exclude=None)```



### Parâmetros:



*  percentiles --> Lista como tipo de dados de números entre 0-1 para retornar o percentual;

*  include --> Lista de tipos de dados a serem incluídos ao descrever o dataframe. O padrão é ```None```;

*  exclude -->Lista de tipos de dados a serem excluídos ao descrever o dataframe. O padrão é ```None```;


### Por padrão, temos o seguinte retorno:

*   Numero de valores
*   Média
*   Desvio Padrão
*   Valor minimo
*   25 % dos dados
*   50 % dos dados
*   75 % dos dados
*   Valor máximo


In [10]:
 df_2.describe()

Unnamed: 0,Coluna_2
count,10.0
mean,0.008753
std,0.983085
min,-1.430312
25%,-0.471562
50%,-0.127736
75%,0.333519
max,1.747468


> ## Métodos de acesso de dados ```.at ``` ,```.loc``` e ```.iloc ```.




> ### Selecionando apenas uma coluna de um ```DataFrame```

In [11]:
df_2[['Coluna_3']]

Unnamed: 0,Coluna_3
0,teste
1,treino
2,teste
3,treino
4,teste
5,treino
6,teste
7,treino
8,teste
9,treino


> ### Selecionando via ```[   ]``` que corta as linhas

In [12]:
df_2[:3]

Unnamed: 0,Coluna_1,Coluna_2,Coluna_3
0,2020-02-01,-0.380843,teste
1,2020-02-02,-1.043489,treino
2,2020-02-03,-1.430312,teste


> ### Selecionando via rótulo

In [13]:
df_2.loc[0]

Coluna_1    2020-02-01 00:00:00
Coluna_2              -0.380843
Coluna_3                  teste
Name: 0, dtype: object

> ### Setando valores pela posição


In [20]:
df_2.iat[0,1] = 0
df_2.iat[3,1] = 0
df_2.iat[3,0] = 'mudei'
df_2.iat[0,0] = 'mudei'
df_2

Unnamed: 0,Coluna_1,Coluna_2,Coluna_3
0,mudei,0.0,teste
1,2020-02-02 00:00:00,-1.043489,treino
2,2020-02-03 00:00:00,-1.430312,teste
3,mudei,0.0,treino
4,2020-02-05 00:00:00,1.747468,teste
5,2020-02-06 00:00:00,1.352453,treino
6,2020-02-07 00:00:00,0.232247,teste
7,2020-02-08 00:00:00,0.367277,treino
8,2020-02-09 00:00:00,0.049926,teste
9,2020-02-10 00:00:00,-0.501801,treino


> ### Selecione através da posição dos inteiros passados

In [26]:
df_2.iloc[0]

Coluna_1    mudei
Coluna_2        0
Coluna_3    teste
Name: 0, dtype: object