## Aprendendo Pandas

A biblioteca pandas é uma das mais utilizadas para a análise e manipulação de dados no Python. Ela é muito útil para manipular grande quantidade de dados como, por exemplo, séries temporais.  </br>
Uma das funções mais importantes é a <i>Data Frame</i> que veremos em seguida.</br>
<p>Para instalar, utilizamos o "Pip install": </b></p>
<p><i> pip install pandas </i></p>

In [1]:
import pandas as pd #abreviacao mais utilizada

### Tipos de Dados </br>
### Série </br>

Séries são funções estruturadas da seguinte maneira (data, index, dtype, copy). Vamos ver alguns exemplos!

In [2]:
import numpy as np #Agora que a gente já sabe como utilizar, podemos incluir numpy em nossos exemplos!

In [5]:
array=np.array([1,2,3,4])

serie=pd.Series(array) #Obs: Importante obedecer maiusculo e minusculo!

In [6]:
print(serie)  #A primeira coluna são os index!! Só existe um index para cada linha!

0    1
1    2
2    3
3    4
dtype: int32


In [9]:
serie_2=pd.Series(array,index=['a','b','c','d'])

In [11]:
serie_2


a    1
b    2
c    3
d    4
dtype: int32

### Data Frame

Data frame é criado parecidamente com o <i>Serie</i>. Os dados de entrada de um data frame são: Data.Frame(data,index,columns,dtype, copy).</br>
<ul>
    <li>data: os dados de entrada</li>
    <li>index: os rótulos das linhas</li>
    <li>dtype: tipo de dados para cada coluna</li>
    <li>columns: rótulos das colunas</li>
    <li>copy: cópia dos dados de entrada</li>
</ul>

In [14]:
#Criando DataFrame
data=[1,2,3,4,5]
df=pd.DataFrame(data)
df.head() #ver as primeiras linhas do DataFrame!

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,5


In [15]:
#Exemplo

data=[["Leo",8],["Leonardo",7],["Leonard",6],["Leona",10]]
df2=pd.DataFrame(data,columns=["Nome","Nota"],dtype=float)

In [16]:
df2.head()

Unnamed: 0,Nome,Nota
0,Leo,8.0
1,Leonardo,7.0
2,Leonard,6.0
3,Leona,10.0


In [73]:
#Exemplo - utilizando dicionário
data={'Nome':['Leo','Leonardo','Leonard','Leona'],'Nota':[8,7,6,10]}
df3=pd.DataFrame(data,dtype=float)

In [19]:
df3.head()

Unnamed: 0,Nome,Nota
0,Leo,8.0
1,Leonardo,7.0
2,Leonard,6.0
3,Leona,10.0


### Manipulando DataFrame
Podemos adicionar, mostrar, apagar as DataFrame!

In [65]:
#usando o DataFrame do exemplo anterior:
data={'Nome':['Leo','Leonardo','Leonard','Leona'],'Nota':[8,7,6,10]}
df3=pd.DataFrame(data,dtype=float)
#mostrando apenas: os Nomes existentes
df3['Nome']

0         Leo
1    Leonardo
2     Leonard
3       Leona
Name: Nome, dtype: object

In [34]:
#Filtrando Nome pelo index das linhas
df3['Nome'][0]

'Leo'

In [43]:
#Mostrar coluna 1 
df3[0:1] #intervalos abertos!

Unnamed: 0,Nome,Nota
0,Leo,8.0


In [52]:
#Adicionar uma coluna em um DataFrame existente!
frequencia=["75%","80%","100%","22%"]
df3["Frequencia"]=frequencia
df3

Unnamed: 0,Nome,Nota,Frequencia
0,Leo,8.0,75%
1,Leonardo,7.0,80%
2,Leonard,6.0,100%
3,Leona,10.0,22%


In [54]:
#Apagando uma coluna
del df3["Frequencia"]
df3

Unnamed: 0,Nome,Nota
0,Leo,8.0
1,Leonardo,7.0
2,Leonard,6.0
3,Leona,10.0


In [74]:
#Adicionando linhas
data2={'Nome':["Leandro"],'Nota':[9]}
df4=pd.DataFrame(data2,dtype=float)
df3=df3.append(df4)
df3

Unnamed: 0,Nome,Nota
0,Leo,8.0
1,Leonardo,7.0
2,Leonard,6.0
3,Leona,10.0
0,Leandro,9.0


In [72]:
#Apagando Linhas
df3=df3.drop(0)

Unnamed: 0,Nome,Nota
1,Leonardo,7.0
2,Leonard,6.0
3,Leona,10.0


### Outras funcionalidades
Vamos dar uma olhada em algumas funcionalidades que o Pandas possui!

In [75]:
#usando o DataFrame do exemplo anterior
data={'Nome':['Leo','Leonardo','Leonard','Leona'],'Nota':[8,7,6,10]}
df3=pd.DataFrame(data,dtype=float)


In [82]:
df3.axes  #Apresenta uma lista de rótulos dos eixos das linhas e das colunas

[RangeIndex(start=0, stop=4, step=1),
 Index([u'Nome', u'Nota'], dtype='object')]

In [83]:
df3.empty  #True or False se está vazio ou não

False

In [84]:
df3.dtypes # o tipo

Nome     object
Nota    float64
dtype: object

In [85]:
df3.ndim #p numero de dimensoes dos dados

2

In [86]:
df3.values #representação Numpy dos DataFrame

array([['Leo', 8.0],
       ['Leonardo', 7.0],
       ['Leonard', 6.0],
       ['Leona', 10.0]], dtype=object)

In [87]:
df3.tail() #ver ultimas linhas

Unnamed: 0,Nome,Nota
0,Leo,8.0
1,Leonardo,7.0
2,Leonard,6.0
3,Leona,10.0


In [88]:
df3.head() #primeiras linhas

Unnamed: 0,Nome,Nota
0,Leo,8.0
1,Leonardo,7.0
2,Leonard,6.0
3,Leona,10.0


### A biblioteca Pandas também oferece algumas funções estatísticas para os DataFrame!

In [89]:
# Usando describe(), se obtem todas as análises!
df3.describe()

Unnamed: 0,Nota
count,4.0
mean,7.75
std,1.707825
min,6.0
25%,6.75
50%,7.5
75%,8.5
max,10.0


In [98]:
#max
print(df3.max())


Nome    Leonardo
Nota          10
dtype: object


In [92]:
#min
print(df3.min())


Nome    Leo
Nota      6
dtype: object


In [93]:
#count
print(df3.count())


Nome    4
Nota    4
dtype: int64


In [94]:
#sum
print(df3.sum())


Nome    LeoLeonardoLeonardLeona
Nota                         31
dtype: object


In [95]:
#desvio padrao
print(df3.std())


Nota    1.707825
dtype: float64


In [96]:
#média
print(df3.mean())


Nota    7.75
dtype: float64


In [97]:
#mediana
print(df3.median())

Nota    7.5
dtype: float64


Quando envolve mais que dois DataFrames ou Series, existem outras análises estatísticas!</br>
<ul>
    <li>cov(): covariância</li>
    <li>corr(): correlação </li>
</ul>

In [99]:
#Exemplo
s1=pd.Series(np.random.randn(15))
s2=pd.Series(np.random.randn(15))


In [100]:
s1

0    -0.471728
1     0.457463
2    -0.296686
3    -0.577180
4     1.932863
5     0.939789
6    -0.928893
7    -0.035921
8    -1.015005
9     1.200264
10    0.396588
11   -0.007234
12    0.886544
13    1.506713
14    1.586285
dtype: float64

In [101]:
s2

0     0.053961
1    -1.573797
2     0.387809
3     1.343400
4    -0.569749
5    -0.992095
6    -0.728301
7    -0.747181
8    -0.134663
9    -0.719676
10   -0.706939
11    0.816410
12    0.973444
13   -1.499544
14    0.879003
dtype: float64

In [102]:
#Correlação
print(s2.corr(s1))

-0.22956268479050396


In [103]:
#Cvariância
print(s2.cov(s1))

-0.19898387370219217


### Leituras de dados!

Chegou a hora de vermos como importar uma planilha sua para dentro do Pandas! </br>
São vários dados que podem ser importadas por Pandas, as que mais utilizaremos serão:</br>
<ul>
    <li>read_csv</li>
    <li>read_excel</li>
    <li>read_json</li>
</ul>

In [106]:
#Abrindo uma planilha excel no Pandas

TabelaExcel=pd.read_excel("tabelas\SampleData.xlsx")

In [107]:
TabelaExcel.head()

Unnamed: 0,OrderDate,Region,Rep,Item,Units,Unit Cost,Total
0,2018-01-06,East,Jones,Pencil,95,1.99,189.05
1,2018-01-23,Central,Kivell,Binder,50,19.99,999.5
2,2018-02-09,Central,Jardine,Pencil,36,4.99,179.64
3,2018-02-26,Central,Gill,Pen,27,19.99,539.73
4,2018-03-15,West,Sorvino,Pencil,56,2.99,167.44


Tudo que nós aprendemos sobre Pandas pode ser utilziado nas nossas planilhas!

In [110]:
TabelaExcel['OrderDate'].head()

0   2018-01-06
1   2018-01-23
2   2018-02-09
3   2018-02-26
4   2018-03-15
Name: OrderDate, dtype: datetime64[ns]