In [None]:
# Manipulação de Dados com Pandas
Jupyter Notebook desenvolvido por [Arquimedes L. S.](https://github.com/ArqMedes)
<center> Baseado no Livro:  Python Data Science Handbook de Jake VanderPlas - [github](https://jakevdp.github.io/PythonDataScienceHandbook/)</center>

In [1]:
import pandas as pd
import numpy as np

In [5]:
pd.__version__

'0.18.1'

In [6]:
pd?

# O objeto Series do Pandas
Series é um vetor de dados indexados. Ele pode ser criado de uma lista. 


In [4]:
s = pd.Series(['Matemática', 10, 'Português',7, 'Informática', 8],
             index=['a', 'b', 'c','d','e', 'f'])

In [5]:
s.values

array(['Matemática', 10, 'Português', 7, 'Informática', 8], dtype=object)

In [6]:
s.index

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')

In [7]:
s[-1] == s['f']

True

In [8]:
s[1:4]

b           10
c    Português
d            7
dtype: object

## Series como um dicionário especializado
Um dicionário é uma estrutura que mapeia arbitrariamente chaves para um conjunto arbitrário de valores, e um Series é uma
estrutura que mapeia chaves tipificada para um conjuto típico de valores. ...

In [10]:
d = {'Matemática': 10, 'Português':7, 'Informática': 8, 'Inglês': 9, 'Filosofia': 6}

In [11]:
notas = pd.Series(d)

In [12]:
notas

Filosofia       6
Informática     8
Inglês          9
Matemática     10
Português       7
dtype: int64

In [13]:
notas[notas > 7]

Informática     8
Inglês          9
Matemática     10
dtype: int64

In [14]:
notas['Inglês':'Português']

Inglês         9
Matemática    10
Português      7
dtype: int64

# DataFrame
O DataFrame é uma generalização de uma array Numpy (conjunto de Séries), ou um dicionário especializado Python.

## Conjunto de Séries

In [15]:
d = {'Matemática': 7, 'Português':6, 'Informática': 6, 'Inglês': 4, 'Filosofia': 9}

In [16]:
outras_notas = pd.Series(d)

In [17]:
turma = pd.DataFrame({'Aluno1': notas,
                      'Aluno2':outras_notas})

In [18]:
turma

Unnamed: 0,Aluno1,Aluno2
Filosofia,6,9
Informática,8,6
Inglês,9,4
Matemática,10,7
Português,7,6


In [19]:
turma.index

Index(['Filosofia', 'Informática', 'Inglês', 'Matemática', 'Português'], dtype='object')

In [20]:
turma.columns

Index(['Aluno1', 'Aluno2'], dtype='object')

Thus the DataFrame can be thought of as a generalization of a two-dimensional NumPy array, where both the rows and columns have a generalized index for accessing the data.

In [1]:
!ls

campeonato.csv	learningPandas.ipynb  matriz_EE.csv


In [2]:
!head -n 5 matriz_EE.csv

CóDIGO;COMPONENTE CURRICULAR;Nº PERíODO;OPT.;CRéDITOS
DPAA-2.086;CáLCULO DIFERENCIAL E INTEGRAL I(81H);1;NãO;81
10321.4;GEOMETRIA ANALíTICA(54H);1;NãO;54
DPAA-4.304;ALGORITMOS E TéCNICAS DE PROGRAMAçãO(54H);1;NãO;54
DPAA-4.309;INTRODUçãO à ENGENHARIA ELéTRICA(27H);1;NãO;27


In [21]:
!head -n 5 campeonato.csv

Ano,Time,Vitórias,Derrotas
2010,Flamengo,15,2
2011,Flamengo,16,0
2012,Flamengo,17,1
2010,Grêmio,12,4


In [2]:
csv = pd.read_csv('matriz_EE.csv', sep=';')

In [3]:
csv.head()

Unnamed: 0,CODIGO,COMP_CURRICULAR,PERIODO,OPT,CREDITOS
0,DPAA-2.086,CáLCULO DIFERENCIAL E INTEGRAL I(81H),1,NãO,81
1,10321.4,GEOMETRIA ANALíTICA(54H),1,NãO,54
2,DPAA-4.304,ALGORITMOS E TéCNICAS DE PROGRAMAçãO(54H),1,NãO,54
3,DPAA-4.309,INTRODUçãO à ENGENHARIA ELéTRICA(27H),1,NãO,27
4,DPAA-1.086,LíNGUA PORTUGUESA(54H),1,NãO,54


In [28]:
# Entre o período
p = int(input('Entre o Período'))

Entre o Período1


In [29]:
csvP = csv[csv['PERIODO']  == p].head(10)
#Removendo colunas utilizando o argumento axis=1
print ('Disciplinas do %d º Período' % p)
csvP.drop('PERIODO', axis=1)

Disciplinas do 1 º Período


Unnamed: 0,CODIGO,COMP_CURRICULAR,OPT,CREDITOS
0,DPAA-2.086,CáLCULO DIFERENCIAL E INTEGRAL I(81H),NãO,81
1,10321.4,GEOMETRIA ANALíTICA(54H),NãO,54
2,DPAA-4.304,ALGORITMOS E TéCNICAS DE PROGRAMAçãO(54H),NãO,54
3,DPAA-4.309,INTRODUçãO à ENGENHARIA ELéTRICA(27H),NãO,27
4,DPAA-1.086,LíNGUA PORTUGUESA(54H),NãO,54
5,DPAA-2.274,FíSICA: MECâNICA(54H),NãO,54
6,DPAA-2.275,LABORATóRIO DE MECâNICA(27H),NãO,27


In [31]:
xlsx = pd.ExcelFile('preRequisitos_matriz_EE.xls')
df = pd.read_excel(xlsx)

In [33]:
df.head()

Unnamed: 0,deA,paraB
0,10376.0S,
1,DPAA-2.116,
2,10329.0S,
3,DPAA-4.378,
4,DPAA-4.379,


In [5]:
#Quantidade de linhas e colunas do DataFrame
csv.shape

(99, 5)

In [15]:
#Resumo estatístico do DataFrame, com quartis, mediana, etc.
csv.describe()

Unnamed: 0,PERIODO,CREDITOS
count,99.0,99.0
mean,6.717172,48.020202
std,3.097202,16.101705
min,1.0,2.0
25%,4.0,27.0
50%,8.0,54.0
75%,9.0,54.0
max,10.0,81.0


In [6]:
#Descrição do Index
csv.index

RangeIndex(start=0, stop=99, step=1)

In [8]:
#Colunas presentes no DataFrame
csv.columns

Index(['CODIGO', 'COMP_CURRICULAR', 'PERIODO', 'OPT', 'CREDITOS'], dtype='object')

In [9]:
#Contagem de dados não-nulos
csv.count()

CODIGO             99
COMP_CURRICULAR    99
PERIODO            99
OPT                99
CREDITOS           99
dtype: int64

# Resumo dos dados

In [17]:
#Soma dos valores de um DataFrame
print (csv['CREDITOS'].sum())
#Menor valor de um DataFrame
print('menor\n', csv.min())
#Maior valor
csv.max()

4754
menor
 CODIGO                                 10321.4
COMP_CURRICULAR    ACIONAMENTOS ELéTRICOS(54H)
PERIODO                                      1
OPT                                        NãO
CREDITOS                                     2
dtype: object


CODIGO                      DPAA-4.553
COMP_CURRICULAR    ÁLGEBRA LINEAR(54H)
PERIODO                             10
OPT                                SIM
CREDITOS                            81
dtype: object

In [18]:
#Filtrando o DataFrame para mostrar apenas valores pares
csv[csv['PERIODO'] % 2 == 0]

Unnamed: 0,CODIGO,COMP_CURRICULAR,PERIODO,OPT,CREDITOS
7,10376.0S,ÁLGEBRA LINEAR(54H),2,NãO,54
8,DPAA-2.116,QUíMICA GERAL(54H),2,NãO,54
9,10329.0S,CáLCULO DIFERENCIAL E INTEGRAL II(81H),2,NãO,81
10,DPAA-4.378,MATERIAS ELéTRICOS(27H),2,NãO,27
11,DPAA-4.379,FUNçõES DE VARIáVEIS COMPLEXAS(27H),2,NãO,27
12,DPAA-2.278,FíSICA: ELETROMAGNETISMO(54H),2,NãO,54
13,DPAA-2.279,LABORATóRIO DE ELETROMAGNETISMO(27H),2,NãO,27
14,DPAA-2.191,METODOLOGIA CIENTíFICA(27H),2,NãO,27
22,DPAA-4.333,ELETRôNICA DIGITAL I(54H),4,NãO,54
23,DPAA-2.100,CáLCULO NUMéRICO(54H),4,NãO,54


In [3]:
csv = pd.read_csv('campeonato.csv', sep=',')

In [4]:
csv.head()

Unnamed: 0,Ano,Time,Vitórias,Derrotas
0,2010,Flamengo,15,2
1,2011,Flamengo,16,0
2,2012,Flamengo,17,1
3,2010,Grêmio,12,4
4,2011,Grêmio,11,4


In [6]:
csv[csv['Time']  == 'Flamengo'].head(10)

Unnamed: 0,Ano,Time,Vitórias,Derrotas
0,2010,Flamengo,15,2
1,2011,Flamengo,16,0
2,2012,Flamengo,17,1


In [10]:
csv.groupby(['Time']).Vitórias.sum()

Time
Cruzeiro     35
Flamengo     48
Grêmio       36
São Paulo    31
Name: Vitórias, dtype: int64

**Referências**

https://paulovasconcellos.com.br/28-comandos-%C3%BAteis-de-pandas-que-talvez-voc%C3%AA-n%C3%A3o-conhe%C3%A7a-6ab64beefa93