
Ícone de Abertura
Bem-vindo ao mundo da Análise de Dados!

Você já parou para pensar em como a quantidade de dados digitais criados diariamente no mundo é desconcertante? E como a velocidade de produção desses dados está crescendo todo dia? Pois então, com tanto volume de informação, compreender e utilizar esses dados é um desafio que exige o conhecimento de técnicas e ferramentas diversas. Em 2008, o economista-chefe da Google, Hal Varian, afirmou: “A capacidade de utilizar dados, de ser capaz de entendê-los, processá-los, extrair valor deles, visualizá-los, comunicá-los: essa será uma habilidade importantíssima nas próximas décadas.”

Considerando isso, nesta aula, você vai conhecer alguns conceitos fundamentais sobre o contexto atual de criação e análise de dados, aprenderá a identificar tipos de dados e de variáveis, e começará utilizando a linguagem de programação Python, uma das ferramentas mais populares do mundo para essa tarefa. Ao concluir esse conteúdo, você poderá carregar conjuntos de dados de diferentes tipos e obter informações iniciais sobre eles.

Vamos lá?!
Objetivos

    Conhecer o contexto atual de geração e análise de dados;
    Identificar tipos de dados e variáveis;
    Aplicar operações básicas com conjuntos de dados tabulares.



## Tópico 1 – Introdução ao Big Data
OBJETIVOS

    Compreender o paradigma do Big Data e da Ciência de Dados;
    Identificar quais são os tipos de dados e a estrutura de dados tabulares;
    Identificar os tipos de variáveis em conjuntos de dados.

Dados estão em toda parte! Sejam dados científicos, empresariais, de redes sociais ou de aplicativos, a cada segundo uma enorme quantidade de dados é criada ao redor do mundo. Hoje, dados são um dos recursos mais valiosos do mundo, pois, a partir de sua análise, é possível gerar novos conhecimentos e tomar decisões mais inteligentes.

Entender e utilizar esse recurso é um dos grandes desafios da atualidade. Com base nisso, neste tópico, você irá conhecer de onde vêm e qual a importância desses dados. Além disso, você irá conhecer alguns dos conceitos fundamentais para descrever e compreender os diferentes tipos de dados. Então, vamos começar!

Você já leu ou ouviu falar sobre Big Data? Este termo é recente, mas já se tornou um dos mais importantes na área de tecnologia. De modo geral, o Big Data se refere ao imenso volume, variedade e velocidade de produção de dados que atingimos atualmente e que cresce todo dia. Durante os séculos XX e XXI, a tecnologia da informação se desenvolveu em ritmo acelerado, e, em paralelo a isso, a capacidade de processar, armazenar e transmitir dados também se aperfeiçoou. Assim, todos os dias, enormes quantidades de informações, de diferentes tipos e domínios, são geradas e armazenadas por empresas, governos e institutos de pesquisa.

Por exemplo:

    Empresas possuem dados de funcionários, clientes, vendas, logística e projetos;
    Bancos registram dados de clientes e diversas operações financeiras;
    Hospitais possuem dados sobre pacientes, como histórico médico, exames e laudos;
    Forças policiais geram dados sobre criminalidade;
    Instituições de ensino registram dados sobre alunos, professores, aulas e atividades;
    Aplicativos de mapas geram dados sobre localizações;
    Aplicativos de transportes geram dados sobre viagens.

A lista é interminável, você percebe? Você consegue pensar em outros exemplos? Confira, a seguir, um pouco mais sobre isso.

Talvez você esteja imaginando que o Big Data vem apenas de grandes instituições, mas não é bem assim. A geração de dados está cada vez maior e mais rápida por conta da popularização da internet, dos smartphones e das redes sociais. Por isso, todo e qualquer usuário está, constantemente, gerando dados de diferentes formatos, como textos, imagens e vídeos. Então, toda vez que você publica uma foto no Instagram ou um vídeo no YouTube; ou escreve um post no Twitter; ou mesmo, quando você está só navegando na web, você está gerando mais dados para esse grande universo de informação digital. Com base nisso, de acordo com algumas estimativas sobre as plataformas digitais, a cada um minuto:

    São publicadas 46.740 fotos no Instagram;
    São escritos 4.146.600 tweets no Twitter;
    São publicadas 527.760 fotos no Snapchat;
    São assistidos a 4.146.600 vídeos no Youtube.

São números consideráveis, não é mesmo? Então, o que você acha de saber mais sobre isso? Confira uma curiosidade a seguir.
Ícone Saiba Mais
Ícone “Saiba Mais”.

Quão grandes são esses dados, afinal? Para se ter uma noção, estima-se que em um dia são produzidos cerca de 2,5 quintilhões de bytes. Você sabe o que isso significa? Imagine que todas essas informações fossem armazenadas em discos Blu-ray, que são discos de armazenamento de dados, com capacidade de armazenamento de 25GB; e esses discos fossem empilhados. O tamanho da pilha teria a altura de quatro Torres Eiffel, ou seja, 1200m, uma em cima da outra. Isso tudo em apenas um dia. É bastante, não é mesmo? E essa quantidade tende a dobrar a cada dois anos!

Agora que você compreendeu como é grande e diversa a quantidade de informação gerada no mundo, você pode estar se perguntando: ok, mas o que se pode fazer com esses dados? Calma, você vai descobrir isso em breve.

Dados representam informação em forma bruta. Para que essa informação seja útil, ela deve ser processada e analisada para se transformar em conhecimento. Seja para tomar melhores decisões de negócios, criar melhores políticas públicas ou desenvolver novos conhecimentos científicos e tecnologias, esses dados têm sido fundamentais para resolução de problemas em praticamente todas as áreas. Não é a toa que é dito que o recurso mais valioso do mundo não é mais petróleo, e sim os dados.

Porém, extrair conhecimento de grandes conjuntos de dados nem sempre é fácil. Dessa necessidade, surge a Ciência de Dados, uma área interdisciplinar que combina os conhecimentos da computação, da estatística e do domínio dos dados. Assim, cientistas de dados são profissionais que possuem diversas competências para coletar, manipular, explorar, analisar e identificar padrões em dados. Uma vez que dados são tão valiosos, a carreira de cientista de dados também tem se mostrado uma das mais bem-sucedidas atualmente. Em consequência disso, toda grande instituição quer fazer algo de útil com seus dados, e a demanda por esse profissional só tende a crescer.

Agora, não pense que é tão fácil assim, pois é preciso uma longa jornada para se tornar um cientista de dados. Porém, se você já tiver curiosidade por diferentes assuntos e disposição para estar sempre aprendendo, esse caminho vai se tornar bem mais agradável, pois estamos tratando de uma área que está em constante desenvolvimento. De qualquer forma, sendo um cientista ou não, o assunto sobre dados é algo bastante instigante e de interesse geral. Então, vamos dar continuidade ao nosso estudo? A seguir, conheça mais sobre os tipos de dados.

## 1.1 Tipos de Conjuntos de Dados

O que você imagina quando falamos em “dados”? A essa altura você já deve ter uma boa noção, mas vamos formalizar esse conceito, tudo bem? Dados são conjuntos de valores coletados através de observação, que representam informações sobre entidades, objetos ou fenômenos. Note que essa definição é muito ampla e não diz exatamente a forma dos dados. De fato, como já discutimos, dados podem ser muito variados:

    Nomes;
    Quantidades;
    Grupos;
    Valores estatísticos;
    Datas;
    Localizações;
    Textos;
    Imagens;
    Vídeos.

Observe também que, em geral, quando falamos em dados, estamos nos referindo a dados digitalizados, ou seja, aqueles armazenados e processados por dispositivos computacionais. Já os dados que representam informações de um mesmo domínio e que são armazenados juntos são chamados conjuntos de dados. Ah! Lembre-se que você também poderá se deparar com o termo em inglês, dataset, entendido? Pois bem! Os conjuntos de dados são comumente classificados em dois grandes grupos: estruturados e não-estruturados. Confira a seguir a diferença entre eles. 

Dados estruturados são chamados assim por terem uma estrutura de organização específica. A estrutura mais comum é a de tabelas compostas por linhas e colunas. Embora existam outros tipos, cada linha representa uma observação, também chamada de amostra ou instância; e cada coluna representa um atributo, ou variável, dessa amostra. A seguir, confira uma tabela que representa dados fictícios de uma faculdade. A tabela está dividida em quatro colunas: Aluno, Créditos cursados, Rendimento acadêmico, Mês de nascimento e Curso. Confira. 

<img src='analise1.png'>

Perceba que os dados estão organizados de maneira lógica. Assim, cada linha representa uma pessoa, e cada coluna representa as respectivas características dessa pessoa. Quando os dados possuem a estrutura de tabela, eles também são chamados relacionais ou tabulares. Devido ao seu formato organizado, dados estruturados são mais facilmente processados por computadores. Além disso, esse foi um dos primeiros formatos para se representar dados digitalmente e ainda é muito utilizado hoje em dia, seja na forma de bancos de dados relacionais ou de planilhas. E você, já teve alguma experiência criando ou lendo tabelas? Se sim, então você já utilizou dados estruturados. Portanto, vamos prosseguir para conhecer os dados não-estruturados. 

Dados não-estruturados, como o nome indica, não possuem uma estrutura específica, o que os torna mais difíceis de serem processados e analisados em relação aos estruturados. Alguns exemplos de dados não estruturados são textos, imagens, vídeos e áudios. A seguir, verifique uma imagem que mostra a diferença entre a organização dos tipos de dados.

<img src='analise2.png'>

Com a popularização em massa da Internet e da geração de conteúdo por usuários, a quantidade de dados não-estruturados aumentou significativamente, superando os dados estruturados. Porém, os dados estruturados ainda são mais utilizados em análise de dados.

Tudo entendido? Até aqui, você verificou que dados estruturados possuem forma de tabela com linhas que correspondem a observações, e colunas que correspondem a variáveis. Você percebeu que essas variáveis podem ser muito diferentes? No tópico a seguir, entenda melhor essas diferenças.

## 1.2 Tipos de Variáveis

Antes de conferir os tipos de variáveis, confira a tabela de dados novamente a seguir.

Tabela 1 – Rendimento do aluno
<img src='analise3.png'>

Note que a variável Aluno corresponde a um nome; a variável Créditos cursados é um valor numérico que corresponde à contagem do total de créditos que o aluno cursou; a variável Rendimento acadêmico é um valor numérico que corresponde ao desempenho de 0 a 10 do aluno naquele curso, permitindo valores decimais; a variável Mês de Nascimento é um nome de um mês em que o aluno nasceu; e, por fim, a variável Curso é um nome que indica o curso no qual o aluno está matriculado.

Desse jeito, as variáveis podem ser divididas em dois grandes tipos: Quantitativas e Categóricas. Assim, vamos começar pelas quantitativas, certo? 

As variáveis quantitativas são valores numéricos obtidos por contagem ou medição. Sua natureza mensurável permite que sejam feitas operações aritméticas e cálculos de medidas estatísticas que resumem a variável para todas as amostras, como média, mediana e desvio padrão. Você está familiarizado com estas medidas? Caso não esteja, não se preocupe, você aprenderá mais sobre elas posteriormente. Até lá, vamos continuar com os tipos de variáveis.

Dentro das variáveis quantitativas, temos ainda as contínuas e discretas. Estas são números inteiros que são os resultados de contagem. Na nossa tabela fictícia, a variável Créditos cursados é uma variável quantitativa discreta, pois apresenta números inteiros que representam o resultado da contagem de créditos cursados. Outros possíveis exemplos de variáveis quantitativas discretas são número de filhos, número de casos de homicídios em um mês ou número de quartos em um hotel, por exemplo.

Já as variáveis contínuas são números reais, podendo assumir valores com casa decimal. Normalmente, são os resultados de medições. Na nossa tabela, a variável Rendimento acadêmico é um exemplo de variável quantitativa contínua. Outros exemplos possíveis são altura, peso, duração e temperatura. 

Quanto às variáveis categóricas, também chamadas de qualitativas, elas representam uma característica ou qualidade de uma amostra que não pode ser quantificada numericamente. Portanto, não é possível realizar operações aritméticas sobre variáveis categóricas. Então, elas se subdividem em nominais, quando não há ordem inerente entre as categorias; e ordinais, quando as categorias podem ser ordenadas. Alguns exemplos de variáveis categóricas nominais são sexo, estado civil e cidade natal. Assim, perceba que são categorias, por exemplo, estado civil: solteiro ou casado.

Como exemplos de variáveis categóricas ordinais, temos escolaridade (Ensino Fundamental, Ensino Médio ou Ensino superior); tamanho de roupa (PP, P, M, G ou GG); mês de observação (janeiro a dezembro). Note que há uma ordem, por exemplo, janeiro, fevereiro, março, abril etc.

Na nossa tabela, as variáveis Aluno e Curso são categóricas nominais, enquanto a variável Mês de Nascimento é categórica ordinal.

Essa distinção entre os tipos de variáveis é importante, pois existem métodos específicos para analisar e representar cada tipo. A seguir, confira um box super interessante sobre variáveis.
Ícone Fique Atento!
Ícone “Fique Atento”.

Observe que nem sempre uma variável representada por números é quantitativa! Se a variável Mês de Nascimento fosse representada pelo número do mês, de 1 a 12, ao invés do nome, ela ainda seria categórica ordinal. Dessa forma, as variáveis categóricas podem ser representadas por números, mas observe que esses números não indicam quantidades, e, portanto, não se pode fazer operações aritméticas sobre eles. Por exemplo, no caso da variável Mês de Nascimento, não faz sentido somar ou subtrair o mês de nascimento de alunos, embora seja possível ordená-los por essa variável. Outros exemplos de variáveis categóricas representadas por números são número de telefone, CPF e número de endereço.

Após todos os conceitos que você aprendeu até aqui, você já deve estar querendo começar a programar, não é? No próximo tópico, você poderá fazer isso, mas, antes, vamos praticar um pouco o que você estudou até aqui, tudo bem?

## Tópico 2 – Manipulando dados
OBJETIVOS

    Analisar os benefícios em utilizar uma linguagem de programação para realizar análise de dados;
    Praticar e utilizar as estruturas de dados da biblioteca pandas;
    Empregar conjuntos de dados e realizar análises preliminares.

Vamos à prática!

Para analisar grandes conjuntos de dados, é necessário utilizar alguma ferramenta computacional que facilite a sua manipulação. Esta ferramenta deve permitir que você faça consultas, selecione subconjuntos, calcule medidas estatísticas, dentre outras operações, para responder perguntas sobre dados.

Neste tópico, você irá conhecer uma das melhores e mais utilizadas ferramentas para trabalhar com dados: a linguagem Python com a biblioteca pandas! Para você já ir se familiarizando, pandas é uma biblioteca Open Source, com diversas funções e operações eficientes para manipular dados tabulares.

Mas por que Python e pandas? Bem, existem diversas ferramentas para auxiliar profissionais a analisar dados, cada uma com suas vantagens e desvantagens. Embora isso não seja uma regra, em geral, cientistas de dados optam por utilizar linguagens de programação, como Python, ao invés de utilizar softwares prontos, como Excel, LibreOffice e Weka. Isso se deve por alguns motivos enumerados a seguir:

    Eficiência e escalabilidade: devido às implementações internas otimizadas, pandas tem um desempenho muito melhor para lidar com grandes conjuntos de dados, o que é essencial quando se trabalha com Big Data;
    Flexibilidade e customização: enquanto softwares prontos estão limitados a funções implementadas pelos seus desenvolvedores, quando você programa, você pode criar suas próprias funções para resolver problemas específicos;
    Automação: tarefas repetitivas podem ser automatizadas criando scripts, o que poupa tempo e otimiza o trabalho. Um código que realiza análise em um conjunto de dados pode ser facilmente reutilizado para fazer a mesma análise em outros dados, sem muitos problemas;
    Reprodutibilidade: compartilhando o código, você pode mostrar os passos tomados para se chegar em um resultado, permitindo que outras pessoas entendam, corrijam ou reutilizem seu trabalho;
    Integração com outros sistemas: seu código pode ser incorporado em sistemas já existentes, incrementando as suas funcionalidades;
    Aprendizado de máquina: por fim, utilizar Python permite que você utilize todo o poder de aprendizado de máquina em suas análises.

Ícone Você sabia?
Ícone “Você Sabia”.

Note que isso não quer dizer que programar seja sempre a melhor opção para todos os casos. Dependendo do problema e da tarefa, ferramentas como Excel ou LibreOffice podem ser perfeitamente adequadas. Além disso, existem outras linguagens voltadas para análise de dados que também são muito utilizadas, como a linguagem R. Embora neste curso iremos utilizar principalmente Python, encorajo você a sempre estudar e conhecer novas ferramentas, que tal?


Agora, sem mais delongas, é hora de começar a programar! Você precisará ter o Python 3 e o pandas instalados na sua máquina. Os exemplos e atividades serão desenvolvidos utilizando o ambiente Jupyter Notebook. A forma mais simples de instalar todos os componentes utilizados no curso é através do Anaconda, uma distribuição do Python que já vem com diversas bibliotecas e ferramentas de ciência de dados instaladas por padrão. O download do instalador do Anaconda para Linux, Windows e MacOS pode ser feito neste link:

https://www.anaconda.com/products/individual

Caso você utilize outra distribuição do Python, pode instalar cada componente individualmente através de linha de comando com o instalador de pacotes pip. Por exemplo, para instalar o pandas, abra uma janela do terminal e entre com o comando:

pip install pandas

Uma vez que a biblioteca esteja instalada, podemos importá-la e utilizá-la como qualquer outra biblioteca do Python através da declaração import. Para seguir os exemplos da aula, crie um Jupyter Notebook e copie os códigos utilizados nos exemplos. Aproveite para explorar e testar ideias. Para importar o pandas, utilize o comando a seguir:


In[1]: import pandas as pd
        

Se nenhum erro for retornado, isso significa que a biblioteca está corretamente instalada. Note que o trecho “as pd” está atribuindo à biblioteca pandas o pseudônimo pd. Isso significa que sempre que você quiser se referir ao pandas no código, você deverá escrever pd ao invés de pandas. Você deve estar se perguntando qual o motivo disso. Calma! Utilizar o pseudônimo não é estritamente necessário, mas é uma convenção que a comunidade de cientistas de dados utiliza para deixar o código mais compacto e legível. Embora não seja obrigatório, é recomendável que você utilize essa convenção, pois facilitará que você entenda o código de outras pessoas, e, assim, que outras pessoas entendam o seu código, tudo bem?

A biblioteca pandas utiliza duas estruturas para armazenar e realizar operações com dados: Series e DataFrame. Essa é um vetor unidimensional, similar às listas nativas de Python. Ou seja, uma lista de valores. Portanto, a Series possui um índice, chamado index que rotula cada elemento, e permite que ele seja acessado através desse índice. Confira, no exemplo a seguir, como criar uma Series de inteiros a partir de uma lista:

1 In[2]: s = pd.Series([1,2,3,4,5])
2 In[3]: s
3 Out[3]: 
4 0    1
5 1    2
6 2    3
7 3    4
8 4    5
9 dtype: int64

Examinando o código, observe que foi utilizado o método Series da biblioteca pandas através do pseudônimo pd, passando como parâmetro do método uma lista de inteiros de 1 a 5. Esse objeto Series foi atribuído à variável s. No exemplo, s foi chamada e exibiu como saída o índice (coluna esquerda) e os valores armazenados (coluna direita) da Series.

Com isso, a Series possuem dois atributos principais: um índice, chamado index, que rotula cada elemento e permite que ele seja acessado através desse índice; e values, que contém os valores propriamente ditos. Esses atributos podem ser acessados separadamente. Para exibir apenas os valores, basta chamar o atributo values do objeto, como no exemplo a seguir:


In[4]: s.values
Out[4]: array([1, 2, 3, 4, 5])  
        

Note que o valor retornado é um array (vetor), de inteiros com os valores que foram passados para o objeto. O index pode ser acessado dessa mesma forma. Assim, como mencionado, podemos acessar cada elemento especificamente através do seu index. Por exemplo, caso você precise acessar o quarto elemento da Series, escreva:


In[5]: s[3]
Out[5]: 4
        

O valor retornado é o quarto elemento, que corresponde ao valor quatro. Note que essa forma de acessar elementos é idêntica às listas tradicionais de Python. Portanto, lembre-se que o índice começa com o 0! 

Se o index não for especificado durante a criação da Series, o pandas utilizará o padrão que é uma lista crescente de inteiros, começando do zero. Pode ser útil especificar um index diferente. Isso pode ser feito atribuindo uma lista para o argumento index durante a chamada do método. Agora crie uma Series de dados fictícios de quantidade de acidentes automobilísticos ao longo de um ano, cujo index são estes meses:


1 In[6]: s = pd.Series([15,20,12,16,10,11,12,15,9,10,12,17], index = ['jan','fev', 'mar',
2                                       'abr', 'mai', 'jun',
3                                       'jul', 'ago', 'set',
4                                       'out','nov', 'dez'])
5 
6 Out[6]: 
7 jan    15
8 fev    20
9 mar    12
10 abr    16
11 mai    10
12 jun    11
13 jul    12
14 ago    15
15 set     9
16 out    10
17 nov    12
18 dez    17
19 dtype: int64
        

Esses dados poderiam ser o número de acidentes automobilísticos em cada mês de certo ano em uma determinada região. Perceba que o index permite a consulta aos dados. Por exemplo, caso você deseje obter o valor relacionado ao mês de janeiro, pode escrever:


In[7]: s['jan']
Out[7]: 15
        

Observe que essa forma de acesso é idêntica ao mapeamento chave-valor dos dicionários nativos de Python. Você lembra como utilizar dicionários? É simples, basta utilizar a chave para acessar o valor, neste caso, o index. Pode-se também selecionar os dados pela posição deles na Series, de forma idêntica, como é feita com as listas nativas de Python. Neste momento, pode ser útil para você revisar a seleção de elementos em uma lista. Por exemplo, para selecionar os valores dos 6 primeiros meses, escreva:


1 In[8]: s[0:6]
2 Out[8]:
3 jan    15
4 fev    20
5 mar    12
6 abr    16
7 mai    10
8 jun    11
9 dtype: int64
        

Ademais, a Series dá suporte a diversos tipos de operações sobre os dados. Algumas operações úteis são medidas estatísticas que ajudam a descrever os dados como um todo. Você já deve estar familiarizado com conceitos de média e desvio padrão. A média é uma medida de tendência central, obtida somando o valor de todos os elementos e dividindo pela quantidade. O desvio padrão é uma medida de dispersão, que aumenta conforme os valores dos dados se afastam da média. Por isso, nós podemos calcular a média e o desvio padrão de uma Series através dos métodos mean() e std(), e também calcular os valores máximo e mínimo de uma Series, através dos métodos max() e min(). Confira nos exemplos a seguir:


In[9]: s.mean()
Out[9]: 13.25
        


In[10]: s.std()
Out[10]: 3.333712099692528
        


In[11]: s.max()
Out[11]: 20
        


In[12]: s.min()
Out[12]: 9       
        

As informações obtidas indicam que, em média, ocorreram 13,25 acidentes por mês naquele ano. O desvio padrão de 3.33 indica que a quantidade de acidentes em cada mês não aparenta ter uma grande variação em relação a média. O máximo de acidentes naquele ano foi 20 em um mês e o mínimo foi de 9. Note que já começamos a ter uma percepção melhor sobre os dados. Porém, chamar esses métodos um a um pode ser cansativo. Por isso o pandas dispõe de um método bastante útil que calcula e exibe diversas medidas estatísticas de uma Series ao mesmo tempo, chamado describe(). Para calcular todas essas estatísticas de uma vez, faça de acordo com o que é apresentado a seguir:


1 In[13]: s.describe()
2 Out[13]:
3 count    12.000000
4 mean     13.250000
5 std       3.333712
6 min       9.000000
7 25%      10.750000
8 50%      12.000000
9 75%      15.250000
10 max      20.000000
11 dtype: float64
        

Para fazer esse somatório dos acidentes ocorridos durante o ano, utiliza-se o método sum(), como nesse exemplo:


In[14]: s.sum()
Out[14]: 159
        

O método nos diz que naquele ano ocorreram 159 acidentes, somando todos os meses. Um detalhe, que é importante notar, é que o resultado da seleção de uma Series também é uma Series! Portanto, os mesmos métodos podem ser aplicados. Você entendeu o que isso significa? Por exemplo, caso você queira saber a média dos acidentes no segundo semestre, você pode selecionar os últimos 6 meses e aplicar o método mean(). Dessa forma:


In[15]: s[6:].mean()
Out[15]: 12.5
        

Observe que foi feita uma seleção a partir do sexto elemento (junho) até o fim e, nessa seleção, que é uma Series, foi aplicado o método mean(). Com isso, cobrimos o básico sobre Series. Você entendeu até agora? Tente fazer alguns testes, fazendo seleções e aplicando métodos. Tente responder a algumas perguntas sobre os dados. Por exemplo, qual o total de acidentes no primeiro trimestre? E qual a média desse período? São muitas as possibilidades de exercício. Ah! Falando em exercício, que tal fechar esse assunto exercitando o que aprendeu? A seguir, pratique um pouco, depois conheça o DataFrame. 

In [1]:
import pandas as pd

In [19]:
# Series com Pandas

In [3]:
s = pd.Series([15,20,12,16,10,11,12,15,9,10,12,17],
               index = ['jan','fev','mar','abr','mai','jun',
                        'jul','ago','set','out','nov','dez'])

In [4]:
s

jan    15
fev    20
mar    12
abr    16
mai    10
jun    11
jul    12
ago    15
set     9
out    10
nov    12
dez    17
dtype: int64

In [5]:
s['jun']

11

In [6]:
s[0:6]

jan    15
fev    20
mar    12
abr    16
mai    10
jun    11
dtype: int64

In [7]:
s.mean()

13.25

In [8]:
s.std()

3.333712099692528

In [9]:
s.max()

20

In [10]:
s.min()

9

In [11]:
s.median()

12.0

In [12]:
s.describe()

count    12.000000
mean     13.250000
std       3.333712
min       9.000000
25%      10.750000
50%      12.000000
75%      15.250000
max      20.000000
dtype: float64

In [13]:
s.sum()

159

In [18]:
s.mean()

13.25

In [None]:
# DataFrame com Pandas

In [20]:
df = pd.DataFrame({'Aluno': ['Marina', 'Felipe', 'Cleyton', 'Isabel'],
              'Créditos cursados': [20, 64, 32, 24],
              'Rendimento acadêmico': [8.55, 7.88, 8.17,9.04],
              'Mês de nascimento': ['Novembro', 'Setembro','Janeiro', 'Matemática'],
              'Curso': ['Computação', 'Estatística', 'Computação', 'Matemática']})

Unnamed: 0,Aluno,Créditos cursados,Rendimento acadêmico,Mês de nascimento,Curso
0,Marina,20,8.55,Novembro,Computação
1,Felipe,64,7.88,Setembro,Estatística
2,Cleyton,32,8.17,Janeiro,Computação
3,Isabel,24,9.04,Matemática,Matemática


In [22]:
# Em um dataframe utiliza-se o método 'iloc()' para cessar as linhas. O Resultado é um objeto
df.iloc[2]

Aluno                      Cleyton
Créditos cursados               32
Rendimento acadêmico          8.17
Mês de nascimento          Janeiro
Curso                   Computação
Name: 2, dtype: object

In [23]:
# As colunas de um DataFrame são formadas por 'Series', logo podem ser acessadas pelo seu nome
df['Rendimento acadêmico']

0    8.55
1    7.88
2    8.17
3    9.04
Name: Rendimento acadêmico, dtype: float64

In [25]:
df['Rendimento acadêmico'].mean()

8.41

In [26]:
df['Rendimento acadêmico'].max()

9.04

In [27]:
df['Rendimento acadêmico'].std()

0.5016638981097468

In [28]:
df.describe()

Unnamed: 0,Créditos cursados,Rendimento acadêmico
count,4.0,4.0
mean,35.0,8.41
std,19.966639,0.501664
min,20.0,7.88
25%,23.0,8.0975
50%,28.0,8.36
75%,40.0,8.6725
max,64.0,9.04
