<a href="https://colab.research.google.com/github/raiaiaia/pandasLibrary/blob/master/pandasLibrary.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Análise de Dados com Pandas**


#O que é Pandas? Para que serve?


<img src="https://media.giphy.com/media/EPcvhM28ER9XW/giphy.gif" >



Pandas é uma biblioteca de alta performance da linguagem de programação Python. É utilizada para Análise de Dados e foi criada em 2008, pela necessidade de se ter uma ferramenta que realizasse análise quantitativa em dados financeiros. Com ela podemos lidar com grandes conjuntos de dados: fazendo operações; plotando gráficos, entre outros.

#Primeiros Passos

Importando a biblioteca:


In [4]:
import pandas as pd

#**Series e DataFrame**

Antes de continuar, precisamos entender o que são essas Estruturas de Dados.

**Series** são arrays de 1 dimensão, ou melhor dizendo, uma tabela com uma única coluna.

In [7]:
#criando uma Series
s = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])

s.head()

a    1
b    2
c    3
d    4
dtype: int64

**DataFrames** ou **Datasets** são um conjunto de dados de 2 dimensões, podendo ser considerado um conjunto de Series, ou melhor dizendo, uma tabela com várias colunas.

In [9]:
#criando um dicionário com vários valores 
data = {
'País': ['Bélgica', 'Índia', 'Brasil'],
'Capital': ['Bruxelas', 'Nova Delhi', 'Brasília'],
'População': [123465, 456789, 987654]
}

#criando o DataFrame
df = pd.DataFrame(data, columns=['País','Capital','População'])

df

Unnamed: 0,País,Capital,População
0,Bélgica,Bruxelas,123465
1,Índia,Nova Delhi,456789
2,Brasil,Brasília,987654


**Agora que já sabemos a diferença, vamos importar um conjunto de dados!!**

Os arquivos a serem manipulados ou são do tipo *csv* ou *xlsx*.

#Importando um arquivo CSV





Para ficar mais fácil, recomendo colocar os arquivos no Google Drive. Para poder utilizá-los aqui no Colab, precisamos importá-lo também.

In [10]:
#importanto o google drive no colab
from google.colab import drive
drive.mount('/content/drive', force_remount=True)


Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgf4n4g3pfee6491hc0brc4i.apps.googleusercontent.com&redirect_uri=urn%3aietf%3awg%3aoauth%3a2.0%3aoob&response_type=code&scope=email%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdocs.test%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive.photos.readonly%20https%3a%2f%2fwww.googleapis.com%2fauth%2fpeopleapi.readonly

Enter your authorization code:
··········
Mounted at /content/drive


O conjunto de dados que irei importar faz parte do projeto realizado no IFPB Campus Picuí e você pode encontrá-lo em: https://docs.google.com/spreadsheets/d/1Q0ZsaXhW3Ssl2camRmY9RCsjTqNWF6XJAB0w02k1aEM/edit?usp=sharing

*Lembrando que ao baixar o arquivo pelo Google Spreadsheets ele não estará no formato csv.*

In [12]:
#abrindo o arquivo com o diretório de onde ele se encontra no drive
df = pd.read_csv ('/content/drive/My Drive/IFPB/dataGraf2.csv')

#lendo os primeiros 5 valores do DataFrame
df.head()

Unnamed: 0,data,positivo,negativo,neutro
0,08/05,104,43,577
1,09/05,72,44,416
2,10/05,32,25,305
3,11/05,25,15,208
4,12/05,11,5,86


In [13]:
#lendo mais de 5 valores do DataFrame

df

Unnamed: 0,data,positivo,negativo,neutro
0,08/05,104,43,577
1,09/05,72,44,416
2,10/05,32,25,305
3,11/05,25,15,208
4,12/05,11,5,86
5,13/05,25,23,202
6,14/05,400,505,4770
7,15/05,752,888,8702
8,16/05,697,814,7618
9,17/05,70,65,580


Além de ler os arquivos em csv, haverão casos em que você precisará criar novos:

In [19]:
#criando arquivo csv
pd.to_csv('nome_do_arquivo_para_salvar.csv')

#Importando um arquivo xlsx

*Importando o DataFrame*:


xlsx = pd.ExcelFile('seu_arquivo_excel.xlsx')



*Criando o DataFrame*:


df = pd.read_excel(xlsx, 'Planilha 1')

#Comandos Básicos do Pandas

Para obter informações sobre o conjunto de dados


In [16]:
#mostra algumas informações básicas sobre o df
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 59 entries, 0 to 58
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   data      59 non-null     object
 1   positivo  59 non-null     int64 
 2   negativo  59 non-null     int64 
 3   neutro    59 non-null     int64 
dtypes: int64(3), object(1)
memory usage: 2.0+ KB


In [18]:
#mostra as colunas do df
df.columns

Index(['data', 'positivo', 'negativo', 'neutro'], dtype='object')

Para adicionar uma nova coluna ao DataFrame

In [36]:
df['nova_coluna'] = 'NaN'
df.head()

Unnamed: 0,data,positivo,negativo,neutro,nova_coluna
0,08/05,104,43,577,
1,09/05,72,44,416,
2,10/05,32,25,305,
3,11/05,25,15,208,
4,12/05,11,5,86,


Para remover coluna no DataFrame

In [40]:
df.drop('nova_coluna', inplace=True, axis=1)
df.head()

Unnamed: 0,data,positivo,negativo,neutro
0,08/05,104,43,577
1,09/05,72,44,416
2,10/05,32,25,305
3,11/05,25,15,208
4,12/05,11,5,86


#Alguns outros comandos

*Soma dos valores de um DataFrame:*

df.sum()

*Menor valor de um DataFrame:*

df.min()

*Maior valor:*

df.max()

*Index do menor valor:*

df.idmin()

*Index do maior valor:*

df.idmax()

*Resumo estatístico do DataFrame:*

df.describe()

*Média dos valores:*

df.mean()

*Mediana dos valores:*

df.median()

*Ordenando valores em ordem crescente:*

df.sort_values()

*Ordenando valores em ordem decrescente:*

df.sort_values(ascending=False)



#Plotando Gráficos