# Introdução aos Pandas

### Q1) O que é Pandas?
Pandas é uma biblioteca de código fonte aberto escrita sobre o Numpy. Permite rápida visualização e limpeza de diferentes tipos de dados. Além de possuir diferentes métodos de visualização de dados, semelhante ao Excel.


### Q2) Que tipo de dados Pandas trabalha?
O pandas trabalha com uma estrutura bidiomencional chamada DataFrame que pode armazenar diferentes tipos de dados como strings, inteiros, pontos flutuantes dados categoricos entre outros. Cada coluna de um DataFrame é uma Series.


<img src='https://pandas.pydata.org/docs/_images/01_table_dataframe.svg'>

# 1. Series

O primeiro tipo de dado que aprenderemos é a Serie. Vamos importar Pandas e explorar tal objeto.

A Serie é muito semelhante a uma matriz NumPy (na verdade, ela é construída em cima do objeto de matriz NumPy). O que diferencia a matriz NumPy de uma Série, é que uma Serie pode ter rótulos de eixos, o que significa que pode ser indexado por um rótulo, em vez de apenas uma localização numérica. Também não precisa manter dados numéricos, ele pode conter qualquer objeto Python arbitrário.

Vamos explorar este conceito através de alguns exemplos:


- Sumário
    - 1. Criando series
    - 2. Operações em Series
    - 3. Ordenando e Reindexando Series

In [None]:
import numpy as np
import pandas as pd
import random

### 1.1 Criando uma Serie

Você pode converter uma lista, numpy array ou dicionário para uma serie:

In [2]:
minha_lista = [10,20,30]

In [3]:
pd.Series(data=minha_lista)

0    10
1    20
2    30
dtype: int64

#### Definindo uma Series a partir de uma lista

In [4]:
# definindo array
labels = ['a','b','c']
pd.Series(data=minha_lista,index=labels)

a    10
b    20
c    30
dtype: int64

#### Definindo uma Series através de um NumPy Arrays **

In [5]:
arr = np.array([1,2,3])

In [6]:
pd.Series(arr)

0    1
1    2
2    3
dtype: int32

In [7]:
pd.Series(arr,labels)

a    1
b    2
c    3
dtype: int32

#### Definindo uma Series a partir de Dicionários **

In [8]:
# definindo um dicionário
d = {'a':10,'b':20,'c':30}
pd.Series(d)

a    10
b    20
c    30
dtype: int64

### 1.2 Dados nas Series

Uma série de pandas pode conter uma variedade de tipos de objeto:

In [9]:
pd.Series(data=labels)

0    a
1    b
2    c
dtype: object

In [10]:
# Series também recebe funções (embora seja improvável que você usar isso)
pd.Series([sum,print,len])

0      <built-in function sum>
1    <built-in function print>
2      <built-in function len>
dtype: object

### 1.3 Usando um Índice

A chave para usar uma Serie é entender seu índice. O Pandas faz uso desses nomes ou números de índice, permitindo pesquisas rápidas de informações (funciona como uma tabela de hash ou dicionário).

Vamos ver alguns exemplos de como pegar informações de uma Serie. Vamos criar duas Series, ser1 e ser2:

In [11]:
ser1 = pd.Series([1,2,3,4], index = ['EUA', 'Alemanha','USSR', 'Japão'])                                   

In [12]:
ser1

EUA         1
Alemanha    2
USSR        3
Japão       4
dtype: int64

In [13]:
ser2 = pd.Series([1,2,5,4],index = ['EUA', 'Alemanha','Italia', 'Japão'])                                   

In [14]:
ser2

EUA         1
Alemanha    2
Italia      5
Japão       4
dtype: int64

In [15]:
ser1['EUA']

1

### 2. Operações em Series

In [16]:
ser1 + ser2

Alemanha    4.0
EUA         2.0
Italia      NaN
Japão       8.0
USSR        NaN
dtype: float64

In [19]:
ser1.min()

1

In [20]:
ser1.max()

4

In [21]:
ser1.describe()

count    4.000000
mean     2.500000
std      1.290994
min      1.000000
25%      1.750000
50%      2.500000
75%      3.250000
max      4.000000
dtype: float64

### 3. Ordenando e Reindexando Series

In [22]:
ser1

EUA         1
Alemanha    2
USSR        3
Japão       4
dtype: int64

In [24]:
ser1.sort_values(ascending=True)

EUA         1
Alemanha    2
USSR        3
Japão       4
dtype: int64

**Reindexando Series**

In [25]:
ser1

EUA         1
Alemanha    2
USSR        3
Japão       4
dtype: int64

In [26]:
ser1.reindex(['Alemanha', 'USSR', 'Japão', 'EUA'])

Alemanha    2
USSR        3
Japão       4
EUA         1
dtype: int64

In [27]:
ser1

EUA         1
Alemanha    2
USSR        3
Japão       4
dtype: int64