# Introdução ao Pandas


In [1]:
import pandas as pd
import numpy as np

## 1. Séries

Series são matrizes unidimensionais rotuladas capazes de armazenar dados de qualquer tipo (inteiro, string, float, objetos python, etc.). Os rótulos dos eixos são chamados coletivamente de índices. Fazendo um paralelo com uma planilha uma série representa uma coluna em uma planilha do Excel. Uma Serie suporta tanto a indexação inteira, quanto a baseada em rótulo e fornece uma série de métodos para executar operações envolvendo o índice.

### 1.1 Criando series baseada em lista

In [2]:
serie_1 = pd.Series(['A', 'B', 'C', 'D', 'E'])
serie_1

0    A
1    B
2    C
3    D
4    E
dtype: object

In [3]:
serie_2 = pd.Series([20, 30, 40, 50, 60])
serie_2

0    20
1    30
2    40
3    50
4    60
dtype: int64

### 1.2 Criando series baseada em ndarray

In [4]:
s1 = pd.Series(np.ones(5))
s1

0    1.0
1    1.0
2    1.0
3    1.0
4    1.0
dtype: float64

### 1.1 Criando series baseada em dicionários

In [6]:
s2 = pd.Series({'a': 1, 'b': 3, 'c':50})
s2

a     1
b     3
c    50
dtype: int64

## 2. DataFrame

Estrutura de dados bidimensional com os dados alinhados de forma tabular em linhas e colunas, mutável em tamanho e potencialmente heterogênea. A diferença essencial é que os nomes de colunas e os números de linha são conhecidos como índice de coluna e linha, no caso do DataFrame. As colunas possuem nomes (índice da coluna) e, as linhas, podem ter nomes referentes a colunas e as linhas podem ter nomes (índices textuais) ou podem, por padrão, ser numeradas (Índice numérico).

### 2.1 Criação de um DataFrame

In [17]:
df = pd.DataFrame({'Numeros' : serie_2,
                   'Letras'  : serie_1,
                   'ndarray' : np.ones(5),
                   'lista'   : ['a', 'b', 'c', 'd', 'e']},
                 )
df

Unnamed: 0,Numeros,Letras,ndarray,lista
0,20,A,1.0,a
1,30,B,1.0,b
2,40,C,1.0,c
3,50,D,1.0,d
4,60,E,1.0,e


### 2.2 Acessando Atributos DataFrame

Podemos acessar os atributos do dataframe de duas formas:
* **df['atributo']**: referenciando o nome do atributo entre colchetes e aspas
* **df.atributo**: referenciando com .atributo, porém caso o atributo possua um "espaço" em seu nome este método não funciona

In [8]:
df['Numeros']

0    20
1    30
2    40
3    50
4    60
Name: Numeros, dtype: int64

In [9]:
df.Numeros

0    20
1    30
2    40
3    50
4    60
Name: Numeros, dtype: int64

In [10]:
df.Letras[0]

'A'

In [11]:
df.Letras[1]

'B'

### 2.3 Alterando Indices

* df.set_index(atributo, inplace)
    * atributo: informa o nome do atributo que será o novo indice do dataframe
    * inplace: {True, False}, aplica as alterações direto no dataframe original

In [19]:
df.set_index('Numeros', inplace=True)
df

Unnamed: 0_level_0,Letras,ndarray,lista
Numeros,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
20,A,1.0,a
30,B,1.0,b
40,C,1.0,c
50,D,1.0,d
60,E,1.0,e


### 2.4 .loc e .iloc

São métodos alternativos para acessar linhas e/ou elementos de um dataframe, onde as principais diferenças entre eles são:

* **.iloc[idx]:** retorna a linha idx do dataframe

In [20]:
df.iloc[0]

Letras       A
ndarray    1.0
lista        a
Name: 20, dtype: object

* **.loc[idx]:** retorna a linha do dataframe na qual o indice seja igual a idx

In [21]:
df.loc[20]

Letras       A
ndarray    1.0
lista        a
Name: 20, dtype: object

## 3. Criando DataFrame com Arquivo .csv

Para criar um dataframe baseado em um arquivo .csv utilizamos o seguinte método:
* pd.read_csv(file, sep, names)
    * file: é o caminho para o arquivo incluindo seu nome
    * sep: é o separador utilizado no arquivo csv para separar os dados
    * names: não é obrigatório, mas é utilizado para atribuir nome as colunas do dataframe. Assim, deve ser informado uma lista com o nome de cada coluna/atributo

In [22]:
from google.colab import files

uploaded = files.upload()

for fn in uploaded.keys():
  print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))

ModuleNotFoundError: No module named 'google.colab'

In [23]:
df = pd.read_csv('Iris.csv', sep=',')
df

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,setosa
1,2,4.9,,1.4,0.2,setosa
2,3,4.7,3.2,1.3,0.2,setosa
3,4,4.6,3.1,1.5,0.2,setosa
4,5,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...,...
145,146,6.7,3.0,5.2,2.3,virginica
146,147,6.3,2.5,5.0,1.9,virginica
147,148,6.5,3.0,5.2,2.0,virginica
148,149,6.2,3.4,5.4,2.3,virginica


In [1]:
# Usando localmente na maquina

import pandas as pd

# Carregar o CSV para um DataFrame
df = pd.read_csv(r"E:\Github\unicamp-engenharia-banco-de-dados\12 - Mineração de Dados\Python\Numpy e Pandas\Iris.csv")

# Mostrar as primeiras linhas
print(df.head())


   Id  SepalLengthCm  SepalWidthCm  PetalLengthCm  PetalWidthCm Species
0   1            5.1           3.5            1.4           0.2  setosa
1   2            4.9           NaN            1.4           0.2  setosa
2   3            4.7           3.2            1.3           0.2  setosa
3   4            4.6           3.1            1.5           0.2  setosa
4   5            5.0           3.6            1.4           0.2  setosa


In [25]:
df = pd.read_csv('Iris.csv', sep=',')
df

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,setosa
1,2,4.9,,1.4,0.2,setosa
2,3,4.7,3.2,1.3,0.2,setosa
3,4,4.6,3.1,1.5,0.2,setosa
4,5,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...,...
145,146,6.7,3.0,5.2,2.3,virginica
146,147,6.3,2.5,5.0,1.9,virginica
147,148,6.5,3.0,5.2,2.0,virginica
148,149,6.2,3.4,5.4,2.3,virginica
