# Disciplina: Ciência de Dados (DCA-0131)
Prof. Luiz Affonso Guedes

### Departamento de Engenharia de Computação e Automação - DCA

UFRN - 2024

*OBS: Favor fazer cópia do notebook antes de alterá-lo.


## Aula 4 - Pacote Pandas - Parte I

O pacote Pandas é construído sobre os pacotes Numpy e MathPlotLib. Porém, diferentemente dos arrays de NumPy, variáveis manipuladas pelo Pandas podem ser de tipos diversos (não homogêneos). Assim, uma determinada variável pode contém elementos de diversos tipos. DataFrame e Series são exemplos de dados complexo de Pandas.

- DataFrames são dados "retangulares", usualmente utilizados para representar informação em formato de planilha, por exemplo. Assim, as colunas devem ter as mesmas dimensões e cada coluna contém elementos de um mesmo tipo de dado.

- Series são objetos tipo array uni-dimensional contendo um array de dados (equivalente ao array uni-dimensional NumPy) e um array de labels do array de dados (denominados de index da Serie). Na sua forma mais simples, Series podem conter apenas os arrays de dados. Neste caso, os indexes segue o padrão dos arrays NumPy (índices de zero a n-1).

Pandas implementa uma série de operações sobre dados para usuários familiarizados com banco de dados e planilhas.




### Convensão de notação:
- from pandas import Series, DataFrame
- import pandas as pd

In [5]:
# Exemplo: Importando Pandas

from pandas import Series, DataFrame
import pandas as pd


## 1. Objeto do tipo Serie em Pandas

In [6]:
# Exemplo: criação de um objeto Pandas do tipo Series
# - sem especificar os seus índices

dado = pd.Series([0.25, 0.5, 0.75, 1.0])
dado

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [7]:
type(dado)

pandas.core.series.Series

In [9]:
# Exemplo: criação de um objeto Pandas do tipo Series
# - sem especificar os seus índices

obj_Serie = Series([4, 7, -5, 3])
print(obj_Serie)
type(obj_Serie)

0    4
1    7
2   -5
3    3
dtype: int64


pandas.core.series.Series

In [10]:
# Exemplo: Acessando valores de um objeto do tipo Serie - Pandas
print(obj_Serie.values)
type(obj_Serie.values)


[ 4  7 -5  3]


numpy.ndarray

In [11]:
# Exemplo: Acessando indexes de um objeto do tipo Serie - Pandas

print(obj_Serie.index)
type(obj_Serie.index)

RangeIndex(start=0, stop=4, step=1)


pandas.core.indexes.range.RangeIndex

### Observação:
Pelo que vimos até agora, pode parecer que o objeto Series é basicamente intercambiável com um array NumPy unidimensional. A diferença essencial é a presença do índice: enquanto o array NumPy possui um índice inteiro implícito definido para acessar os valores, a Serie Pandas possui um índice explicitamente definido associado aos valores.

Esta definição explícita de índice fornece recursos adicionais do objeto Series. Por exemplo, o índice não precisa ser um número inteiro, mas pode consistir em valores de qualquer tipo desejado. Por exemplo, se quisermos, podemos usar Strings como um índice.

In [12]:
# Exemplo: criação de um objeto pandas do tipo Series - Pandas
# - com especificação dos seus índices

obj_Serie2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj_Serie2

d    4
b    7
a   -5
c    3
dtype: int64

In [13]:
# Exemplo: Acessando elementos de Series via especificação do índice ou conjunto de índices
print("O acesso a elemento de Series é similar ao de arrays NumPy")
print(obj_Serie2['a'])
print(obj_Serie2[2])
print(obj_Serie2[-2])
print(obj_Serie2[['b', 'd', 'a']])

O acesso a elemento de Series é similar ao de arrays NumPy
-5
-5
-5
b    7
d    4
a   -5
dtype: int64


  print(obj_Serie2[2])
  print(obj_Serie2[-2])


In [14]:
# Exemplo: filtros nos índices em Pandas são similares aos Arrays Numpy

obj_Serie2 > 0

d     True
b     True
a    False
c     True
dtype: bool

In [19]:
# Exemplo: filtros nos índices em Pandas são similares aos Arrays Numpy

obj_Serie2[obj_Serie2 > 0]

d    4
b    7
c    3
dtype: int64

In [20]:
# Exemplo: filtro nos índices de Arrays Numpy

import numpy as np
A = np.array([1, 4, 2, 5, 3])
A[A>2]

array([4, 5, 3])

In [None]:
# Exemplo: As operações preservam os índices dos objetos Series - Pandas
print(obj_Serie2*3)
print()
print(obj_Serie2**2)

d    12
b    21
a   -15
c     9
dtype: int64

d    16
b    49
a    25
c     9
dtype: int64


### Observação:
Também é  possível passar dados do tipo dictionaries como parâmetros para Series Pandas, como no exemplo abaixo.


In [17]:
# Exemplo de Series - Pandas usando tipos dictioneries

idadeD = {'Maria': 24, 'Pedro': 22, 'Mariana': 21, 'Joao': 20}
idadeSerie = Series(idadeD)
idadeSerie

Maria      24
Pedro      22
Mariana    21
Joao       20
dtype: int64

In [22]:
# Exemplo de Series - Pandas usando tipos dictionaries

idadeLista = ['Alice', 'Pedro', 'Mariana', 'Joao']
idadeSerie = Series(idadeD, index=idadeLista)
idadeSerie

Alice       NaN
Pedro      22.0
Mariana    21.0
Joao       20.0
dtype: float64

In [32]:
print("Por que o valor do índice Alice é NaN?, O que significa isto?")

print("Dicionário de idades: ")
print(idadeD)

print("Novos índices:")
print(idadeLista)

print("Como é possível ver, Alice não é um índice do dicionário, portanto, Series não consegue atribuir um valor inteiro ao índice Alice.")

Por que o valor do índice Alice é NaN?, O que significa isto?
Dicionário de idades: 
{'Maria': 24, 'Pedro': 22, 'Mariana': 21, 'Joao': 20}
Novos índices:
['Alice', 'Pedro', 'Mariana', 'Joao']
Como é possível ver, Alice não é um índice do dicionário, portanto, Series não consegue atribuir um valor inteiro ao índice Alice.


In [33]:
# Execute este comando e verifique o resultado

idadeSerie.isnull()

Alice       True
Pedro      False
Mariana    False
Joao       False
dtype: bool

In [34]:
# Execute este comando e verifique o resultado

idadeSerie.notnull()

Alice      False
Pedro       True
Mariana     True
Joao        True
dtype: bool

### Exercício:
Explique o funcionamento dos métodos .isnull() e .notnull(). Para que servem esses métodos?

### Dados não declarados - Missing Data
- indicar a falta de dados de diferentes maneiras.
- NaN (Not a Number).
- None.

Há diversos métodos em Pandas para tratar Missing Data.
- técnicas de eliminação
- técnicas de preenchimento

In [None]:
# Exemplo: Eliminando missing data

idadeSerie[idadeSerie.notnull()]

Pedro      22.0
Mariana    21.0
Joao       20.0
dtype: float64

In [None]:
# Exemplo: Eliminando missing data

idadeSerie

Alice       NaN
Pedro      22.0
Mariana    21.0
Joao       20.0
dtype: float64

In [35]:
# Exemplo: Eliminando missing data
print( "O que faz o método .dropna()?\n\n")

idadeSerie.dropna()

O que faz o método .dropna()?




Pedro      22.0
Mariana    21.0
Joao       20.0
dtype: float64

In [36]:
# Exemplo: Preenchimento de missing data
print( "O que faz o método .fillna()?\n\n")
idadeSerie.fillna(-1)

O que faz o método .fillna()?




Alice      -1.0
Pedro      22.0
Mariana    21.0
Joao       20.0
dtype: float64

In [37]:
# Operações sobre Series - Pandas

turmaLista1 = ['Alice', 'Pedro', 'Mariana', 'Joao']
turmaLista2 = ['Maria', 'Pedro', 'Mariana', 'Joao']

turmaSerie1 = Series([2,1,0.5,1], index=turmaLista1)
turmaSerie2 = Series([2,2,2,2], index=turmaLista2)

turmaSerie1 + turmaSerie2

Alice      NaN
Joao       3.0
Maria      NaN
Mariana    2.5
Pedro      3.0
dtype: float64

In [38]:
# Exemplo - Rotulando índices e nomes de Series - Pandas

turmaSerie1.name = 'Turma de Ciência de Dados'
turmaSerie1.index.name = 'Alunos'
turmaSerie1

Alunos
Alice      2.0
Pedro      1.0
Mariana    0.5
Joao       1.0
Name: Turma de Ciência de Dados, dtype: float64

### Observação:
Series Pandas podem ser vistas como o equivalente ao tipo básico dictionaries. Porém, assim como operações em arrays NumPy são mais eficientes que em Listas, operar em Series é bem mais eficiente que operarar sobre variáveis do tipo Dictonarie.

In [None]:
? Series

In [39]:
# Exemplo: População de alguns estados dos Estados Unidos
# Utilizando-se tipo Dictonarie

pop_dict = {'California': 38332521,
'Texas': 26448193,
'New York': 19651127,
'Florida': 19552860,
'Illinois': 12882135}

In [40]:
# Exemplo: Área de alguns estados dos Estados Unidos
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
'Florida': 170312, 'Illinois': 149995}

In [None]:
dict.values(pop_dict)

dict_values([38332521, 26448193, 19651127, 19552860, 12882135])

In [41]:
dict.keys(pop_dict)

dict_keys(['California', 'Texas', 'New York', 'Florida', 'Illinois'])

In [42]:
#Exercício: Transformando variáveis de Dictonarie para Series Panda
#           - Transforme a variável dicionario 'pop_dict' em uma Serie-Pandas


pop_dict = Series(pop_dict)
#           - Transforme a variável dicionario 'area_dict' em uma Serie-Pandas
area_dict = Series(area_dict)
#           - Obtenha os estados com mais de 20 milhões de habitantes.
pop_dict[pop_dict.values > 20000000]
#           - Obtenha o número de habitantes da California
pop_dict["California"]
#           - Obtenha o estado com mais habitantes
pop_dict[pop_dict == pop_dict.max()]
#           - Obtenha o estado com menos habitantes
pop_dict[pop_dict == pop_dict.min()]
#           - Obtenha a lista dos estados com área entre 400.000 e 500.000
area_dict[(area_dict > 400000) & (area_dict < 500000)]
#           - A densidade (número de habitantes por área) desses estados

print("Densidade populacional de 5 cidades dos EUA\n")
pop_dict/area_dict



Densidade populacional de 5 cidades dos EUA



California     90.413926
Texas          38.018740
New York      139.076746
Florida       114.806121
Illinois       85.883763
dtype: float64

In [43]:
type(pop_dict)

pandas.core.series.Series

### Acesso a índices em objetos Pandas
Há várias formas de se acessar índices nos objetos Pandas:
- indicação de índice específico. --> dado[3]
- indicação de intervalo de índices. --> dado[1:3]. Segue o padrão de Lista.
- métodos .loc(), .iloc() e  .ix()

In [44]:
# Exemplo de indicação de índice em Pandas

data = pd.Series(['a', 'b', 'c', 'd'], index=[1,3,5,7])
data

1    a
3    b
5    c
7    d
dtype: object

In [None]:
# Exemplo de indicação específica de índice em Pandas
data[1]
#data[0]

'a'

In [45]:
# Exemplo de indicação de intervalo de índice em Pandas
data[1:3]
#data[0:2]

3    b
5    c
dtype: object

In [61]:
# Exemplo de indicação de índice em Pandas usando o método .loc()
print(data.loc[1])
print()
print(data.loc[1:3])

a

1    a
3    b
dtype: object


In [62]:
# Exemplo de indicação de índice em Pandas usando o método .iloc()
print(data.iloc[1])
print()
print(data.iloc[1:3])

b

3    b
5    c
dtype: object


In [63]:
# Exemplo de indicação de índice em Pandas usando o método .ix()
# Warning: o método está em desuso a aprtir da versão 0.20.0 do Pandas.

print(data.ix[1])
print()
print(data.ix[1:3])

AttributeError: 'Series' object has no attribute 'ix'

### Exercício:
Qual é a diferença dos métodos .loc() e .iloc()? Explique e faça um exemplo demonstrando a diferença.

In [87]:
# Exercício

# R: loc acessa dados pelo rótulo do objecto Series, enquanto iloc acessa-os por posição

print("Dado o objeto Series")
dataAlt = pd.Series(data.values, index = ['first', 'second', 'third', 'fourth'])
print(dataAlt)

print("Acessar o índice 'second'")
print(dataAlt.loc['second'])

print("Acessar a segunda posição da série")
print(dataAlt.iloc[2])

print("Acessar todos os índices a partir de 'second' (incluso)")
print(dataAlt.loc['second':])
print(dataAlt.iloc[1:])

print("Acessar todos os índices entre 'first' e 'third'")
print(dataAlt.loc['first':'third'])
print(dataAlt.iloc[0:3])

Dado o objeto Series
first     a
second    b
third     c
fourth    d
dtype: object
Acessar o índice 'second'
b
Acessar a segunda posição da série
c
Acessar todos os índices a partir de 'second' (incluso)
second    b
third     c
fourth    d
dtype: object
second    b
third     c
fourth    d
dtype: object
Acessar todos os índices entre 'first' e 'third'
first     a
second    b
third     c
dtype: object
first     a
second    b
third     c
dtype: object


## 2. Objeto do tipo DataFrame em Pandas

Se uma Serie-Pandas é um análogo de um array NumPy unidimensional com índices explícitos e flexíveis, então um DataFrame é um análogo de array NumPy bidimensional com índices de linha e de colunas flexíveis.

Assim, DataFrame Pandas equivale a uma Matriz com índices explícitos, porém, diferentemenete dos arrays NumPy, os elementos podem ser de tipos diferentes.

DataFrames podem ser vistos como uma sequência de objetos Series-Pandas alinhados por índices.

In [None]:
# Exemplo - Transformação de dict em Serie-Pandas
populacao = pd.Series(pop_dict)
populacao

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [None]:
# Exemplo - Transformação de dict em Serie-Pandas
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [None]:
# Exemplo - Criação de um DataFrame Pandas

estados = pd.DataFrame({'população': populacao,'área': area})
estados

Unnamed: 0,população,área
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [None]:
type(estados)

In [None]:
estados.index

In [None]:
estados.columns

### Observação:
Da mesma forma como Series, também podemos pensar em um DataFrame como uma especialização de um dicionário. Onde um dicionário mapeia uma chave para um valor, um DataFrame mapeia um nome de coluna para uma série de dados de coluna. Por exemplo, pedir o atributo 'área' retorna o objeto Series que contém as áreas que vimos anteriormente:

In [None]:
estados['área']

### 2.1 Criação de DataFrames Pandas
DataFrame Pandas podem ser criados de diversas formas.
- A partir de objetos Series
- A partir de Listas de Dicionários
- A partir de Dicionários de objetos Series
- A partir de arrays NumPy bidimensionais
- A partir de array NumPy estruturado

In [None]:
# Exemplo: Criação de DataFrame Pandas a partir de objetos Series
pd.DataFrame(populacao, columns=['população'])

In [None]:
# Exemplo: Criação de DataFrame Pandas a partir de Lista de Dicionário
data = [{'a': i, 'b': 2 * i} for i in range(3)]
pd.DataFrame(data)
#data

In [None]:
# Exemplo: Criação de DataFrame Pandas a partir de Lista de Dicionário
# Data Missing (Dados perdidos) - similar ao objeto Serie

pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

In [None]:
# Exercício: Troque os índices do DataFrame acima
#            para linha1 e linha2, respecitvamente

pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}], index=['linha1', 'linha2'])

#### 2.2 Tratando Missing Data em DataFrame
De forma similar a Series, podemos tratar missing data em DataFrame
- técnicas de eliminação
    - df.dropna(parametros)
- técnicas de preenchimento
    - df.fillna(parametros)

In [None]:
# Exemplo: Eliminando missing data em DataFrames
# Eliminar as linhas com NaN
# Eliminar as colunas com NaN
# Eliminar as linhas e colunas com NaN
import numpy as np
df = pd.DataFrame([[1, np.nan, 2],
[2, 3, 5],
[np.nan, 4, 6]])
print("df com NaN \n", df)

print("\n df sem NaN - com eliminação de linhas \n", df.dropna())

print("\n df sem NaN - com eliminação de colunas \n", df.dropna(axis='columns'))


In [None]:
# Exemplo: Eliminando missing data em DataFrames
# Eliminar as linhas com NaN
# Eliminar as colunas com NaN
# Eliminar as linhas e colunas com NaN

dataF = DataFrame([[1., 6.5, 3.], [1., None, None], [None, None, None], [None, 6.5, 3.]])
dataF

In [None]:

dataF.dropna(how='all')

In [None]:
# Exemplo: Preenchimento de missing data em DataFrames
df = DataFrame(np.random.randn(7, 3))
df

In [None]:
df.iloc[:4, 1] = None; df.iloc[:2, 2] = None
df

In [None]:
# Exemplo: Preenchimento de missing data em DataFrames
#          com valor ZERO

df.fillna(0)

In [None]:
df.iloc[3:4,0:1] = None
df


In [None]:
# Exemplo: Preenchimento de missing data em DataFrames
df.fillna(method='ffill')

In [None]:
# Exemplo: Preenchimento de missing data em DataFrames
# Chamendo .fillna() com um tipo 'dict',
# pode-se usar um valor diferente de preenchimento para cada coluna

df.fillna({1: 0.5, 2: -1})

In [None]:
# Exemplo: Criação de DataFrame Pandas
#          a partir Dicionários de objetos Series

pd.DataFrame({'população1': populacao,'área1': area})


In [None]:
# Exemplo: Criação de DataFrame Pandas
#          a partir de arrays NumPy bidimensionais

import numpy as np

pd.DataFrame(np.random.rand(3, 2),
             columns=['coluna 1', 'coluna 2'],
             index=['linha 1', 'linha 2', 'linha 3'])

In [None]:
# Exemplo: Criação de DataFrame Pandas
#          a partir de array NumPy estruturado
Resultado = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
Resultado

In [None]:
pd.DataFrame(Resultado)

### Exemplos de Acesso a Elementos de DataFrames
A seguir, são apresentados alguns exemplos de como acessar DataFrames e elementos de DataFrames

In [None]:
estados

In [None]:
estados['área']

In [None]:
estados[['área','população']]

In [None]:
estados.área

### 2.3 - Incluir e modificar colunas no DataFrame Pandas
- Uma das formas de se fazer isto pode ser usando uma sintaxe similar à sintaxe de dicionários com objetos Series Pandas.


In [None]:
# Exemplo - Inclusão de uma nova coluna no DataFrame Pandas

estados['densidade'] = estados['população'] / estados['área']
estados

### Observação:
Como DataFrames podem ser conciderados como uma especetipo de arrays bidimensionais, então podemos utilizar operações similares de arrays bidimencionais a eles.

In [None]:
# Exemplo - Como inverter a representação do DataFrame Pandas - Similar a uma matriz transposta
estados.T

In [None]:
# Exemplo - Obtendo índicers de DataFrames Pandas
estados.values

In [None]:
# Exemplo - Obtendo índices de DataFrames Pandas
estados.values[0]

In [None]:
# Exemplo - Obtendo índices de DataFrames Pandas
estados.values[0][:]

In [None]:
print("Explique o funcionamento desse comando. \\n\n")
estados[estados.densidade > 100]

In [None]:
print("Explique o funcionamento desse comando. \\n\n")
estados.densidade > 100

In [None]:
print("Explique o funcionamento desse comando. \\n\n")
estados[estados.densidade > 100].densidade

In [None]:
print("Lista das populações e densidades das Cidades com densidade maior de 100. \\n\n")
estados[estados.densidade > 100][['população', 'densidade']]

In [None]:
# Exercício: Liste o atributo 'densidade'
#           dos estados da Florida e Illinois
?????

In [None]:
# Exemplo de listagem de sub-DataFrame em Pandas
# O método .iloc() pemite acesso por numeração - localicação

estados.iloc[:3, :2]

#estados[:3,:2]

In [None]:
# Exemplo de listagem de sub-DataFrame em Pandas
# O método .loc() permite acesso por labels

estados.loc[:'Illinois', :'população']

In [None]:
# Exemplo de listagem de sub-DataFrame em Pandas
# Uso do estilo NumPy para acessar sub Arrays
# Formato:
# dataFrame.loc[LINHAS, COLUNAS]

estados.loc[estados.densidade > 100, ['população', 'densidade']]

In [None]:
# Exercício:
# Obenha apenas os Estados com população acima de 20 milhões.
# Exiba as colunas 'população'e 'densidade'

????


### Alguns Métodos Úteis:
    - pd.head(x)  --> lista as x primeiras linhas do DataFrame
    - pd.tail(x)  --> lista as x últimas linhas do DataFrame
    - pd.info()   --> resume o conteúdo do DataFrame

In [None]:
# Exemplo de uso do método pd.head()
estados.head(2)
#estados.head()

In [None]:
# Exemplo de uso do método pd.tail()
estados.tail(2)
#estados.tail()

In [None]:
# Exemplo de uso do método pd.info()
estados.info()

### Pergunta:
Como se pode alterar os valores de elementos de DataFrames?


In [None]:
# Verifique uma forma de alterar valores de elementos do DataFrame estados
estados.loc['Texas', 'população'] = 40000000
estados

### Observação:
Pandas foi desenvolvido sobre o NumPy e manteve a compatibilidade das operações NumPy.
- dados Pandas (Series, DataFrame) aceitam as operações NumPy

In [None]:
# Exemplo de operação NumPy sobre dados Pandas
# Definindo o objeto ser - Tipo Series Pandas
import pandas as pd
import numpy as np

rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
ser

In [None]:
# Exemplo de operação NumPy sobre dados Pandas
# Operação exponencial sobre um objeto Series Pandas

np.exp(ser)

In [None]:
# Exemplo de operação NumPy sobre dados Pandas
# Definindo o objeto df - Tipo DataFrame Pandas

df = pd.DataFrame(rng.randint(0, 10, (3, 4)),
columns=['A', 'B', 'C', 'D'])
df

In [None]:
# Exemplo de operação NumPy sobre dados Pandas
# Operação seno sobre um objeto DataFrame Pandas

np.sin(df * np.pi / 4)

### 2.4 - Alinhamento de índices em Pandas:

Para operações binárias em dois objetos Series ou DataFrame, Pandas alinhará índices no processo de execução da operação. Isso é muito conveniente quando você está trabalhando com dados incompletos, como veremos em alguns dos exemplos que se seguem.

In [None]:
# Exemplo: Alinhamento automático de índices em Pandas
# Criação das Series Pandas - area e population

area = pd.Series({'Alaska': 1723337, 'Texas': 695662,
'California': 423967}, name='área')

population = pd.Series({'California': 38332521, 'Texas': 26448193,
'New York': 19651127}, name='população')


# Pandas irá completar com NaN os dados incompletos (data missing)
population / area

### Observação:
O Array resultante é a união união de índices dos dois arrays de entrada.
- Equivale a fazer a união explícita no padrão Python:
    - area.index | population.index
- Os índices resultantes da união que não tiverem entradas são marcados com NaN (data missing).

In [None]:
area.index | population.index

In [None]:
# Exemplo de alinhamento automático em Pandas

A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A + B

In [None]:
# Exemplo: Similar ao exemplo anterior,
#          mas preenchendo os data missing com valor ZERO
# Uso do estilo de operadores-métodos no NumPY

A.add(B, fill_value=0)


### 2.5. Gráficos com Pandas
Como Pandas foi construído sobre o MatPlotLib, podemo sutilizar os métodos desse pacote sobre os tipos Serie e Dataframe.



In [None]:
# Exemplo de uso de métodos de traçado de gráficos em Pandas
print("Impressão do DataFrame estados\n\n")
estados

In [None]:
print("Traçado dos gráficos das variáveis, Series, do DataFrame estados\n\n")
estados.plot()

### 2.6 - Métodos de operadores binários em Pandas:
- add() --> Adição
- sub(), subtract() --> Subtração
- mul(), multiply() --> Multiplicação
- truediv(), div(), divide() --> Divição
- floordiv()  --> (parte inteira da divisão)
- mod()     ---> (resto da divisão)
- pow()   --> potência

### Exercício: Escreva o seguinte programa
    - df1 - Dataframe com 3 linhas e 2 colunas (col1, col2). Inicie o DataFrame de forma ra
    - df2 - Dataframe com 2 linhas e 3 colunas (col1, col2, col3)
    - df3 = df1 + df2
    - df4 = df1 / df2
    - o quadrado de df1
    - Inicie os DataFrames df1 e df2 de forma randômica.

In [None]:
# Exercício:


### Observação:
Não podemos esquecer que operações sobre Series e DataFrames Pandas opera por linhas, como nos arrays NumPy.

In [None]:
# Criação de um Array NumPy

A = rng.randint(10, size=(3, 4))
A

In [None]:
# Operação por linha entre arrays NumPy
A - A[0]

In [None]:
# Criação de uma DataFrame Pandas

df = pd.DataFrame(A, columns=list('QRST'))
df

In [None]:
# Operação por linha com DataFrame Pandas

df - df.iloc[0]

In [None]:
# Operação de subtração por coluna sobre DataFrame Pandas

df.subtract(df['R'], axis=0)

In [None]:
# Exercício
# Explique o que a linha de código abaixo executa.

halfrow = df.iloc[0, ::2]
halfrow
#df - halfrow

### 2.7 - Concatenação de Series e DataFrames Pandas

In [None]:
# Concatenação de Series Pandas

ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])

In [None]:
# Função para preencher um DataFrame Pandas

def make_df(cols, ind):
  data = {c: [str(c) + str(i) for i in ind]
  for c in cols}
  return pd.DataFrame(data, ind)

# exemplo de uso da função DataFrame
make_df('ABC', range(3))

In [None]:
# Concatenação de DataFrames Pandas

df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
print(df1);
print()
print(df2)
print()
print(pd.concat([df1, df2]))

In [None]:
# Anexação de DataFrame Pandas

print(df1.append(df2))

### 2.8 - Objeto Index em Pandas

> Bloco com recuo


É uma classe em Pandas que possui métodos próprios para operar sobre os índices de objetos Pandas, como Series e DataFrames.
Index pode ser:
- Array imutável
- Conjunto ordenado

In [None]:
# Criação de um objeto Index como Array Imutável
# No caos, uma lista de inteiros

ind = pd.Index([2, 3, 5, 7, 11])
print(ind)
print(ind[1])
print(ind[::2])
print("\nObjeto Index possui métodos similares aos dos arrays NumPy")
print(ind.size, ind.shape, ind.ndim, ind.dtype)

In [None]:
# Index não podem ser modificados - Eles são imutáveis
nd[1] = 0

In [None]:
# Criação de um objeto Index conjunto ordenado


In [None]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

print("interseção --> ", indA & indB)

print("união -->  ", indA | indB)

print("diferença simétrica --> ",  indA ^ indB)


### 3. Carregar, armazenar e formatar DataFrames



### 3.1. Métodos para carregar/ler/importar dados tipo DataFrame Pandas

Pandas possui vários métodos para ler dados tabulados.
- pd.read_csv('arquivo.csv', parametros). Carrega dado com formato .csv delimitado a partir de um arquivo, URL ou objeto tipo arquivo. Usa vígula como delimitador padrão.


- pd.read_table(árquivo.txt', parametros) -  Carrega dado delimitado a partir de arquivo, URL, ou objeto tipo arquivo. Usa tab ('\t') como delimitador padrão.


In [None]:
# Precisa fazer o download do arquivo ScoobyDoo.csv para a área do colab antes carregá-lo no ambiente
teste1 = pd.read_csv('ScoobyDoo.csv')

In [None]:
teste1

In [None]:
teste2 = pd.read_csv('ScoobyDoo.csv', header=None)

In [None]:
teste2

In [None]:
# Exemplo: Obtendo informação do DataFrame
teste1.info()

In [None]:
teste3 = pd.read_csv('ScoobyDoo.csv', names=['Coluna 1', 'Coluna 2'])
teste3

In [None]:
teste3.describe()

Exemplos de algumas possibilidades de cálculo com DataFrame

In [None]:
teste1['idade'].sum()

In [None]:
teste1['idade']>19

In [None]:
# Exercício: Inclua uma coluna 'Sexo'no DataFrame teste1
# Atribua o sexo adequadamente para os personagens
# ('M'- masculino, 'F' - Feminino')
# Calcule a média de idade dos personagens femininos


In [None]:
# Exercício: Inclua uma coluna 'Peso' no DataFrame teste1
# Scooby - 40 kg
# Salsicha - 55 kg
# Fred  - 70 Kg
#
# Velma = None
# Daphne = 50 Kg


In [None]:
# Exercício: Inclua uma coluna 'Altura' no DataFrame teste1
# Scooby - 1.5m
# Salsicha - 1.75m
# Fred  - 1.80m
#
# Velma = 1.60m
# Daphne = 1.65m

In [None]:
# Exercício: Inclua uma coluna 'IMC' no DataFrame teste1
# Preencha essa coluna com o valor de Índice de Massa Corporea dos personagens
# Obtenha o personagem que tem a menor IMC

### 3.2. Lendo arquivos via URL

In [None]:
# arquivo do GitHub - Livro Handbook of data Science
Estados_USA = pd.read_csv('https://raw.githubusercontent.com/jakevdp/PythonDataScienceHandbook/master/notebooks/data/state-population.csv')

In [None]:
Estados_USA

### 3.3. Salvando DataFrames como arquivos .csv, .xlx, etc

In [None]:
teste1.to_csv('teste4.csv')

In [None]:
#dataF.to_excel('nome_do_arquivo.xlsx', index=False)

In [None]:
from google.colab import files

uploaded = files.upload()

for fn in uploaded.keys():
  print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))

In [None]:
import pandas as pd
df = (pd.read_csv("births.csv"))
serie = pd.Series(df)
serie