# Estudo do PANDAS
### Exemplos extraídos do livro PYTHON - para analise de dados de Wes McKinney (Criador do Pandas)

In [2]:
import pandas as pd

import numpy as np

### Estrutura de dados do Pandas

As principais estruturas de dados do pandas são:
* Series
* DataFrame

#### Series

São arrays UNIDIMENSIONAIS de mesmo TIPO semelhantes aos do NumPy, com um array associado chamado *ÍNDICE*

Uma Série simples é formada a partir de um array de dados (List Python ou Array Numpy)

In [14]:
# Iniciando uma Série

# Com uma Lista Python
lista_python = [4,7,-5,3]

print(f"Dados para iniciar a 1ª série:\n{lista_python}\nTipo: {type(lista_python)}")

serie_lista_python = pd.Series(lista_python)

print(f"\nSérie gerada a partir de uma lista python:\n{serie_lista_python}")

# ------------------------------------------------------------------------------------

# Com um array Numpy
array_numpy = np.array([4,7,-5,3])
print(f"\nDados para iniciar a 2ª série:\n{array_numpy}\nTipo: {type(array_numpy)}")

serie_array_numpy = pd.Series(array_numpy)

print(f"\nSérie gerada a partir de um array numpy:\n{serie_array_numpy}")

Dados para iniciar a 1ª série:
[4, 7, -5, 3]
Tipo: <class 'list'>

Série gerada a partir de uma lista python:
0    4
1    7
2   -5
3    3
dtype: int64

Dados para iniciar a 2ª série:
[ 4  7 -5  3]
Tipo: <class 'numpy.ndarray'>

Série gerada a partir de um array numpy:
0    4
1    7
2   -5
3    3
dtype: int32


##### Indice de uma Série

In [36]:
# Uma Série é composta pelo array com os valores e um array com o índice desses valores

# exemplo

pandas_series = pd.Series(["paulo","natally","pietro","amanda"])


# Dados do array
print(f"Dados da Série\n{pandas_series.array}")

# Índice do array
print(f"\nÍndice da Série\n{pandas_series.index}")

# Os indices podem ser explicitados na criação da Série
pandas_series_2 = pd.Series([10,5,8,4],index=['a','b','c','d'])
print(f"\nSérie 2\n{pandas_series_2}")
print(f"\nDados da Série2\n{pandas_series_2.array}")
print(f"\nÍndice da Série2\n{pandas_series_2.index}")

# Os indices podem ser usados como filtro, da mesma forma que o fatiamento e slice no Numpy
# Exemplo

print(f"Busca por indice posicional [2]: {pandas_series_2[2]}")
print(f"Busca por indice nominal [c]: {pandas_series_2['c']}")



Dados da Série
<NumpyExtensionArray>
['paulo', 'natally', 'pietro', 'amanda']
Length: 4, dtype: object

Índice da Série
RangeIndex(start=0, stop=4, step=1)

Série 2
a    10
b     5
c     8
d     4
dtype: int64

Dados da Série2
<NumpyExtensionArray>
[10, 5, 8, 4]
Length: 4, dtype: int64

Índice da Série2
Index(['a', 'b', 'c', 'd'], dtype='object')
Busca por indice posicional [2]: 8
Busca por indice nominal [c]: 8


  print(f"Busca por indice posicional [2]: {pandas_series_2[2]}")


##### Série iniciadas com Dicionário Python

In [39]:
# A presença de um Índice em um Série a torna similar a um Dicionário, podendo inclusive ser iniciada com um Dicionário Python

# Exemplo de teste com o índice
print(f"Verificando se 'd' existe em pandas_series_2: {'d' in pandas_series_2}")

# Iniciando com um Dicionario
dic_python = {'paulo':5,'bianca':10, 'pietro':10, 'amanda':7}
print(f"\nCriando uma Séries com um dicionário: {type(dic_python)}\n{dic_python}")
pandas_series_dic = pd.Series(dic_python)

print(f"\nSérie criada com o dicionario python: {type(pandas_series_dic)}\n{pandas_series_dic}")

# Da mesma forma uma Série pode ser convertida em um dicionário
dic_conv_serie = pandas_series_dic.to_dict()
print(f"\nDicionario originario de uma Série: {type(dic_conv_serie)}\n{dic_conv_serie}")

# Uma Série indexada pode receber um indice que funcionara como um filtro para a Série originada

indice = ['patrizia','paulo','pietro','bianca']

serie_result = pd.Series(dic_python,index=indice)
print(f"Série resultante de um indice especifico para o dicionario de origem:\n{serie_result}")

Verificando se 'd' existe em pandas_series_2: True

Criando uma Séries com um dicionário: <class 'dict'>
{'paulo': 5, 'bianca': 10, 'pietro': 10, 'amanda': 7}

Série criada com o dicionario python: <class 'pandas.core.series.Series'>
paulo      5
bianca    10
pietro    10
amanda     7
dtype: int64

Dicionario originario de uma Série: <class 'dict'>
{'paulo': 5, 'bianca': 10, 'pietro': 10, 'amanda': 7}
Série resultante de um indice especifico para o dicionario de origem:
patrizia     NaN
paulo        5.0
pietro      10.0
bianca      10.0
dtype: float64


##### Nomeando os Eixos

In [42]:
serie_result = pd.Series([30000,75000,152300,37000],index=['SP','RJ','MG','BH'])

print(serie_result)

serie_result.index.name = "Estados"
serie_result.name = "População"

print(f"\nSerie com os eixos nomeados\n{serie_result}")

SP     30000
RJ     75000
MG    152300
BH     37000
dtype: int64

Serie com os eixos nomeados
Estados
SP     30000
RJ     75000
MG    152300
BH     37000
Name: População, dtype: int64


#### DataFrame

Um dataframe é uma representação de uma tabela de dados retangular que contém uma coleção ordenada e nomeada de colunas, cada uma podenter um tipo de valor diferente.

O dataframe tem um Índice para linha e outro para colunas.

PENSE em um dataframe como um DICIONARIO DE **SÉRIES** todas compartilhando um mesmo indice

##### Iniciando um dataframe

In [18]:
# O Dataframe pode ser iniciado a partir de um DICIONÁRIO DE LISTAS PYTHON, ou de um ARRAY NUMPY

# DICIONÁRIO DE LISTAS PYTHON

dic_listas = {'estados':['sp', 'rj', 'rs', 'sc', 'ce'],
              'ano':[2020, 2025, 2021, 2022, 2019],
              'populacao':[1.5, 1.7, 3.6, 2.4, 29]}

print(f"Dicionario para criação do DataFrame:\n{dic_listas}")

df_dic_lista = pd.DataFrame(dic_listas)

print(f"\nDataFrame criado a partir de um cicionário:\n{df_dic_lista}")

# DICIONÁRIO DE ARRAY NUMPY

dic_arr_numpy = {'estados':np.array(['sp', 'rj', 'rs', 'sc', 'ce']),
              'ano':np.array([2020, 2025, 2021, 2022, 2019]),
              'populacao':np.array([1.5, 1.7, 3.6, 2.4, 29])}

print(f"\n\nDicionario de arrays NUMPY para criação do DataFrame:\n{dic_arr_numpy}")

df_dic_arr_numpy = pd.DataFrame(dic_arr_numpy)

print(f"\nDataFrame criado a partir de um dicionário de arrays NUMPY:\n{df_dic_lista}")

# DICIONÁRIO DE SÉRIES

dic_series = {'estados':pd.Series(['sp', 'rj', 'rs', 'sc', 'ce']),
              'ano':pd.Series([2020, 2025, 2021, 2022, 2019]),
              'populacao':pd.Series([1.5, 1.7, 3.6, 2.4, 29])}

print(f"\n\nDicionario de Séries para criação do DataFrame:\n{dic_series}")

df_dic_series = pd.DataFrame(dic_series)

print(f"\nDataFrame criado a partir de um dicionário de Séries:\n{df_dic_series}")

# ARRAY NUMPY

arr = np.arange(9).reshape((3,3))

print(f"\n\nArray para criação do DataFrame:\n{arr}")

df_arr = pd.DataFrame(arr)

print(f"\nDataFrame criado a partir de um array:\n{df_arr}")


Dicionario para criação do DataFrame:
{'estados': ['sp', 'rj', 'rs', 'sc', 'ce'], 'ano': [2020, 2025, 2021, 2022, 2019], 'populacao': [1.5, 1.7, 3.6, 2.4, 29]}

DataFrame criado a partir de um cicionário:
  estados   ano  populacao
0      sp  2020        1.5
1      rj  2025        1.7
2      rs  2021        3.6
3      sc  2022        2.4
4      ce  2019       29.0


Dicionario de arrays NUMPY para criação do DataFrame:
{'estados': array(['sp', 'rj', 'rs', 'sc', 'ce'], dtype='<U2'), 'ano': array([2020, 2025, 2021, 2022, 2019]), 'populacao': array([ 1.5,  1.7,  3.6,  2.4, 29. ])}

DataFrame criado a partir de um dicionário de arrays NUMPY:
  estados   ano  populacao
0      sp  2020        1.5
1      rj  2025        1.7
2      rs  2021        3.6
3      sc  2022        2.4
4      ce  2019       29.0


Dicionario de Séries para criação do DataFrame:
{'estados': 0    sp
1    rj
2    rs
3    sc
4    ce
dtype: object, 'ano': 0    2020
1    2025
2    2021
3    2022
4    2019
dtype: int64, 'pop