<a href="https://colab.research.google.com/github/orlandojsjunior/Data_Science-explorando_e_analisando_dados/blob/main/Explorando_e_analisando_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Para saber mais: Pandas Series e DataFrame

Series e DataFrame são estruturas de dados fundamentais no ecossistema do Pandas. Nós cientistas de dados nos debruçamos diariamente com essas estruturas e, por isso, é importante aprender sobre o que representam e como manipulá-las.

# DataFrame

Um DataFrame é uma estrutura tabular bidimensional, similar a uma planilha ou tabela de banco de dados, onde os dados são organizados em linhas e colunas. Vamos criar um simples DataFrame e verificar sua estrutura:

In [39]:
import pandas as pd

# Criando um DataFrame simples
dados = { 'Nome': ['Mirla', 'Ana', 'Daniel'],
   'Idade': [25, 30, 35],
              'Salario': [5000, 6000, 8000]}
df = pd.DataFrame(dados)
df

Unnamed: 0,Nome,Idade,Salario
0,Mirla,25,5000
1,Ana,30,6000
2,Daniel,35,8000


Explorando brevemente a sua estrutura, no lado esquerdo temos o índice (de 0 a 2) indicando a quantidade de registros (observações) que possuímos no DataFrame, em negrito no topo as colunas, que identificam a natureza dos dados e os valores que são a combinação entre o tipo do dado e a observação que ele representa, por exemplo, Mirla é um nome no índice de número 0.

Em um DataFrame, podemos aplicar funções para explorar, tratar e manipular os dados tanto em toda a sua estrutura como em uma ou mais colunas (Series). Podemos observar, logo abaixo, dois exemplos de como explorar um DataFrame por inteiro e por apenas uma coluna:

In [40]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Nome     3 non-null      object
 1   Idade    3 non-null      int64 
 2   Salario  3 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 204.0+ bytes


Aqui, é possível notar algumas observações sobre o DataFrame, como quantidade de registros e colunas, o tipo das variáveis da coluna (object e int64), se possuem dados nulos e o uso de memória daqueles dados.

In [41]:
df['Salario'].mean()
# ou df.Salario.mean() 

6333.333333333333

# Series

Um Series por sua vez é uma estrutura unidimensional que armazena uma sequência de valores indexados. Podemos dizer que um DataFrame nada mais é que uma sequência de vários Series nomeados organizados coluna por coluna e ordenados pelos índices.

In [42]:
import pandas as pd

# Criando um Series simples
idades = pd.Series([45, 30, 45, 40, 25])
idades

0    45
1    30
2    45
3    40
4    25
dtype: int64

Explorando brevemente a sua estrutura, no lado esquerdo temos o índice (de 0 a 4) indicando a quantidade de registros (observações) que possuímos no Series e no lado direito os registros dos dados. Na última linha, podemos observar o tipo do dado (int64). A diferença entre este Series e o Series extraído de uma coluna do DataFrame é que o que vem do DataFrame também apresenta na última linha o nome (Name) do Series.

Num Series, podemos aplicar funções para explorar, tratar e manipular seus dados, como podemos observar, logo abaixo, em dois exemplos:

In [43]:
idades.index

RangeIndex(start=0, stop=5, step=1)

No código acima lemos os índices do Series. Como estão numerados de 0 até 4, o código representa que o índice é gerado pelo RangeIndex()partindo de 0 até 5 de um a um.

In [44]:
idades.sort_values()

4    25
1    30
3    40
0    45
2    45
dtype: int64

No código acima, ordenamos apenas os valores de idades em ordem crescente, sem alterar os índices.

Observamos nestes exemplos, como podemos trabalhar com conjuntos de dados estruturados, seja em formato de DataFrame ou Series, compreendendo suas diferenças e como utilizá-las no contexto de ciência de dados.

Para que você aprenda bastante sobre [Series](https://pandas.pydata.org/docs/reference/series.html) e [DataFrame]((https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)) é importante recorrer também a [documentação Pandas](https://pandas.pydata.org/docs/index.html).