# Pandas -  A potente biblioteca para análise de dados do Python
 - ### Explorando funções básicas 


Pandas é uma biblioteca de software de código aberto amplamente utilizada na linguagem de programação Python para manipulação e análise de dados. Foi criada por Wes McKinney em 2008 enquanto trabalhava na AQR Capital Management e desde então se tornou uma das ferramentas mais populares para análise de dados em Python.

O Pandas oferece estruturas de dados flexíveis e eficientes, especialmente duas estruturas principais: Series e DataFrame.

- *Series* é uma estrutura unidimensional que pode armazenar dados de qualquer tipo;

- *DataFrame* é uma estrutura bidimensional que se assemelha a uma planilha, com linhas e colunas rotuladas, permitindo manipulação de dados de forma poderosa e intuitiva.

Além das estruturas de dados, o Pandas fornece uma ampla gama de funcionalidades para ler e escrever dados em diversos formatos, como CSV, Excel, SQL, JSON, entre outros. 

Ele também oferece funcionalidades para limpeza, transformação, agregação e análise de dados, tornando-o uma ferramenta essencial para cientistas de dados, analistas e desenvolvedores que trabalham com dados em Python.

Neste notebook, eu irei aplicar algumas funções do Pandas pra exemplificar. 

## 1. Estrutura de dados

O Pandas fornece duas estruturas de dados fundamentais: Series e DataFrame.

Compreender essas estruturas de dados é essencial para um tratamento eficaz de dados com o Pandas.

## 1.1 Series
*Series* é uma matriz rotulada unidimensional que pode conter vários tipos de dados, como inteiros, flutuantes, strings ou até mesmo objetos personalizados. É semelhante a uma coluna em uma planilha do Excel ou a uma única coluna em uma tabela SQL.

Os principais recursos da série incluem:

- ***Rotulagem***: Cada elemento de uma Serie possui um rótulo ou índice, que permite fácil acesso e manipulação de dados;

- ***Dados homogêneos***: Ao contrário das listas em Python, Series normalmente armazena dados do mesmo tipo, garantindo consistência.

- ***Operações vetorizadas***: você pode realizar operações vetorizadas em séries, tornando-as eficientes para cálculos elemento a elemento. Este recurso permite executar operações com eficiência em colunas ou séries inteiras sem a necessidade de loops explícitos. É possivel adicionar, subtrair e multiplicar as séries (colunas de um dataframe) por uma série ou escalar.

**Vamos criar uma Serie e aplicar uma função vetorizada para visualizar!**

In [6]:
import pandas as pd

data = [1, 2, 3, 4]
series = pd.Series(data, name='MySeries')

# Vectorized operations of series
series = series * 2 
series

0    2
1    4
2    6
3    8
Name: MySeries, dtype: int64

## 1.2 DataFrame

Um DataFrame é uma estrutura de dados tabular bidimensional com eixos rotulados (linhas e colunas). 

Assemelha-se a uma planilha ou tabela SQL e é a principal estrutura de dados para análise de dados no Pandas.

Os principais recursos dos DataFrames incluem:

 - ***Colunas***: Cada coluna em um DataFrame é uma Serie, o que significa que pode conter diferentes tipos de dados;

- ***Indexação***: DataFrames possuem índices de linha e coluna, permitindo uma seleção flexível de dados;

- ***Alinhamento de dados***: Assim como o Series, os DataFrames podem alinhar dados com base em rótulos, tornando as operações fáceis e intuitivas;

- ***Integração de dados***: você pode mesclar, unir e concatenar DataFrames para combinar e analisar dados de várias fontes.

**Vamos criar um dataframe e aplicar uma função para renomear as colunas!**

In [7]:
import pandas as pd

data = {
 "Name": ["Alice", "Bob", "Charlie", "David"],
 "Age": [25, 30, 35, 40],
 "City": ["New York", "San Francisco", "Los Angeles", "Chicago"]
}

'''No formato acima, o objeto data é um dict. 
Veja o retorno do código abaixo.'''
type(data)

dict

In [8]:
# transformando em um dataframe
df = pd.DataFrame(data)

# Pronto, agora é um df
type(df)

pandas.core.frame.DataFrame

#### Dando uma olhadinha no df

In [9]:
df.head()

Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,San Francisco
2,Charlie,35,Los Angeles
3,David,40,Chicago


#### Renomeando as colunas com Pandas

In [10]:
# Renaming the 'Name' column to 'Person_Name'
df.rename(columns={'Name':'Person_Name'})

Unnamed: 0,Person_Name,Age,City
0,Alice,25,New York
1,Bob,30,San Francisco
2,Charlie,35,Los Angeles
3,David,40,Chicago


# Referencias 

- [Documentação oficial do Pandas](pandas.pydata.org);

- [Pandas Demystified: A Comprehensive Handbook for Data Enthusiasts](https://medium.com/python-in-plain-english/pandas-demystified-a-comprehensive-handbook-for-data-enthusiasts-part-1-136127e407f);