## **Introdução aos Pandas para Análise de Dados**


### **O que são Pandas?**

Pandas é uma popular biblioteca de manipulação e análise de dados de código aberto para a linguagem de programação Python. Ele fornece um conjunto poderoso e flexível de ferramentas para trabalhar com dados estruturados, tornando-o uma ferramenta fundamental para cientistas de dados, analistas e engenheiros.
O Pandas foi projetado para lidar com dados em vários formatos, como dados tabulares, dados de séries temporais e muito mais, tornando-o uma parte essencial do fluxo de trabalho de processamento de dados em muitos setores.

Aqui estão alguns dos ***principais recursos e funcionalidades dos Pandas:***

***Estruturas de Dados:*** A Pandas oferece duas estruturas de dados primárias - DataFrame e Series.

1. Um DataFrame é uma estrutura de dados tabular bidimensional, mutável em tamanho e potencialmente heterogênea com eixos rotulados (linhas e colunas).
2. Uma série é uma matriz rotulada unidimensional, essencialmente uma única coluna ou linha de dados.

***Importação e Exportação de Dados:*** O Pandas facilita a leitura de dados de várias fontes, incluindo arquivos CSV, planilhas do Excel, bancos de dados SQL e muito mais. Ele também pode exportar dados para esses formatos, permitindo uma troca de dados perfeita.

***Fusão e junção de dados:*** Você pode combinar vários DataFrames usando métodos como mesclagem e junção, semelhantes às operações SQL, para criar conjuntos de dados mais complexos de diferentes fontes.

***Indexação Eficiente:*** O Pandas fornece métodos eficientes de indexação e seleção, permitindo que você acesse linhas e colunas específicas de dados rapidamente.

***Estruturas de Dados Personalizadas:*** Você pode criar estruturas de dados personalizadas e manipular dados de maneiras que atendam às suas necessidades específicas, ampliando as capacidades dos Pandas.

### **Importando Pandas e Carregamento de dados:**

Importe Pandas usando o comando de importação, seguido pelo nome da biblioteca.
Comumente, os Pandas são importados como pd para brevidade no código.

* Os pandas podem ser usados para carregar dados de várias fontes, como arquivos CSV e Excel.
* A função read_csv é usada para carregar dados de um arquivo CSV em um Pandas DataFrame.

Para ler um arquivo CSV (Valores Separados por Vírgula) em Python usando a biblioteca Pandas, você pode usar a função pd.read_csv(). Aqui está a sintaxe para ler um arquivo CSV:

In [14]:
import pandas as pd

# Read the CSV file into a DataFrame / df - dataframe
df = pd.read_csv('vendas')
print(df)

    frutas   preço   qtd   valor
0     maça       5     8      25
1     uvas       8     8      63
2  bananas       3     3       9


Substitua 'your_file.csv' pelo caminho real do seu arquivo CSV. Certifique-se de que o arquivo esteja localizado no mesmo diretório do seu script Python, ou você fornece o caminho correto do arquivo

### **O que é uma série?**

Uma Série é uma matriz rotulada unidimensional em Pandas. Pode ser pensado como uma única coluna de dados com rótulos ou índices para cada elemento. Você pode criar uma Série a partir de várias fontes de dados, como listas, matrizes NumPy ou dicionários
Aqui está um exemplo básico de criação de uma Série em Pandas:

In [16]:
import pandas as pd
# Create a Series from a list
data = [10, 20, 30, 40, 50]
s = pd.Series(data)
print(s)

0    10
1    20
2    30
3    40
4    50
dtype: int64


Neste exemplo, criamos uma Série chamada s com dados numéricos. Observe que os Pandas atribuíram automaticamente índices numéricos (0, 1, 2, 3, 4) a cada elemento, mas você também pode especificar rótulos personalizados, se necessário.

### **Acessando Elementos em uma Série**

Você pode acessar elementos em uma Série usando os rótulos de índice ou posições inteiras. Aqui estão alguns métodos comuns para acessar dados da Série

#### **Acesso por rótulo**

In [17]:
print(s[2])     # Access the element with label 2 (value 30)

30


#### **Acessando por posição**

In [18]:
print(s.iloc[3]) # Access the element at position 3 (value 40)

40


#### **Acessando vários elementos**

In [19]:
print(s[1:4])   # Access a range of elements by label

1    20
2    30
3    40
dtype: int64


## **Atributos e Métodos da Série**

A Série Pandas vem com vários atributos e métodos para ajudá-lo a manipular e analisar dados de forma eficaz. Aqui estão alguns essenciais:

* **valores:** Retorna os dados da Série como uma matriz NumPy.
* **índice:** Retorna o índice (rótulos) da Série.
* **forma:** Retorna uma tupla representando as dimensões da Série.
* **tamanho:** Retorna o número de elementos na Série.
* **mean(), sum(), min(), max():** Calcule as estatísticas resumidas dos dados.
* **unique(), nunique():** Obtenha valores únicos ou o número de valores exclusivos.
* **sort_values(), sort_index():** Classifique a Série por valores ou rótulos de índice.
* **isnull(), notnull():** Verifique se há valores ausentes (NaN) ou não ausentes.
* **apply():** Aplique uma função personalizada a cada elemento da Série.

## **O que é um DataFrames?**

Um DataFrame é uma estrutura de dados rotulada bidimensional com colunas de tipos de dados potencialmente diferentes. Pense nisso como uma tabela onde cada coluna representa uma variável e cada linha representa um ponto de observação ou dados. Os DataFrames são adequados para uma ampla gama de dados, incluindo dados estruturados de arquivos CSV, planilhas do Excel, bancos de dados SQL e muito mais.

### **Criando DataFrames a partir de Dicionários:**

DataFrames podem ser criados a partir de dicionários, com chaves como rótulos de coluna e valores como listas que representam linhas

In [20]:
import pandas as pd
# Creating a DataFrame from a dictionary
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 28],
        'City': ['New York', 'San Francisco', 'Los Angeles', 'Chicago']}
df = pd.DataFrame(data)
print(df)

      Name  Age           City
0    Alice   25       New York
1      Bob   30  San Francisco
2  Charlie   35    Los Angeles
3    David   28        Chicago


### **Seleção de Colunas:**

Você pode selecionar uma única coluna de um DataFrame especificando o nome da coluna entre colchetes duplos.
Várias colunas podem ser selecionadas de maneira semelhante, criando um novo DataFrame.

In [21]:
print(df['Name'])  # Access the 'Name' column

0      Alice
1        Bob
2    Charlie
3      David
Name: Name, dtype: object


#### **Acessando Linhas:**

Você pode acessar linhas por seu índice usando .iloc[] ou por rótulo usando .loc[].

In [22]:
print(df.iloc[2])   # Access the third row by position
print(df.loc[1])    # Access the second row by label

Name        Charlie
Age              35
City    Los Angeles
Name: 2, dtype: object
Name              Bob
Age                30
City    San Francisco
Name: 1, dtype: object


#### **Fatia:**

Você pode dividir DataFrames para selecionar linhas e colunas específicas.

In [24]:
print(df[['Name', 'Age']])  # Select specific columns
print(df[1:3])             # Select specific rows

      Name  Age
0    Alice   25
1      Bob   30
2  Charlie   35
3    David   28
      Name  Age           City
1      Bob   30  San Francisco
2  Charlie   35    Los Angeles


### **Encontrando Elementos Únicos:**

Use o método exclusivo para determinar os elementos exclusivos em uma coluna de um DataFrame.

In [27]:
unique_dates = df['Age'].unique()

### **Filtragem Condicional:**

Você pode filtrar dados em um DataFrame com base em condições usando operadores de desigualdade.
Por exemplo, você pode filtrar álbuns lançados após um determinado ano.Você pode acessar linhas por seu índice usando .iloc[] ou por rótulo usando .loc[].

In [28]:
high_above_102 = df[df['Age'] > 25]

## **Salvando DataFrames:**

Para salvar um DataFrame em um arquivo CSV, use o método to_csv e especifique o nome do arquivo com uma extensão “.csv”. O Pandas fornece outras funções para salvar DataFrames em diferentes formatos.

In [29]:
df.to_csv('trading_data.csv', index=False)

## **Atributos e Métodos DataFrame**

Os DataFrames fornecem inúmeros atributos e métodos para manipulação e análise de dados, incluindo:

* **forma:** Retorna as dimensões (número de linhas e colunas) do DataFrame.
* **info():** Fornece um resumo do DataFrame, incluindo tipos de dados e contagens não nulas.
* **describe():** Gera estatísticas resumidas para colunas numéricas.
* **head(), tail():** Exibe a primeira ou última n linhas do DataFrame.
* **mean(), sum(), min(), max():** Calcule estatísticas resumidas para colunas.
* **sort_values():** Classifique o DataFrame por uma ou mais colunas.
* **groupby():** Agrupe dados com base em colunas específicas para agregação.
* **fillna(), drop(), rename():** Lidar com valores ausentes, soltar colunas ou renomear colunas.
* **apply():** Aplique uma função a cada elemento, linha ou coluna do DataFrame.

## **Conclusão**

Em conclusão, dominar o uso de Pandas Series e DataFrames é essencial para uma manipulação e análise eficazes de dados em Python. As séries fornecem uma base para o manuseio de dados unidimensionais com rótulos, enquanto os DataFrames oferecem uma estrutura versátil e semelhante a uma tabela para trabalhar com dados bidimensionais. Se você está limpando, explorando, transformando ou analisando dados, essas estruturas de dados Pandas, juntamente com seus atributos e métodos, permitem que você manipule dados de forma eficiente e flexível para obter informações valiosas. Ao incorporar Series e DataFrames ao seu kit de ferramentas de ciência de dados, você estará bem preparado para lidar com uma ampla gama de tarefas relacionadas a dados e aprimorar seus recursos de análise de dados.
Para aprimorar suas habilidades em análise de dados com Pandas, considere os seguintes passos:

**Prática:**

Trabalhe com conjuntos de dados reais para aplicar o que você aprendeu e ganhar experiência prática.

**Explore a Documentação:**

Visite o site oficial do Pandas para explorar a extensa documentação e descobrir mais funções e método