# **📌 Análise e Transformação de Dados com Pandas e NumPy**

## **📖 Introdução**
A análise e manipulação de dados desempenham um papel fundamental na ciência de dados e em áreas relacionadas. O uso de **bibliotecas como Pandas e NumPy** facilita a criação, transformação e extração de insights a partir de conjuntos de dados estruturados.

Este projeto explora conceitos essenciais, incluindo:
- **Criação de séries e DataFrames no Pandas** a partir de listas e dicionários.
- **Indexação e extração de dados** para facilitar análises temporais.
- **Transformação de arrays NumPy** em DataFrames Pandas.
- **Manipulação de índices e colunas** para otimizar a estrutura dos dados.
- **Aplicação de operações estatísticas**, incluindo cálculo de médias e logaritmos.

Os dados utilizados incluem anomalias térmicas ao longo das décadas e um conjunto de números aleatórios gerados para simular uma distribuição normal. 

Ao longo deste estudo, serão demonstradas abordagens práticas e eficientes para manipular conjuntos de dados, reforçando boas práticas na ciência de dados.

---

## **1️⃣ Criando Séries no Pandas**
### **Criação de uma Série a partir de uma Lista**
A NASA disponibiliza um conjunto de dados contendo **anomalias térmicas globais** registradas ao longo de décadas. Os dados representam variações de temperatura média da superfície terrestre em relação ao período base de **1951-1980**.

A tabela abaixo apresenta essas diferenças de temperatura:

|Ano|Anomalia térmica|
|:-:|:----:|
| 1900 | -0.08 |
| 1920 | -0.27 |
| 1940 | 0.12 |
| 1960 | -0.03 |
| 1980 | 0.26 |
| 2000 | 0.40 |
| 2020 | 1.02 |

Criamos uma **Série do Pandas** para armazenar esses dados:

In [7]:
import pandas as pd

anomalia_termica = [-0.08, -0.27, 0.12, -0.03, 0.26, 0.40, 1.02]
anomaliaSemIndex = pd.Series(data=anomalia_termica)
anomaliaSemIndex

0   -0.08
1   -0.27
2    0.12
3   -0.03
4    0.26
5    0.40
6    1.02
dtype: float64

**Resultado:** Uma série Pandas sem índice explícito.

### **Adicionando Índices Personalizados**
Para permitir **consultas temporais** mais intuitivas, adicionamos os anos como índice:

In [11]:
indice = ['1900', '1920', '1940', '1960', '1980', '2000', '2020']
anomaliaComIndex = pd.Series(data=anomalia_termica, index=indice)
anomaliaComIndex

1900   -0.08
1920   -0.27
1940    0.12
1960   -0.03
1980    0.26
2000    0.40
2020    1.02
dtype: float64

✅ **Benefício**: Agora podemos recuperar valores diretamente pelos anos.

#### **Extraindo Valores Específicos**
Podemos selecionar intervalos de tempo com **indexação por fatia**:

In [15]:
anomaliaComIndex['1920' : '1980']

1920   -0.27
1940    0.12
1960   -0.03
1980    0.26
dtype: float64

📌 Retorna apenas os anos entre 1920 e 1980.

#### **Acessando um Ano Específico**

In [19]:
anomaliaComIndex['2000']

0.4

📌 Retorna a anomalia térmica registrada no ano 2000.

## **2️⃣ Criando Séries a partir de um Dicionário**
Outra abordagem comum para estruturar dados no Pandas é a utilização de **dicionários**:

In [23]:
dic_temperaturas = {1900: -.08, 1920: -.27, 1940: .12, 1960: -.03, 1980: .26, 2000: .40, 2020: 1.02}
dic_temperaturasSeries = pd.Series(data=dic_temperaturas)
dic_temperaturasSeries

1900   -0.08
1920   -0.27
1940    0.12
1960   -0.03
1980    0.26
2000    0.40
2020    1.02
dtype: float64

✅ **Vantagem**: Permite criar uma **Série Pandas** diretamente de um dicionário, associando valores a chaves numéricas.

## **3️⃣ Convertendo um Array NumPy em DataFrame**
O **NumPy** é uma biblioteca poderosa para **operações numéricas** e pode ser usado para gerar **dados aleatórios** conforme uma distribuição normal.

Neste caso, geramos um **array com 20 linhas e 3 colunas**, com média **100** e desvio padrão **10**:

In [27]:
import numpy as np

arr = np.random.normal(100, 10, (20,3))
df = pd.DataFrame(arr)
print(df)

             0           1           2
0   101.074025   80.415005  113.057607
1   120.030656   84.465960  109.093082
2   110.412583   89.022398   92.294556
3    91.679215   63.284082  105.271134
4    99.053595   92.352646   94.544211
5    96.955177  104.280250   94.305262
6    96.217629   99.318455   91.111411
7   104.837201   84.124178  114.998386
8    88.621783   80.848794   95.893050
9    98.440493  102.370581   90.160364
10   84.862618   95.632959   96.850727
11  106.945245  108.734835  114.674980
12  107.284312   96.825168  114.287393
13  115.603985  105.078482   89.436930
14  110.550020  104.520159  102.642582
15   88.953448  101.448746  106.690786
16  115.686042  109.777375  111.752667
17  100.216678  106.956086   98.951729
18  105.473360   97.344345   84.989430
19  107.084951   90.218878   93.276822


📌 **Resultado**: Um **DataFrame com valores aleatórios** simulando medições.

## **4️⃣ Ajustando Índices e Nomes das Colunas**
Por padrão, as colunas recebem índices numéricos **(0, 1, 2)**. Vamos **renomeá-las** para `x1`, `x2` e `x3`, e numerar as linhas de **1 a 20**:

In [31]:
df = pd.DataFrame(arr, columns=["x1", "x2", "x3"])
df = df.rename(index=lambda x: x + 1)
print(df)

            x1          x2          x3
1   101.074025   80.415005  113.057607
2   120.030656   84.465960  109.093082
3   110.412583   89.022398   92.294556
4    91.679215   63.284082  105.271134
5    99.053595   92.352646   94.544211
6    96.955177  104.280250   94.305262
7    96.217629   99.318455   91.111411
8   104.837201   84.124178  114.998386
9    88.621783   80.848794   95.893050
10   98.440493  102.370581   90.160364
11   84.862618   95.632959   96.850727
12  106.945245  108.734835  114.674980
13  107.284312   96.825168  114.287393
14  115.603985  105.078482   89.436930
15  110.550020  104.520159  102.642582
16   88.953448  101.448746  106.690786
17  115.686042  109.777375  111.752667
18  100.216678  106.956086   98.951729
19  105.473360   97.344345   84.989430
20  107.084951   90.218878   93.276822


✅ **Benefício**: Os dados agora possuem **nomes descritivos**.

## **5️⃣ Criando Novas Colunas**
### **Calculando a Média**
Uma métrica útil é a **média das três colunas**, adicionada como uma nova coluna chamada `"media"`:

In [35]:
df = df.assign(media=df.mean(axis=1))
print(df)

            x1          x2          x3       media
1   101.074025   80.415005  113.057607   98.182212
2   120.030656   84.465960  109.093082  104.529899
3   110.412583   89.022398   92.294556   97.243179
4    91.679215   63.284082  105.271134   86.744810
5    99.053595   92.352646   94.544211   95.316817
6    96.955177  104.280250   94.305262   98.513563
7    96.217629   99.318455   91.111411   95.549165
8   104.837201   84.124178  114.998386  101.319922
9    88.621783   80.848794   95.893050   88.454542
10   98.440493  102.370581   90.160364   96.990480
11   84.862618   95.632959   96.850727   92.448768
12  106.945245  108.734835  114.674980  110.118353
13  107.284312   96.825168  114.287393  106.132291
14  115.603985  105.078482   89.436930  103.373132
15  110.550020  104.520159  102.642582  105.904254
16   88.953448  101.448746  106.690786   99.030993
17  115.686042  109.777375  111.752667  112.405361
18  100.216678  106.956086   98.951729  102.041498
19  105.473360   97.344345   84

📌 **Resultado**: Agora temos a média de cada linha.

### **Aplicando Logaritmo Natural**
Em algumas análises estatísticas, pode ser útil aplicar a transformação logarítmica:

In [39]:
df = df.assign(log_med=np.log(df["media"]))
print(df)

            x1          x2          x3       media   log_med
1   101.074025   80.415005  113.057607   98.182212  4.586825
2   120.030656   84.465960  109.093082  104.529899  4.649473
3   110.412583   89.022398   92.294556   97.243179  4.577215
4    91.679215   63.284082  105.271134   86.744810  4.462971
5    99.053595   92.352646   94.544211   95.316817  4.557206
6    96.955177  104.280250   94.305262   98.513563  4.590194
7    96.217629   99.318455   91.111411   95.549165  4.559641
8   104.837201   84.124178  114.998386  101.319922  4.618283
9    88.621783   80.848794   95.893050   88.454542  4.482489
10   98.440493  102.370581   90.160364   96.990480  4.574613
11   84.862618   95.632959   96.850727   92.448768  4.526655
12  106.945245  108.734835  114.674980  110.118353  4.701556
13  107.284312   96.825168  114.287393  106.132291  4.664686
14  115.603985  105.078482   89.436930  103.373132  4.638345
15  110.550020  104.520159  102.642582  105.904254  4.662535
16   88.953448  101.4487

✅ **Vantagem**: O logaritmo **suaviza valores extremos**, útil para análise exploratória.

## **📊 Conclusão**
Neste projeto, exploramos conceitos essenciais de **Pandas e NumPy** para manipulação e análise de dados:

1️⃣ **Criação de Séries Pandas** a partir de listas e dicionários.  
2️⃣ **Indexação eficiente** para facilitar a consulta e extração de informações.  
3️⃣ **Conversão de arrays NumPy em DataFrames** para análise estruturada.  
4️⃣ **Renomeação de colunas e índices** para maior clareza.  
5️⃣ **Criação de novas colunas** para cálculos estatísticos (média e logaritmo).  