# **üìå An√°lise e Transforma√ß√£o de Dados com Pandas e NumPy**

## **üìñ Introdu√ß√£o**
A an√°lise e manipula√ß√£o de dados desempenham um papel fundamental na ci√™ncia de dados e em √°reas relacionadas. O uso de **bibliotecas como Pandas e NumPy** facilita a cria√ß√£o, transforma√ß√£o e extra√ß√£o de insights a partir de conjuntos de dados estruturados.

Este projeto explora conceitos essenciais, incluindo:
- **Cria√ß√£o de s√©ries e DataFrames no Pandas** a partir de listas e dicion√°rios.
- **Indexa√ß√£o e extra√ß√£o de dados** para facilitar an√°lises temporais.
- **Transforma√ß√£o de arrays NumPy** em DataFrames Pandas.
- **Manipula√ß√£o de √≠ndices e colunas** para otimizar a estrutura dos dados.
- **Aplica√ß√£o de opera√ß√µes estat√≠sticas**, incluindo c√°lculo de m√©dias e logaritmos.

Os dados utilizados incluem anomalias t√©rmicas ao longo das d√©cadas e um conjunto de n√∫meros aleat√≥rios gerados para simular uma distribui√ß√£o normal. 

Ao longo deste estudo, ser√£o demonstradas abordagens pr√°ticas e eficientes para manipular conjuntos de dados, refor√ßando boas pr√°ticas na ci√™ncia de dados.

---

## **1Ô∏è‚É£ Criando S√©ries no Pandas**
### **Cria√ß√£o de uma S√©rie a partir de uma Lista**
A NASA disponibiliza um conjunto de dados contendo **anomalias t√©rmicas globais** registradas ao longo de d√©cadas. Os dados representam varia√ß√µes de temperatura m√©dia da superf√≠cie terrestre em rela√ß√£o ao per√≠odo base de **1951-1980**.

A tabela abaixo apresenta essas diferen√ßas de temperatura:

|Ano|Anomalia t√©rmica|
|:-:|:----:|
| 1900 | -0.08 |
| 1920 | -0.27 |
| 1940 | 0.12 |
| 1960 | -0.03 |
| 1980 | 0.26 |
| 2000 | 0.40 |
| 2020 | 1.02 |

Criamos uma **S√©rie do Pandas** para armazenar esses dados:

In [7]:
import pandas as pd

anomalia_termica = [-0.08, -0.27, 0.12, -0.03, 0.26, 0.40, 1.02]
anomaliaSemIndex = pd.Series(data=anomalia_termica)
anomaliaSemIndex

0   -0.08
1   -0.27
2    0.12
3   -0.03
4    0.26
5    0.40
6    1.02
dtype: float64

**Resultado:** Uma s√©rie Pandas sem √≠ndice expl√≠cito.

### **Adicionando √çndices Personalizados**
Para permitir **consultas temporais** mais intuitivas, adicionamos os anos como √≠ndice:

In [11]:
indice = ['1900', '1920', '1940', '1960', '1980', '2000', '2020']
anomaliaComIndex = pd.Series(data=anomalia_termica, index=indice)
anomaliaComIndex

1900   -0.08
1920   -0.27
1940    0.12
1960   -0.03
1980    0.26
2000    0.40
2020    1.02
dtype: float64

‚úÖ **Benef√≠cio**: Agora podemos recuperar valores diretamente pelos anos.

#### **Extraindo Valores Espec√≠ficos**
Podemos selecionar intervalos de tempo com **indexa√ß√£o por fatia**:

In [15]:
anomaliaComIndex['1920' : '1980']

1920   -0.27
1940    0.12
1960   -0.03
1980    0.26
dtype: float64

üìå Retorna apenas os anos entre 1920 e 1980.

#### **Acessando um Ano Espec√≠fico**

In [19]:
anomaliaComIndex['2000']

0.4

üìå Retorna a anomalia t√©rmica registrada no ano 2000.

## **2Ô∏è‚É£ Criando S√©ries a partir de um Dicion√°rio**
Outra abordagem comum para estruturar dados no Pandas √© a utiliza√ß√£o de **dicion√°rios**:

In [23]:
dic_temperaturas = {1900: -.08, 1920: -.27, 1940: .12, 1960: -.03, 1980: .26, 2000: .40, 2020: 1.02}
dic_temperaturasSeries = pd.Series(data=dic_temperaturas)
dic_temperaturasSeries

1900   -0.08
1920   -0.27
1940    0.12
1960   -0.03
1980    0.26
2000    0.40
2020    1.02
dtype: float64

‚úÖ **Vantagem**: Permite criar uma **S√©rie Pandas** diretamente de um dicion√°rio, associando valores a chaves num√©ricas.

## **3Ô∏è‚É£ Convertendo um Array NumPy em DataFrame**
O **NumPy** √© uma biblioteca poderosa para **opera√ß√µes num√©ricas** e pode ser usado para gerar **dados aleat√≥rios** conforme uma distribui√ß√£o normal.

Neste caso, geramos um **array com 20 linhas e 3 colunas**, com m√©dia **100** e desvio padr√£o **10**:

In [27]:
import numpy as np

arr = np.random.normal(100, 10, (20,3))
df = pd.DataFrame(arr)
print(df)

             0           1           2
0   101.074025   80.415005  113.057607
1   120.030656   84.465960  109.093082
2   110.412583   89.022398   92.294556
3    91.679215   63.284082  105.271134
4    99.053595   92.352646   94.544211
5    96.955177  104.280250   94.305262
6    96.217629   99.318455   91.111411
7   104.837201   84.124178  114.998386
8    88.621783   80.848794   95.893050
9    98.440493  102.370581   90.160364
10   84.862618   95.632959   96.850727
11  106.945245  108.734835  114.674980
12  107.284312   96.825168  114.287393
13  115.603985  105.078482   89.436930
14  110.550020  104.520159  102.642582
15   88.953448  101.448746  106.690786
16  115.686042  109.777375  111.752667
17  100.216678  106.956086   98.951729
18  105.473360   97.344345   84.989430
19  107.084951   90.218878   93.276822


üìå **Resultado**: Um **DataFrame com valores aleat√≥rios** simulando medi√ß√µes.

## **4Ô∏è‚É£ Ajustando √çndices e Nomes das Colunas**
Por padr√£o, as colunas recebem √≠ndices num√©ricos **(0, 1, 2)**. Vamos **renome√°-las** para `x1`, `x2` e `x3`, e numerar as linhas de **1 a 20**:

In [31]:
df = pd.DataFrame(arr, columns=["x1", "x2", "x3"])
df = df.rename(index=lambda x: x + 1)
print(df)

            x1          x2          x3
1   101.074025   80.415005  113.057607
2   120.030656   84.465960  109.093082
3   110.412583   89.022398   92.294556
4    91.679215   63.284082  105.271134
5    99.053595   92.352646   94.544211
6    96.955177  104.280250   94.305262
7    96.217629   99.318455   91.111411
8   104.837201   84.124178  114.998386
9    88.621783   80.848794   95.893050
10   98.440493  102.370581   90.160364
11   84.862618   95.632959   96.850727
12  106.945245  108.734835  114.674980
13  107.284312   96.825168  114.287393
14  115.603985  105.078482   89.436930
15  110.550020  104.520159  102.642582
16   88.953448  101.448746  106.690786
17  115.686042  109.777375  111.752667
18  100.216678  106.956086   98.951729
19  105.473360   97.344345   84.989430
20  107.084951   90.218878   93.276822


‚úÖ **Benef√≠cio**: Os dados agora possuem **nomes descritivos**.

## **5Ô∏è‚É£ Criando Novas Colunas**
### **Calculando a M√©dia**
Uma m√©trica √∫til √© a **m√©dia das tr√™s colunas**, adicionada como uma nova coluna chamada `"media"`:

In [35]:
df = df.assign(media=df.mean(axis=1))
print(df)

            x1          x2          x3       media
1   101.074025   80.415005  113.057607   98.182212
2   120.030656   84.465960  109.093082  104.529899
3   110.412583   89.022398   92.294556   97.243179
4    91.679215   63.284082  105.271134   86.744810
5    99.053595   92.352646   94.544211   95.316817
6    96.955177  104.280250   94.305262   98.513563
7    96.217629   99.318455   91.111411   95.549165
8   104.837201   84.124178  114.998386  101.319922
9    88.621783   80.848794   95.893050   88.454542
10   98.440493  102.370581   90.160364   96.990480
11   84.862618   95.632959   96.850727   92.448768
12  106.945245  108.734835  114.674980  110.118353
13  107.284312   96.825168  114.287393  106.132291
14  115.603985  105.078482   89.436930  103.373132
15  110.550020  104.520159  102.642582  105.904254
16   88.953448  101.448746  106.690786   99.030993
17  115.686042  109.777375  111.752667  112.405361
18  100.216678  106.956086   98.951729  102.041498
19  105.473360   97.344345   84

üìå **Resultado**: Agora temos a m√©dia de cada linha.

### **Aplicando Logaritmo Natural**
Em algumas an√°lises estat√≠sticas, pode ser √∫til aplicar a transforma√ß√£o logar√≠tmica:

In [39]:
df = df.assign(log_med=np.log(df["media"]))
print(df)

            x1          x2          x3       media   log_med
1   101.074025   80.415005  113.057607   98.182212  4.586825
2   120.030656   84.465960  109.093082  104.529899  4.649473
3   110.412583   89.022398   92.294556   97.243179  4.577215
4    91.679215   63.284082  105.271134   86.744810  4.462971
5    99.053595   92.352646   94.544211   95.316817  4.557206
6    96.955177  104.280250   94.305262   98.513563  4.590194
7    96.217629   99.318455   91.111411   95.549165  4.559641
8   104.837201   84.124178  114.998386  101.319922  4.618283
9    88.621783   80.848794   95.893050   88.454542  4.482489
10   98.440493  102.370581   90.160364   96.990480  4.574613
11   84.862618   95.632959   96.850727   92.448768  4.526655
12  106.945245  108.734835  114.674980  110.118353  4.701556
13  107.284312   96.825168  114.287393  106.132291  4.664686
14  115.603985  105.078482   89.436930  103.373132  4.638345
15  110.550020  104.520159  102.642582  105.904254  4.662535
16   88.953448  101.4487

‚úÖ **Vantagem**: O logaritmo **suaviza valores extremos**, √∫til para an√°lise explorat√≥ria.

## **üìä Conclus√£o**
Neste projeto, exploramos conceitos essenciais de **Pandas e NumPy** para manipula√ß√£o e an√°lise de dados:

1Ô∏è‚É£ **Cria√ß√£o de S√©ries Pandas** a partir de listas e dicion√°rios.  
2Ô∏è‚É£ **Indexa√ß√£o eficiente** para facilitar a consulta e extra√ß√£o de informa√ß√µes.  
3Ô∏è‚É£ **Convers√£o de arrays NumPy em DataFrames** para an√°lise estruturada.  
4Ô∏è‚É£ **Renomea√ß√£o de colunas e √≠ndices** para maior clareza.  
5Ô∏è‚É£ **Cria√ß√£o de novas colunas** para c√°lculos estat√≠sticos (m√©dia e logaritmo).  