# Importando as bibliotecas

In [119]:
import pandas as pd
import numpy as np

[Documentação](https://pandas.pydata.org/pandas-docs/version/0.21/generated/pandas.DataFrame.html)

## **Sumário:**

1. [Criando um DataFrame a partir de um array](#criando-um-dataframe-a-partir-de-um-array)
2. [Acessando uma coluna específica](#acessando-uma-coluna-específica)
3. [Acessando os valores do DataFrame como array](#acessando-os-valores-do-dataframe-como-array)
4. [Contando a ocorrência de valores em uma coluna](#contando-a-ocorrência-de-valores-em-uma-coluna)
5. [Adicionando uma nova coluna com valores NaN](#adicionando-uma-nova-coluna-com-valores-nan)
6. [Transpondo o DataFrame (linhas viram colunas e vice-versa)](#transpondo-o-dataframe-linhas-viram-colunas-e-vice-versa)
7. [Renomeando uma coluna](#renomeando-uma-coluna)
8. [Renomeando uma coluna e salvando as alterações](#renomeando-uma-coluna-e-salvando-as-alterações)
9. [Criando uma nova coluna baseada em outra coluna](#criando-uma-nova-coluna-baseada-em-outra-coluna)
10. [Descrevendo estatísticas do DataFrame](#descrevendo-estatísticas-do-dataframe)
11. [Somando os valores por coluna](#somando-os-valores-por-coluna)
12. [Somando os valores por linha](#somando-os-valores-por-linha)
13. [Calculando a média, mediana, mínimo e máximo](#calculando-a-média-mediana-mínimo-e-máximo)
14. [Verificando valores nulos no DataFrame](#verificando-valores-nulos-no-dataframe)


# Criando um DataFrame a partir de um array

In [120]:
array1 = np.array([[0,1,2],[3,4,5]])
array1

array([[0, 1, 2],
       [3, 4, 5]])

In [121]:
dataframe1 = pd.DataFrame(array1, columns=['col1','col2','col3'])

# Exibindo o DataFrame

dataframe1

Unnamed: 0,col1,col2,col3
0,0,1,2
1,3,4,5


# Criando um DataFrame a partir de um dicionário

In [122]:
pop_data = {'Flamengo': [56,72,90,71, 71],
        'Palmeiras': [63, 80,74,58,66],
        'Corinthians': [72, 44,56,51,57]}

futebol = pd.DataFrame(pop_data, index=[2017,2018,2019,2020,2021])
futebol

Unnamed: 0,Flamengo,Palmeiras,Corinthians
2017,56,63,72
2018,72,80,44
2019,90,74,56
2020,71,58,51
2021,71,66,57


# Acessando uma coluna específica

In [123]:
futebol['Flamengo']

2017    56
2018    72
2019    90
2020    71
2021    71
Name: Flamengo, dtype: int64

# Acessando os valores do DataFrame como array

In [124]:
futebol.values

array([[56, 63, 72],
       [72, 80, 44],
       [90, 74, 56],
       [71, 58, 51],
       [71, 66, 57]], dtype=int64)

In [125]:
futebol['Flamengo'].values

array([56, 72, 90, 71, 71], dtype=int64)


# Contando a ocorrência de valores em uma coluna

In [126]:
futebol['Flamengo'].value_counts()

71    2
56    1
72    1
90    1
Name: Flamengo, dtype: int64

# Adicionando uma nova coluna com valores NaN

In [127]:
futebol['nova'] = np.NaN
futebol

Unnamed: 0,Flamengo,Palmeiras,Corinthians,nova
2017,56,63,72,
2018,72,80,44,
2019,90,74,56,
2020,71,58,51,
2021,71,66,57,


# Transpondo o DataFrame (linhas viram colunas e vice-versa)

In [128]:
futebol.T

Unnamed: 0,2017,2018,2019,2020,2021
Flamengo,56.0,72.0,90.0,71.0,71.0
Palmeiras,63.0,80.0,74.0,58.0,66.0
Corinthians,72.0,44.0,56.0,51.0,57.0
nova,,,,,


# Renomeando uma coluna

In [129]:
futebol.rename(columns={'nova':'CAM'})

Unnamed: 0,Flamengo,Palmeiras,Corinthians,CAM
2017,56,63,72,
2018,72,80,44,
2019,90,74,56,
2020,71,58,51,
2021,71,66,57,


Esses dados nao vao ser salvos >>

In [130]:
futebol

Unnamed: 0,Flamengo,Palmeiras,Corinthians,nova
2017,56,63,72,
2018,72,80,44,
2019,90,74,56,
2020,71,58,51,
2021,71,66,57,


# Renomeando uma coluna e salvando as alterações

In [131]:
futebol = futebol.rename(columns={'nova':'CAM'})
futebol

Unnamed: 0,Flamengo,Palmeiras,Corinthians,CAM
2017,56,63,72,
2018,72,80,44,
2019,90,74,56,
2020,71,58,51,
2021,71,66,57,


## Outra Forma

In [132]:
futebol.rename(columns={'CAM':'Atletico'}, inplace=True)
futebol

Unnamed: 0,Flamengo,Palmeiras,Corinthians,Atletico
2017,56,63,72,
2018,72,80,44,
2019,90,74,56,
2020,71,58,51,
2021,71,66,57,


# Criando uma nova coluna baseada em outra coluna

In [133]:
futebol['Flamengo2'] = futebol['Flamengo']*2
futebol

Unnamed: 0,Flamengo,Palmeiras,Corinthians,Atletico,Flamengo2
2017,56,63,72,,112
2018,72,80,44,,144
2019,90,74,56,,180
2020,71,58,51,,142
2021,71,66,57,,142


# Descrevendo estatísticas do DataFrame

In [134]:
futebol.describe()

Unnamed: 0,Flamengo,Palmeiras,Corinthians,Atletico,Flamengo2
count,5.0,5.0,5.0,0.0,5.0
mean,72.0,68.2,56.0,,144.0
std,12.062338,8.786353,10.319884,,24.124676
min,56.0,58.0,44.0,,112.0
25%,71.0,63.0,51.0,,142.0
50%,71.0,66.0,56.0,,142.0
75%,72.0,74.0,57.0,,144.0
max,90.0,80.0,72.0,,180.0


# Somando os valores por coluna

In [135]:
futebol.sum()

Flamengo       360.0
Palmeiras      341.0
Corinthians    280.0
Atletico         0.0
Flamengo2      720.0
dtype: float64

# Somando os valores por linha

In [136]:
futebol.sum(axis='columns')

2017    303.0
2018    340.0
2019    400.0
2020    322.0
2021    336.0
dtype: float64

# Calculando a média, mediana, mínimo e máximo

### Média

In [137]:
futebol.mean()

Flamengo        72.0
Palmeiras       68.2
Corinthians     56.0
Atletico         NaN
Flamengo2      144.0
dtype: float64

### Mediana

In [138]:
futebol.median()

Flamengo        71.0
Palmeiras       66.0
Corinthians     56.0
Atletico         NaN
Flamengo2      142.0
dtype: float64

### Mínimo

In [139]:
futebol.min()

Flamengo        56.0
Palmeiras       58.0
Corinthians     44.0
Atletico         NaN
Flamengo2      112.0
dtype: float64

### Maximo

In [140]:
futebol.max()

Flamengo        90.0
Palmeiras       80.0
Corinthians     72.0
Atletico         NaN
Flamengo2      180.0
dtype: float64

# Verificando valores nulos no DataFrame

In [141]:
futebol.isnull()

Unnamed: 0,Flamengo,Palmeiras,Corinthians,Atletico,Flamengo2
2017,False,False,False,True,False
2018,False,False,False,True,False
2019,False,False,False,True,False
2020,False,False,False,True,False
2021,False,False,False,True,False


### Criar um DataFrame com duas linhas e duas colunas de valores inteiros; (1,2,3,4) colunas 1 e coluna 2 como rótulo de coluna

- Depois de criado, atualizar os valores da primeira coluna multiplicando os valores existentes por 2”;

- Criar uma nova coluna com todos os valores nulos.

In [142]:
pop_data = {'col1': [1,2,3,4],
        'col2': [1,2,3,4]}

data = pd.DataFrame(pop_data)
data

Unnamed: 0,col1,col2
0,1,1
1,2,2
2,3,3
3,4,4


In [143]:
data['col1'] = data['col1']*2
data

Unnamed: 0,col1,col2
0,2,1
1,4,2
2,6,3
3,8,4


In [144]:
data['col3'] = np.NaN
data

Unnamed: 0,col1,col2,col3
0,2,1,
1,4,2,
2,6,3,
3,8,4,


In [145]:
futebol['nova'] = np.NaN

In [146]:
futebol.drop(["nova"], axis=1, inplace=True)
futebol

Unnamed: 0,Flamengo,Palmeiras,Corinthians,Atletico,Flamengo2
2017,56,63,72,,112
2018,72,80,44,,144
2019,90,74,56,,180
2020,71,58,51,,142
2021,71,66,57,,142


### Matrizes

In [147]:
notas_data = {'Matematica': [6,5,5],
        'Fisisca': [4,7,6],
        'Quimica':[5,5,7],
        'Biologia':[8,5,4]}

nota = pd.DataFrame(notas_data, index= ["Ana","João", "Marcelo"])
nota

Unnamed: 0,Matematica,Fisisca,Quimica,Biologia
Ana,6,4,5,8
João,5,7,5,5
Marcelo,5,6,7,4


In [148]:
import pandas as pd
import numpy as np

notas_data = {'Matemática': [6,5,5],
              'Física': [4,7,6],
              'Quimica': [5,5,7],
              'Biologia': [8,5,4]}

nota = pd.DataFrame(notas_data, index = ['Ana','Antônio', 'Beatriz'])
nota

import pandas as pd
import numpy as np

notas_data = {'Matemática': [6, 5, 5],
              'Física': [4, 7, 6],
              'Química': [5, 5, 7],
              'Biologia': [8, 5, 4]}

nota = pd.DataFrame(notas_data, index=['Ana', 'Antônio', 'Beatriz'])

# Calcular a média ao longo das linhas (axis=1)
nota['Média'] = nota.mean(axis=1)

# Calcular a média geral de todas as notas na tabela
media_geral_turma = nota.values.mean()

# Exibir a nova tabela com as médias das notas, a média geral da turma e a média geral de todas as notas
print(nota)
print("\nMédia Geral da Turma:", media_geral_turma)

         Matemática  Física  Química  Biologia  Média
Ana               6       4        5         8   5.75
Antônio           5       7        5         5   5.50
Beatriz           5       6        7         4   5.50

Média Geral da Turma: 5.583333333333333
