#  Pandas 

<img src="https://pandas.pydata.org/docs/_static/pandas.svg" alt=" " class="bg-primary mb-1" width="200px">
 

A documentação do pacote Pandas se encontra disponível em: [https://pandas.pydata.org/docs/](https://pandas.pydata.org/docs/) .
<!-- 

$
1+2
$

\begin{gather*}
a_1=b_1+c_1\\
a_2=b_2+c_2-d_2+e_2
\end{gather*}

\begin{align}
a_{11}& =b_{11}&
  a_{12}& =b_{12}\\
a_{21}& =b_{21}&
  a_{22}& =b_{22}+c_{22}
\end{align}
  -->



```{contents} 
```

## Criação de dois dataframes para aplicação das ferramentas do Pandas

Serão criados dois dataframes com notas de alunos em algumas disciplinas em meses do ano de 2023. Os nomes dos alunos são gerados aleatoriamente, bem como suas as notas. Se você não tiver disposto a seguir o processo de geração das bases de dados, pule para a próxima seção, onde os dataframes serão lidos de arquivos e usados para treinar o uso das ferramentas do Pandas. 

In [1]:
# importação do pandas
import pandas as pd
# versão
pd.__version__ 

'1.4.2'

In [2]:
df_1 = pd.DataFrame(columns=['aluno', 'identificacao', 'mes',   'nota matematica', 'nota fisica'])
df_2 = pd.DataFrame(columns=[          'identificacao',  'turma', 'mes','nota geografia', 'nota historia']) 
# O dataframe 2 não possui nome do aluno, somente identificação

In [3]:
# ! pip install names_generator
 # instala pacote que gera nomes aleatórios

In [4]:
from names_generator import generate_name

# guarda lista de 40 nomes gerados aleatoriamente
list_names = []
for i in range(40): 
    list_names.append(generate_name(style='capital', seed=i)) 

In [5]:
# mostrando os 5 primeiros nomes
list_names[0:5]

['Hopeful Sanderson',
 'Competent Mayer',
 'Beautiful Bohr',
 'Elegant Mendel',
 'Elegant Gagarin']

In [6]:
# atribuindo nomes gerados aos alunos do dataframe 1
df_1['aluno'] = list_names

In [7]:
# 5 primeiras linhas do dataframe 1
df_1.head()

Unnamed: 0,aluno,identificacao,mes,nota matematica,nota fisica
0,Hopeful Sanderson,,,,
1,Competent Mayer,,,,
2,Beautiful Bohr,,,,
3,Elegant Mendel,,,,
4,Elegant Gagarin,,,,


In [8]:
# o número de identificação dos alunos também será escolhido aleatoriamente com o pacote numpy
import numpy as np
# semente randômica para reproduzir lista
np.random.seed(0)

# lista de numéros aleatórios do tamanho do dataframe 1 (sem haver repetição) 
df_1['identificacao'] = np.random.choice(range(1200,1500), size=len(df_1), replace=False)

# a mesma lista é atribuída para o dataframe 2
df_2['identificacao'] = df_1['identificacao'] 

In [9]:
# turma escolhida entre A e B com 50% de alunos em cada
df_2['turma'] = int(len(df_2)/2)*['A'] + int(len(df_2)/2)*['B'] # preenche a primeira metade de valores como turma A e segunda metade com turma B 
df_2['turma'].describe() 


count     40
unique     2
top        A
freq      20
Name: turma, dtype: object

In [10]:
# definiremos os meses (de aula) de fevereiro a novembro do ano de 2023, assim cada aluno terá uma nota por disciplina em cada mês

meses = pd.date_range(start = '2023-02-01', end = '2023-10-01').to_period('M').unique() 

df1 = pd.DataFrame() # novos dataframes com os meses de 2023
df2 = pd.DataFrame()

for mes in meses:
    df_1_aux = df_1.copy() # dataframe auxiliar para guardar o original
    df_1_aux['mes'] = mes
    df_2_aux = df_2.copy() 
    df_2_aux['mes'] = mes
    df1 = pd.concat([df1, df_1_aux])
    df2 = pd.concat([df2, df_2_aux])

In [11]:
# Atribuiremos notas aleatórias nos dois dataframes onde, alguns valores, intencionalmente serão deixados como nulos.

# definindo uma lista de disciplinas para simplificar
disciplinas = ['fisica','matematica', 'geografia','historia']

for id in df1['identificacao'].unique():
    for disciplina in disciplinas:
        if np.random.random() < 0.95:   # em 95% atribui nota, em 5% as notas serão valores nulos
            
            if disciplina in ['fisica','matematica']:
                df1.loc[df1['identificacao']==id, 'nota '+disciplina]  = round((np.random.uniform(0,10)),1) # float com uma casa decimal
            else:
                df2.loc[df2['identificacao']==id, 'nota '+disciplina]  = round((np.random.uniform(0,10)),1)    

In [12]:
# dataframes finais
display(df1)
display(df2)

Unnamed: 0,aluno,identificacao,mes,nota matematica,nota fisica
0,Hopeful Sanderson,1408,2023-02,1.8,7.0
1,Competent Mayer,1388,2023-02,,9.0
2,Beautiful Bohr,1212,2023-02,5.9,3.2
3,Elegant Mendel,1421,2023-02,,1.9
4,Elegant Gagarin,1439,2023-02,0.3,2.1
...,...,...,...,...,...
35,Nostalgic Goldstine,1350,2023-10,8.4,4.5
36,Gifted Bassi,1376,2023-10,7.0,9.4
37,Silly Merkle,1382,2023-10,1.5,0.7
38,Relaxed Hypatia,1499,2023-10,2.7,9.7


Unnamed: 0,identificacao,turma,mes,nota geografia,nota historia
0,1408,A,2023-02,0.7,4.5
1,1388,A,2023-02,6.6,0.2
2,1212,A,2023-02,6.3,2.7
3,1421,A,2023-02,2.2,7.3
4,1439,A,2023-02,4.2,4.6
...,...,...,...,...,...
35,1350,B,2023-10,5.0,6.3
36,1376,B,2023-10,,
37,1382,B,2023-10,1.3,3.8
38,1499,B,2023-10,9.0,5.5


## Ferramentas básicas de manipulação de dataframes

In [13]:
# mostrar nome de todas as colunas de df1
print(df1.columns.values)
#ou
df1.columns.tolist()

['aluno' 'identificacao' 'mes' 'nota matematica' 'nota fisica']


['aluno', 'identificacao', 'mes', 'nota matematica', 'nota fisica']

In [14]:
# ver quantidade maxima de linhas e colunas que são exibidas por padrão
qtd_cols_padrao = pd.options.display.max_columns
qtd_rows_padrao = pd.options.display.max_rows
print('quantidade máxima de linhas exibidas por padrão: '+str(qtd_rows_padrao))
print('quantidade máxima de colunas exibidas por padrão: '+str(qtd_cols_padrao))

# configurar o pandas para mostrar todas as colunas em todos os dataframes
pd.set_option('display.max_columns', 900)
# ou
# pd.options.display.max_columns = None

# retornar o padrão à quantidade inicial
# pd.options.display.max_columns = qtd_cols_padrao
pd.set_option('display.max_columns', qtd_cols_padrao)

quantidade máxima de linhas exibidas por padrão: 60
quantidade máxima de colunas exibidas por padrão: 20


In [15]:
# mostrar todas as linhas por padrão
pd.set_option('display.max_rows', 900)
# ou
# pd.options.display.max_rows = 900

# retornar o padrão à quantidade inicial
# pd.options.display.max_columns = qtd_rows_padrao
pd.set_option('display.max_rows', qtd_rows_padrao)

## Ferramentas de análise descritiva