## Técnicas de Programação I - Introdução Pandas

Na aula de hoje iremos explorar os seguintes tópicos:

- Pandas


### 1) Pandas

O **[Pandas](https://pandas.pydata.org/)** é uma das bibliotecas mais usadas em data science.

Esta biblioteca, construída a partir do Numpy, possibilita a estruturação e manipulação de dados de maneira simples e eficiente.

Comos os dados são a matéria prima de todo projeto de data science, manipulá-los é fundamental! Por isso, utilizaremos o Pandas em quase todas as aulas daqui pra frente!

### DataFrame

O objeto do Pandas que mais utilizaremos será o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

### Lendo dados de um arquivo

A forma mais comum de se construir um dataframe é a partir da **leitura de um arquivo**

Em geral, queremos ler arquivos já estruturados como base de dados, em formatos como .csv, .txt, .xlsx, etc.

O pandas é capaz de ler todos esses formatos, com funções específicas!

### 1. Faça um programa que imprima as linhas do arquivo alunos.csv

In [None]:
import pandas as pd

In [None]:
# Carregando o arquivo alunos.csv
df = pd.read_csv("./alunos.csv", sep=';')

In [None]:
# Visualizando a tabela
df

In [None]:
print(df)

In [None]:
# Pegando o nome das colunas
for col in df:
    print(col)

In [None]:
# Esse comportamento é semelhante ao dicionário!
dc = {
    "key1": 1,
    'key2': 2,
    'key3': 3
}

for key in dc:
  print(key)

In [None]:
# Armazenando o nome das colunas em uma lista
cols = []
for col in df:
    print(col)
    cols.append(col)

In [None]:
# Pegando as colunas do DataFrame
print(df.columns)
print(type(df.columns))
print('-'*32)
print(list(df.columns))
print('-'*32)
print((df.columns.tolist()))

In [None]:
# Acessando os primeiros `n` elementos
df.head(3)

In [None]:
df.head(5)

In [None]:
# Acessando os `n` últimos elementos
df.tail(3)

**Drops**

Imagine que você trabalhe num restaurante. Durante o dia, diversas gorjetas são pagas pelas pessoas clientes. No restaurante, você decide compreender o comportamento das pessoas clientes, que são as boas pagadoras de gorjeta e quem paga menos, quais os melhores dias e turnos que essas ocorrem.

Primeiramente precisamos realizar o carregamento do arquivo e observar quais valores temos, portanto:
- Leia o arquivo `tips`.
- Mostre as 10 primeiras linhas do dataframe
- Mostre as 7 últimas linhas do dataframe


In [None]:
# Note que a variável df é do tipo DataFrame
type(df)

In [None]:
# Selecionando uma coluna específica
df['Frequencia']

In [None]:
# Podemos pegar diversas colunas ao mesmo tempo
df[['Frequencia', 'Prova_1', 'RA']]

In [None]:
# Assim como no numpu podemos acessar as dimensões da tabela utilizando shape
df.shape

In [None]:
n_linhas, n_colunas = df.shape
print(f'''
O dataframe tem:
{n_linhas} linhas
{n_colunas} colunas''')

In [None]:
df['RA'].shape

In [None]:
# Pegando linhas específicas
# Primeira linha
df.loc[0]

In [None]:
df.loc[0].shape

In [None]:
# Parece um dicionário
# As chaves são o nome das colunas.
df.loc[0].values

In [None]:
# Pegando a primeira linha e uma coluna específica
df.loc[0, 'Nome']

## Faça um programa que imprima as linhas do arquivo alunos.csv como listas

In [None]:
# Utilizando o range
for i in range(df.shape[0]):
    print(df.loc[i].values.tolist())

In [None]:
# Utilizando o `iterrows`
# Permite iterar linha a linha
# Note que temos dois valores, o primeiro referente ao index
# O segundo ao valor da linha
for i, linha in df.iterrows():
    print(i, linha.values.tolist())

In [None]:
for i, linha in df.iterrows():
    # Utilizando compreensão de lista para converter o valor da célula em string!
    lista_valores = [str(valor) for valor in linha.values.tolist()]
    
    # Utilizando a conversão de tipos do numpy
    lista_valores = linha.values.astype('str')
    print('\t'.join(lista_valores))
    

##  Faça um programa que imprima os elementos da coluna ‘Nome’ do arquivo alunos.csv.

In [None]:
# Primeira opção
display(df['Nome'])
print('-'*32)
display(df['Nome'][3:5])

In [None]:
# Melhor forma, utilizando `loc`
df.loc[3:4, 'Nome']

In [None]:
# Iterando sobre os valores da coluna nome
for nome in df['Nome'].values:
    print(nome)

## Faça um programa que copie os dados do arquivo alunos.csv para um arquivo chamado alunos2.csv

In [None]:
df.to_csv('./alunos2.csv')

In [None]:
df.to_csv('./alunos2_sep.csv', sep=';', index=None)

In [None]:
# Salvando em excel
df.to_excel('./alunos2.xlsx', index=None)

## Faça um programa que imprima o nome e a média de cada um dos alunos do arquivo alunos.csv


In [None]:
df[['Prova_1']]

In [None]:
df[['Prova_1', 'Prova_2', 'Prova_3', 'Prova_4']]

In [None]:
df

In [None]:
coluna_provas = [col for col in df.columns if 'Prova' in col]

In [None]:
coluna_provas

In [None]:
df[coluna_provas]

In [None]:
df[coluna_provas].mean()

In [None]:
df[coluna_provas].mean(axis=1)

In [None]:
df

In [None]:
# Adicionando uma nova coluna
df['Media'] = df[coluna_provas].mean(axis=1)

In [None]:
df

In [None]:
for i, linha in df[['Nome', 'Media']].iterrows():
    nome = linha.Nome
    media = linha.Media
    print('\t'.join([str(x) for x in [nome, media]]))

In [None]:
# Podemos acessar uma coluna do DataFrame com .<coluna>
df.Nome

In [None]:
df['Nome']

## Faça um programa que crie um arquivo media.csv e guarde o RA
(registro do aluno) junto com a respectiva média de cada um dos
alunos no arquivo alunos.csv.

In [None]:
df2 = df[['Nome', 'Media']]
display(df2)

In [None]:
# Ordenando os valores
df2.sort_values('Media')

In [None]:
df2

In [None]:
df2 = df2.sort_values('Media')

In [None]:
df2

In [None]:
df[['RA', 'Media']].to_csv('./media.csv', index=None)

**Drops**

Utilizando o dado `tips.csv`.

Gere a média, mediana e o desvio padrão das colunas:
- `total_bill`
- `tip`
- `size`


In [None]:
tips = pd.read_csv('tips.csv')

In [None]:
tips