## Técnicas de Programação I - Introdução Pandas

Na aula de hoje iremos explorar os seguintes tópicos:

- Pandas


### 1) Pandas

O **[Pandas](https://pandas.pydata.org/)** é uma das bibliotecas mais usadas em data science.

Esta biblioteca, construída a partir do Numpy, possibilita a estruturação e manipulação de dados de maneira simples e eficiente.

Comos os dados são a matéria prima de todo projeto de data science, manipulá-los é fundamental! Por isso, utilizaremos o Pandas em quase todas as aulas daqui pra frente!

### DataFrame

O objeto do Pandas que mais utilizaremos será o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

### Lendo dados de um arquivo

A forma mais comum de se construir um dataframe é a partir da **leitura de um arquivo**

Em geral, queremos ler arquivos já estruturados como base de dados, em formatos como .csv, .txt, .xlsx, etc.

O pandas é capaz de ler todos esses formatos, com funções específicas!

### 1. Faça um programa que imprima as linhas do arquivo alunos.csv

In [1]:
import pandas as pd

In [3]:
# Carregando o arquivo alunos.csv
# O separador das colunas não é virgula `,` e sim `;`
df = pd.read_csv('./alunos.csv', sep=';')

In [4]:
# Visualizando a tabela
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


In [5]:
print(df)

       RA             Nome  Frequencia  Prova_1  Prova_2  Prova_3  Prova_4
0  110201   Antonio Carlos          20      6.5      8.5      7.0        6
1  110212      Ana Beatriz          20      7.0      7.0      7.0        8
2  110218    Carlos Vernes          17      7.0      7.0      7.0        7
3  110307  Francisco Cunha          20      9.0      8.5      8.5       10
4  110275      Sandra Rosa          15      6.5      7.5      7.0        7
5  110281   Juliana Arruda          18      7.5      7.0      7.5        8
6  110301        Joao Galo          20      5.0      6.5      7.0        5
7  110263     José Valente          20     10.0     10.0     10.0       10
8  110271   Maria Ferreira          19      9.5      8.0      7.0       10
9  110236  Adriana Tavares          20      8.0      8.0      8.0        8


In [6]:
# Somente jupyter
# Permite que seja imprimido o DataFrame com um visual bonito
display(df)

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


In [7]:
# Pegando o nome das colunas
# Para cada coluna dentro do DataFrame, imprima a coluna
for col in df:
  print(col)

RA
Nome
Frequencia
Prova_1
Prova_2
Prova_3
Prova_4


In [8]:
# Esse comportamento é semelhante ao dicionário!

dc = {
    'key1': 1,
    'key2': 2,
    'key3': 3
}
for key in dc:
  print(key)

key1
key2
key3


In [9]:
# Armazendo o nome das colunas em uma lista
cols = []
for col in df:
  print(col)
  cols.append(col)

RA
Nome
Frequencia
Prova_1
Prova_2
Prova_3
Prova_4


In [10]:
cols

['RA', 'Nome', 'Frequencia', 'Prova_1', 'Prova_2', 'Prova_3', 'Prova_4']

In [11]:
# Pegando as colunas do DataFrame
print(df.columns)
print(type(df.columns))
print('-'*32)
print('lista col', list(df.columns))
print('-'*32)
print('lista col', df.columns.tolist())  # Transformando o Index (que é um np.array) em lista
print('-'*32)
print('lista col', df.keys().tolist())  # Transformando o Index (que é um np.array) em lista


Index(['RA', 'Nome', 'Frequencia', 'Prova_1', 'Prova_2', 'Prova_3', 'Prova_4'], dtype='object')
<class 'pandas.core.indexes.base.Index'>
--------------------------------
lista col ['RA', 'Nome', 'Frequencia', 'Prova_1', 'Prova_2', 'Prova_3', 'Prova_4']
--------------------------------
lista col ['RA', 'Nome', 'Frequencia', 'Prova_1', 'Prova_2', 'Prova_3', 'Prova_4']
--------------------------------
lista col ['RA', 'Nome', 'Frequencia', 'Prova_1', 'Prova_2', 'Prova_3', 'Prova_4']


In [12]:
# Acessando os primeiros `n` elementos
df.head(3)

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7


In [13]:
df.head(5)

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7


In [14]:
# Acessando os `n` últimos elementos
df.tail(3)

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


**Drops**

Imagine que você trabalhe num restaurante. Durante o dia, diversas gorjetas são pagas pelas pessoas clientes. No restaurante, você decide compreender o comportamento das pessoas clientes, que são as boas pagadoras de gorjeta e quem paga menos, quais os melhores dias e turnos que essas ocorrem.

Primeiramente precisamos realizar o carregamento do arquivo e observar quais valores temos, portanto:
- Leia o arquivo `tips`.
- Mostre as 10 primeiras linhas do dataframe
- Mostre as 7 últimas linhas do dataframe


In [15]:
# Lendo o arquivo tips e o separador de coluna é `,`
df_tips = pd.read_csv('tips.csv', sep=',')
display(df_tips.head(10))
df_tips.tail(7)

Unnamed: 0.1,Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,0,16.99,1.01,Female,No,Sun,Dinner,2
1,1,10.34,1.66,Male,No,Sun,Dinner,3
2,2,21.01,3.5,Male,No,Sun,Dinner,3
3,3,23.68,3.31,Male,No,Sun,Dinner,2
4,4,24.59,3.61,Female,No,Sun,Dinner,4
5,5,25.29,4.71,Male,No,Sun,Dinner,4
6,6,8.77,2.0,Male,No,Sun,Dinner,2
7,7,26.88,3.12,Male,No,Sun,Dinner,4
8,8,15.04,1.96,Male,No,Sun,Dinner,2
9,9,14.78,3.23,Male,No,Sun,Dinner,2


Unnamed: 0.1,Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
237,237,32.83,1.17,Male,Yes,Sat,Dinner,2
238,238,35.83,4.67,Female,No,Sat,Dinner,3
239,239,29.03,5.92,Male,No,Sat,Dinner,3
240,240,27.18,2.0,Female,Yes,Sat,Dinner,2
241,241,22.67,2.0,Male,Yes,Sat,Dinner,2
242,242,17.82,1.75,Male,No,Sat,Dinner,2
243,243,18.78,3.0,Female,No,Thur,Dinner,2


In [16]:
# A variável df é do tipo DataFrame
type(df)

pandas.core.frame.DataFrame

In [17]:
# Selecionando uma coluna
# Uma série
display(df['Frequencia'])
# Retornando um DataFrame
display(df[['Frequencia']])

0    20
1    20
2    17
3    20
4    15
5    18
6    20
7    20
8    19
9    20
Name: Frequencia, dtype: int64

Unnamed: 0,Frequencia
0,20
1,20
2,17
3,20
4,15
5,18
6,20
7,20
8,19
9,20


In [18]:
df.head(1)

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6


In [19]:
df.columns

Index(['RA', 'Nome', 'Frequencia', 'Prova_1', 'Prova_2', 'Prova_3', 'Prova_4'], dtype='object')

In [20]:
# Podemos pegar diversas colunas ao mesmo tempo
df2 = df[['Frequencia', 'Prova_1', 'RA']]
df2

Unnamed: 0,Frequencia,Prova_1,RA
0,20,6.5,110201
1,20,7.0,110212
2,17,7.0,110218
3,20,9.0,110307
4,15,6.5,110275
5,18,7.5,110281
6,20,5.0,110301
7,20,10.0,110263
8,19,9.5,110271
9,20,8.0,110236


In [21]:
# Podemos pegar diversas colunas ao mesmo tempo
# Passando uma variável que contem uma lista com os nomes das colunas
colunas_selecionadas = ['Frequencia', 'Prova_1', 'RA']
df3 = df[colunas_selecionadas]
df3

Unnamed: 0,Frequencia,Prova_1,RA
0,20,6.5,110201
1,20,7.0,110212
2,17,7.0,110218
3,20,9.0,110307
4,15,6.5,110275
5,18,7.5,110281
6,20,5.0,110301
7,20,10.0,110263
8,19,9.5,110271
9,20,8.0,110236


In [22]:
# Assim como no numpy podemos acessar as dimensões da tabela
# utilizando shape
# 10 linhas e 7 colunas
# O DataFrame é uma matriz bidimensional
df.shape

(10, 7)

In [23]:
n_linhas, n_cols = df.shape
print(f'''
O Dataframe tem:
{n_linhas} linhas
{n_cols} colunas''')


O Dataframe tem:
10 linhas
7 colunas


In [24]:
# Uma série é na verdade um array unidimensional (vetor)!
df['RA'].shape

(10,)

In [25]:
# Pegando uma linha específica
# Primeira linha
df.loc[0]

RA                    110201
Nome          Antonio Carlos
Frequencia                20
Prova_1                  6.5
Prova_2                  8.5
Prova_3                  7.0
Prova_4                    6
Name: 0, dtype: object

In [26]:
# Uma série (vetor), porém temos os nomes dos indices
df.loc[0].shape

(7,)

In [27]:
# Parece um dicionário
# Conseguimos pegar os valores da linha com values
df.loc[0].values

array([110201, 'Antonio Carlos', 20, 6.5, 8.5, 7.0, 6], dtype=object)

In [28]:
# Pegando a primeira linha e uma coluna específica
df.loc[0:3, 'Nome']

0     Antonio Carlos
1        Ana Beatriz
2      Carlos Vernes
3    Francisco Cunha
Name: Nome, dtype: object

## Faça um programa que imprima as linhas do arquivo alunos.csv como listas

In [29]:
# Utilizando o range
for i in range(df.shape[0]):
  print('Linha', i+1)
  print(df.loc[i].values.tolist())

Linha 1
[110201, 'Antonio Carlos', 20, 6.5, 8.5, 7.0, 6]
Linha 2
[110212, 'Ana Beatriz', 20, 7.0, 7.0, 7.0, 8]
Linha 3
[110218, 'Carlos Vernes', 17, 7.0, 7.0, 7.0, 7]
Linha 4
[110307, 'Francisco Cunha', 20, 9.0, 8.5, 8.5, 10]
Linha 5
[110275, 'Sandra Rosa', 15, 6.5, 7.5, 7.0, 7]
Linha 6
[110281, 'Juliana Arruda', 18, 7.5, 7.0, 7.5, 8]
Linha 7
[110301, 'Joao Galo', 20, 5.0, 6.5, 7.0, 5]
Linha 8
[110263, 'José Valente', 20, 10.0, 10.0, 10.0, 10]
Linha 9
[110271, 'Maria Ferreira', 19, 9.5, 8.0, 7.0, 10]
Linha 10
[110236, 'Adriana Tavares', 20, 8.0, 8.0, 8.0, 8]


In [30]:
# Utilizando o `iterrows`
# Permite iterar linha a linha

for i, linha in df.iterrows():
  print(i, linha.values.tolist())

0 [110201, 'Antonio Carlos', 20, 6.5, 8.5, 7.0, 6]
1 [110212, 'Ana Beatriz', 20, 7.0, 7.0, 7.0, 8]
2 [110218, 'Carlos Vernes', 17, 7.0, 7.0, 7.0, 7]
3 [110307, 'Francisco Cunha', 20, 9.0, 8.5, 8.5, 10]
4 [110275, 'Sandra Rosa', 15, 6.5, 7.5, 7.0, 7]
5 [110281, 'Juliana Arruda', 18, 7.5, 7.0, 7.5, 8]
6 [110301, 'Joao Galo', 20, 5.0, 6.5, 7.0, 5]
7 [110263, 'José Valente', 20, 10.0, 10.0, 10.0, 10]
8 [110271, 'Maria Ferreira', 19, 9.5, 8.0, 7.0, 10]
9 [110236, 'Adriana Tavares', 20, 8.0, 8.0, 8.0, 8]


In [31]:
# Utilizando o `iterrows`
# Permite iterar linha a linha

for i, linha in df.iterrows():
  # Utilizando compreensões de lista para converter o valor
  # da célula em string!
  lista_valores = [str(valor) for valor in linha.values]

  # Utilizando a conversão de tipos do numpy
  lista_valores = linha.values.astype('str') # Coloca `str` para converter em string cada campo
  print(i, lista_valores)

0 ['110201' 'Antonio Carlos' '20' '6.5' '8.5' '7.0' '6']
1 ['110212' 'Ana Beatriz' '20' '7.0' '7.0' '7.0' '8']
2 ['110218' 'Carlos Vernes' '17' '7.0' '7.0' '7.0' '7']
3 ['110307' 'Francisco Cunha' '20' '9.0' '8.5' '8.5' '10']
4 ['110275' 'Sandra Rosa' '15' '6.5' '7.5' '7.0' '7']
5 ['110281' 'Juliana Arruda' '18' '7.5' '7.0' '7.5' '8']
6 ['110301' 'Joao Galo' '20' '5.0' '6.5' '7.0' '5']
7 ['110263' 'José Valente' '20' '10.0' '10.0' '10.0' '10']
8 ['110271' 'Maria Ferreira' '19' '9.5' '8.0' '7.0' '10']
9 ['110236' 'Adriana Tavares' '20' '8.0' '8.0' '8.0' '8']


##  Faça um programa que imprima os elementos da coluna ‘Nome’ do arquivo alunos.csv.

In [32]:
# Primeira opção
display(df['Nome'])
print('-'*32)
display(df['Nome'][3:5])

0     Antonio Carlos
1        Ana Beatriz
2      Carlos Vernes
3    Francisco Cunha
4        Sandra Rosa
5     Juliana Arruda
6          Joao Galo
7       José Valente
8     Maria Ferreira
9    Adriana Tavares
Name: Nome, dtype: object

--------------------------------


3    Francisco Cunha
4        Sandra Rosa
Name: Nome, dtype: object

In [33]:
# Melhor forma, utilizando o `loc`
df.loc[3:4, 'Nome'] # O loc é inclusivo, pega o 3 e 4

3    Francisco Cunha
4        Sandra Rosa
Name: Nome, dtype: object

In [34]:
# Iterando sobre os valores da coluna nome
for nome in df['Nome']:
  print(nome)

Antonio Carlos
Ana Beatriz
Carlos Vernes
Francisco Cunha
Sandra Rosa
Juliana Arruda
Joao Galo
José Valente
Maria Ferreira
Adriana Tavares


In [35]:
# Iterando sobre os valores da coluna nome, com values
for nome in df['Nome'].values:
  print(nome)

Antonio Carlos
Ana Beatriz
Carlos Vernes
Francisco Cunha
Sandra Rosa
Juliana Arruda
Joao Galo
José Valente
Maria Ferreira
Adriana Tavares


## Faça um programa que copie os dados do arquivo alunos.csv para um arquivo chamado alunos2.csv

In [36]:
df.to_csv('./alunos2.csv')

In [37]:
df.to_csv('./dados/alunos2_sep.csv', sep=';')

FileNotFoundError: ignored

In [38]:
df.head(1)

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6


In [39]:
df2 = df[['Nome', 'Prova_1', 'Prova_2']]
df2.head(1)

Unnamed: 0,Nome,Prova_1,Prova_2
0,Antonio Carlos,6.5,8.5


In [40]:
df2.to_csv('./alunos_filtrados.csv')

In [41]:
df.to_excel('./alunos2.xlsx')

In [42]:
# `index=None` remove a coluna de indices
df.to_excel('./alunos2_sem_indice.xlsx', index=None)

#### Lendo arquivos
- [Excel](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html)
- [CSV](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)
- [HTML](https://pandas.pydata.org/docs/reference/api/pandas.read_html.html)
- [Outros (procure por `from_<nome>`)](https://pandas.pydata.org/docs/reference/io.html)

#### Escrevendo arquivos
- [Excel](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_excel.html)
- [CSV](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html)
- [Outros (procure por `to_<nome>`)](https://pandas.pydata.org/docs/reference/io.html)

## Faça um programa que imprima o nome e a média de cada um dos alunos do arquivo alunos.csv


In [45]:
df.head(2)

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8


In [58]:
df[['Prova_1', 'Prova_2', 'Prova_3', 'Prova_4']].mean(axis=1)

0     7.000
1     7.250
2     7.000
3     9.000
4     7.000
5     7.500
6     5.875
7    10.000
8     8.625
9     8.000
dtype: float64

In [69]:
# Criando uma nova coluna
df['Media'] = df[['Prova_1', 'Prova_2', 'Prova_3', 'Prova_4']].mean(axis=1)
df.head(3)

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Media
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6,7.0
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8,7.25
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7,7.0


In [73]:
df2 = df[['Nome', 'Media']]
df2

Unnamed: 0,Nome,Media
0,Antonio Carlos,7.0
1,Ana Beatriz,7.25
2,Carlos Vernes,7.0
3,Francisco Cunha,9.0
4,Sandra Rosa,7.0
5,Juliana Arruda,7.5
6,Joao Galo,5.875
7,José Valente,10.0
8,Maria Ferreira,8.625
9,Adriana Tavares,8.0


In [74]:
# Ordenando os valores
df2.sort_values('Media')

Unnamed: 0,Nome,Media
6,Joao Galo,5.875
0,Antonio Carlos,7.0
2,Carlos Vernes,7.0
4,Sandra Rosa,7.0
1,Ana Beatriz,7.25
5,Juliana Arruda,7.5
9,Adriana Tavares,8.0
8,Maria Ferreira,8.625
3,Francisco Cunha,9.0
7,José Valente,10.0


In [76]:
# Conseguimos ordenar strings
df2.sort_values('Nome')

Unnamed: 0,Nome,Media
9,Adriana Tavares,8.0
1,Ana Beatriz,7.25
0,Antonio Carlos,7.0
2,Carlos Vernes,7.0
3,Francisco Cunha,9.0
6,Joao Galo,5.875
7,José Valente,10.0
5,Juliana Arruda,7.5
8,Maria Ferreira,8.625
4,Sandra Rosa,7.0


In [79]:
# Ordenando do maior para menor valor
df2.sort_values('Media', ascending=False)

Unnamed: 0,Nome,Media
7,José Valente,10.0
3,Francisco Cunha,9.0
8,Maria Ferreira,8.625
9,Adriana Tavares,8.0
5,Juliana Arruda,7.5
1,Ana Beatriz,7.25
0,Antonio Carlos,7.0
2,Carlos Vernes,7.0
4,Sandra Rosa,7.0
6,Joao Galo,5.875


In [81]:
df2.sort_values(['Nome','Media'])

Unnamed: 0,Nome,Media
9,Adriana Tavares,8.0
1,Ana Beatriz,7.25
0,Antonio Carlos,7.0
2,Carlos Vernes,7.0
3,Francisco Cunha,9.0
6,Joao Galo,5.875
7,José Valente,10.0
5,Juliana Arruda,7.5
8,Maria Ferreira,8.625
4,Sandra Rosa,7.0


In [83]:
df2.sort_values(['Media', 'Nome'], ascending=False)

Unnamed: 0,Nome,Media
7,José Valente,10.0
3,Francisco Cunha,9.0
8,Maria Ferreira,8.625
9,Adriana Tavares,8.0
5,Juliana Arruda,7.5
1,Ana Beatriz,7.25
4,Sandra Rosa,7.0
2,Carlos Vernes,7.0
0,Antonio Carlos,7.0
6,Joao Galo,5.875


In [86]:
df2 = df2.sort_values('Media', ascending=False)
df2

Unnamed: 0,Nome,Media
7,José Valente,10.0
3,Francisco Cunha,9.0
8,Maria Ferreira,8.625
9,Adriana Tavares,8.0
5,Juliana Arruda,7.5
1,Ana Beatriz,7.25
0,Antonio Carlos,7.0
2,Carlos Vernes,7.0
4,Sandra Rosa,7.0
6,Joao Galo,5.875


In [104]:
for i, linha in df2.iterrows():
  nome = linha['Nome']
  media = linha['Media']
  print(f"idx {i}, nome: {nome}, media: {media}")

idx 7, nome: José Valente, media: 10.0
idx 3, nome: Francisco Cunha, media: 9.0
idx 8, nome: Maria Ferreira, media: 8.625
idx 9, nome: Adriana Tavares, media: 8.0
idx 5, nome: Juliana Arruda, media: 7.5
idx 1, nome: Ana Beatriz, media: 7.25
idx 0, nome: Antonio Carlos, media: 7.0
idx 2, nome: Carlos Vernes, media: 7.0
idx 4, nome: Sandra Rosa, media: 7.0
idx 6, nome: Joao Galo, media: 5.875


## Faça um programa que crie um arquivo media.csv e guarde o RA
(registro do aluno) junto com a respectiva média de cada um dos
alunos no arquivo alunos.csv.

In [94]:
# O Gil sempre salva assim `index=None`
df[['RA', 'Media']].to_csv('./media.csv', index=None)

In [95]:
pd.read_csv('./media.csv')

Unnamed: 0,RA,Media
0,110201,7.0
1,110212,7.25
2,110218,7.0
3,110307,9.0
4,110275,7.0
5,110281,7.5
6,110301,5.875
7,110263,10.0
8,110271,8.625
9,110236,8.0


**Drops**

Utilizando o dado `tips.csv`.

Gere a média, mediana (quantil 50) e o desvio padrão das colunas:
- `total_bill`
- `tip`
- `size`


In [109]:
import numpy as np

In [118]:
df_tips.head(2)

Unnamed: 0.1,Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,0,16.99,1.01,Female,No,Sun,Dinner,2
1,1,10.34,1.66,Male,No,Sun,Dinner,3


total_bill    19.785943
tip            2.998279
size           2.569672
dtype: float64

In [134]:
# Quando utilizamos `axis=1` no pandas ele retorna os valores consolidados por coluna
# Quando utilizamos `axis=1` no numpy ele retorna os valores consolidados por linha
df_tips = pd.read_csv('./tips.csv')
media = df_tips[['total_bill', 'tip', 'size']].mean()

# No pandas temos o metodo `median` que já retorna a mediana
mediana = df_tips[['total_bill', 'tip', 'size']].median()
## Outras formas de calcular a mediana
## mediana = np.quantile(df_tips[['total_bill', 'tip', 'size']], 0.5, axis=0)
## mediana = df_tips[['total_bill','tip','size']].quantile(0.5)

std = df_tips[['total_bill', 'tip', 'size']].std()
print('media')
display(media)
print('-'*32)

print('mediana')
display(mediana)
print('-'*32)

print('std')
display(std)

media


total_bill    19.785943
tip            2.998279
size           2.569672
dtype: float64

--------------------------------
mediana


total_bill    17.795
tip            2.900
size           2.000
dtype: float64

--------------------------------
std


total_bill    8.902412
tip           1.383638
size          0.951100
dtype: float64

total_bill    17.795
tip            2.900
size           2.000
Name: 0.5, dtype: float64