# <font color="blue"> MBA em Ciência de Dados</font>
# <font color="blue">Programação para Ciência de Dados</font>

## <font color="blue">Pandas Parte II</font>
**Material Produzido por Luis Gustavo Nonato**<br>
**Cemeai - ICMC/USP São Carlos**
---

__Conteúdo:__

- Dados faltantes
- Processando dados
- Combinando e transformando
- Estatísticas

__Referências__ <br>
- [Pandas: powerful Python data analysis toolkit: Wes McKinney & PyData Devel. Team](https://pandas.pydata.org/pandas-docs/stable/pandas.pdf)
- [http://pandas.pydata.org/pandas-docs/stable/index.html](http://pandas.pydata.org/pandas-docs/stable/index.html)

## Relembrando
Pandas permite estruturar dados como:

__Series__
- Objeto similar a um array unidimensional, contendo dados e rótulos (indice de linhas)

__DataFrame__
- Similar a uma planilha, contendo dados com rótulos para linhas e colunas

## Dados faltantes
Dados faltantes são muito comuns em aplicações reais, ou seja, valores dos elementos não são fornecidos para algumas entradas de uma Série ou DataFrame. Dados faltantes são representados pelo <font color='blue'>pandas</font> com o símbolo 'NaN'.

Pandas fornece diversas funcionalidades para lidar com dados faltantes, por exemplo:
- detectar dados faltantes com os métodos <font color='blue'>isnull</font> e <font color='blue'>notnull</font>
- remover linhas que contenham dados faltantes utilizando o método <font color='blue'>dropna</font>
   - linhas faltando qualquer elemento 
   - linhas faltando todos os dados
   - linhas faltando um número específico de dados
- Substituir os valores faltantes (NaN) por um valor específico utilizando o método  <font color='blue'>fillna</font>
- Especificar valores para substituir dados faltantes em operações aritmétricas

A célula abaixo gera um arquivo chamado <font style="font-family: monaco">missing.csv</font> com vários dados faltantes.

In [2]:
import pandas as pd

In [1]:
%%writefile missing.csv
Colorado,,,,
Ohio,3,5,6,9
Oregon,,,,
Texas,9,12,,
Utah,,,,

Writing missing.csv


In [37]:
df = pd.read_csv('missing.csv',header=None) # carregando o arquivo 'missing.csv'
                                            # como o arquivo não possui rótulos para as
                                            # colunas, o comando 'header=None' cria os 
                                            # rótulos automaticamente com valores de 0 até n-1
                                            # onde n é o número de colunas
print(df)

          0    1     2    3    4
0  Colorado  NaN   NaN  NaN  NaN
1      Ohio  3.0   5.0  6.0  9.0
2    Oregon  NaN   NaN  NaN  NaN
3     Texas  9.0  12.0  NaN  NaN
4      Utah  NaN   NaN  NaN  NaN


### <font color='blue'>isnull</font>
O método <font color='blue'>isnull</font> cria uma máscara booleana onde os valores `True` correspondem às entradas com dados faltantes

In [38]:
# o método 'isnull' cria uma máscara booleana onde os valores True 
# correspondem às entradas com dados faltantes

print(df.isnull())

       0      1      2      3      4
0  False   True   True   True   True
1  False  False  False  False  False
2  False   True   True   True   True
3  False  False  False   True   True
4  False   True   True   True   True


### <font color='blue'>dropna</font>
O método <font color='blue'>dropna</font> remove todas as linhas onde dados faltantes aparecem.

In [39]:
# o método 'dropna' remove todas as linhas onde existem dados faltantes;
# como apenas a linha de índice 1 não possui dados faltantes, o resultado é
# um DataFrame com apenas uma linha

print(df.dropna())

      0    1    2    3    4
1  Ohio  3.0  5.0  6.0  9.0


In [40]:
# o método parâmetro 'how' permite especificar se apenas as linhas com todos 
# os dados faltantes devem ser removidas (how='all') ou se linhas que contenham 
# algum dado faltante deve ser removida (how='any')

print(df.dropna(how='all'))  # remove linhas onde todos os dados estejam faltando


# o parâmetro 'axis' pode ser especificado para que, ao invés de linhas, colunas 
# com dados faltantes serão removidas

print(df.dropna(how='any',axis=1)) # remove colunas que contenham algum dado faltante,
                                   # neste exemplo, apenas a coluna de índice 0
                                   # não contém dados faltantes

          0    1     2    3    4
0  Colorado  NaN   NaN  NaN  NaN
1      Ohio  3.0   5.0  6.0  9.0
2    Oregon  NaN   NaN  NaN  NaN
3     Texas  9.0  12.0  NaN  NaN
4      Utah  NaN   NaN  NaN  NaN
          0
0  Colorado
1      Ohio
2    Oregon
3     Texas
4      Utah


In [41]:
# o parâmetro 'thresh' remove linhas com k+1 ou mais dados faltantes, ou seja,
# para que uma linha não seja removida, ela precisa ter no máximo k dados faltantes

print(df.dropna(thresh=2)) # remove linhas com 3 ou mais dados faltantes

       0    1     2    3    4
1   Ohio  3.0   5.0  6.0  9.0
3  Texas  9.0  12.0  NaN  NaN


### <font color='blue'>fillna</font>
O método <font color='blue'>fillna</font> permite substituir dados faltantes por algum valor especificado.

In [42]:
print('\nDataFrame original')
print(df)

df1 = df.fillna(0) # Substitui valores faltantes por zero e guarda em um novo DataFrame 
                   # O DataFrame original não é afetado
print('The original table after filling NaN:\n',df)
print('DataFrame com valores faltantes substituidos por 0')
print(df1)



DataFrame original
          0    1     2    3    4
0  Colorado  NaN   NaN  NaN  NaN
1      Ohio  3.0   5.0  6.0  9.0
2    Oregon  NaN   NaN  NaN  NaN
3     Texas  9.0  12.0  NaN  NaN
4      Utah  NaN   NaN  NaN  NaN
The original table after filling NaN:
           0    1     2    3    4
0  Colorado  NaN   NaN  NaN  NaN
1      Ohio  3.0   5.0  6.0  9.0
2    Oregon  NaN   NaN  NaN  NaN
3     Texas  9.0  12.0  NaN  NaN
4      Utah  NaN   NaN  NaN  NaN
DataFrame com valores faltantes substituidos por 0
          0    1     2    3    4
0  Colorado  0.0   0.0  0.0  0.0
1      Ohio  3.0   5.0  6.0  9.0
2    Oregon  0.0   0.0  0.0  0.0
3     Texas  9.0  12.0  0.0  0.0
4      Utah  0.0   0.0  0.0  0.0


In [43]:
# pode-se utilizar um dicionário para empregar um valor diferente para cada coluna
# a chave do dicionário deve ser o rótulo da coluna e o valor correspondente é
# o valor que substituirá o dado faltante na coluna

print(df.fillna({1:-1,3:0,4:1})) # substitui o valor faltante da coluna 1 por -1
                                 # da coluna 3 por 0 e da coluna 4 por 1

          0    1     2    3    4
0  Colorado -1.0   NaN  0.0  1.0
1      Ohio  3.0   5.0  6.0  9.0
2    Oregon -1.0   NaN  0.0  1.0
3     Texas  9.0  12.0  0.0  1.0
4      Utah -1.0   NaN  0.0  1.0


## Processando os dados
<font color='blue'>Pandas</font> fornece diversos mecanismos para manipular um DataFrame (ou Série). Exemplos de métodos são:

- <font color='blue'>duplicated</font> e <font color='blue'>drop_duplicates</font>: encontra e remove linhas duplicadas, respectivamente
- <font color='blue'>map</font>: transforma valores ou adiciona novas colunas com valores processados a partir de outras colunas
- <font color='blue'>replace</font> substitui um valor específico
- <font color='blue'>rename</font> modifica os rótulos das linhas ou colunas

In [44]:
import pandas as pd

In [45]:
df = pd.DataFrame({'c0':['one','one','one','two','two','two','two'],
                   'c1':[1,1,2,3,3,4,4]})  # gerando um DataFrame a partir 
                                           # de um dicionário
print(df)

    c0  c1
0  one   1
1  one   1
2  one   2
3  two   3
4  two   3
5  two   4
6  two   4


###  <font color='blue'>duplicated</font> e <font color='blue'>drop_duplicates</font>

In [46]:
# detecta linhas duplicadas
print(df.duplicated())  # gera uma série booleana onde os valores True correspondem
                        # às linhas do DataFrame que estão duplicadas

print(df.drop_duplicates())  # remove todas as linhas duplicadas

0    False
1     True
2    False
3    False
4     True
5    False
6     True
dtype: bool
    c0  c1
0  one   1
2  one   2
3  two   3
5  two   4


### <font color='blue'>map</font>
O método <font color='blue'>map</font> assume como parâmetro uma regra, que pode ser uma função ou um dicionário, a fim de transformar os valores de uma coluna com base na regra ou no dicionário.

In [47]:
dt = {'food': ['Bread','Apple','Cheese'],  # construindo um DataFrame a partir de um dicionário
      'ounces': [4,3,12],
      'type':['grain','fruit','dairy']
     }

df = pd.DataFrame(dt)
print(df)

     food  ounces   type
0   Bread       4  grain
1   Apple       3  fruit
2  Cheese      12  dairy


In [48]:
# modificando os valores da coluna 'type' para que fiquem em letras maiusculas
df['type'] = df['type'].map(lambda x: x.upper())
print(df)

     food  ounces   type
0   Bread       4  GRAIN
1   Apple       3  FRUIT
2  Cheese      12  DAIRY


In [49]:
# O resultado da transformação pode ser atribuído a uma nova coluna no DataFrame

calories_by_type = {'Cheese':'high','Apple':'low','Bread':'high'} # a chave do dicionário
                                                        # corresponde ao valor da coluna
                                                        # que será mapeado. O valor associado
                                                        # à chave é o resultado do mapeamento

df['calories'] = df['food'].map(calories_by_type) # uma nova coluna é criada pelo mapeamento
print(df)

     food  ounces   type calories
0   Bread       4  GRAIN     high
1   Apple       3  FRUIT      low
2  Cheese      12  DAIRY     high


### <font color='blue'>replace</font>
O método <font color='blue'>replace</font> permite:
- substituir valores no DataFrame todo 
   - para isso o parâmetro passado para o 'replace' deve ser um dicionário ou duas listas 
- substituir valores em colunas específicas
   - neste caso o parâmetro deve ser um dicionário de dicionários

In [50]:
# criando um DataFrame a partir de um dicionário
dfr = pd.DataFrame({'c1':[1,2,3,4,5],'c2':[2,4,6,8,10],'c3':['bla','cla','dla','ela','fla'],
                   'c4':['cla','bla','fla','ela','dla']})
print(dfr)

   c1  c2   c3   c4
0   1   2  bla  cla
1   2   4  cla  bla
2   3   6  dla  fla
3   4   8  ela  ela
4   5  10  fla  dla


**Substituindo valores no DataFrame todo utilizando duas listas**

In [51]:
# substituindo valores no DataFrame todo utilizando duas listas:
# a primeira lista corresponde aos valores que serão modificados
# a segunda lista contém os novos valores;
# no exemplo abaixo, 2 será substituido por -2 e 'cla' por 'clam'

dfr.replace([2,'cla'],[-2,'clam'])

Unnamed: 0,c1,c2,c3,c4
0,1,-2,bla,clam
1,-2,4,clam,bla
2,3,6,dla,fla
3,4,8,ela,ela
4,5,10,fla,dla


**Substituindo valores no DataFrame todo utilizando um dicionário**

In [52]:
# um dicionário pode ser utilizado como parâmetro para método 'replace', onde
# as chaves correspondem aos valores que serão modificados e os valores
# correspondentes são os novos valores
# no exemplo abaixo 4 será substituido por -4 e 'fla' por 'palm'

print(dfr.replace({4:-4,'fla':'palm'}))

   c1  c2    c3    c4
0   1   2   bla   cla
1   2  -4   cla   bla
2   3   6   dla  palm
3  -4   8   ela   ela
4   5  10  palm   dla


**Substituindo valores em colunas do DataFrame utilizando dicionário de dicionários**

In [53]:
# um dicionário de dicionários pode ser utilizado como parâmetro para substituir
# valores em colunas específicas;
# as chaves do dicionário principal correspondem aos rótulos das colunas que serão modificadas 
# os pares (chave, valor) dos dicionários "secundários" correspondem aos valores que serão modificados
# e ao novo valor, respectivamente;
# no exemplo abaixo, na coluna 'c1' o valor 4 será substituido por -4 e 2 por -2
# na coluna 'c3' a string 'ela' será substituida por 'eles'

print(dfr.replace({'c1':{4:-4,2:-2},'c3':{'ela':'eles'}}))

   c1  c2    c3   c4
0   1   2   bla  cla
1  -2   4   cla  bla
2   3   6   dla  fla
3  -4   8  eles  ela
4   5  10   fla  dla


### <font color='blue'>rename</font>
<font color='blue'>rename</font> pode ser utilizado para renomear os rótulos de linhas ou colunas. Uma função deve ser empregada para mapear os rótulos utilizando os parâmetros 'index' e 'columns'. A sintaxe do método é:
```python
DataFrame.rename(index=nome_func_renomeia_rotulos_linhas,columns=nome_func_renomeia_rotulos_linhas)
```
onde `nome_func_renomeia_rotulos_linhas` e `nome_func_renomeia_rotulos_linhas` são funções que recebem um rótulo como parâmetro e retorna o novo rótulo (tipicamente são definidas como funções <font color='blue'>lambda</font>) ou um dicionário onde as chaves e valores correspondem aos rótulos antigos e novos respectivamente. 

In [54]:
# criando um DataFrame a partir de um dicionário
dfr = pd.DataFrame({'c1':[1,2,3,4,5],'c2':[2,4,6,8,10],'c3':['bla','cla','dla','ela','fla'],
                   'c4':['cla','bla','fla','ela','dla']})

print('DataFrame com rótulos originais')
print(dfr)
print('Rótulos das linhas:',dfr.index.values)
print('Rótulos das colunas:',dfr.columns.values)

print('\nDataFrame com rótulos modificados')
# o comando abaixo adiciona o caracter 'a' aos rótulos das linhas e torna
# os caracteres dos rótulos das colunas maiúsculos
dfr_modificado = dfr.rename(index=lambda x: str(x)+'a', columns=lambda x: x.upper())
print(dfr_modificado)
print('Rótulos das linhas:',dfr_modificado.index.values)
print('Rótulos das colunas:',dfr_modificado.columns.values)

DataFrame com rótulos originais
   c1  c2   c3   c4
0   1   2  bla  cla
1   2   4  cla  bla
2   3   6  dla  fla
3   4   8  ela  ela
4   5  10  fla  dla
Rótulos das linhas: [0 1 2 3 4]
Rótulos das colunas: ['c1' 'c2' 'c3' 'c4']

DataFrame com rótulos modificados
    C1  C2   C3   C4
0a   1   2  bla  cla
1a   2   4  cla  bla
2a   3   6  dla  fla
3a   4   8  ela  ela
4a   5  10  fla  dla
Rótulos das linhas: ['0a' '1a' '2a' '3a' '4a']
Rótulos das colunas: ['C1' 'C2' 'C3' 'C4']


## Combinando e transformando
<font color='blue'>Pandas</font> fornece um conjunto de métodos para combinar DataFrames, o que é extremamente útil em cenários envolvendo múltiplas fontes de dados. Em particular, os métodos:
- <font color='blue'>merge</font> combina DataFrames com base nos rótulos das linhas ou valores das colunas
- <font color='blue'>concatenate</font> combina DataFrames a partir de um eixo específico
- <font color='blue'>reshaping</font> transforma as linhas/colunas

In [55]:
import pandas as pd

### <font color='blue'>merge</font>  
O método <font color='blue'>merge</font> "funde" dois DataFrames, duas séries, ou uma série com um DataFrame.

A fuzão pode ser feita com base nos:
- valores de duas colunas específicas, uma em cada DataFrame 
- valores de uma coluna em um dos DataFrame e rótulos das linhas no outro
- valores dos rótulos das linhas em ambos os DataFrames (ou Séries)

#### Merge baseado nos valores de duas colunas

In [56]:
# construindo dois DataFrames que serão fundidos com o método 'merge'
df1 = pd.DataFrame({'key': ['b','b','a','c','a','a','b'], 
                   'data1': range(7)})

df2 = pd.DataFrame({'key': ['a','b','d','b','d'], 
                   'data2': range(5)})

print(df1)
print(df2)

  key  data1
0   b      0
1   b      1
2   a      2
3   c      3
4   a      4
5   a      5
6   b      6
  key  data2
0   a      0
1   b      1
2   d      2
3   b      3
4   d      4


In [57]:
# Como ambos os DataFrames possuem uma coluna chamada 'key', pode-se fundir com base nos
# valores de tal coluna. Neste caso a sintaxe é:

pd.merge(df1,df2,on='key')  # Note que apenas os valores que aparencem em 
                            # ambos DataFrames são utilizados no 'merge'
                            # No exemplo, apenas os valores 'b' e 'a' aparencem
                            # na coluna 'key' de ambos DataFrames df1 e df2

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,0,3
2,b,1,1
3,b,1,3
4,b,6,1
5,b,6,3
6,a,2,0
7,a,4,0
8,a,5,0


In [58]:
# O parâmetro "how='outer'" pode ser utilizado para forçar que valores presentes
# em apenas um dos DataFrames apareçam no resutlado do 'merge'. Neste caso, um valor
# 'NaN' é utilizado para marcar o dado faltante em um dos DataFrames

# how = 'outer' --> união entre os dados
# how = 'inner' --> intersecção entre os dados (default, utilizado no exemplo anterior)

pd.merge(df1,df2,on='key',how='outer')  # o valor 'c' aparece na coluna 'key'
                                        # apenas em df1, enquanto o valor 'd'
                                        # aparece apenas em df2    

Unnamed: 0,key,data1,data2
0,b,0.0,1.0
1,b,0.0,3.0
2,b,1.0,1.0
3,b,1.0,3.0
4,b,6.0,1.0
5,b,6.0,3.0
6,a,2.0,0.0
7,a,4.0,0.0
8,a,5.0,0.0
9,c,3.0,


In [59]:
# Quando os DataFrames não possuem colunas com o mesmo rótulo, é possível 
# especificar quais colunas serão utilizadas em cada DataFrame por meio
# dos parâmetros 'left_on' e 'right_on'

df1 = pd.DataFrame({'key1': ['b','b','a','c','a','a','b'], # os DataFrames df1 e df2 nao 
                   'data1': range(7)})                     # possuem colunas com mesmo rótulo

df2 = pd.DataFrame({'key2': ['a','b','d','b','d'],  
                   'data2': range(5)})
print('df1:\n',df1,'\n','df2:\n',df2,'\n')
pd.merge(df1, df2,left_on='key1',right_on='key2',how='outer') 
            # 'left_on' se refere a coluna do DataFrame correspondendo ao primeiro parâmetro 
            # (parâmetro da esquerda), neste exemplo, df1
            # 'right_on' se refere a coluna do DataFrame correspondendo ao segundo parâmetro 
            # (parâmetro da direita), neste exemplo, df2
            # Note que neste caso ambas as colunas são inseridas no DataFrame resultante

Unnamed: 0,key1,data1,key2,data2
0,b,0.0,b,1.0
1,b,0.0,b,3.0
2,b,1.0,b,1.0
3,b,1.0,b,3.0
4,b,6.0,b,1.0
5,b,6.0,b,3.0
6,a,2.0,a,0.0
7,a,4.0,a,0.0
8,a,5.0,a,0.0
9,c,3.0,,


#### Merge baseado nos valores de uma coluna em um DataFrame e rótulos das linhas no outro DataFrame
Para realizar o merging com base em colunas e rótulos, deve-se especificar os parâmetros
'left\_on', 'right\_on', 'left\_index' e 'right\_index' de forma apropriada.
- __left\_on__ = nome da coluna a ser utilizada no DataFrame da esquerda (primeiro parâmetro)
- __left\_index__ = True indica que os rótulos das linhas no DataFrame da esquerda (primeiro parâmetro) serão utilizados 
- __right\_on__ = nome da coluna a ser utilizada no DataFrame da direita (segundo parâmetro)
- __right\_index__ = True indica que os rótulos das linhas no DataFrame da direita (segundo parâmetro) serão utilizados 

**Obs:** Se o parâmetro __left\_on__ for utilizando, não se pode empregrar ao mesmo tempo __left\_index__. O mesmo vale para o uso concomitante de __right\_on__ e __right\_index__.

In [60]:
df1 = pd.DataFrame({'key': ['a','b','a','a','b','c'], 'value': range(6)})

df2 = pd.DataFrame({'group_val': [3.5, 7, 3.0]}, index=['a', 'b', 'a'])

print(df1)
print(df2)

# Merge utilizando a coluna "key" de df1 e os rótulos das linhas em df2
pd.merge(df1, df2, left_on='key', right_index=True,how='outer')

  key  value
0   a      0
1   b      1
2   a      2
3   a      3
4   b      4
5   c      5
   group_val
a        3.5
b        7.0
a        3.0


Unnamed: 0,key,value,group_val
0,a,0,3.5
0,a,0,3.0
2,a,2,3.5
2,a,2,3.0
3,a,3,3.5
3,a,3,3.0
1,b,1,7.0
4,b,4,7.0
5,c,5,


In [61]:
# criando DataFrames a partir de lista de listas e especificando rótulos de linha e coluna
df1 = pd.DataFrame([[1,2],[3,4],[5,6]], 
        index=['a','c','e'], columns=['Ohio','Nevada'])

df2 = pd.DataFrame([[7,8],[9,10],[11,12],[13,14],[0,5]], 
        index=['b','c','d','e','e'],
        columns=['Missouri','Alabama'])

print(df1)
print(df2)

# merge utilizando rótulos dos dois DataFrames, 
# o parâmetro 'inner' (default, pode ser omitido) faz 
# com que apenas os rótulos que aparecem em ambos sejam considerados
pd.merge(df1, df2, left_index=True, right_index=True, how='inner')

   Ohio  Nevada
a     1       2
c     3       4
e     5       6
   Missouri  Alabama
b         7        8
c         9       10
d        11       12
e        13       14
e         0        5


Unnamed: 0,Ohio,Nevada,Missouri,Alabama
c,3,4,9,10
e,5,6,13,14
e,5,6,0,5


### <font color='blue'>concat</font>
O método <font color='blue'>concat</font> é utilizado para juntar DataFrames ou Séries com base em um dos eixos.
- __axis = 0__ concatena por linhas 
- __axis = 1__ concatena por colunas. Quando empregado em um conjunto de séries resulta em um DataFrame

O método assume como parâmetro uma lista de DataFrames ou Séries.

In [62]:
# Construindo 3 séries especificando os rótulos das linhas
s1 = pd.Series([0, 1], index=['a', 'b'])
s2 = pd.Series([2, 3, 4], index=['c', 'd', 'e'])
s3 = pd.Series([1,5, 6], index=['a','f', 'd']) 
print(s1)
print(s2)
print(s3)

# Contatenando as 3 séries na vertical (axis=0 por default)
# o resultado é uma nova séria (rótulos podem estar repetidos)
pd.concat([s1,s2,s3])

a    0
b    1
dtype: int64
c    2
d    3
e    4
dtype: int64
a    1
f    5
d    6
dtype: int64


a    0
b    1
c    2
d    3
e    4
a    1
f    5
d    6
dtype: int64

In [63]:
# concatenando as 3 séries por colunas especificando o parâmetro 'axis=1'
# o resutado é um DataFrame
print(pd.concat([s1,s2,s3],axis=1))

     0    1    2
a  0.0  NaN  1.0
b  1.0  NaN  NaN
c  NaN  2.0  NaN
d  NaN  3.0  6.0
e  NaN  4.0  NaN
f  NaN  NaN  5.0


## Estatísticas
O <font color='blue'> pandas</font> possui vários métodos para se calcular estatísticas básicas em um DataFrame (ou série). Uma lista dos métodos estatíticos disponíveis pode ser encontrada [aqui](https://chrisalbon.com/python/data_wrangling/pandas_dataframe_descriptive_stats/) 

A maioria dos métodos estatísticos são agregações, isto é, produzem um escalar a partir de conjuntos de números. Quando aplicados a um DataFrame, aceitam o argumento `axis` para definir se as estatísticas serão calculadas nas linhas ou colunas (o padrão é `axis = 0`).

In [64]:
import numpy as np
import pandas as pd

In [65]:

D = np.random.uniform(low=0.0,high=10,size=(10,3)) # matriz 10x3 com números randômicos entre
                                                   # 0 e 10

df = pd.DataFrame(data=D,columns=['c0','c1','c2']) # constrói o DataFrame a partir do array
                                                   # especificando o rótulo das colunas
df

Unnamed: 0,c0,c1,c2
0,1.775594,3.570303,3.359931
1,5.446888,7.039028,5.73388
2,5.249498,6.486449,5.836037
3,8.52787,0.888331,0.977944
4,9.586078,5.391367,2.264218
5,6.006425,4.278143,0.273824
6,5.249731,4.466712,4.701352
7,8.537865,2.055817,8.885443
8,0.471838,3.327536,2.596645
9,0.292649,1.131398,2.03718


In [66]:
# Somando os eixos de um DataFrame

print('soma colunas')
print(df.sum(axis=0)) # resultado é uma série onde os rótulos das linhas são os 
                      # rótulos das colunas do DataFrame
    
print('\nsoma linhas')
print(df.sum(axis=1)) # resultado é uma série com os mesmos rótulos das linhas do 
                      # DataFrame original

soma colunas
c0    51.144437
c1    38.635083
c2    36.666454
dtype: float64

soma linhas
0     8.705828
1    18.219796
2    17.571984
3    10.394144
4    17.241663
5    10.558392
6    14.417796
7    19.479126
8     6.396018
9     3.461228
dtype: float64


In [67]:
# Calculando a média em um eixo determinado

print('media por colunas')
print(df.mean(axis=0))  # calcula a média dos valores em cada coluna
                        # resultado é uma série onde os rótulos das linhas são os 
                        # rótulos das colunas do DataFrame
        
print('\nmedia linhas')
print(df.mean(axis=1)) # calcula a média dos valores em cada linha
                       # resultado é uma série com os mesmos rótulos das linhas do 
                       # DataFrame original

media por colunas
c0    5.114444
c1    3.863508
c2    3.666645
dtype: float64

media linhas
0    2.901943
1    6.073265
2    5.857328
3    3.464715
4    5.747221
5    3.519464
6    4.805932
7    6.493042
8    2.132006
9    1.153743
dtype: float64


In [68]:
# O método 'describe' fornece um resumo estatístico das colunas do DataFrame

df.describe() # o resultado é um DataFrame onde as linhas correspondem
              # a medidas estatísticas de cada coluna
              # Por exemplo, a linha com rótulo '25%' informa o valor do primeiro quartil
              # de cada coluna. A linha com rótulo 'min' o valor mínimo em cada coluna

Unnamed: 0,c0,c1,c2
count,10.0,10.0,10.0
mean,5.114444,3.863508,3.666645
std,3.337679,2.102669,2.622286
min,0.292649,0.888331,0.273824
25%,2.64407,2.373746,2.09394
50%,5.34831,3.924223,2.978288
75%,7.897509,5.160203,5.475748
max,9.586078,7.039028,8.885443
