Primeiro vamos instalar o pandas:

In [1]:
!pip install pandas



Primeiros passos com pandas 🐼

In [2]:
# Criando dados fictícios em um dicionário
import pandas as pd

dados = {
    'Carros': ['Jetta Variant', 'Passat', 'Crossfox'],
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor 2.0'],
    'Ano': [2003, 1991, 1990]
}

mostrarDados = pd.DataFrame(dados)

print(mostrarDados)

          Carros            Motor   Ano
0  Jetta Variant  Motor 4.0 Turbo  2003
1         Passat     Motor Diesel  1991
2       Crossfox        Motor 2.0  1990


## Criando uma **série**
Uma série de Pandas é como uma coluna em uma tabela.

É uma matriz unidimensional que contém dados de qualquer tipo.


In [3]:
salarios = [1500, 2100, 4720]
series = pd.Series(salarios)
print(series)

0    1500
1    2100
2    4720
dtype: int64


In [4]:
# acessando dados via índice, vamos supor que queremos o primeiro salário dessa série
print(series[0])

1500


In [5]:
# Criando rótulos: é como se fosse uma coluna com nomes para rotular alguma linha por exemplo
rotulos = pd.Series(salarios, index=['linha1', 'linha2', 'linha3'])
print(rotulos)

# buscando uma linha específica
print(rotulos['linha2'])

linha1    1500
linha2    2100
linha3    4720
dtype: int64
2100


Também conseguimos utilizar o dicionário como séries:

In [6]:
rotina = {
    "dia01": 320,
    "dia02": 410,
    "dia03": 580,
    "dia04": 720,
}

rotinaSeries = pd.Series(rotina, index=['dia01', 'dia02', 'dia03', 'dia04'])
#ou
rotinaSeries = pd.Series(rotina, index=rotina.keys())

print(rotinaSeries)

dia01    320
dia02    410
dia03    580
dia04    720
dtype: int64


# Quadro de dados
Os conjuntos de dados no Pandas geralmente são tabelas multidimensionais, chamadas DataFrames.

Uma série é como uma coluna, um DataFrame é a tabela inteira.


In [7]:
dados = {
    'Carros': ['Jetta Variant', 'Passat', 'Crossfox'],
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor 2.0'],
    'Ano': [2003, 1991, 1990]
}

dadosPainel = pd.DataFrame(dados)
print(dadosPainel)


          Carros            Motor   Ano
0  Jetta Variant  Motor 4.0 Turbo  2003
1         Passat     Motor Diesel  1991
2       Crossfox        Motor 2.0  1990


In [8]:
# DATAFRAME

df = pd.DataFrame(dados)
print(df.loc[0:1]) # O pandas usa o loc atributo para retornar uma ou mais linhas especificadas

          Carros            Motor   Ano
0  Jetta Variant  Motor 4.0 Turbo  2003
1         Passat     Motor Diesel  1991


In [9]:
print(dadosPainel.loc[[1, 2]])

     Carros         Motor   Ano
1    Passat  Motor Diesel  1991
2  Crossfox     Motor 2.0  1990


# Carregando arquivos para um DATAFRAME

In [10]:
import pandas as pd

df = pd.read_csv('data.csv')

df.head()

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110,130,409.1
1,60,117,145,479.0
2,60,103,135,340.0
3,45,109,175,282.4
4,45,117,148,406.0


In [11]:
# mostra todas as linhas
print(df.to_string())

     Duration  Pulse  Maxpulse  Calories
0          60    110       130     409.1
1          60    117       145     479.0
2          60    103       135     340.0
3          45    109       175     282.4
4          45    117       148     406.0
5          60    102       127     300.0
6          60    110       136     374.0
7          45    104       134     253.3
8          30    109       133     195.1
9          60     98       124     269.0
10         60    103       147     329.3
11         60    100       120     250.7
12         60    106       128     345.3
13         60    104       132     379.3
14         60     98       123     275.0
15         60     98       120     215.2
16         60    100       120     300.0
17         45     90       112       NaN
18         60    103       123     323.0
19         45     97       125     243.0
20         60    108       131     364.2
21         45    100       119     282.0
22         60    130       101     300.0
23         45   

In [12]:
# mostra as primeiras 5 e as últimas 5 linhas.
print(df) 

     Duration  Pulse  Maxpulse  Calories
0          60    110       130     409.1
1          60    117       145     479.0
2          60    103       135     340.0
3          45    109       175     282.4
4          45    117       148     406.0
..        ...    ...       ...       ...
164        60    105       140     290.8
165        60    110       145     300.0
166        60    115       145     310.2
167        75    120       150     320.4
168        75    125       150     330.4

[169 rows x 4 columns]


Conseguimos alterar a quantidade de linhas retornadas por padrão, utilizando o seguinte comando:

In [13]:
import pandas as pd

pd.options.display.max_rows = 9999
df = pd.read_csv('data.csv')

print(df)

     Duration  Pulse  Maxpulse  Calories
0          60    110       130     409.1
1          60    117       145     479.0
2          60    103       135     340.0
3          45    109       175     282.4
4          45    117       148     406.0
5          60    102       127     300.0
6          60    110       136     374.0
7          45    104       134     253.3
8          30    109       133     195.1
9          60     98       124     269.0
10         60    103       147     329.3
11         60    100       120     250.7
12         60    106       128     345.3
13         60    104       132     379.3
14         60     98       123     275.0
15         60     98       120     215.2
16         60    100       120     300.0
17         45     90       112       NaN
18         60    103       123     323.0
19         45     97       125     243.0
20         60    108       131     364.2
21         45    100       119     282.0
22         60    130       101     300.0
23         45   

Trabalhando com JSON

In [14]:
import pandas as pd

df = pd.read_json('data.json')

df.head()

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110,130,409.1
1,60,117,145,479.0
2,60,103,135,340.0
3,45,109,175,282.4
4,45,117,148,406.0


In [15]:
print(df.head(10))

   Duration  Pulse  Maxpulse  Calories
0        60    110       130     409.1
1        60    117       145     479.0
2        60    103       135     340.0
3        45    109       175     282.4
4        45    117       148     406.0
5        60    102       127     300.5
6        60    110       136     374.0
7        45    104       134     253.3
8        30    109       133     195.1
9        60     98       124     269.0


Buscando os últimos 5 registros de um dataframe

In [16]:
print(df.tail())

     Duration  Pulse  Maxpulse  Calories
164        60    105       140     290.8
165        60    110       145     300.4
166        60    115       145     310.2
167        75    120       150     320.4
168        75    125       150     330.4


In [17]:
# Trazendo informações sobre o dataframe
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Index: 169 entries, 0 to 168
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Duration  169 non-null    int64  
 1   Pulse     169 non-null    int64  
 2   Maxpulse  169 non-null    int64  
 3   Calories  164 non-null    float64
dtypes: float64(1), int64(3)
memory usage: 6.6 KB
None


Limpeza de dados

Limpeza de dados significa consertar dados incorretos em seu conjunto de dados.

Dados incorretos podem ser:

Células vazias
Dados em formato errado
Dados errados
Duplicatas



In [18]:
import pandas as pd 

df=pd.read_csv('clear.csv')

print(df.to_string())

    Duration          Date  Pulse  Maxpulse  Calories
0         60  '2020/12/01'    110       130     409.1
1         60  '2020/12/02'    117       145     479.0
2         60  '2020/12/03'    103       135     340.0
3         45  '2020/12/04'    109       175     282.4
4         45  '2020/12/05'    117       148     406.0
5         60  '2020/12/06'    102       127     300.0
6         60  '2020/12/07'    110       136     374.0
7        450  '2020/12/08'    104       134     253.3
8         30  '2020/12/09'    109       133     195.1
9         60  '2020/12/10'     98       124     269.0
10        60  '2020/12/11'    103       147     329.3
11        60  '2020/12/12'    100       120     250.7
12        60  '2020/12/12'    100       120     250.7
13        60  '2020/12/13'    106       128     345.3
14        60  '2020/12/14'    104       132     379.3
15        60  '2020/12/15'     98       123     275.0
16        60  '2020/12/16'     98       120     215.2
17        60  '2020/12/17'  

In [19]:
# excluindo valores vazios

new_df = df.dropna()

print(new_df.to_string())

    Duration          Date  Pulse  Maxpulse  Calories
0         60  '2020/12/01'    110       130     409.1
1         60  '2020/12/02'    117       145     479.0
2         60  '2020/12/03'    103       135     340.0
3         45  '2020/12/04'    109       175     282.4
4         45  '2020/12/05'    117       148     406.0
5         60  '2020/12/06'    102       127     300.0
6         60  '2020/12/07'    110       136     374.0
7        450  '2020/12/08'    104       134     253.3
8         30  '2020/12/09'    109       133     195.1
9         60  '2020/12/10'     98       124     269.0
10        60  '2020/12/11'    103       147     329.3
11        60  '2020/12/12'    100       120     250.7
12        60  '2020/12/12'    100       120     250.7
13        60  '2020/12/13'    106       128     345.3
14        60  '2020/12/14'    104       132     379.3
15        60  '2020/12/15'     98       123     275.0
16        60  '2020/12/16'     98       120     215.2
17        60  '2020/12/17'  

Se quisermos alterar o dataframe original precisamos usar:  inplace = true

In [20]:
df.dropna(inplace=True)

print(df.to_string())

    Duration          Date  Pulse  Maxpulse  Calories
0         60  '2020/12/01'    110       130     409.1
1         60  '2020/12/02'    117       145     479.0
2         60  '2020/12/03'    103       135     340.0
3         45  '2020/12/04'    109       175     282.4
4         45  '2020/12/05'    117       148     406.0
5         60  '2020/12/06'    102       127     300.0
6         60  '2020/12/07'    110       136     374.0
7        450  '2020/12/08'    104       134     253.3
8         30  '2020/12/09'    109       133     195.1
9         60  '2020/12/10'     98       124     269.0
10        60  '2020/12/11'    103       147     329.3
11        60  '2020/12/12'    100       120     250.7
12        60  '2020/12/12'    100       120     250.7
13        60  '2020/12/13'    106       128     345.3
14        60  '2020/12/14'    104       132     379.3
15        60  '2020/12/15'     98       123     275.0
16        60  '2020/12/16'     98       120     215.2
17        60  '2020/12/17'  

É possível alterar valores NULLOS para valores que a regra de negócio, ou nós decidimos:

In [21]:
import pandas as pd

df= pd.read_csv('clear.csv')

df= df.fillna('Célula vazia')

print(df.to_string)

<bound method DataFrame.to_string of     Duration          Date  Pulse  Maxpulse      Calories
0         60  '2020/12/01'    110       130         409.1
1         60  '2020/12/02'    117       145         479.0
2         60  '2020/12/03'    103       135         340.0
3         45  '2020/12/04'    109       175         282.4
4         45  '2020/12/05'    117       148         406.0
5         60  '2020/12/06'    102       127         300.0
6         60  '2020/12/07'    110       136         374.0
7        450  '2020/12/08'    104       134         253.3
8         30  '2020/12/09'    109       133         195.1
9         60  '2020/12/10'     98       124         269.0
10        60  '2020/12/11'    103       147         329.3
11        60  '2020/12/12'    100       120         250.7
12        60  '2020/12/12'    100       120         250.7
13        60  '2020/12/13'    106       128         345.3
14        60  '2020/12/14'    104       132         379.3
15        60  '2020/12/15'     98  

Também podemos alterar valores de  colunas específicas

In [22]:
import pandas as pd

df = pd.read_csv('clear.csv')


df["Date"].fillna('Data não informada', inplace=True)
df["Calories"].fillna('Calorias não registradas', inplace=True)

print(df.to_string())

    Duration                Date  Pulse  Maxpulse                  Calories
0         60        '2020/12/01'    110       130                     409.1
1         60        '2020/12/02'    117       145                     479.0
2         60        '2020/12/03'    103       135                     340.0
3         45        '2020/12/04'    109       175                     282.4
4         45        '2020/12/05'    117       148                     406.0
5         60        '2020/12/06'    102       127                     300.0
6         60        '2020/12/07'    110       136                     374.0
7        450        '2020/12/08'    104       134                     253.3
8         30        '2020/12/09'    109       133                     195.1
9         60        '2020/12/10'     98       124                     269.0
10        60        '2020/12/11'    103       147                     329.3
11        60        '2020/12/12'    100       120                     250.7
12        60

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["Date"].fillna('Data não informada', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["Calories"].fillna('Calorias não registradas', inplace=True)
  df["Calories"].fillna('Calorias não registradas', inplace=True)


Em alguns cenários matemáticos podemos substituir valores de colunas vazias pela média, mediana ou moda da coluna.

In [23]:
import pandas as pd 
df = pd.read_csv('clear.csv')

# definindo a media

x = df['Calories'].mean()
df['Calories'].fillna( x, inplace = True)

print(df.to_string())

    Duration          Date  Pulse  Maxpulse  Calories
0         60  '2020/12/01'    110       130    409.10
1         60  '2020/12/02'    117       145    479.00
2         60  '2020/12/03'    103       135    340.00
3         45  '2020/12/04'    109       175    282.40
4         45  '2020/12/05'    117       148    406.00
5         60  '2020/12/06'    102       127    300.00
6         60  '2020/12/07'    110       136    374.00
7        450  '2020/12/08'    104       134    253.30
8         30  '2020/12/09'    109       133    195.10
9         60  '2020/12/10'     98       124    269.00
10        60  '2020/12/11'    103       147    329.30
11        60  '2020/12/12'    100       120    250.70
12        60  '2020/12/12'    100       120    250.70
13        60  '2020/12/13'    106       128    345.30
14        60  '2020/12/14'    104       132    379.30
15        60  '2020/12/15'     98       123    275.00
16        60  '2020/12/16'     98       120    215.20
17        60  '2020/12/17'  

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Calories'].fillna( x, inplace = True)


In [24]:
# Usando a mediana

import pandas as pd 

df = pd.read_csv('clear.csv')

x = df['Calories'].median()

df['Calories'].fillna(x, inplace = True)

print(df.to_string())

    Duration          Date  Pulse  Maxpulse  Calories
0         60  '2020/12/01'    110       130     409.1
1         60  '2020/12/02'    117       145     479.0
2         60  '2020/12/03'    103       135     340.0
3         45  '2020/12/04'    109       175     282.4
4         45  '2020/12/05'    117       148     406.0
5         60  '2020/12/06'    102       127     300.0
6         60  '2020/12/07'    110       136     374.0
7        450  '2020/12/08'    104       134     253.3
8         30  '2020/12/09'    109       133     195.1
9         60  '2020/12/10'     98       124     269.0
10        60  '2020/12/11'    103       147     329.3
11        60  '2020/12/12'    100       120     250.7
12        60  '2020/12/12'    100       120     250.7
13        60  '2020/12/13'    106       128     345.3
14        60  '2020/12/14'    104       132     379.3
15        60  '2020/12/15'     98       123     275.0
16        60  '2020/12/16'     98       120     215.2
17        60  '2020/12/17'  

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Calories'].fillna(x, inplace = True)


In [25]:
# Usando a moda

import pandas as pd 

df = pd.read_csv('clear.csv')

x = df["Calories"].mode()[0]

df['Calories'].fillna(x, inplace = True)

print(df.to_string())

    Duration          Date  Pulse  Maxpulse  Calories
0         60  '2020/12/01'    110       130     409.1
1         60  '2020/12/02'    117       145     479.0
2         60  '2020/12/03'    103       135     340.0
3         45  '2020/12/04'    109       175     282.4
4         45  '2020/12/05'    117       148     406.0
5         60  '2020/12/06'    102       127     300.0
6         60  '2020/12/07'    110       136     374.0
7        450  '2020/12/08'    104       134     253.3
8         30  '2020/12/09'    109       133     195.1
9         60  '2020/12/10'     98       124     269.0
10        60  '2020/12/11'    103       147     329.3
11        60  '2020/12/12'    100       120     250.7
12        60  '2020/12/12'    100       120     250.7
13        60  '2020/12/13'    106       128     345.3
14        60  '2020/12/14'    104       132     379.3
15        60  '2020/12/15'     98       123     275.0
16        60  '2020/12/16'     98       120     215.2
17        60  '2020/12/17'  

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Calories'].fillna(x, inplace = True)


Converter dados em um formato correto
Células com dados em formato incorreto podem dificultar, ou até mesmo impossibilitar, a análise de dados.
Para corrigir isso, temos duas opções: remover as linhas ou converter todas as células nas colunas para o mesmo formato.

In [26]:
import pandas as pd 

df = pd.read_csv('convertData.csv')

print(df.to_string())

print(df.info())

          DATE
0   2024-02-05
1   2024-11-29
2   2024-09-06
3   2024-02-05
4   2024-01-19
5   2024-06-23
6        teste
7   2024-04-04
8   2024-01-06
9   2024-07-14
10  2024-06-19
11  2024-06-02
12  2024-12-05
13  2024-04-04
14  2024-11-03
15  2024-02-26
16  2024-02-18
17  2024-05-10
18  2024-08-16
19  2024-08-18
20  2024-06-03
21  2024-01-11
22  2024-07-30
23  2024-06-25
24  2024-12-09
25        stes
26       teste
27  2024-05-03
28  2024-01-10
29  2024-04-07
30  2024-11-13
31  2024-09-04
32  2024-06-19
33  2024-09-17
34  2024-08-20
35  2024-08-28
36  2024-06-26
37  2024-05-17
38        test
39  2024-06-30
40  2024-06-21
41  2024-02-19
42  2024-02-25
43  2024-03-24
44  2024-03-25
45  2024-01-10
46  2024-08-15
47  2024-03-06
48  2024-10-17
49  2024-02-04
50  2024-10-26
51         str
52  2024-10-24
53  2024-05-17
54  2024-04-08
55  2024-10-31
56  2024-05-22
57  2024-01-14
58  2024-07-28
59  2024-03-25
60  2024-06-08
61  2024-10-30
62  2024-03-19
63  2024-09-03
64  2024-04-17
65  2024-0

Vamos excluir valores que não são datas e alterar o padrao para DIA/MES/ANO

In [27]:
# convertendo a coluna para datetime
df['DATE'] = pd.to_datetime(df['DATE'], errors='coerce')

df = df.dropna(subset=['DATE'])

df['DATE'] = df['DATE'].dt.strftime('%m/%d/%Y')

# Mostrar o DataFrame resultante
print(df.to_string())


          DATE
0   02/05/2024
1   11/29/2024
2   09/06/2024
3   02/05/2024
4   01/19/2024
5   06/23/2024
7   04/04/2024
8   01/06/2024
9   07/14/2024
10  06/19/2024
11  06/02/2024
12  12/05/2024
13  04/04/2024
14  11/03/2024
15  02/26/2024
16  02/18/2024
17  05/10/2024
18  08/16/2024
19  08/18/2024
20  06/03/2024
21  01/11/2024
22  07/30/2024
23  06/25/2024
24  12/09/2024
27  05/03/2024
28  01/10/2024
29  04/07/2024
30  11/13/2024
31  09/04/2024
32  06/19/2024
33  09/17/2024
34  08/20/2024
35  08/28/2024
36  06/26/2024
37  05/17/2024
39  06/30/2024
40  06/21/2024
41  02/19/2024
42  02/25/2024
43  03/24/2024
44  03/25/2024
45  01/10/2024
46  08/15/2024
47  03/06/2024
48  10/17/2024
49  02/04/2024
50  10/26/2024
52  10/24/2024
53  05/17/2024
54  04/08/2024
55  10/31/2024
56  05/22/2024
57  01/14/2024
58  07/28/2024
59  03/25/2024
60  06/08/2024
61  10/30/2024
62  03/19/2024
63  09/03/2024
64  04/17/2024
65  03/20/2024
66  02/28/2024
67  03/28/2024
68  06/25/2024
69  01/27/2024
70  09/10/

Dados Errados
"Dados errados" não precisam ser "células vazias" ou "formato errado", podem ser apenas dados errados, como se alguém registrasse "199" em vez de "1,99".

Às vezes, você pode identificar dados errados ao observar o conjunto de dados, porque você tem uma expectativa do que ele deveria ser.

Se você der uma olhada em nosso conjunto de dados, verá que na linha 7, a duração é 450, mas para todas as outras linhas a duração está entre 30 e 60.

Não precisa estar errado, mas levando em consideração que esse é o conjunto de dados das sessões de treino de alguém, concluímos que essa pessoa não se exercitou em 450 minutos.

In [28]:
import pandas as pd

df = pd.read_csv('clear.csv')
df



Unnamed: 0,Duration,Date,Pulse,Maxpulse,Calories
0,60,'2020/12/01',110,130,409.1
1,60,'2020/12/02',117,145,479.0
2,60,'2020/12/03',103,135,340.0
3,45,'2020/12/04',109,175,282.4
4,45,'2020/12/05',117,148,406.0
5,60,'2020/12/06',102,127,300.0
6,60,'2020/12/07',110,136,374.0
7,450,'2020/12/08',104,134,253.3
8,30,'2020/12/09',109,133,195.1
9,60,'2020/12/10',98,124,269.0


Método 01 : Substituindo valores
Esse método é eficaz em apenas base de dados curtas, quando temos milhares de registros é humanamente impossível, para isso vamos para o método 02

In [29]:
df.loc[7, 'Duration'] = 45

df

Unnamed: 0,Duration,Date,Pulse,Maxpulse,Calories
0,60,'2020/12/01',110,130,409.1
1,60,'2020/12/02',117,145,479.0
2,60,'2020/12/03',103,135,340.0
3,45,'2020/12/04',109,175,282.4
4,45,'2020/12/05',117,148,406.0
5,60,'2020/12/06',102,127,300.0
6,60,'2020/12/07',110,136,374.0
7,45,'2020/12/08',104,134,253.3
8,30,'2020/12/09',109,133,195.1
9,60,'2020/12/10',98,124,269.0


Para substituir dados incorretos em conjuntos de dados maiores, podemos criar algumas regras, definir alguns limites e etc.. conforme:

In [30]:
# percorrendo todos o valos da Coluna, se for maior que 120 irá ser substituido por 120.

for x in df.index:
    if df.loc[x, "Duration"] > 120:
        df.loc[x, "Duration"] = 120
df

Unnamed: 0,Duration,Date,Pulse,Maxpulse,Calories
0,60,'2020/12/01',110,130,409.1
1,60,'2020/12/02',117,145,479.0
2,60,'2020/12/03',103,135,340.0
3,45,'2020/12/04',109,175,282.4
4,45,'2020/12/05',117,148,406.0
5,60,'2020/12/06',102,127,300.0
6,60,'2020/12/07',110,136,374.0
7,45,'2020/12/08',104,134,253.3
8,30,'2020/12/09',109,133,195.1
9,60,'2020/12/10',98,124,269.0


Imagine que temos dados outliers e queremos excluir, definimos uma regra que vamos excluir todos os valores maiores que 100:

In [31]:
for x in df.index:
    if df.loc[x, "Duration"] > 100:
        df.drop(x, inplace=True)
df

Unnamed: 0,Duration,Date,Pulse,Maxpulse,Calories
0,60,'2020/12/01',110,130,409.1
1,60,'2020/12/02',117,145,479.0
2,60,'2020/12/03',103,135,340.0
3,45,'2020/12/04',109,175,282.4
4,45,'2020/12/05',117,148,406.0
5,60,'2020/12/06',102,127,300.0
6,60,'2020/12/07',110,136,374.0
7,45,'2020/12/08',104,134,253.3
8,30,'2020/12/09',109,133,195.1
9,60,'2020/12/10',98,124,269.0


Lidando com valores duplicado:
As linhas 11 e 12 são exatamente iguais, então precisamos excluir pois se trata de duplicatas.

In [32]:
# retorna true para linhas duplicadas
print(df.duplicated())

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12     True
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21    False
22    False
23    False
24    False
25    False
26    False
27    False
28    False
29    False
30    False
dtype: bool


In [33]:
# exclui duplicatas
df.drop_duplicates(inplace=True)

df

Unnamed: 0,Duration,Date,Pulse,Maxpulse,Calories
0,60,'2020/12/01',110,130,409.1
1,60,'2020/12/02',117,145,479.0
2,60,'2020/12/03',103,135,340.0
3,45,'2020/12/04',109,175,282.4
4,45,'2020/12/05',117,148,406.0
5,60,'2020/12/06',102,127,300.0
6,60,'2020/12/07',110,136,374.0
7,45,'2020/12/08',104,134,253.3
8,30,'2020/12/09',109,133,195.1
9,60,'2020/12/10',98,124,269.0


Encontrando relacionamentos
Um ótimo aspecto do módulo Pandas é o corr()método.

O corr()método calcula a relação entre cada coluna no seu conjunto de dados.

In [34]:
import pandas as pd

df = pd.read_csv('datacorr.csv')
df.head()

df.corr()

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
Duration,1.0,-0.155408,0.009403,0.922717
Pulse,-0.155408,1.0,0.786535,0.025121
Maxpulse,0.009403,0.786535,1.0,0.203813
Calories,0.922717,0.025121,0.203813,1.0


Boa correlação:
"Duração" e "Calorias" têm uma 0.922721correlação, que é uma correlação muito boa, e podemos prever que quanto mais tempo você treina, mais calorias você queima, e vice-versa: se você queimou muitas calorias, provavelmente fez um treino longo.

Correlação ruim:
"Duração" e "Pulso máximo" obtiveram uma 0.009403correlação, que é uma correlação muito ruim, o que significa que não podemos prever o pulso máximo apenas observando a duração do treino, e vice-versa.

Plotagem
O Pandas usa o plot()método para criar diagramas.

Podemos usar o Pyplot, um submódulo da biblioteca Matplotlib para visualizar o diagrama na tela.

Leia mais sobre Matplotlib em nosso Tutorial Matplotlib .

In [35]:
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('data.csv')