In [146]:
import pandas as pd
import re

## Visualizando os dados

In [147]:
df = pd.read_csv("cursos.csv")
df.head()

Unnamed: 0,Curso,Preço,Carga Horaria
0,Excel Analytics com Inteligência Artificial,R$999,72 h
1,Fundamentos de Data Science e Inteligência Art...,Gratuito,24 h
2,Fundamentos de Engenharia de Dados,Gratuito,24 h
3,Fundamentos de Linguagem Python Para Análise d...,Gratuito,72 h
4,Análise e Previsão de Séries Temporais com Int...,R$1.449,72 h


In [148]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 47 entries, 0 to 46
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Curso          47 non-null     object
 1   Preço          47 non-null     object
 2   Carga Horaria  47 non-null     object
dtypes: object(3)
memory usage: 1.2+ KB


## Ajustando o tipo de dados

#### Ajustando a coluna 'Carga Horaria'

In [149]:
# Precisamos tirar qualquer letra como "h", "hs" ou "horas"
for i in df['Carga Horaria']:
    print(i)

72 h
24 h
24 h
72 h
72 h
90 h
86 h
96 h
88 h
88 h
100 h
84 h
144 h
84 h
80 h
96 h
100 h
72 h
96 h
96 h
64 h
96 h
96 h
72 hs
96 h
84 h
96 h
84 horas
100 h
80 h
84 h
72 h
96 h
96 h
80 h
84 h
86 hs
100 h
84 h
70 h
96 h
82 h
60 h
90 h
40 h
96 h
72 h


In [150]:
# Usando regex, conseguimos definir o que queremos como padrão (as letras que representam as horas)
padrao = r'[\s][a-z]*'

In [151]:
# Agora basta substituir usando apply e uma função lambda que vai aplicar o padrão regex no método sub
df['Carga Horaria'] = df['Carga Horaria'].apply(lambda x: re.sub(padrao, '', x))
df['Carga Horaria'].head(5)
    

0    72
1    24
2    24
3    72
4    72
Name: Carga Horaria, dtype: object

In [152]:
df['Carga Horaria'] = pd.to_numeric(df['Carga Horaria'], errors='coerce')
print(df['Carga Horaria'].head())

0    72
1    24
2    24
3    72
4    72
Name: Carga Horaria, dtype: int64


#### Ajustando a coluna "Preco"

In [153]:
def ajusta_numero(valor):
    if isinstance(valor, str) and 'R$' in valor:
        return float(valor.replace("R$", "").replace(".", "").strip())
    return None 

In [154]:
df['Preço'] = df['Preço'].apply(ajusta_numero)
df['Preço'].head()

0     999.0
1       NaN
2       NaN
3       NaN
4    1449.0
Name: Preço, dtype: float64

In [155]:
# Note que temos 4 valores vazios, que são os cursos que eram gratuitos

float(df['Preço'].isnull().sum())

4.0

In [156]:
# Preenchemos 0 onde temos os valores vazios (que eram os cursos gratuitos)
df['Preço'] = df['Preço'].fillna(0)
df['Preço']

0      999.0
1        0.0
2        0.0
3        0.0
4     1449.0
5     1870.0
6     1530.0
7     1340.0
8     1230.0
9     1250.0
10    1550.0
11    1400.0
12    1590.0
13    1390.0
14    1399.0
15    1740.0
16    1680.0
17    1250.0
18    1800.0
19    1540.0
20     980.0
21    2040.0
22    2100.0
23    1410.0
24    1600.0
25    1449.0
26    1540.0
27    1540.0
28    1600.0
29    1540.0
30    1199.0
31       0.0
32    1399.0
33    1440.0
34    1300.0
35    1430.0
36    1500.0
37    1870.0
38    1349.0
39    1040.0
40    1840.0
41    1420.0
42    1349.0
43    1400.0
44     565.0
45    1400.0
46     890.0
Name: Preço, dtype: float64

In [157]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 47 entries, 0 to 46
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Curso          47 non-null     object 
 1   Preço          47 non-null     float64
 2   Carga Horaria  47 non-null     int64  
dtypes: float64(1), int64(1), object(1)
memory usage: 1.2+ KB


## Concluindo
Data Frame ajustado e os dados via webscraping estão prontos p/ uso

In [160]:
df.to_csv('cursos_ajustado.csv', index=False)