# Dados numéricos ou categóricos

Nesta etapa será utilizado o arquivo <code>ride_sharing_new.csv</code> para algumas análises sobre seu conteúdo. Como informação adicional, temos que a coluna <code>user_type</code> pode assumir três valores distintos :
* 1 - ciclista con gratuidade;
* 2 - ciclista que paga por corrida;
* 3 - inscrito mensal;

In [4]:
# importando Pandas
import pandas as pd

# carregando o arquivo 'ride_sharing_new.csv
filename = 'ride_sharing_new.csv'
ride_sharing = pd.read_csv(filename)

# exibindo informação sobre o dataframe ride_sharing
print(ride_sharing.info())

# resumo estatístico da coluna user_type 
# notamos que a coluna user_type é composta por inteiros, mas sabemos que ela é na verdade categórica
print(ride_sharing['user_type'].describe())

# convertendo user_type de integer para category
ride_sharing['user_type_cat'] = ride_sharing['user_type'].astype('category')

# confirmando a mudança 
assert ride_sharing['user_type_cat'].dtype == 'category'

# exibindo novo resumo estatístico 
print(ride_sharing['user_type_cat'].describe())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25760 entries, 0 to 25759
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Unnamed: 0       25760 non-null  int64 
 1   duration         25760 non-null  object
 2   station_A_id     25760 non-null  int64 
 3   station_A_name   25760 non-null  object
 4   station_B_id     25760 non-null  int64 
 5   station_B_name   25760 non-null  object
 6   bike_id          25760 non-null  int64 
 7   user_type        25760 non-null  int64 
 8   user_birth_year  25760 non-null  int64 
 9   user_gender      25760 non-null  object
dtypes: int64(6), object(4)
memory usage: 2.0+ MB
None
count    25760.000000
mean         2.008385
std          0.704541
min          1.000000
25%          2.000000
50%          2.000000
75%          3.000000
max          3.000000
Name: user_type, dtype: float64
count     25760
unique        3
top           2
freq      12972
Name: user_type_cat, dty

# Somando strings e concatenando números

Na etapa anterior observamos que a categoria <code>user_type</code> continha valores do tipo _integer_ enquanto estes deveriam na verdade serem do tipo _category_. Outro problema comum é importar como strings valores que deveriam ser numéricos, fazendo com que operações matemáticas de soma resultem em concatenação de strings e não em saída numérica, por exemplo.

Neste etapa trataremos a coluna <code>duration</code>, que contem a duração em minutos mas em uma forma em que não conseguimos realizar operações matemáticas com seus valores.

In [5]:
# removendo a string 'minutes' da coluna duration
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# convertendo duration para integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# checando a conversão
assert ride_sharing['duration_time'].dtype == 'int'

# exibindo as colunas criadas e calculando a duração média de corrida 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())

         duration duration_trim  duration_time
0      12 minutes           12              12
1      24 minutes           24              24
2       8 minutes            8               8
3       4 minutes            4               4
4      11 minutes           11              11
...           ...           ...            ...
25755  11 minutes           11              11
25756  10 minutes           10              10
25757  14 minutes           14              14
25758  14 minutes           14              14
25759  29 minutes           29              29

[25760 rows x 3 columns]
11.389052795031056
