# Restricciones en los tipos de datos.

En estas secciones entenderemos como diagnosticar diferentes problemas en nuestros datos y como pueden surgir durante nuestro flujo de trabajo.

Tambien entenderemos los efectos secundarios de no tratas nuestros datos correctamente y varias formas de abordar diferentes tipos de limpiea de datos.


En este primer notebook, analizaremos los problemas de dtoas mas comunes que podemos encontrar y como abordarlos.

## Por que necesitamos limpiar los datos?

Para comprender por que necesitamos limpiar los datos, recordemos el flujo de trabajo de la ciencia de datos.

En un flujo de trabajo de ciencia de datos tipico, **generalmente accedemos a nuestros datos sin procesar,** los exploramos y procesamos , tambien desarrollamos ideas utilizando visualizaciones o modelos prodictios y finalmente informamos estas ideas con dashboards o informes.

Los datos sucios pueden aparecer debido a:
* Valores duplicados.
* Errores ortograficos. 
* Errores de analisis de tipos de datos y sistemas heradados.

Si no nos asguramos de que los datos se limpian correctamente en la exploracion y en la fase de procesamiento, seguramente comprometeremos los conocimientos e informes generados posteriormente.

Al trabajar con datos, hay varios tipos que podemos encontrar en el camino, podriamos estar trabajando con datos de texto, enteros,decimales,fechas, codigos postales etc.

Afortunadamente Python tiene objetos de tipo de datos especificos para varios tipos de datos con los que ya estamos familiarizados.Esto hace que sea mucho mas facil manipular estos diversos tipos de datos en Python.

Antes de preparanos para analizar y extraer informacion de nuestros datos necesitamos asegurarnos de que nuestras variables tengan los tipos de datos correctos, de lo contrario corremos el reisgo de comprometer nuestro analisis.


A continuación realizaremos algunos ejemplos:

En este ejercicio, y a lo largo de este notebook, trabajaremos con datos para compartir viajes en bicicleta en San Francisco llamados ride_sharing. 

Estos contienen información sobre las estaciones de inicio y finalización, la duración del viaje y cierta información para el usuario de un servicio de bicicletas compartidas.

La columna `uder_type` contiene información sobre si un usuario está viajando gratis y toma los siguientes valores:

* 1 = Ciclistas Gratuitos.

* 2 = Ciclistas que pagan por viaje.

* 3 = Ciclistas que pagan membresia.

En este caso , imprimiremos la infromación de nuestro conjunto de datos y veremos un ejemplo de como un tipo de datos incorrecto puede fallar en nuestro análisis.

PASOS:

* Convertir `user_type` en categorico asignandole el tipo de dato `category` y lo guardaremos en la columna `user_type_cat`.

* NOs aseguraremos de convertir correctamente `user_type_cat` correctamente mediente una declaración `assert`.

In [1]:
# importar pandas

import pandas as pd

# asignar nuestros datos a una vriable
ride_sharing = pd.read_csv("/content/ride_sharing_new.csv")

# Imprimir la informacion del dataset

print(ride_sharing.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25760 entries, 0 to 25759
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Unnamed: 0       25760 non-null  int64 
 1   duration         25760 non-null  object
 2   station_A_id     25760 non-null  int64 
 3   station_A_name   25760 non-null  object
 4   station_B_id     25760 non-null  int64 
 5   station_B_name   25760 non-null  object
 6   bike_id          25760 non-null  int64 
 7   user_type        25760 non-null  int64 
 8   user_birth_year  25760 non-null  int64 
 9   user_gender      25760 non-null  object
dtypes: int64(6), object(4)
memory usage: 2.0+ MB
None


In [2]:
# imprimir resumen estadistico de la columna user_type

print(ride_sharing['user_type'].describe())

count    25760.000000
mean         2.008385
std          0.704541
min          1.000000
25%          2.000000
50%          2.000000
75%          3.000000
max          3.000000
Name: user_type, dtype: float64


Podemos observar que esta descrito com una variable numerica , por lo que no tiene mucho sentido analizar esta información , para esto lo pasaremos a una variable categorica.

In [5]:
# convertir la columna a un tipo de dato categorico

ride_sharing['user_type_cat'] = ride_sharing['user_type'].astype('category')

In [8]:
# Escribir una declaracion para confirmar el cambio de tipo de dato
assert ride_sharing['user_type_cat'].dtype == 'category'

Vemos que no retorna ningun error por lo que nuestra conversión de datos es correcta.


In [9]:
# imprimir nuevamente el resumen estadistico de nuestra columna.

print(ride_sharing['user_type_cat'].describe())

count     25760
unique        3
top           2
freq      12972
Name: user_type_cat, dtype: int64


##  Sumar Strings & concatenar Numeros.

Anteriormente , identificamos que la categoria es el tipo de datos corecto para nuestra columna `user_type` y la convertimos en una variable categorica para obtener información correcta.

Otro problema común de tipos de datos es importar lo que deberían ser valores numéricos como cadenas, ya que las operaciones matemáticas como la suma y la multiplicación conducen a la concatenación de cadenas, no a salidas numéricas.

En este segundo ejemplo , convertiremos la duracion de la columna `duration` a tipo entero , sin embargo antes nos tenemos que asegurar de eliminar la palabra `minutes` de la columna para asegurarnos de que pandas los lea como un número.

PASOS:

* Usaremos el método `strip()` para quitar ``minutes``y almacenarlo en una nueva columna:

In [11]:
# acceder a strip mediante .str
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

* Convertimos `duration_trim` a entero y lo amacenamos en `duration_time`

In [12]:
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

Escribimos una declaración de tipo `assert` para confirmar el cambio de datos.

In [13]:
assert ride_sharing['duration_time'].dtype == 'int'

Imprimimos el valor esperado de cada viaje , es decir la media.

In [15]:
print(ride_sharing[['duration','duration_trim','duration_time']])


         duration duration_trim  duration_time
0      12 minutes           12              12
1      24 minutes           24              24
2       8 minutes            8               8
3       4 minutes            4               4
4      11 minutes           11              11
...           ...           ...            ...
25755  11 minutes           11              11
25756  10 minutes           10              10
25757  14 minutes           14              14
25758  14 minutes           14              14
25759  29 minutes           29              29

[25760 rows x 3 columns]


In [22]:
print("El tiempo esperado por viaje es : {} mintuos ".format(ride_sharing['duration_time'].mean()))

El tiempo esperado por viaje es : 11.389052795031056 mintuos 
