# Preparación de datos.

Problemas comunes al leer datos.

## Leer el archivo. 

Las formas mas comunes de archivos son:
- csv
- Tab separated values
- xlsx 
- zip
- .txt
- json
- html

El primer paso es importar las librerías que nos ayudarán en todo el proceso de limpieza de datos.

In [2]:
import pandas as pd
import numpy as np


En el caso de cada uno de los tipos de dato, tiene diferentes maneras de mandarlo a llamar.


En la mayoría de los casos cuando se trabaja con Excel, o si el archivo contiene simbolos que la computadora no reconoce (acentos, letras que pertenecen a otro lenguaje que no sea el inglés estandar) nos marcará un error de ejecución. Para esto se utiliza el encoding.

In [15]:
df = pd.read_csv("accidentes_unclean.csv",encoding='utf8')

El utf8 se utiliza generalmente para simbolos extraños.

## Visualización de los datos.

Una vez que ya tenemos cargada nuestra base de datos al notebook, podemos empezar a manipularla. Para poder fijar el objetivo de nuestra limpieza, primero tenemos que revisar cuales son los datos que conforman la base de datos.

In [62]:
df.shape

(1048575, 20)

Con esta instrucción de shape nos enteramos de cuantas columnas y cuantas filas cuenta nuestra base de datos.

In [17]:
df.head()

Unnamed: 0,ID,Source,TMC,Severity,Start_Time,End_Time,Start_Lat,Start_Lng,End_Lat,End_Lng,...,Roundabout,Station,Stop,Traffic_Calming,Traffic_Signal,Turning_Loop,Sunrise_Sunset,Civil_Twilight,Nautical_Twilight,Astronomical_Twilight
0,A-1,MapQuest,201,3,08/02/2016 05:46,08/02/2016 11:00,39.865147,-84.058723,,,...,False,False,False,False,False,False,Night,Night,Night,Night
1,A-2,MapQuest,201,2,08/02/2016 06:07,08/02/2016 06:37,39.928059,-82.831184,,,...,False,False,False,False,False,False,Night,Night,Night,Day
2,A-3,MapQuest,201,2,08/02/2016 06:49,08/02/2016 07:19,39.063148,-84.032608,,,...,False,False,False,False,True,False,Night,Night,Day,Day
3,A-4,MapQuest,201,3,08/02/2016 07:23,08/02/2016 07:53,39.747753,-84.205582,,,...,False,False,False,False,False,False,Night,Day,Day,Day
4,A-5,MapQuest,201,2,08/02/2016 07:39,08/02/2016 08:09,39.627781,-84.188354,,,...,False,False,False,False,True,False,Day,Day,Day,Day


Teniamos inicialmente 49 columnas 

In [18]:
df.tail()

Unnamed: 0,ID,Source,TMC,Severity,Start_Time,End_Time,Start_Lat,Start_Lng,End_Lat,End_Lng,...,Roundabout,Station,Stop,Traffic_Calming,Traffic_Signal,Turning_Loop,Sunrise_Sunset,Civil_Twilight,Nautical_Twilight,Astronomical_Twilight
1048570,A-1048596,MapQuest,201,2,23/07/2019 09:56,23/07/2019 10:26,35.782261,-78.657257,,,...,False,False,False,False,False,False,Day,Day,Day,Day
1048571,A-1048597,MapQuest,201,2,23/07/2019 09:56,23/07/2019 10:56,35.835079,-78.582458,,,...,False,False,False,False,True,False,Day,Day,Day,Day
1048572,A-1048598,MapQuest,201,2,23/07/2019 10:06,23/07/2019 10:35,35.779926,-78.617874,,,...,False,True,False,False,False,False,Day,Day,Day,Day
1048573,A-1048599,MapQuest,201,2,23/07/2019 10:16,23/07/2019 11:16,35.77702,-78.641907,,,...,False,True,False,False,True,False,Day,Day,Day,Day
1048574,A-1048600,MapQuest,201,3,23/07/2019 10:26,23/07/2019 10:56,35.780197,-78.574219,,,...,False,False,False,False,False,False,Day,Day,Day,Day


Otra manera de ver los datos es por medio del comando de columnas.

In [19]:
df.columns

Index(['ID', 'Source', 'TMC', 'Severity', 'Start_Time', 'End_Time',
       'Start_Lat', 'Start_Lng', 'End_Lat', 'End_Lng', 'Distance(mi)',
       'Description', 'Number', 'Street', 'Side', 'City', 'County', 'State',
       'Zipcode', 'Country', 'Timezone', 'Airport_Code', 'Weather_Timestamp',
       'Temperature(F)', 'Wind_Chill(F)', 'Humidity(%)', 'Pressure(in)',
       'Visibility(mi)', 'Wind_Direction', 'Wind_Speed(mph)',
       'Precipitation(in)', 'Weather_Condition', 'Amenity', 'Bump', 'Crossing',
       'Give_Way', 'Junction', 'No_Exit', 'Railway', 'Roundabout', 'Station',
       'Stop', 'Traffic_Calming', 'Traffic_Signal', 'Turning_Loop',
       'Sunrise_Sunset', 'Civil_Twilight', 'Nautical_Twilight',
       'Astronomical_Twilight'],
      dtype='object')

Aqui vemos que las columnas estaban en ingles y que teniamos una gran cantidad

In [121]:
    df.rename(columns = {'Fecha de inicio':'Fecha_de_inicio'}, inplace = True)

Si se quiere saber el tipo de dato que contiene cada columna, usamos el comando

In [122]:
df.dtypes

Severidad                int64
Fecha_de_inicio         object
Fecha_de_terminado      object
Latitud                float64
Longitud               float64
Descripcion             object
Calle                   object
Lado_de_la_via          object
Ciudad                  object
Estado                  object
Zona_Horaria            object
Temperatura(F)         float64
Humedad(%)             float64
Presion(in)            float64
Condicion_Climatica     object
Cruce                     bool
Estacion                  bool
Señal_de_trafico          bool
Periodo_de_dia          object
dtype: object

Y si queremos saber el tipo de datos que contiene una columna en especifico, cambiamos la instrucción a:

In [10]:
df['Severity'].dtype

dtype('int64')

En caso de que en una columna existan varios tipos de elementos numericos, puedes normalizarlo con la siguiente instrucción.

In [None]:
data_frame.Nombre_columna.astype("float")

En donde todos los valores dentor de la columna Nombre_columna se convertiran a flotantes.


### Nota:
Se tiene que tener cuidado con este comando, ya que si se requiere cambiar de flotante a enteros, y lo que queremos es una predicción segura, podemos estar perdiendo datos importantes al momento de convertirlos. Lo que nos lleva al problema de datos nulos que veremos mas adelante.

Saber el nombre de las columnas tambien nos ayuda para localizar elementos dentro de ellas. Con el comando unique podemos extraer los valores unicos de la columna. En caso de que nosotros queramos hacer un clasificador, con esta instrucción podemos darnos cuenta de las etiquetas de salida que tiene cada columna.

In [163]:
df.Periodo_de_dia.unique()

array(['Night', 'Day', nan], dtype=object)

Nosotros teniamos en el periodo de dia dos categorias que eran dia y noche y lo que hicimos fue cambiarlas a variables como 0 y 1

Ahora que sabemos los valores de nuestra columna Nombre_columna, podemos hacer agrupaciones de datos. Por ejemplo, si en la columna Nombre_columna tengo como datos unicos lo siguiente:

- Clase_1
- Clase_2
- Clase_3

Yo puedo agrupar todos los valores dentro de la clase en la que estan etiquetados.



In [152]:
clase_1 = df[df['Lado_de_la_via']=='R']
clase_2 = df[df['Lado_de_la_via']=='L']
clase_1.to_csv('Solo_clase1.csv', index=False)
clase_2.to_csv('Solo_clase2.csv', index=False)

Aqui hicimos dos clasificaciones que despues pasamos a archivos csv para poder analizar de manera separada como se comportaban los datos

In [154]:
clase_1.head()

Unnamed: 0,Severidad,Fecha_de_inicio,Fecha_de_terminado,Latitud,Longitud,Descripcion,Calle,Lado_de_la_via,Ciudad,Estado,Zona_Horaria,Temperatura(F),Humedad(%),Presion(in),Condicion_Climatica,Cruce,Estacion,Señal_de_trafico,Periodo_de_dia
0,3,08/02/2016 05:46,08/02/2016 11:00,39.865147,-84.058723,Right lane blocked due to accident on I-70 Eas...,I-70 E,R,Dayton,OH,US/Eastern,36.9,91.0,29.68,Light Rain,False,False,False,Night
2,2,08/02/2016 06:49,08/02/2016 07:19,39.063148,-84.032608,Accident on OH-32 State Route 32 Westbound at ...,State Route 32,R,Williamsburg,OH,US/Eastern,36.0,100.0,29.67,Overcast,False,False,True,Night
3,3,08/02/2016 07:23,08/02/2016 07:53,39.747753,-84.205582,Accident on I-75 Southbound at Exits 52 52B US...,I-75 S,R,Dayton,OH,US/Eastern,35.1,96.0,29.64,Mostly Cloudy,False,False,False,Night
4,2,08/02/2016 07:39,08/02/2016 08:09,39.627781,-84.188354,Accident on McEwen Rd at OH-725 Miamisburg Cen...,Miamisburg Centerville Rd,R,Dayton,OH,US/Eastern,36.0,89.0,29.65,Mostly Cloudy,False,False,True,Day
5,3,08/02/2016 07:44,08/02/2016 08:14,40.10059,-82.925194,Accident on I-270 Outerbelt Northbound near Ex...,Westerville Rd,R,Westerville,OH,US/Eastern,37.9,97.0,29.63,Light Rain,False,False,False,Day


Si se quiere encontrar un valor dentro de un data frame, dependiendo de los valores de otra columna se utiliza:

In [None]:
clase_1_vs_Severidad = data_frame.loc[data_frame.Periodo_de_dia == 'Clase_1'].Severidad

En el ejemplo de arriba, en la variable de clase_1_vs_fecha se van a guardar los valores de la columna severidad que coincidan con los valores de 'Clase_1' en la columna de Periodo_de_dia.

Suponiendo ahora que solo tengo dos tipos de clase en la columna Nombre_columna, y quiero cambiar los nombres dentro de los datos unicos para poder realizar una clasificacion binaria, puedo hacer lo siguente:

In [164]:
df.Periodo_de_dia.replace(to_replace = dict(Day = 1, Night = 0), inplace = True)

In [167]:
df.head(10)

Unnamed: 0,Severidad,Fecha_de_inicio,Fecha_de_terminado,Latitud,Longitud,Descripcion,Calle,Lado_de_la_via,Ciudad,Estado,Zona_Horaria,Temperatura(F),Humedad(%),Presion(in),Condicion_Climatica,Cruce,Estacion,Señal_de_trafico,Periodo_de_dia
0,3,08/02/2016 05:46,08/02/2016 11:00,39.865147,-84.058723,Right lane blocked due to accident on I-70 Eas...,I-70 E,1,Dayton,OH,US/Eastern,36.9,91.0,29.68,Light Rain,False,False,False,0.0
1,2,08/02/2016 06:07,08/02/2016 06:37,39.928059,-82.831184,Accident on Brice Rd at Tussing Rd. Expect del...,Brice Rd,0,Reynoldsburg,OH,US/Eastern,37.9,100.0,29.65,Light Rain,False,False,False,0.0
2,2,08/02/2016 06:49,08/02/2016 07:19,39.063148,-84.032608,Accident on OH-32 State Route 32 Westbound at ...,State Route 32,1,Williamsburg,OH,US/Eastern,36.0,100.0,29.67,Overcast,False,False,True,0.0
3,3,08/02/2016 07:23,08/02/2016 07:53,39.747753,-84.205582,Accident on I-75 Southbound at Exits 52 52B US...,I-75 S,1,Dayton,OH,US/Eastern,35.1,96.0,29.64,Mostly Cloudy,False,False,False,0.0
4,2,08/02/2016 07:39,08/02/2016 08:09,39.627781,-84.188354,Accident on McEwen Rd at OH-725 Miamisburg Cen...,Miamisburg Centerville Rd,1,Dayton,OH,US/Eastern,36.0,89.0,29.65,Mostly Cloudy,False,False,True,1.0
5,3,08/02/2016 07:44,08/02/2016 08:14,40.10059,-82.925194,Accident on I-270 Outerbelt Northbound near Ex...,Westerville Rd,1,Westerville,OH,US/Eastern,37.9,97.0,29.63,Light Rain,False,False,False,1.0
6,2,08/02/2016 07:59,08/02/2016 08:29,39.758274,-84.230507,Accident on Oakridge Dr at Woodward Ave. Expec...,N Woodward Ave,1,Dayton,OH,US/Eastern,34.0,100.0,29.66,Overcast,False,False,False,1.0
7,3,08/02/2016 07:59,08/02/2016 08:29,39.770382,-84.194901,Accident on I-75 Southbound at Exit 54B Grand ...,N Main St,1,Dayton,OH,US/Eastern,34.0,100.0,29.66,Overcast,False,False,False,1.0
8,2,08/02/2016 08:00,08/02/2016 08:30,39.778061,-84.172005,Accident on Notre Dame Ave at Warner Ave. Expe...,Notre Dame Ave,0,Dayton,OH,US/Eastern,33.3,99.0,29.67,Mostly Cloudy,False,False,False,1.0
9,3,08/02/2016 08:10,08/02/2016 08:40,40.10059,-82.925194,Right hand shoulder blocked due to accident on...,Westerville Rd,1,Westerville,OH,US/Eastern,37.4,100.0,29.62,Light Rain,False,False,False,1.0


En caso de que quiera deshacerme de una columna que no necesito, como por ejemplo, si mi base de datos cuenta con el nombre del cliente en la columna Nombre, dentro del data_frame.


In [95]:
df.drop('Pais',axis = 1, inplace = True)
df.dtypes

Severidad               int64
Fecha de inicio        object
Fecha de terminado     object
Latitud               float64
Longitud              float64
Descripcion            object
Calle                  object
Lado de la via         object
Ciudad                 object
Estado                 object
Timezone               object
Temperature(F)        float64
Humidity(%)           float64
Pressure(in)          float64
Weather_Condition      object
Crossing                 bool
Station                  bool
Traffic_Signal           bool
Sunrise_Sunset         object
dtype: object

Nos quedamos con 19 columnas que creemos son relevantes para nuestros calculos

PREGUNTAS DE INTERES:

- ¿Para que me puede servir estas agrupaciones para la práctica siguiente?

Para tener una visualizacion mas concreta de los datos, podemos tener multiples graficas y en cada una mostrar un grupo vs algun otro dato de interes

## Datos nulos.

Para estos casos, primero se tiene que hacer un análisis de los valores faltantes. Para esto utilizamos los siguientes comandos.

In [170]:
df.isnull()

Unnamed: 0,Severidad,Fecha_de_inicio,Fecha_de_terminado,Latitud,Longitud,Descripcion,Calle,Lado_de_la_via,Ciudad,Estado,Zona_Horaria,Temperatura(F),Humedad(%),Presion(in),Condicion_Climatica,Cruce,Estacion,Señal_de_trafico,Periodo_de_dia
0,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1048570,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
1048571,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
1048572,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
1048573,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False


Que nos da como resultado la base de datos, pero en cada celda esta un valor boleano de True o False para indicarnos cuales son los valores nulos (True). Esto puede servirnos para visualizar una base de datos pequeña, pero en caso de tener muchos datos, es necesario dar un resumen del comportamiento de los datos nulos.



In [171]:
df.isnull().any()

Severidad              False
Fecha_de_inicio        False
Fecha_de_terminado     False
Latitud                False
Longitud               False
Descripcion            False
Calle                  False
Lado_de_la_via         False
Ciudad                  True
Estado                 False
Zona_Horaria            True
Temperatura(F)          True
Humedad(%)              True
Presion(in)             True
Condicion_Climatica     True
Cruce                  False
Estacion               False
Señal_de_trafico       False
Periodo_de_dia          True
dtype: bool

Nosotros teniamos datos nulos en algunas columnas

Al agregar el any a la sentencia, nos va a dar como resultado la lista de los nombres de las columnas, y a un lado los valores boleanos de True o False, para decirnos si en esa columna hay valores nulos (True) o no los hay (False).

Esto nos da una idea de donde debemos buscar para resolver nuestros valores nulos. Para tener una idea más acertada de cuantos valores nulos tenemos por columna, podemos usar:

In [176]:
df.isnull().sum()

Severidad                  0
Fecha_de_inicio            0
Fecha_de_terminado         0
Latitud                    0
Longitud                   0
Descripcion                0
Calle                      0
Lado_de_la_via             0
Ciudad                    35
Estado                     0
Zona_Horaria             663
Temperatura(F)         15431
Humedad(%)             16901
Presion(in)            12215
Condicion_Climatica    18749
Cruce                      0
Estacion                   0
Señal_de_trafico           0
Periodo_de_dia            37
dtype: int64

Teniamos esta cantidad de datos nulos en las columnas, nosotros eliminamos todos los renglones con datos nulos ya que el total de datos nulos representaba un 1% de nuestra base de datos asi que quitarlos no nos iba a representar ningun problema

Que nos dará como salida la suma de los valores nulos que existen en cada columna.

Ahora, para poder rellenar los valores nulos, es importante hacer una nueva variable que pueda contener tu dataframe, en caso de que te equivoques al modificar datos. Tambien puede ser una opcion buena el hacer una copia de tus datos en caso de que quieras volver a manejarlos desde cero.

### Preguntas de interes:
- Importancia del analisis previo de los datos antes de iniciar las modificaciones.

In [None]:
data_frame_0 = data_frame.fillna(0)

Con esa instrucción, todos los valores que tengan celdas nulas, se llenaran con ceros. Esto también es una desisión que se tiene que deliberar, ya que si tus datos si reportan valores de cero, puedes afectar el resultado de tus pruebas estadisticas.

In [173]:
df_drop = df.dropna()


In [177]:
df_drop.Periodo_de_dia.astype("int")

0          0
1          0
2          0
3          0
4          1
          ..
1048570    1
1048571    1
1048572    1
1048573    1
1048574    1
Name: Periodo_de_dia, Length: 1023841, dtype: int32

In [181]:
df_drop.to_csv('Datos limpios.csv', index=False)

Con el comando de arriba lo que le estas indicando es que quieres que te elimine todas las filas que contengan datos nulos. En la parte de abajo tenemos que quieres eliminar todas las columnas que tengan datos nulos dentro de tu base de datos.

In [None]:
df_drop_column = df.dropna(axis=1)

# Tarea:

Dada una base de datos en grupo, realizar las diferentes técnicas de pre procesamiento de datos. Pueden ser las mencionadas en esta práctica, o pueden agregar nuevas. Los temas que tienen que tocar de manera obligatoria:

- Importar librerias y base de datos.
- Visualizar los datos.
- Descrpcion básica de columnas (tipo, elementos, celdas vacias, etc.)
- El objetivo es una clasificación con los datos, asi que hay que acomodar los datos de manera que se nos facilite esta tarea.
- Cambiar nombres de columnas.
- Guardar otros archivos con agrupaciones.
- Responder las preguntas de interes.

Tareas extras:
(Puntos extras)
- Investigar los siguientes comandos:
?df.dropna()
?df.astype

- Realizar una tarea de preprocesamiento no mencionada en esta práctica.

In [None]:
df=df.replace('\*','',regex=True).astype(float)

df.dropna(thresh=int(df.shape[0] * .9), axis=1)

Podemos verificar los análisis estadísticos del dataframe. Esta información nos puede decir si hay problemas matemáticos, como extremos atípicos y grandes desviaciones. Para conocer esto solamente utilizamos el método “describe()”. Esta función también puede analizar datos tipo objetos, para ellos solamente se debe incluir “include = “all” a la función, dentro del paréntesis, para que muestra el análisis de todas las columnas y filas del dataframe.

La información que nos arroja es la siguiente:

“count”: se refiere al número de términos en la columna,

“mean”: se refiere al valor promedio de la columna,

“std”: es la desviación estándar de la columna.

También se muestra los valores máximo y mínimo, así como el límite de cada uno de los cuartiles.

Observemos que para las columnas de tipo objeto, se evalúa un conjunto diferente de estadísticas, veamos de que se trata cada uno de ellos:

“unique”: esto se refiere al número de objetos distintos en la columna,

“top”: es el dato más frecuente que se produce,

“freq”: es la cantidad de veces que aparece el objeto “top” en la columna.

Algunos valores en la tabla se muestran como “NaN”, que significa “no es un número”, esto se debe a que esta métrica estadística particular no se puede calcular para ese específico tipo de datos de columna.

In [180]:
df_drop.describe(include = "all")
# liga de la funcion: https://aprendeia.com/explorando-los-datos-con-python/

Unnamed: 0,Severidad,Fecha_de_inicio,Fecha_de_terminado,Latitud,Longitud,Descripcion,Calle,Lado_de_la_via,Ciudad,Estado,Zona_Horaria,Temperatura(F),Humedad(%),Presion(in),Condicion_Climatica,Cruce,Estacion,Señal_de_trafico,Periodo_de_dia
count,1023841.0,1023841,1023841,1023841.0,1023841.0,1023841,1023841,1023841.0,1023841,1023841,1023841,1023841.0,1023841.0,1023841.0,1023841,1023841,1023841,1023841,1023841.0
unique,,531511,524013,,,719928,86853,,8546,49,4,,,,105,2,2,2,
top,,10/04/2016 08:59,03/10/2019 09:22,,,Accident on I-85 Southbound at Exit 54 Pelham Rd.,I-5 N,,Houston,CA,US/Eastern,,,,Fair,False,False,False,
freq,,35,30,,,77,9289,,43723,248156,452846,,,,227757,938633,1001469,819500,
mean,2.334599,,,35.98076,-94.93528,,,0.8047841,,,,62.87191,65.73192,29.65388,,,,,0.7275065
std,0.4817647,,,4.920777,17.08267,,,0.396367,,,,17.87074,21.89447,0.8534022,,,,,0.4452426
min,1.0,,,24.56025,-124.4844,,,0.0,,,,-21.0,1.0,2.98,,,,,0.0
25%,2.0,,,32.88339,-117.1991,,,1.0,,,,51.1,50.0,29.51,,,,,0.0
50%,2.0,,,35.1374,-89.21895,,,1.0,,,,64.4,68.0,29.9,,,,,1.0
75%,3.0,,,40.06557,-80.9824,,,1.0,,,,76.0,84.0,30.05,,,,,1.0
