# Personal Project #2 - Data Cleaning Fire Statistics Mexico for 2020
By [Luis Munguia](http://www.linkedin.com/in/luis-munguia) 

In this guided project, I'll clean an update dataset from the Mexican National Comision of Bonds and Insurances. 

The datasets contains information about all the fires events for insured clients and their quantities.

The main data dictionary is as follows:

* `AÑO`: Year in which the Fire occured.
* `FORMA DE VENTA`: Type of sale.
* `GIRO`: Business type.
* `NUMERO DE NIVELES`: Building height in floors.
* `ENTIDAD`: Mexican State.
* `CAUSA DEL SINIESTRO`: Determined cause. 
* `Degrees`: Count of 17 columns for each degree category.

## 1.- Import NumPy, pandas and Matplotlib libraries.

Use pandas to import data from the datasets. Review which encoding is better.

In [281]:
import pandas as pd
import numpy as np

In [282]:
data = pd.read_csv("46 Informacion estadistica de Incendio_ Siniestros.csv", encoding='Latin1', low_memory = False)

In [283]:
data.head()

Unnamed: 0,AÑO,MONEDA,FORMA DE VENTA,GIRO,NUMERO DE NIVELES,TIPO PRIMER RIESGO,ENTIDAD,SUBTIPO DE SEGURO,TIPO DE BIEN,COBERTURA,CAUSA DEL SINIESTRO,NUMERO DE SINIESTROS,MONTO DE SINIESTRO,GASTO DE AJUSTE,SALVAMENTO,MONTO PAGADO,MONTO DE DEDUCIBLE,MONTO COASEGURO
0,2015,Extranjera,Agentes Persona Fisica,"Alquiler de maquinaria y equipo industrial, co...",2,NINGUNO,Baja California,Otro,Contenidos,"Incendio, rayo y explosion",Falta de Mantenimiento,1,49946,0,0,50306,15300,0
1,2015,Extranjera,Agentes Persona Fisica,Autotransporte de carga general,1,RELATIVO,Guanajuato,Otro,Edificio,"Incendio, rayo y explosion",Rayo,2,85736,2969,0,0,0,0
2,2015,Extranjera,Agentes Persona Fisica,Banca multiple,1,NINGUNO,Estado de Mexico,Microseguro,Contenidos,Extension de cubierta (sin inundacion),Impacto De Vehiculos,1,0,3626,0,0,0,0
3,2015,Extranjera,Agentes Persona Fisica,Banca multiple,1,NINGUNO,Nuevo Leon,Microseguro,Contenidos,Extension de cubierta (sin inundacion),"Rotura de techos, vidrios, paredes",1,-278,1813,0,0,0,0
4,2015,Extranjera,Agentes Persona Fisica,Banca multiple,1,NINGUNO,Distrito Federal,Microseguro,Contenidos,Extension de cubierta (sin inundacion),Roturas de tuberias o sistemas de agua,1,-1188,3626,0,0,0,0


# 2.- Delete columns.
Drop the following columns: ["FORMA DE VENTA", "SUBTIPO DE SEGURO", "SALVAMENTO", "MONTO PAGADO", "MONTO DE DEDUCIBLE", "MONTO DE COASEGURO"]

In [284]:
data["TIPO PRIMER RIESGO"].unique()

array(['NINGUNO', 'RELATIVO', 'ABSOLUTO', 'No Disponible',
       'No disponible', 'Ninguno', 'Absoluto', 'Relativo'], dtype=object)

In [285]:
newdata = data.drop(columns=["MONEDA", "FORMA DE VENTA","TIPO PRIMER RIESGO", "SUBTIPO DE SEGURO", "COBERTURA", "GASTO DE AJUSTE", "SALVAMENTO", "MONTO DE DEDUCIBLE", "MONTO COASEGURO"])

In [286]:
newdata.head()

Unnamed: 0,AÑO,GIRO,NUMERO DE NIVELES,ENTIDAD,TIPO DE BIEN,CAUSA DEL SINIESTRO,NUMERO DE SINIESTROS,MONTO DE SINIESTRO,MONTO PAGADO
0,2015,"Alquiler de maquinaria y equipo industrial, co...",2,Baja California,Contenidos,Falta de Mantenimiento,1,49946,50306
1,2015,Autotransporte de carga general,1,Guanajuato,Edificio,Rayo,2,85736,0
2,2015,Banca multiple,1,Estado de Mexico,Contenidos,Impacto De Vehiculos,1,0,0
3,2015,Banca multiple,1,Nuevo Leon,Contenidos,"Rotura de techos, vidrios, paredes",1,-278,0
4,2015,Banca multiple,1,Distrito Federal,Contenidos,Roturas de tuberias o sistemas de agua,1,-1188,0


In [287]:
newdata.isna().sum()

AÑO                     0
GIRO                    0
NUMERO DE NIVELES       0
ENTIDAD                 0
TIPO DE BIEN            0
CAUSA DEL SINIESTRO     0
NUMERO DE SINIESTROS    0
MONTO DE SINIESTRO      0
MONTO PAGADO            0
dtype: int64

In [288]:
newdata.dtypes

AÑO                      int64
GIRO                    object
NUMERO DE NIVELES       object
ENTIDAD                 object
TIPO DE BIEN            object
CAUSA DEL SINIESTRO     object
NUMERO DE SINIESTROS     int64
MONTO DE SINIESTRO       int64
MONTO PAGADO             int64
dtype: object

# 3.- Clean row data.
Agregate data for "TIPO DE BIEN", "CAUSA DEL SINIESTRO" and drop categories from "GIRO".

In [289]:
newdata["TIPO DE BIEN"].value_counts()

Edificio                                                  27532
Contenidos                                                19358
Perdidas Consecuenciales                                   3939
Contenidos y Edificio                                      3280
Existencias / Bienes Bajo Convenio Expreso                  162
Edificio y Perdidas Consecuenciales                         136
Otra combinacion / Otros                                     84
Edificio y Perdidas Consecuenc                               77
Contenidos y Perdidas Consecuenciales                        57
Contenidos y Perdidas Consecue                               39
Existencias / Bienes Bajo Conv                               25
Contenidos, Existencias / Bienes Bajo Convenio Expreso       12
Contenidos y Existencias                                      5
Name: TIPO DE BIEN, dtype: int64

## Will group as follows: "Contenidos", "Edificio", "Ambos".

In [290]:
mapdict = {'Edificio': 'Edificio', 'Contenidos': 'Contenidos','Perdidas Consecuenciales': "Ambos u Otros",
 'Contenidos y Edificio': "Ambos u Otros",
 'Existencias / Bienes Bajo Conv': "Ambos u Otros",
 'Contenidos y Perdidas Consecue': "Ambos u Otros",
 'Edificio y Perdidas Consecuenc': "Ambos u Otros",
 'Contenidos y Existencias': "Ambos u Otros",
 'Otra combinacion / Otros': "Ambos u Otros",
 'Edificio y Perdidas Consecuenciales': "Ambos u Otros",
 'Contenidos y Perdidas Consecuenciales': "Ambos u Otros",
 'Contenidos, Existencias / Bienes Bajo Convenio Expreso': "Ambos u Otros",
 'Existencias / Bienes Bajo Convenio Expreso': "Ambos u Otros"}

In [291]:
newdata["TIPO DE BIEN"].replace(mapdict, inplace=True)

In [292]:
newdata["TIPO DE BIEN"].value_counts()

Edificio         27532
Contenidos       19358
Ambos u Otros     7816
Name: TIPO DE BIEN, dtype: int64

In [293]:
newdata["CAUSA DEL SINIESTRO"].value_counts()

Rayo                                                               7412
Roturas de tuberias o sistemas de agua                             5526
Corto circuito / Electricidad                                      5483
Incendio por Lluvia                                                4467
Accion del Agua que no Provenga de las Condiciones Atmosfericas    3625
                                                                   ... 
Conmocion Civil                                                       9
Derrame De Material Fundido                                           4
Fermentacion                                                          3
Guerra                                                                3
Perdida de equipaje durante el viaje                                  2
Name: CAUSA DEL SINIESTRO, Length: 63, dtype: int64

## Will use string methods to clean values and group.

In [294]:
newdata["CAUSA DEL SINIESTRO"] = newdata["CAUSA DEL SINIESTRO"].str.title()

In [295]:
mapdict = newdata["CAUSA DEL SINIESTRO"].value_counts().sort_index().to_dict()

In [296]:
mapdict

{'Accion Del Agua Que No Provenga De Las Condiciones': 1386,
 'Accion Del Agua Que No Provenga De Las Condiciones Atmosfericas': 3625,
 'Actos De Personas Mal Intencionadas': 3014,
 'Auto Ignicion': 588,
 'Caida De Antenas': 73,
 'Caida De Arboles': 770,
 'Caida De Avion': 195,
 'Caida De Maquinaria O Sus Partes Por Rotura De Cab': 38,
 'Caida De Maquinaria O Sus Partes Por Rotura De Cables': 2298,
 'Caida De Nave Aerea Y Objetos Caidos De Ellos': 67,
 'Cerillos Y Cigarros': 99,
 'Combustion Espontanea': 108,
 'Conmocion Civil': 9,
 'Contenidos E Interior De Los Edificios Por Deficie': 76,
 'Contenidos E Interior De Los Edificios Por Deficiencias En Construccion': 453,
 'Corrosion En Tuberia': 73,
 'Corto Circuito / Electricidad': 5483,
 'Daños Causados Por Impericia De Trabajo': 907,
 'Daños En Coladeras': 24,
 'Daños Por Derrame De Sustancias Quimicas': 49,
 'Derrame De Equipo Contra Incendio': 67,
 'Derrame De Material Fundido': 30,
 'Desbordamiento O Desviacion De Corrientes O Depo

In [297]:
mapdict = {'Accion Del Agua Que No Provenga De Las Condiciones': 'Agua No Atmosferica',
 'Accion Del Agua Que No Provenga De Las Condiciones Atmosfericas': 'Agua No Atmosferica',
 'Actos De Personas Mal Intencionadas': "Incendio Provocado",
 'Auto Ignicion': "Ignicion Esponteanea",
 'Caida De Antenas': "Caida De Antena",
 'Caida De Arboles': "Caida De Arbol",
 'Caida De Avion': "Caida De Avion",
 'Caida De Maquinaria O Sus Partes Por Rotura De Cab': "Caida De Maquinaria",
 'Caida De Maquinaria O Sus Partes Por Rotura De Cables': "Caida De Maquinaria",
 'Caida De Nave Aerea Y Objetos Caidos De Ellos': "Caida de Avion",
 'Cerillos Y Cigarros': "Cerillos y Cigarros",
 'Combustion Espontanea': "Ignicion Esponteanea",
 'Conmocion Civil': "Otros",
 'Contenidos E Interior De Los Edificios Por Deficie': "Deficiente Construccion",
 'Contenidos E Interior De Los Edificios Por Deficiencias En Construccion': "Deficiente Construccion",
 'Corrosion En Tuberia': "Otros",
 'Corto Circuito / Electricidad': "Corto Electrico",
 'Daños Causados Por Impericia De Trabajo': "Error Humano",
 'Daños En Coladeras': "Otro",
 'Daños Por Derrame De Sustancias Quimicas': "Otro",
 'Derrame De Equipo Contra Incendio': "Otro",
 'Derrame De Material Fundido': "Otro",
 'Desbordamiento O Desviacion De Corrientes O Deposi': "Agua No Atmosferica",
 'Desbordamiento O Desviacion De Corrientes O Depositos Artificiales': "Agua No Atmosferica",
 'Descargas Accidentales De Agua O Vapor': "Agua No Atmosferica",
 'Desechos Organicos': "Otro",
 'Durante La Soldadura Y Corte': "Error Humano",
 'Escape De Materias Inflamables O Explosivas': "Explosion",
 'Explosion': "Explosion",
 'Fallas En El Sistema De Refrigeracion': "Otro",
 'Falta De Mantenimiento': "Falta De Mantenimiento",
 'Falta De Suministro De Energia Electrica': "Falta de Energia Electrica",
 'Falta O Insuficiencia De Drenaje': "Otro",
 'Fenomenos De La Naturaleza': "Fenomeno De La Naturaleza",
 'Fermentacion': "Otro",
 'Friccion': "Otro",
 'Gastos Extraordinarios': "Otro",
 'Guerra': "Otro",
 'Huelgas, Alborotos Populares': "Vandalismo",
 'Humo O Tizne': "Otro",
 'Impacto De Vehiculos': "Impacto de Vehiculos",
 'Incendio Por Lluvia': "Lluvia",
 'Material Sobrecalentado': "Otro",
 'Otra Causa': "Otro",
 'Perdida De Equipaje Durante El Viaje': "Otro",
 'Perdida De Equpaje Durante Viaje': "Otro",
 'Plaga De Termitas': "Plaga",
 'Rayo': "Rayo",
 'Remocion De Escombros': "Error Humano",
 'Rotura De Techos, Vidrios, Paredes': "Rotura de Techo, Vidios o Paredes",
 'Roturas De Tuberias O Sistemas De Agua': "Rotura de Tuberias de Agua",
 'Vientos Tempestuosos': "Fenomeno De La Naturaleza"}

In [298]:
newdata["CAUSA DEL SINIESTRO"].replace(mapdict, inplace=True)

In [299]:
newdata["CAUSA DEL SINIESTRO"].value_counts()

Rayo                                 7412
Agua No Atmosferica                  5926
Rotura de Tuberias de Agua           5526
Corto Electrico                      5483
Lluvia                               4467
Explosion                            4031
Impacto de Vehiculos                 3140
Incendio Provocado                   3014
Fenomeno De La Naturaleza            2889
Falta De Mantenimiento               2662
Caida De Maquinaria                  2336
Otro                                 1719
Error Humano                         1500
Rotura de Techo, Vidios o Paredes    1208
Caida De Arbol                        770
Ignicion Esponteanea                  696
Vandalismo                            681
Deficiente Construccion               529
Caida De Avion                        195
Falta de Energia Electrica            140
Cerillos y Cigarros                    99
Otros                                  82
Caida De Antena                        73
Caida de Avion                    

In [300]:
mapdict = newdata["CAUSA DEL SINIESTRO"].value_counts().sort_index().to_dict()
mapdict

{'Agua No Atmosferica': 5926,
 'Caida De Antena': 73,
 'Caida De Arbol': 770,
 'Caida De Avion': 195,
 'Caida De Maquinaria': 2336,
 'Caida de Avion': 67,
 'Cerillos y Cigarros': 99,
 'Corto Electrico': 5483,
 'Deficiente Construccion': 529,
 'Error Humano': 1500,
 'Explosion': 4031,
 'Falta De Mantenimiento': 2662,
 'Falta de Energia Electrica': 140,
 'Fenomeno De La Naturaleza': 2889,
 'Ignicion Esponteanea': 696,
 'Impacto de Vehiculos': 3140,
 'Incendio Provocado': 3014,
 'Lluvia': 4467,
 'Otro': 1719,
 'Otros': 82,
 'Plaga': 61,
 'Rayo': 7412,
 'Rotura de Techo, Vidios o Paredes': 1208,
 'Rotura de Tuberias de Agua': 5526,
 'Vandalismo': 681}

In [301]:
mapdict = {'Agua No Atmosferica': "Agua-No Atmosferica",
 'Caida De Antena': "Caida-Antena",
 'Caida De Arbol': "Caida-Arbol",
 'Caida De Avion': "Caida-Avion",
 'Caida De Maquinaria': "Caida-Maquinaria",
 'Caida de Avion': "Caida-Avion",
 'Cerillos y Cigarros': "Humano-Fumar",
 'Corto Electrico': "Incidente-Corto Electrico",
 'Deficiente Construccion': "Incidente-Construccion Deficiente",
 'Error Humano': "Humano-Error",
 'Explosion': "Incidente-Explosion",
 'Falta De Mantenimiento': "Humano-Falta de Mantenimiento",
 'Falta de Energia Electrica': "Incidente-Falta de Energia",
 'Fenomeno De La Naturaleza': "Naturaleza-Fenomeno",
 'Ignicion Esponteanea': "Incidente-Ignicion Espontanea",
 'Impacto de Vehiculos': "Humano-Impacto Vehicular",
 'Incendio Provocado': "Humano-Incendio Provocado",
 'Lluvia': "Agua-Lluvia",
 'Otro': "Otro-Otro",
 'Otros': "Otro-Otro",
 'Plaga': "Naturaleza-Plaga",
 'Rayo': "Naturaleza-Rayo",
 'Rotura de Techo, Vidios o Paredes': "Incidente-Rotura de Techo, Vidrios o Paredes",
 'Rotura de Tuberias de Agua': "Agua-Tuberia Rota",
 'Vandalismo': "Humano-Vandalismo"}

In [302]:
newdata["CAUSA DEL SINIESTRO"].replace(mapdict, inplace=True)

In [303]:
newdata["CAUSA DEL SINIESTRO"].value_counts().sort_index()

Agua-Lluvia                                     4467
Agua-No Atmosferica                             5926
Agua-Tuberia Rota                               5526
Caida-Antena                                      73
Caida-Arbol                                      770
Caida-Avion                                      262
Caida-Maquinaria                                2336
Humano-Error                                    1500
Humano-Falta de Mantenimiento                   2662
Humano-Fumar                                      99
Humano-Impacto Vehicular                        3140
Humano-Incendio Provocado                       3014
Humano-Vandalismo                                681
Incidente-Construccion Deficiente                529
Incidente-Corto Electrico                       5483
Incidente-Explosion                             4031
Incidente-Falta de Energia                       140
Incidente-Ignicion Espontanea                    696
Incidente-Rotura de Techo, Vidrios o Paredes  

## Giro has a lot of different values, I will drop categories with small frequencies.

In [304]:
newdata["GIRO"] = newdata["GIRO"].str.title()

In [305]:
newdata["GIRO"].unique()

array(['Alquiler De Maquinaria Y Equipo Industrial, Comercial Y De Servic',
       'Autotransporte De Carga General', 'Banca Multiple',
       'Captacion, Tratamiento Y Suministro De Agua', 'Casa Habitacion',
       'Casa Habitacion Propia',
       'Casinos, Loterias Y Otros Juegos De Azar',
       'Centros Nocturnos, Bares, Cantinas Y Similares',
       'Comercio Al Por Mayor De Alimentos Y Abarrotes',
       'Comercio Al Por Mayor De Articulos De Papeleria, Libros, Revistas',
       'Comercio Al Por Mayor De Articulos De Perfumeria, Joyeria Y Otros',
       'Comercio Al Por Mayor De Discos, Juguetes Y Articulos Deportivos',
       'Comercio Al Por Mayor De Electrodomesticos Menores Y Aparatos D',
       'Comercio Al Por Mayor De Maquinaria Y Equipo Agropecuario, Fores',
       'Comercio Al Por Mayor De Maquinaria Y Equipo Para La Industria',
       'Comercio Al Por Mayor De Materiales De Desecho',
       'Comercio Al Por Mayor De Materias Primas Para La Industria',
       'Comercio A

In [314]:
newdata["GIRO"].value_counts().shape

(588,)

In [411]:
counts = newdata["GIRO"].value_counts()
#This line of code will filter out any category with a frequency of less than or equal to 55.
dirtydata = newdata[~newdata["GIRO"].isin(counts[counts <= 25].index)]
dirtydata["GIRO"].value_counts()

Casa Habitaciòn                                                                                                                                             8946
Vivienda (Casa Habitaciòn)                                                                                                                                  4291
Casa Habitacion                                                                                                                                             4002
Oficinas Publicas                                                                                                                                           2418
Oficinas Privadas                                                                                                                                           1416
                                                                                                                                                            ... 
Servicios De Esparcimiento Cultura

In [412]:
x = dirtydata.shape[0]
x

51469

In [413]:
y = newdata.shape[0]
y

54706

In [414]:
z = y - x
z

3237

In [415]:
per = z / y * 100
per

5.917084049281614

I always try to keep the amount of dropped data below 5%. I can live with 5.91% since this is just a personal proyect.

In [416]:
dirtydata["GIRO"].value_counts().sort_index().to_dict()

{'Actividades Del Gobierno Y De Organismos Internacionales Y Extraterritoriales (Administracion Publica En General)': 231,
 'Administracion Publica En General': 673,
 'Alquiler Sin Intermediacion De Viviendas Y Otros Inmuebles': 38,
 'Banca Multiple': 501,
 'Captacion, Tratamiento Y Suministro De Agua': 55,
 'Casa Habitacion': 4002,
 'Casa Habitacion (Credito Hipotecario)': 473,
 'Casa Habitacion Propia': 265,
 'Casa Habitaciòn': 8946,
 'Casa Habitaciòn (Credito Hipotecario)': 1189,
 'Casa Habitaciòn Propia': 592,
 'Casa Habitaciòn Rentada': 56,
 'Centros Nocturnos, Bares, Cantinas Y Similares': 268,
 'Comercio Al Por Mayor (Comercio Al Por Mayor De Alimentos Y Abarrotes)': 233,
 'Comercio Al Por Mayor (Comercio Al Por Mayor De Materias Primas Para La Industria)': 55,
 'Comercio Al Por Mayor (Comercio Al Por Mayor De Productos Farmaceuticos)': 50,
 'Comercio Al Por Mayor (Comercio Al Por Mayor De Productos Textiles Y Calzado)': 30,
 'Comercio Al Por Mayor De Alimentos Y Abarrotes': 706