# Personal Project #1 - Data Cleaning Fire Statistics Mexico
By [Luis Munguia](http://www.linkedin.com/in/luis-munguia) 

In this guided project, I'll clean three datasets from  with a data set from the Mexican National Comision of Bonds and Insurances. 

These 3 datasets were uploaded and grouped by Emission, Ensured Amount and Events.

The data dictionary is as follows:

* `year`: Year in which the percentages were calculated.
* `Degrees`: Count of 17 columns for each degree category.

This is a personal project, in which the cleaned dataset will be uploaded to a BI to make visualizations and data exploration.

## 1.- Import NumPy, pandas and Matplotlib libraries.

Use pandas to import data from the datasets. Review which encoding is better.

In [1]:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib as plt

#emission = pd.read_csv("44-Informacion-estadistica-de-Incendio-Emision.csv")
#emission.head()

In [2]:
emission = pd.read_csv("44-Informacion-estadistica-de-Incendio-Emision.csv", encoding='Windows-1251')
emission.head()

Unnamed: 0,AСO,MONEDA,FORMA DE VENTA,GIRO DE LA UBICACION,ENTIDAD,SUBTIPO DE SEGURO,NUMERO DE NIVELES,TIPO PRIMER RIESGO,NUMERO DE UBICACIONES,PRIMA EMITIDA,PRIMA RETENIDA,PRIMA DEVENGADA,COMISION DIRECTA,VALORES TOTALES EDIFICIO,VALORES TOTALES CONTENIDO,VALORES TOTALES EXISTENCIAS,VALORES TOTALES PђERDIDAS CONSECUENCIALES,LIMITE MAXIMO DE RESPONSABILIDAD
0,2015,Extranjera,Agentes Persona Fisica,Acabado y recubrimiento de textiles,DISTRITO FEDERAL,Otro,1,ABSOLUTO,2,1347363.93,1347363.93,1404425.08,164192,552880885.0,1685497000.0,0,698745950.0,1685497000.0
1,2015,Extranjera,Agentes Persona Fisica,Acabado y recubrimiento de textiles,GUANAJUATO,Otro,1,NINGUNO,6,167851.58,12166.89,141870.85,31933,0.0,369122200.0,0,10107738.0,379229900.0
2,2015,Extranjera,Agentes Persona Fisica,Acabado y recubrimiento de textiles,GUANAJUATO,Otro,1,RELATIVO,3,0.0,0.0,1067.99,0,0.0,184561100.0,0,5053869.0,189615000.0
3,2015,Extranjera,Agentes Persona Fisica,Acabado y recubrimiento de textiles,MICHOACAN,Otro,1,NINGUNO,2,305332.21,23505.54,292692.73,91600,43121750.0,106079500.0,0,13798960.0,163000200.0
4,2015,Extranjera,Agentes Persona Fisica,Acuicultura animal,SONORA,Otro,2,NINGUNO,2,401072.86,25775.08,343534.11,120321,68994800.0,64510140.0,0,0.0,133504900.0


In [3]:
emission = pd.read_csv("44-Informacion-estadistica-de-Incendio-Emision.csv", encoding='Latin-1')
emission.head()

Unnamed: 0,AÑO,MONEDA,FORMA DE VENTA,GIRO DE LA UBICACION,ENTIDAD,SUBTIPO DE SEGURO,NUMERO DE NIVELES,TIPO PRIMER RIESGO,NUMERO DE UBICACIONES,PRIMA EMITIDA,PRIMA RETENIDA,PRIMA DEVENGADA,COMISION DIRECTA,VALORES TOTALES EDIFICIO,VALORES TOTALES CONTENIDO,VALORES TOTALES EXISTENCIAS,VALORES TOTALES PERDIDAS CONSECUENCIALES,LIMITE MAXIMO DE RESPONSABILIDAD
0,2015,Extranjera,Agentes Persona Fisica,Acabado y recubrimiento de textiles,DISTRITO FEDERAL,Otro,1,ABSOLUTO,2,1347363.93,1347363.93,1404425.08,164192,552880885.0,1685497000.0,0,698745950.0,1685497000.0
1,2015,Extranjera,Agentes Persona Fisica,Acabado y recubrimiento de textiles,GUANAJUATO,Otro,1,NINGUNO,6,167851.58,12166.89,141870.85,31933,0.0,369122200.0,0,10107738.0,379229900.0
2,2015,Extranjera,Agentes Persona Fisica,Acabado y recubrimiento de textiles,GUANAJUATO,Otro,1,RELATIVO,3,0.0,0.0,1067.99,0,0.0,184561100.0,0,5053869.0,189615000.0
3,2015,Extranjera,Agentes Persona Fisica,Acabado y recubrimiento de textiles,MICHOACAN,Otro,1,NINGUNO,2,305332.21,23505.54,292692.73,91600,43121750.0,106079500.0,0,13798960.0,163000200.0
4,2015,Extranjera,Agentes Persona Fisica,Acuicultura animal,SONORA,Otro,2,NINGUNO,2,401072.86,25775.08,343534.11,120321,68994800.0,64510140.0,0,0.0,133504900.0


As we can see above, 'Latin-1' encoding seems to work much better.

In [4]:
amount = pd.read_csv("45-Informacion-estadistica-de-Incendio-Suma-Asegurada.csv", encoding='Latin-1')
amount.head()

Unnamed: 0,AÑO,GIRO,ENTIDAD,SUBTIPO DE SEGURO,TIPO PRIMER RIESGO,TIPO DE BIEN,COBERTURA,NUMERO DE UBICACIONES,SUMA ASEGURADA_PESOS,SUMA ASEGURADA EXPUESTA_PESOS
0,2015,Acabado y recubrimiento de textiles,Quintana Roo,Microseguro,NINGUNO,Contenidos,Extension de cubierta (sin inundacion),1,31508838.0,31508838.0
1,2015,Acabado y recubrimiento de textiles,Nuevo Leon,Microseguro,NINGUNO,Contenidos,"Incendio, rayo y explosion",2,30000836.0,30000836.0
2,2015,Acabado y recubrimiento de textiles,Jalisco,Microseguro,NINGUNO,Contenidos,Todo Riesgo,83,128868029.0,128418468.0
3,2015,Acabado y recubrimiento de textiles,Quintana Roo,Microseguro,NINGUNO,Contenidos,Todo Riesgo,1,31508838.0,31508838.0
4,2015,Acabado y recubrimiento de textiles,Jalisco,Microseguro,NINGUNO,Edificio,Extension de cubierta (sin inundacion),5,4526284.0,4526284.0


In [5]:
events = pd.read_csv("46-Informacion-estadistica-de-Incendio-Siniestros.csv", encoding='Latin-1', low_memory=False) #I need to add low_memory to ensure this dataframe has correct dtypes.
events.head()

Unnamed: 0,AÑO,MONEDA,FORMA DE VENTA,GIRO,NUMERO DE NIVELES,TIPO PRIMER RIESGO,ENTIDAD,SUBTIPO DE SEGURO,TIPO DE BIEN,COBERTURA,CAUSA DEL SINIESTRO,NUMERO DE SINIESTROS,MONTO DE SINIESTRO,GASTO DE AJUSTE,SALVAMENTO,MONTO PAGADO,MONTO DE DEDUCIBLE,MONTO COASEGURO
0,2015,Extranjera,Agentes Persona Fisica,"Alquiler de maquinaria y equipo industrial, co...",2,NINGUNO,Baja California,Otro,Contenidos,"Incendio, rayo y explosion",Falta de Mantenimiento,1.0,49946.0,0.0,0.0,50306.0,15300.0,0.0
1,2015,Extranjera,Agentes Persona Fisica,Autotransporte de carga general,1,RELATIVO,Guanajuato,Otro,Edificio,"Incendio, rayo y explosion",Rayo,2.0,85736.0,2969.0,0.0,0.0,0.0,0.0
2,2015,Extranjera,Agentes Persona Fisica,Banca multiple,1,NINGUNO,Estado de Mexico,Microseguro,Contenidos,Extension de cubierta (sin inundacion),Impacto De Vehiculos,1.0,0.0,3626.0,0.0,0.0,0.0,0.0
3,2015,Extranjera,Agentes Persona Fisica,Banca multiple,1,NINGUNO,Nuevo Leon,Microseguro,Contenidos,Extension de cubierta (sin inundacion),"Rotura de techos, vidrios, paredes",1.0,-278.0,1813.0,0.0,0.0,0.0,0.0
4,2015,Extranjera,Agentes Persona Fisica,Banca multiple,1,NINGUNO,Distrito Federal,Microseguro,Contenidos,Extension de cubierta (sin inundacion),Roturas de tuberias o sistemas de agua,1.0,-1188.0,3626.0,0.0,0.0,0.0,0.0


## 2.- Review each dataframe to determine if there's any value to be extracted.

Do data exploration.

In [6]:
emission.shape

(157087, 18)

In [7]:
amount.shape

(399307, 10)

In [8]:
events.shape

(155806, 18)

In [9]:
emission.describe()

Unnamed: 0,AÑO,NUMERO DE NIVELES,NUMERO DE UBICACIONES,PRIMA EMITIDA,PRIMA RETENIDA,PRIMA DEVENGADA,COMISION DIRECTA,VALORES TOTALES EDIFICIO,VALORES TOTALES CONTENIDO,VALORES TOTALES EXISTENCIAS,VALORES TOTALES PERDIDAS CONSECUENCIALES,LIMITE MAXIMO DE RESPONSABILIDAD
count,157087.0,157087.0,157087.0,157087.0,157087.0,157087.0,157087.0,157087.0,157087.0,157087.0,157087.0,157087.0
mean,2015.545513,3.383412,62.202977,159705.5,41011.89,145721.7,10876.37,427966800.0,285752100.0,11405370.0,126169200.0,1484576000.0
std,0.497926,5.262544,1163.555802,5639394.0,410264.9,3785567.0,164719.6,17025210000.0,5469740000.0,305707700.0,3140390000.0,22806470000.0
min,2015.0,1.0,1.0,-123385900.0,-27283370.0,-3071211.0,-7985113.0,0.0,0.0,0.0,0.0,1.0
25%,2015.0,1.0,1.0,144.34,24.13,536.0,0.0,0.0,1000000.0,0.0,0.0,4285709.0
50%,2016.0,2.0,3.0,2816.67,1324.0,3644.0,216.0,5955576.0,6300000.0,0.0,680000.0,25873050.0
75%,2016.0,3.0,9.0,21801.16,10015.46,23227.36,2732.0,49482430.0,42140460.0,0.0,8624350.0,202061200.0
max,2016.0,63.0,183586.0,1983804000.0,52947110.0,1160659000.0,41798500.0,4526950000000.0,978000000000.0,78195260000.0,1091190000000.0,4526950000000.0


In [10]:
amount.describe()

Unnamed: 0,AÑO,NUMERO DE UBICACIONES,SUMA ASEGURADA_PESOS,SUMA ASEGURADA EXPUESTA_PESOS
count,399307.0,399307.0,399307.0,399307.0
mean,2015.5398,112.816069,495764700.0,361005600.0
std,0.498414,2005.8172,11741600000.0,7451194000.0
min,2015.0,1.0,1.0,0.0
25%,2015.0,2.0,1483268.0,500000.0
50%,2016.0,4.0,10781290.0,5600000.0
75%,2016.0,14.0,86834380.0,53825140.0
max,2016.0,230831.0,3028690000000.0,1862990000000.0


In [11]:
events.describe()

Unnamed: 0,AÑO,NUMERO DE SINIESTROS,MONTO DE SINIESTRO,GASTO DE AJUSTE,SALVAMENTO,MONTO PAGADO,MONTO DE DEDUCIBLE,MONTO COASEGURO
count,155806.0,25659.0,25659.0,25659.0,25659.0,25659.0,25659.0,25659.0
mean,2015.921852,2.134845,1062462.0,27396.81,6289.946,502047.7,27277.57,2296.48
std,0.268406,6.393833,87344510.0,402862.3,252577.6,10323910.0,643402.9,251635.6
min,2015.0,1.0,-299201400.0,-312353.0,-10580460.0,-179860.0,0.0,0.0
25%,2016.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,2016.0,1.0,826.0,1510.0,0.0,0.0,0.0,0.0
75%,2016.0,1.0,33614.0,3577.0,0.0,15958.5,0.0,0.0
max,2016.0,386.0,13023780000.0,38869550.0,20552100.0,778966200.0,41848750.0,39928770.0


In [12]:
emission.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 157087 entries, 0 to 157086
Data columns (total 18 columns):
AÑO                                          157087 non-null int64
MONEDA                                       157087 non-null object
FORMA DE VENTA                               157087 non-null object
GIRO DE LA UBICACION                         157087 non-null object
ENTIDAD                                      157087 non-null object
SUBTIPO DE SEGURO                            157087 non-null object
NUMERO DE NIVELES                            157087 non-null int64
TIPO PRIMER RIESGO                           157087 non-null object
NUMERO DE UBICACIONES                        157087 non-null int64
PRIMA EMITIDA                                157087 non-null float64
PRIMA RETENIDA                               157087 non-null float64
PRIMA DEVENGADA                              157087 non-null float64
COMISION DIRECTA                             157087 non-null int64
VALORE

In [13]:
amount.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 399307 entries, 0 to 399306
Data columns (total 10 columns):
AÑO                              399307 non-null int64
GIRO                             399307 non-null object
ENTIDAD                          399307 non-null object
SUBTIPO DE SEGURO                399307 non-null object
TIPO PRIMER RIESGO               399307 non-null object
TIPO DE BIEN                     399307 non-null object
COBERTURA                        399307 non-null object
NUMERO DE UBICACIONES            399307 non-null int64
SUMA ASEGURADA_PESOS             399307 non-null float64
SUMA ASEGURADA EXPUESTA_PESOS    399307 non-null float64
dtypes: float64(2), int64(2), object(6)
memory usage: 30.5+ MB


In [14]:
events.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 155806 entries, 0 to 155805
Data columns (total 18 columns):
AÑO                     155806 non-null int64
MONEDA                  25659 non-null object
FORMA DE VENTA          25659 non-null object
GIRO                    25659 non-null object
NUMERO DE NIVELES       25659 non-null object
TIPO PRIMER RIESGO      25659 non-null object
ENTIDAD                 25659 non-null object
SUBTIPO DE SEGURO       25659 non-null object
TIPO DE BIEN            25659 non-null object
COBERTURA               25659 non-null object
CAUSA DEL SINIESTRO     25659 non-null object
NUMERO DE SINIESTROS    25659 non-null float64
MONTO DE SINIESTRO      25659 non-null float64
GASTO DE AJUSTE         25659 non-null float64
SALVAMENTO              25659 non-null float64
MONTO PAGADO            25659 non-null float64
MONTO DE DEDUCIBLE      25659 non-null float64
MONTO COASEGURO         25659 non-null float64
dtypes: float64(7), int64(1), object(10)
memory usage:

In [15]:
events[125000:125010]

Unnamed: 0,AÑO,MONEDA,FORMA DE VENTA,GIRO,NUMERO DE NIVELES,TIPO PRIMER RIESGO,ENTIDAD,SUBTIPO DE SEGURO,TIPO DE BIEN,COBERTURA,CAUSA DEL SINIESTRO,NUMERO DE SINIESTROS,MONTO DE SINIESTRO,GASTO DE AJUSTE,SALVAMENTO,MONTO PAGADO,MONTO DE DEDUCIBLE,MONTO COASEGURO
125000,2016,,,,,,,,,,,,,,,,,
125001,2016,,,,,,,,,,,,,,,,,
125002,2016,,,,,,,,,,,,,,,,,
125003,2016,,,,,,,,,,,,,,,,,
125004,2016,,,,,,,,,,,,,,,,,
125005,2016,,,,,,,,,,,,,,,,,
125006,2016,,,,,,,,,,,,,,,,,
125007,2016,,,,,,,,,,,,,,,,,
125008,2016,,,,,,,,,,,,,,,,,
125009,2016,,,,,,,,,,,,,,,,,


In [16]:
events = events.dropna()

In [17]:
events.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 25659 entries, 0 to 25658
Data columns (total 18 columns):
AÑO                     25659 non-null int64
MONEDA                  25659 non-null object
FORMA DE VENTA          25659 non-null object
GIRO                    25659 non-null object
NUMERO DE NIVELES       25659 non-null object
TIPO PRIMER RIESGO      25659 non-null object
ENTIDAD                 25659 non-null object
SUBTIPO DE SEGURO       25659 non-null object
TIPO DE BIEN            25659 non-null object
COBERTURA               25659 non-null object
CAUSA DEL SINIESTRO     25659 non-null object
NUMERO DE SINIESTROS    25659 non-null float64
MONTO DE SINIESTRO      25659 non-null float64
GASTO DE AJUSTE         25659 non-null float64
SALVAMENTO              25659 non-null float64
MONTO PAGADO            25659 non-null float64
MONTO DE DEDUCIBLE      25659 non-null float64
MONTO COASEGURO         25659 non-null float64
dtypes: float64(7), int64(1), object(10)
memory usage: 3.

I was able to drop more than 125 k rows that had NaN. Let's begin cleaning this dataframe first.

## 3.- Clean events dataframe.

Do data exploration and decide which columns and rows to drop.

In [18]:
event_columns = events.columns
event_columns

Index(['AÑO', 'MONEDA', 'FORMA DE VENTA', 'GIRO', 'NUMERO DE NIVELES',
       'TIPO PRIMER RIESGO', 'ENTIDAD', 'SUBTIPO DE SEGURO', 'TIPO DE BIEN',
       'COBERTURA', 'CAUSA DEL SINIESTRO', 'NUMERO DE SINIESTROS',
       'MONTO DE SINIESTRO', 'GASTO DE AJUSTE', 'SALVAMENTO', 'MONTO PAGADO',
       'MONTO DE DEDUCIBLE', 'MONTO COASEGURO'],
      dtype='object')

In [19]:
for i in event_columns:
    print(events[i].value_counts())

2016    13483
2015    12176
Name: AÑO, dtype: int64
Nacional         20232
Extranjera        5082
No Disponible      185
No disponible      160
Name: MONEDA, dtype: int64
Agentes Persona Fisica                   9951
Agentes Persona Moral                    8427
Red de Sucursales Bancarias              3097
Fuerza de Venta Interna o Casa Matriz    1581
Fuerza Venta Interna o Matriz            1548
No Disponible                             185
Descuento por Nomina                      172
No disponible                             160
Directo                                   141
Telemercadeo                              127
Empresas Comerciales                      104
Otros Canales de Venta Masiva              52
Otra Forma de Venta                        47
Concesionarios Automotrices                34
Banca Seguros                              19
Modulos de Venta                           11
Microcreditos                               1
Venta Masiva                                1
I

What I want to analyze is what type of correlation exists between building type, building size, location, cause of event and cost. So I will drop the following columns: Forma de venta, Tipo Primer Riesgo, Subtipo de Seguro.

In [20]:
events.shape

(25659, 18)

In [21]:
events.drop(["FORMA DE VENTA", "TIPO PRIMER RIESGO", "SUBTIPO DE SEGURO"], axis=1, inplace=True)

In [22]:
events.shape

(25659, 15)

I'm going to drop the rows in which "GIRO" is "Casa" or "Oficina", as those are not markets I'm interested in.

In [23]:
events.replace(to_replace="No disponible", value="No Disponible", inplace=True) #Research Regular Expressions, to look up these words automatically.

drop_list = ['No Disponible', 'Casa Habitacion propia', 'Vivienda (Casa Habitaciòn)', 'Casa Habitacion', 'Edificacion residencial (construccion)',
             'Otro tipo de Casa Habitacion', 'Oficina (Oficinas publicas)', 'Oficinas publicas', 'Oficinas privadas', 'Casa Habitacion (Credito Hipotecario)',
             'Vivienda (Casa Habitaciòn propia)', 'Oficina (Oficinas privadas)', 'Vivienda (Casa Habitaciòn (Credito Hipotecario))',
             'Vivienda (Otro tipo de Casa Habitaciòn)', 'Otro tipo de Oficina', 'Oficina (Otro tipo de Oficina)']

for i in drop_list:
    events = events[events["GIRO"] != i]

In [24]:
events.shape

(12052, 15)

In [25]:
drop_dict = dict(events['GIRO'].value_counts())

list_10_or_less = []
for i in drop_dict:
    if drop_dict[i] < 10:
        list_10_or_less.append(i)
        
for i in list_10_or_less:
    events = events[events["GIRO"] != i]

In [26]:
events["GIRO"].value_counts()

Servicios de alojamiento temporal y de preparacion de alimentos y bebidas (Hoteles, moteles y similares)                                                  348
Servicios de alojamiento temporal y de preparacion de alimentos y bebidas (Restaurantes con servicio de meseros)                                          330
Hoteles, moteles y similares                                                                                                                              320
Comercio al por menor (Comercio al por menor de combustibles, aceites y grasas lubricantes)                                                               318
Comercio al por menor de combustibles, aceites y grasas lubrica                                                                                           310
Restaurantes con servicio de meseros                                                                                                                      292
Comercio al por menor (Comercio al por menor en tien

In [27]:
events.shape

(11072, 15)

In [28]:
np.sort(events["GIRO"].unique())

array(['Actividades del Gobierno y de organismos internacionales y extraterritoriales (Administracion publica en general)',
       'Administracion publica en general',
       'Agencias de viajes y servicios de reservaciones',
       'Agricultura, ganaderia, aprovechamiento forestal, pesca y caza (Cultivo de granos y semillas oleaginosas)',
       'Agricultura, ganaderia, aprovechamiento forestal, pesca y caza (Explotacion avicola)',
       'Agricultura, ganaderia, aprovechamiento forestal, pesca y caza (Servicios relacionados con la ganaderia)',
       'Banca multiple', 'Captacion, tratamiento y suministro de agua',
       'Casinos, loterias y otros juegos de azar',
       'Centros nocturnos, bares, cantinas y similares',
       'Comercio al por mayor (Comercio al por mayor de alimentos y abarrotes)',
       'Comercio al por mayor (Comercio al por mayor de articulos de papeleria, libros, revistas y periodicos)',
       'Comercio al por mayor (Comercio al por mayor de articulos de perfu

I could group GIRO by SECTOR to do better analysis.

In [29]:
np.sort(events["CAUSA DEL SINIESTRO"].unique())

array(['Accion Del Agua Que No Provenga De Las Condiciones',
       'Accion del Agua que no Provenga de las Condiciones Atmosfericas',
       'Actos De Personas Mal Intencionadas',
       'Actos de Personas Mal Intencionadas', 'Auto Ignicion',
       'Caida De Antenas', 'Caida De Avion',
       'Caida De Maquinaria O Sus Partes Por Rotura De Cab',
       'Caida De Nave Aerea Y Objetos Caidos De Ellos',
       'Caida De arboles', 'Caida de Antenas', 'Caida de Arboles',
       'Caida de Avion',
       'Caida de Maquinaria o sus Partes por Rotura de Cables',
       'Caida de Nave Aerea y Objetos Caidos de Ellos',
       'Cerillos y Cigarros', 'Combustion Espontanea',
       'Contenidos e Interior de los edificios por deficie',
       'Contenidos e Interior de los edificios por deficiencias en construccion',
       'Corrosion en tuberia', 'Corto circuito / Electricidad',
       'Daños causados por impericia de trabajo', 'Daños en coladeras',
       'Daños por derrame de sustancias quimicas

In [30]:
events["CAUSA DEL SINIESTRO"] = events["CAUSA DEL SINIESTRO"].str.title()

In [31]:
np.sort(events["CAUSA DEL SINIESTRO"].unique())

array(['Accion Del Agua Que No Provenga De Las Condiciones',
       'Accion Del Agua Que No Provenga De Las Condiciones Atmosfericas',
       'Actos De Personas Mal Intencionadas', 'Auto Ignicion',
       'Caida De Antenas', 'Caida De Arboles', 'Caida De Avion',
       'Caida De Maquinaria O Sus Partes Por Rotura De Cab',
       'Caida De Maquinaria O Sus Partes Por Rotura De Cables',
       'Caida De Nave Aerea Y Objetos Caidos De Ellos',
       'Cerillos Y Cigarros', 'Combustion Espontanea',
       'Contenidos E Interior De Los Edificios Por Deficie',
       'Contenidos E Interior De Los Edificios Por Deficiencias En Construccion',
       'Corrosion En Tuberia', 'Corto Circuito / Electricidad',
       'Daños Causados Por Impericia De Trabajo', 'Daños En Coladeras',
       'Daños Por Derrame De Sustancias Quimicas',
       'Derrame De Equipo Contra Incendio', 'Derrame De Material Fundido',
       'Desbordamiento O Desviacion De Corrientes O Deposi',
       'Desbordamiento O Desviacion

I will use a mapping dictionary to change the values to group everything together.

In [32]:
mapping_dict = {'Accion Del Agua Que No Provenga De Las Condiciones': 'Agua No Atmosferica',
 'Accion Del Agua Que No Provenga De Las Condiciones Atmosfericas': 'Agua No Atmosferica',
 'Actos De Personas Mal Intencionadas': 'Incendio Provocado',
 'Auto Ignicion': 'Auto Ignicion',
 'Caida De Antenas': 'Caida De Antenas',
 'Caida De Arboles': 'Caida De Arboles',
 'Caida De Avion': 'Caida De Avion U Objetos Caidos de Ellos',
 'Caida De Maquinaria O Sus Partes Por Rotura De Cab': 'Caida De Maquinaria O Sus Partes Por Rotura De Cables',
 'Caida De Maquinaria O Sus Partes Por Rotura De Cables': 'Caida De Maquinaria O Sus Partes Por Rotura De Cables',
 'Caida De Nave Aerea Y Objetos Caidos De Ellos': 'Caida De Avion U Objetos Caidos de Ellos',
 'Cerillos Y Cigarros': 'Cerillos Y Cigarros',
 'Combustion Espontanea': 'Combustion Espontanea',
 'Contenidos E Interior De Los Edificios Por Deficie': 'Deficiencias En Construccion',
 'Contenidos E Interior De Los Edificios Por Deficiencias En Construccion': 'Deficiencias En Construccion',
 'Corrosion En Tuberia': 'Corrosion En Tuberia',
 'Corto Circuito / Electricidad': 'Corto Circuito / Electricidad',
 'Daños Causados Por Impericia De Trabajo': 'Daños Causados Por Impericia De Trabajo',
 'Daños En Coladeras': 'Daños En Coladeras',
 'Daños Por Derrame De Sustancias Quimicas': 'Daños Por Derrame De Sustancias Quimicas',
 'Derrame De Equipo Contra Incendio': 'Derrame De Equipo Contra Incendio',
 'Derrame De Material Fundido': 'Derrame De Material Fundido',
 'Desbordamiento O Desviacion De Corrientes O Deposi': 'Desbordamiento O Desviacion De Corrientes O Depositos Artificiales',
 'Desbordamiento O Desviacion De Corrientes O Depositos Artificiales': 'Desbordamiento O Desviacion De Corrientes O Depositos Artificiales',
 'Descargas Accidentales De Agua O Vapor': 'Descargas Accidentales De Agua O Vapor',
 'Desechos Organicos': 'Desechos Organicos',
 'Durante La Soldadura Y Corte': 'Durante La Soldadura Y Corte',
 'Escape De Materias Inflamables O Explosivas': 'Escape De Materias Inflamables O Explosivas',
 'Explosion': 'Explosion',
 'Fallas En El Sistema De Refrigeracion': 'Fallas En El Sistema De Refrigeracion',
 'Falta De Mantenimiento': 'Falta De Mantenimiento',
 'Falta De Suministro De Energia Electrica': 'Falta De Suministro De Energia Electrica',
 'Falta O Insuficiencia De Drenaje': 'Falta O Insuficiencia De Drenaje',
 'Fenomenos De La Naturaleza': 'Fenomenos De La Naturaleza',
 'Fermentacion': 'Fermentacion',
 'Friccion': 'Friccion',
 'Gastos Extraordinarios': 'Gastos Extraordinarios',
 'Guerra': 'Guerra',
 'Huelgas, Alborotos Populares': 'Huelgas, Alborotos Populares',
 'Humo O Tizne': 'Humo O Tizne',
 'Impacto De Vehiculos': 'Impacto De Vehiculos',
 'Incendio Por Lluvia': 'Incendio Por Lluvia',
 'Material Sobrecalentado': 'Material Sobrecalentado',
 'Otra Causa': 'Otra Causa',
 'Plaga De Termitas': 'Plaga De Termitas',
 'Rayo': 'Rayo',
 'Remocion De Escombros': 'Remocion De Escombros',
 'Rotura De Techos, Vidrios, Paredes': 'Rotura De Techos, Vidrios, Paredes',
 'Roturas De Tuberias O Sistemas De Agua': 'Roturas De Tuberias O Sistemas De Agua',
 'Vientos Tempestuosos': 'Vientos Tempestuosos'}

In [33]:
events["CAUSA DEL SINIESTRO"] = events["CAUSA DEL SINIESTRO"].map(mapping_dict)

In [34]:
events["CAUSA DEL SINIESTRO"].value_counts()

Rayo                                                                  1977
Corto Circuito / Electricidad                                         1155
Incendio Por Lluvia                                                   1079
Impacto De Vehiculos                                                   963
Agua No Atmosferica                                                    894
Roturas De Tuberias O Sistemas De Agua                                 705
Incendio Provocado                                                     690
Explosion                                                              546
Falta De Mantenimiento                                                 450
Escape De Materias Inflamables O Explosivas                            391
Caida De Maquinaria O Sus Partes Por Rotura De Cables                  332
Fenomenos De La Naturaleza                                             243
Daños Causados Por Impericia De Trabajo                                164
Rotura De Techos, Vidrios

In [35]:
drop_dict = dict(events['CAUSA DEL SINIESTRO'].value_counts())

list_10_or_less = []
for i in drop_dict:
    if drop_dict[i] < 10:
        list_10_or_less.append(i)
        
for i in list_10_or_less:
    events = events[events['CAUSA DEL SINIESTRO'] != i]

In [36]:
events['CAUSA DEL SINIESTRO'].value_counts()

Rayo                                                                  1977
Corto Circuito / Electricidad                                         1155
Incendio Por Lluvia                                                   1079
Impacto De Vehiculos                                                   963
Agua No Atmosferica                                                    894
Roturas De Tuberias O Sistemas De Agua                                 705
Incendio Provocado                                                     690
Explosion                                                              546
Falta De Mantenimiento                                                 450
Escape De Materias Inflamables O Explosivas                            391
Caida De Maquinaria O Sus Partes Por Rotura De Cables                  332
Fenomenos De La Naturaleza                                             243
Daños Causados Por Impericia De Trabajo                                164
Rotura De Techos, Vidrios

In [37]:
events.shape

(11024, 15)

In [38]:
events.head()

Unnamed: 0,AÑO,MONEDA,GIRO,NUMERO DE NIVELES,ENTIDAD,TIPO DE BIEN,COBERTURA,CAUSA DEL SINIESTRO,NUMERO DE SINIESTROS,MONTO DE SINIESTRO,GASTO DE AJUSTE,SALVAMENTO,MONTO PAGADO,MONTO DE DEDUCIBLE,MONTO COASEGURO
2,2015,Extranjera,Banca multiple,1,Estado de Mexico,Contenidos,Extension de cubierta (sin inundacion),Impacto De Vehiculos,1.0,0.0,3626.0,0.0,0.0,0.0,0.0
3,2015,Extranjera,Banca multiple,1,Nuevo Leon,Contenidos,Extension de cubierta (sin inundacion),"Rotura De Techos, Vidrios, Paredes",1.0,-278.0,1813.0,0.0,0.0,0.0,0.0
4,2015,Extranjera,Banca multiple,1,Distrito Federal,Contenidos,Extension de cubierta (sin inundacion),Roturas De Tuberias O Sistemas De Agua,1.0,-1188.0,3626.0,0.0,0.0,0.0,0.0
5,2015,Extranjera,Banca multiple,1,Distrito Federal,Contenidos,Todo Riesgo,Fenomenos De La Naturaleza,1.0,-73.0,0.0,0.0,0.0,0.0,0.0
6,2015,Extranjera,Banca multiple,1,Distrito Federal,Edificio,Extension de cubierta (sin inundacion),Roturas De Tuberias O Sistemas De Agua,1.0,0.0,1813.0,0.0,0.0,0.0,0.0


In [39]:
events["ENTIDAD"].value_counts()

Distrito Federal       1718
Nuevo Leon             1124
Jalisco                1066
Estado de Mexico        980
Baja California         499
Sonora                  492
Guanajuato              420
Chihuahua               415
Veracruz                406
Coahuila                399
Quintana Roo            343
Sinaloa                 332
Tamaulipas              303
Puebla                  267
Queretaro               258
Tabasco                 223
Yucatan                 211
Baja California Sur     185
Guerrero                144
Chiapas                 144
Michoacan               143
Oaxaca                  137
Durango                 123
Aguascalientes          120
Morelos                 114
San Luis Potosi         111
Hidalgo                  96
Colima                   66
Nayarit                  57
Campeche                 54
Zacatecas                31
Tlaxcala                 30
Extranjero               13
Name: ENTIDAD, dtype: int64

In [40]:
events = events[events["ENTIDAD"] != "Extranjero"]

In [41]:
events["ENTIDAD"].value_counts()

Distrito Federal       1718
Nuevo Leon             1124
Jalisco                1066
Estado de Mexico        980
Baja California         499
Sonora                  492
Guanajuato              420
Chihuahua               415
Veracruz                406
Coahuila                399
Quintana Roo            343
Sinaloa                 332
Tamaulipas              303
Puebla                  267
Queretaro               258
Tabasco                 223
Yucatan                 211
Baja California Sur     185
Guerrero                144
Chiapas                 144
Michoacan               143
Oaxaca                  137
Durango                 123
Aguascalientes          120
Morelos                 114
San Luis Potosi         111
Hidalgo                  96
Colima                   66
Nayarit                  57
Campeche                 54
Zacatecas                31
Tlaxcala                 30
Name: ENTIDAD, dtype: int64

In [42]:
events.to_csv('firestatsclean.csv', index=False)