In [1]:
# Pandas is a Python library used for working with data sets.
# It has functions for analyzing, cleaning, exploring, and manipulating data.
# The name "Pandas" has a reference to both "Panel Data", and "Python Data Analysis" and was created by Wes McKinney in 2008.

# Import it in your applications by adding the import keyword.
# Pandas is usually imported under the pd alias. In Python alias are an alternate name for referring to the same thing.
# Now the Pandas package can be referred to as pd instead of pandas.
import pandas as pd

In [2]:
# A Pandas DataFrame is a 2 dimensional data structure, like a 2 dimensional array, or a table with rows and columns.
# Here the DataFrame is called df.
# A simple way to store big data sets is to use CSV files (comma separated files).
# CSV files contains plain text and is a well know format that can be read by everyone including Pandas.

# Load a CSV file into a Pandas DataFrame
df = pd.read_csv("homicidios_source.csv")

In [3]:
# Return a tuple representing the dimensionality of the DataFrame.
# First value  = Number of Rows including the header.
# Second value = Number of Columns.
df.shape

(84294, 9)

In [4]:
# The DataFrames object has a method called info(), that gives you more information about the data set.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 84294 entries, 0 to 84293
Data columns (total 9 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   DEPARTAMENTO          82354 non-null  object 
 1   MUNICIPIO             82354 non-null  object 
 2   CODIGO DANE           82354 non-null  float64
 3   ARMAS MEDIOS          82354 non-null  object 
 4   FECHA HECHO           82354 non-null  object 
 5   GENERO                82354 non-null  object 
 6   GRUPO ETARÍO          82354 non-null  object 
 7   DESCRIPCIÓN CONDUCTA  84294 non-null  object 
 8   CANTIDAD              82354 non-null  float64
dtypes: float64(2), object(7)
memory usage: 5.8+ MB


In [5]:
# Returns the headers, the first 5 rows and the last 5 rows
df 

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARÍO,DESCRIPCIÓN CONDUCTA,CANTIDAD
0,ANTIOQUIA,LA CEJA,5376000.0,MOTO,1/01/2010,MASCULINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1.0
1,ATLÁNTICO,BARRANQUILLA (CT),8001000.0,MOTO,1/01/2010,FEMENINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1.0
2,ATLÁNTICO,LURUACO,8421000.0,MOTO,1/01/2010,MASCULINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1.0
3,CAQUETÁ,PUERTO RICO,18592000.0,MOTO,1/01/2010,MASCULINO,ADOLESCENTES,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1.0
4,CASANARE,AGUAZUL,85010000.0,MOTO,1/01/2010,MASCULINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1.0
...,...,...,...,...,...,...,...,...,...
84289,,,,,,,,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,
84290,,,,,,,,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,
84291,,,,,,,,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,
84292,,,,,,,,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,


In [6]:
# Returns an index with the column names: Header.
df.columns

Index(['DEPARTAMENTO', 'MUNICIPIO', 'CODIGO DANE', 'ARMAS MEDIOS',
       'FECHA HECHO', 'GENERO', 'GRUPO ETARÍO', 'DESCRIPCIÓN CONDUCTA',
       'CANTIDAD'],
      dtype='object')

In [7]:
# The head() method returns the headers and a specified number of rows, starting from the top.
# Note: if the number of rows is not specified, the head() method will return the top 5 rows.
df.head(15)

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARÍO,DESCRIPCIÓN CONDUCTA,CANTIDAD
0,ANTIOQUIA,LA CEJA,5376000.0,MOTO,1/01/2010,MASCULINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1.0
1,ATLÁNTICO,BARRANQUILLA (CT),8001000.0,MOTO,1/01/2010,FEMENINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1.0
2,ATLÁNTICO,LURUACO,8421000.0,MOTO,1/01/2010,MASCULINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1.0
3,CAQUETÁ,PUERTO RICO,18592000.0,MOTO,1/01/2010,MASCULINO,ADOLESCENTES,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1.0
4,CASANARE,AGUAZUL,85010000.0,MOTO,1/01/2010,MASCULINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1.0
5,CESAR,AGUSTÍN CODAZZI,20013000.0,MOTO,1/01/2010,FEMENINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1.0
6,GUAJIRA,RIOHACHA (CT),44001000.0,MOTO,1/01/2010,FEMENINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1.0
7,HUILA,ISNOS,41359000.0,MOTO,1/01/2010,MASCULINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1.0
8,HUILA,NEIVA (CT),41001000.0,MOTO,1/01/2010,MASCULINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1.0
9,HUILA,PALERMO,41524000.0,MOTO,1/01/2010,MASCULINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1.0


In [8]:
# The tail() method returns the headers and a specified number of rows, starting from the bottom.
# Note: If the number of rows is not specified, the tail() method will return the top 5 rows.
# Note: Values with NaN (Not a Number) are empty values in the CSV file
df.tail(15)

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARÍO,DESCRIPCIÓN CONDUCTA,CANTIDAD
84279,,,,,,,,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,
84280,,,,,,,,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,
84281,,,,,,,,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,
84282,,,,,,,,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,
84283,,,,,,,,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,
84284,,,,,,,,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,
84285,,,,,,,,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,
84286,,,,,,,,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,
84287,,,,,,,,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,
84288,,,,,,,,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,


In [9]:
# Pandas use the loc attribute to return one or more specified row(s)
# Refer to the row index, the firts row have an index = 0

# Return firts row 
df.loc[0]

DEPARTAMENTO                                                    ANTIOQUIA
MUNICIPIO                                                         LA CEJA
CODIGO DANE                                                     5376000.0
ARMAS MEDIOS                                                         MOTO
FECHA HECHO                                                     1/01/2010
GENERO                                                          MASCULINO
GRUPO ETARÍO                                                      ADULTOS
DESCRIPCIÓN CONDUCTA    ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...
CANTIDAD                                                              1.0
Name: 0, dtype: object

In [10]:
# Return row 5 and 10
df.loc[[4, 9]]

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARÍO,DESCRIPCIÓN CONDUCTA,CANTIDAD
4,CASANARE,AGUAZUL,85010000.0,MOTO,1/01/2010,MASCULINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1.0
9,HUILA,PALERMO,41524000.0,MOTO,1/01/2010,MASCULINO,ADULTOS,ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...,1.0


In [11]:
# Generate descriptive statistics for each Column.
# DEPARTAMENTO
df.DEPARTAMENTO.describe()

count            82354
unique              32
top       CUNDINAMARCA
freq             12282
Name: DEPARTAMENTO, dtype: object

In [12]:
# MUNICIPIO
df.MUNICIPIO.describe()

count                82354
unique                1798
top       BOGOTÁ D.C. (CT)
freq                  5146
Name: MUNICIPIO, dtype: object

In [13]:
# ARMAS MEDIOS
df["ARMAS MEDIOS"].describe()

count        82354
unique           8
top       VEHICULO
freq         39919
Name: ARMAS MEDIOS, dtype: object

In [14]:
# FECHA HECHO
df["FECHA HECHO"].describe()

count          82354
unique          5418
top       01/01/2024
freq             144
Name: FECHA HECHO, dtype: object

In [15]:
# GENERO
df.GENERO.describe()

count         82354
unique            5
top       MASCULINO
freq          65481
Name: GENERO, dtype: object

In [16]:
# GRUPO ETARÍO
df["GRUPO ETARÍO"].describe()

count       82354
unique          5
top       ADULTOS
freq        75713
Name: GRUPO ETARÍO, dtype: object

In [17]:
# DESCRIPCIÓN CONDUCTA
df["DESCRIPCIÓN CONDUCTA"].describe()

count                                                 84294
unique                                                    1
top       ARTÍCULO 109. HOMICIDIO CULPOSO ( EN ACCIDENTE...
freq                                                  84294
Name: DESCRIPCIÓN CONDUCTA, dtype: object

In [18]:
# CANTIDAD
df.CANTIDAD.describe()

count    82354.000000
mean         1.110074
std          0.404899
min          1.000000
25%          1.000000
50%          1.000000
75%          1.000000
max         16.000000
Name: CANTIDAD, dtype: float64

In [19]:
# Conteo de CANTIDAD
df.CANTIDAD.count()

np.int64(82354)

In [20]:
# Promedio de CANTIDAD 
df.CANTIDAD.mean()

np.float64(1.1100735847681957)

In [21]:
# Desviación Estándar de CANTIDAD 
df.CANTIDAD.std()

np.float64(0.4048985289784506)

In [22]:
# Valor Mínimo de CANTIDAD 
df.CANTIDAD.min()

np.float64(1.0)

In [23]:
# Valor Máximo de CANTIDAD 
df.CANTIDAD.max()

np.float64(16.0)

In [24]:
# Mediana de CANTIDAD 
df.CANTIDAD.median()

np.float64(1.0)

In [25]:
# Moda de CANTIDAD 
df.CANTIDAD.mode()

0    1.0
Name: CANTIDAD, dtype: float64

In [26]:
# Percentil 25% de CANTIDAD 
df.CANTIDAD.quantile(0.25)

np.float64(1.0)

In [27]:
# Get the 32 unique values ​​from the DEPARTMENT column
df.DEPARTAMENTO.unique()

array(['ANTIOQUIA', 'ATLÁNTICO', 'CAQUETÁ', 'CASANARE', 'CESAR',
       'GUAJIRA', 'HUILA', 'NARIÑO', 'RISARALDA', 'SANTANDER', 'CÓRDOBA',
       'CUNDINAMARCA', 'TOLIMA', 'VALLE', 'MAGDALENA', 'BOYACÁ', 'CAUCA',
       'NORTE DE SANTANDER', 'SUCRE', 'META', 'QUINDÍO', 'BOLÍVAR',
       'CALDAS', 'ARAUCA', 'PUTUMAYO', 'SAN ANDRÉS', 'GUAVIARE',
       'AMAZONAS', 'VICHADA', 'CHOCÓ', 'GUAINÍA', 'VAUPÉS', nan],
      dtype=object)

In [28]:
# Get the 1798 unique values ​​of the MUNICIPIO column
df.MUNICIPIO.unique()

array(['LA CEJA', 'BARRANQUILLA (CT)', 'LURUACO', ..., 'Landázuri',
       'El Dovio', nan], shape=(1799,), dtype=object)

In [29]:
# Get the 8 unique values ​​from the ARMAS MEDIOS column
df["ARMAS MEDIOS"].unique()

array(['MOTO', 'VEHICULO', 'NO REPORTADO', 'BICICLETA',
       'SIN EMPLEO DE ARMAS', 'TREN', 'CONTUNDENTES', 'NO REPOTADO', nan],
      dtype=object)

In [30]:
# Get the 5 unique values ​​from the GENERO column
df.GENERO.unique()

array(['MASCULINO', 'FEMENINO', 'NO REPORTA', 'NO REPORTADO',
       'NO REPOTADO', nan], dtype=object)

In [31]:
# Get the 5 unique values ​​from the GRUPO ETARÍO column
df["GRUPO ETARÍO"].unique()

array(['ADULTOS', 'ADOLESCENTES', 'MENORES', 'NO REPORTADO',
       'NO REPOTADO', nan], dtype=object)

In [32]:
# Get the unique values ​​of the CANTIDAD column
df.CANTIDAD.unique()

array([ 1.,  2.,  4.,  3.,  7.,  5., 10.,  8.,  6.,  9., 11., 16., nan])