In [49]:
# Importa la biblioteca pandas y la asigna al alias pd, para manejo de datos en estructuras tipo tabla.
import pandas as pd

In [None]:
# Carga el archivo CSV en un DataFrame llamado df para su análisis y manipulación.
df = pd.read_csv("Masacres_en_Colombia.csv")

In [50]:
# Muestra la dimensión del DataFrame como (filas, columnas).
df.shape

(301, 8)

In [None]:

# Convertimos la columna a tipo datetime
df['FECHA HECHO'] = pd.to_datetime(df['FECHA HECHO'])

# Reemplazamos la columna con solo la fecha (sin la hora)
df['FECHA HECHO'] = df['FECHA HECHO'].dt.date

In [52]:
# Muestra un resumen del DataFrame: número de entradas, tipos de datos y valores no nulos por columna.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301 entries, 0 to 300
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   FECHA HECHO   301 non-null    object 
 1   COD_DEPTO     301 non-null    int64  
 2   DEPARTAMENTO  301 non-null    object 
 3   COD_MUNI      301 non-null    int64  
 4   MUNICIPIO     301 non-null    object 
 5   ZONA          0 non-null      float64
 6   CASOS         301 non-null    int64  
 7   VICTIMAS      301 non-null    int64  
dtypes: float64(1), int64(4), object(3)
memory usage: 18.9+ KB


In [53]:
# Verifica la estructura del DataFrame después de eliminar columnas: entradas, tipos de datos y valores no nulos.
df_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301 entries, 0 to 300
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   FECHA_HECHO   301 non-null    object
 1   COD_DEPTO     301 non-null    int64 
 2   DEPARTAMENTO  301 non-null    string
 3   COD_MUNI      301 non-null    int64 
 4   MUNICIPIO     301 non-null    string
 5   CASOS         301 non-null    int64 
 6   VICTIMAS      301 non-null    int64 
dtypes: int64(4), object(1), string(2)
memory usage: 16.6+ KB


In [54]:
# Elimina las filas con valores nulos (NaN) en el DataFrame.
df_cleaned = df_cleaned.dropna()

In [72]:
df_cleaned['FECHA HECHO'] = pd.to_datetime(df_cleaned['FECHA HECHO'], format="%d/%m/%Y")

In [73]:
df_cleaned.shape

(301, 7)

In [74]:
# Calcula la diferencia en el número de filas antes y después de eliminar las filas con valores nulos.
# Muestra cuántas filas fueron eliminadas.

rows_before = df.shape[0]
rows_after = df_cleaned.shape[0]

rows_before - rows_after

0

In [75]:
# Convierte la columna a tipo de dato 'string' 'float' 'int' para asegurar consistencia en el formato y mantenerlas para realizar cálculos o análisis

df_cleaned['DEPARTAMENTO'] = df_cleaned['DEPARTAMENTO'].astype('string')
df_cleaned['MUNICIPIO'] = df_cleaned['MUNICIPIO'].astype('string')

In [76]:
df_cleaned = df.drop(columns=["ZONA"])

In [77]:
df_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301 entries, 0 to 300
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   FECHA HECHO   301 non-null    object
 1   COD_DEPTO     301 non-null    int64 
 2   DEPARTAMENTO  301 non-null    object
 3   COD_MUNI      301 non-null    int64 
 4   MUNICIPIO     301 non-null    object
 5   CASOS         301 non-null    int64 
 6   VICTIMAS      301 non-null    int64 
dtypes: int64(4), object(3)
memory usage: 16.6+ KB


In [78]:
# Muestra una lista ordenada de los valores únicos presentes en la columna.
sorted(df_cleaned.DEPARTAMENTO.unique())

['AMAZONAS',
 'ANTIOQUIA',
 'ARAUCA',
 'ATLANTICO',
 'BOGOTA D.C.',
 'BOLIVAR',
 'BOYACA',
 'CALDAS',
 'CAQUETA',
 'CASANARE',
 'CAUCA',
 'CESAR',
 'CHOCO',
 'CORDOBA',
 'CUNDINAMARCA',
 'GUAVIARE',
 'HUILA',
 'LA GUAJIRA',
 'MAGDALENA',
 'META',
 'NARIÑO',
 'NORTE DE SANTANDER',
 'PUTUMAYO',
 'RISARALDA',
 'SANTANDER',
 'SUCRE',
 'TOLIMA',
 'VALLE DEL CAUCA']

In [79]:
sorted(df_cleaned.MUNICIPIO.unique())

['ABEJORRAL',
 'ABREGO',
 'ACEVEDO',
 'AGUACHICA',
 'ALBANIA',
 'ALGECIRAS',
 'AMALFI',
 'ANDES',
 'ANGOSTURA',
 'ANORI',
 'ANSERMANUEVO',
 'ARAUQUITA',
 'ARGELIA',
 'BAJO BAUDO',
 'BALBOA',
 'BARBACOAS',
 'BARRANCABERMEJA',
 'BARRANQUILLA',
 'BELEN DE LOS ANDAQUIES',
 'BELLO',
 'BOGOTA D.C.',
 'BOLIVAR',
 'BUENAVENTURA',
 'BUENOS AIRES',
 'BUGALAGRANDE',
 'CACERES',
 'CAJIBIO',
 'CALDONO',
 'CALI',
 'CALOTO',
 'CAMPAMENTO',
 'CANDELARIA',
 'CARTAGENA',
 'CARTAGENA DE INDIAS',
 'CARTAGENA DEL CHAIRA',
 'CARTAGO',
 'CAUCASIA',
 'CHAPARRAL',
 'CHIMA',
 'CIENAGA',
 'CIMITARRA',
 'CIUDAD BOLIVAR',
 'COCORNA',
 'COLON',
 'CORINTO',
 'CUCUTA',
 'CUMBAL',
 'DIBULLA',
 'EL AGUILA',
 'EL BAGRE',
 'EL BANCO',
 'EL CARMEN',
 'EL COPEY',
 'EL PAUJIL',
 'EL PEÑOL',
 'EL RETEN',
 'EL ROSARIO',
 'EL TAMBO',
 'ESPINAL',
 'FLORENCIA',
 'FLORIDA',
 'FORTUL',
 'FRONTINO',
 'FUNDACION',
 'GACHANTIVA',
 'GARZON',
 'GUACHENE',
 'GUADALAJARA DE BUGA',
 'HATO COROZAL',
 'HOBO',
 'IPIALES',
 'IQUIRA',
 'ITUANG

In [80]:
# Muestra la forma final del DataFrame limpio: número de filas y columnas tras la depuración
df_cleaned.shape

(301, 7)

In [81]:
# Guardar el resultado en un nuevo archivo si lo deseas

df_cleaned.to_csv("Masacres_en_Colombia_clean.csv", index=False)

print("\nEl archivo CSV ha sido guardado.")


El archivo CSV ha sido guardado.
