# Introducción a Pandas, Matplotlib y Streamlit

### ¿Qué aprenderemos hoy?

* Leer datos desde un archivo CSV 📄
* Explorar y limpiar datos con Pandas 🐼
* Crear gráficos simples con Matplotlib 📊
* Mostrar un dashboard interactivo usando Streamlit 🚀

### Requerimientos: 
1. Datasets
2. Librerias: Pandas, Matplotlib y Streamlit(Este ultimo es para mostrar una interfaz con pocas lineas de código).

Para realizar esto, debemos instalar las siguientes dependencias

In [1]:
pip install pandas streamlit plotly

Note: you may need to restart the kernel to use updated packages.


## Extración de datos con Pandas
Ahora que ya tenemos nuestro datasets, vamos a utilizar pandas para leer nuestro csv

**Importamos pandas y le asignamos el alias pd (por convencion, siempre se utiliza pd al importar)**

* `import pandas as pd`

In [1]:
import pandas as pd

Ahora utilizaremos el metodo `pd.read_pdf(nombre_csv)` para leer el datasets y lo guardaremos en una variable llamada df(DataFrame)

In [2]:
# import pandas as pd
# import os

# def convertir_excel_a_csv(año_inicio, año_fin, combinar=True):
#     """
#     Convierte archivos Excel de delitos a CSV para un rango de años y opcionalmente los combina.
    
#     Args:
#         año_inicio: Año inicial (ej: 2019)
#         año_fin: Año final (ej: 2023)
#         combinar: Si es True, combina todos los CSVs en un solo archivo
#     """
#     # Lista para almacenar DataFrames si vamos a combinar
#     dfs = []
    
#     # Procesar cada año en el rango
#     for año in range(año_inicio, año_fin + 1):
#         archivo_excel = f'delitos_{año}.xlsx'
#         archivo_csv = f'delitos_{año}.csv'
        
#         try:
#             # Leer el archivo Excel
#             print(f"Procesando {archivo_excel}...")
#             df = pd.read_excel(archivo_excel)
            
#             # Verificar si ya existe columna 'anio', si no, añadirla
#             if 'anio' not in df.columns:
#                 df['anio'] = año
            
#             # Guardar como CSV
#             df.to_csv(archivo_csv, index=False, sep=',', encoding='utf-8')
#             print(f"✅ Archivo CSV {archivo_csv} guardado correctamente")
            
#             # Añadir a la lista para combinar después
#             if combinar:
#                 dfs.append(df)
                
#         except FileNotFoundError:
#             print(f"❌ El archivo {archivo_excel} no se encontró")
#         except Exception as e:
#             print(f"❌ Error al procesar {archivo_excel}: {str(e)}")
    
#     # Combinar todos los archivos en uno solo si se solicitó
#     if combinar and dfs:
#         archivo_combinado = f"delitos_{año_inicio}_{año_fin}.csv"
#         df_combinado = pd.concat(dfs, ignore_index=True)
#         df_combinado.to_csv(archivo_combinado, index=False, sep=',', encoding='utf-8')
#         print(f"🔄 Se ha creado el archivo combinado {archivo_combinado} con {len(df_combinado)} registros")
#         return df_combinado
    
#     return None
# convertir_excel_a_csv(2019, 2023, combinar=True)

df = pd.read_csv("datasets_delitos_2019_2023_limpio.csv")
df.info()

# df = pd.read_csv("delitos_2016_2023.csv")
# df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 635648 entries, 0 to 635647
Data columns (total 17 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   anio            635648 non-null  int64  
 1   mes             635648 non-null  object 
 2   dia             635648 non-null  object 
 3   fecha           635648 non-null  object 
 4   franja          635648 non-null  int64  
 5   tipo            635648 non-null  object 
 6   subtipo         635648 non-null  object 
 7   uso_arma        635648 non-null  object 
 8   uso_moto        635648 non-null  object 
 9   barrio          635648 non-null  object 
 10  comuna          635648 non-null  int64  
 11  latitud         635648 non-null  float64
 12  longitud        635648 non-null  float64
 13  cantidad        635648 non-null  int64  
 14  dia_semana_num  635648 non-null  int64  
 15  tipo_dia        635648 non-null  object 
 16  trimestre       635648 non-null  int64  
dtypes: float64

### Exploracion de datos:
Una vez creado el df, podemos utilizar metodos de pandas que nos ayudaran a observar mejor los datos.
En este caso, utilizaremos las funciones: 

* `df.shape()` <- Obtener cuantas columnas y filas tiene el df.
* `df.colums` <- Obtener el nombre de las columnas.
* `df.dtypes` <- Obtener los tipos dedatos de cada columna.
* `df.info()` <- Obtener una vista rapida de los tipos de datos del df.
* `df.isnull().sum()` <- Obtener la cantidad de datos nulos en nuestro df.

In [22]:
#utilizamos el metodo shape para obtener las dimensiones del dataframe
print(df.shape)

#utilizamos el metodo columns para obtener los nombres de las columnas
print(df.columns)

#utilizamos el metodo dtypes para obtener los tipos de datos de cada columna
print(df.dtypes)

(646040, 19)
Index(['anio', 'mes', 'dia', 'fecha', 'franja', 'tipo', 'subtipo', 'uso_arma',
       'uso_moto', 'barrio', 'comuna', 'latitud', 'longitud', 'cantidad',
       'dia_semana_num', 'tipo_dia', 'trimestre', 'latitud_norm',
       'longitud_norm'],
      dtype='object')
anio                int64
mes                object
dia                object
fecha              object
franja            float64
tipo               object
subtipo            object
uso_arma           object
uso_moto           object
barrio             object
comuna             object
latitud           float64
longitud          float64
cantidad            int64
dia_semana_num    float64
tipo_dia           object
trimestre         float64
latitud_norm      float64
longitud_norm     float64
dtype: object


In [227]:
#utilizamos el metodo info para obtener un resumen del dataframe
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 646040 entries, 0 to 646039
Data columns (total 19 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   anio            646040 non-null  int64  
 1   mes             646040 non-null  object 
 2   dia             646040 non-null  object 
 3   fecha           646040 non-null  object 
 4   franja          646040 non-null  float64
 5   tipo            646040 non-null  object 
 6   subtipo         646040 non-null  object 
 7   uso_arma        646040 non-null  object 
 8   uso_moto        646040 non-null  object 
 9   barrio          646040 non-null  object 
 10  comuna          646040 non-null  object 
 11  latitud         645942 non-null  float64
 12  longitud        645960 non-null  float64
 13  cantidad        646040 non-null  int64  
 14  dia_semana_num  559865 non-null  float64
 15  tipo_dia        646040 non-null  object 
 16  trimestre       559865 non-null  float64
 17  latitud_no

Ahora utilizaremos el metodo `isnull()` para ver si hay valores nulos en el dataframe y esto lo potenciamos con el metodo `sum()` para ver la cantidad de valores nulos por columna

In [23]:

print(df.isnull().sum())

anio                  0
mes                   0
dia                   0
fecha                 0
franja                0
tipo                  0
subtipo               0
uso_arma              0
uso_moto              0
barrio                0
comuna                0
latitud              98
longitud             80
cantidad              0
dia_semana_num    86175
tipo_dia              0
trimestre         86175
latitud_norm         98
longitud_norm        80
dtype: int64


### Limpieza de datos.
Con el metodo anterior vimos que tenemos datos faltantes en nuestro df, esto podria afectar negativamente a nuestras estadisticas, por lo tanto, debemos limpiarlos. Para ello, vamos a utilizar los siguientes metodos: 

* `df.fillna(0, inplace=True)`: Este es un método que se aplica al DataFrame df. Su propósito es llenar los valores que faltan.

1. 0: Este es el valor que se utilizará para reemplazar todos los valores faltantes (NaN) encontrados en el DataFrame. En este caso, todos los NaN serán sustituidos por el número cero.

2. inplace=True: Este es un argumento booleano (True o False).

Si se establece en True, la modificación se realiza directamente sobre el DataFrame original df. Esto significa que el DataFrame df se actualizará con los valores faltantes reemplazados, y la función fillna() no devolverá un nuevo DataFrame.
Si se omitiera este argumento o se estableciera en False (que es el valor predeterminado), fillna() devolvería un nuevo DataFrame con los valores faltantes reemplazados, dejando el DataFrame original sin modificar. En este caso, para guardar los cambios, tendrías que asignar el resultado a una nueva variable o sobrescribir la variable original (por ejemplo, df = df.fillna(0)).

In [24]:
df.fillna(0, inplace=True)
df.isnull()


Unnamed: 0,anio,mes,dia,fecha,franja,tipo,subtipo,uso_arma,uso_moto,barrio,comuna,latitud,longitud,cantidad,dia_semana_num,tipo_dia,trimestre,latitud_norm,longitud_norm
0,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
646035,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
646036,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
646037,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
646038,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False


Reemplazamos los datos NaN por 0, pero esto no es lo ideal, ya que si tenemos un NaN en una columna de tipo string, no podemos reemplazarlo por 0. Por lo tanto, vamos a eliminar las filas que tengan datos nulos. Para ello utilizamos el siguiente metodo:
* `df.dropna(inplace=True)`: Este método se utiliza para eliminar filas o columnas que contienen valores nulos (NaN) en un DataFrame de pandas.

In [25]:
df.dropna(inplace=True)
df.isnull().sum()

anio              0
mes               0
dia               0
fecha             0
franja            0
tipo              0
subtipo           0
uso_arma          0
uso_moto          0
barrio            0
comuna            0
latitud           0
longitud          0
cantidad          0
dia_semana_num    0
tipo_dia          0
trimestre         0
latitud_norm      0
longitud_norm     0
dtype: int64

Con el argumento `inplace=True`, se indica que la operación debe realizarse directamente sobre el DataFrame original, modificándolo en su lugar. Esto significa que las filas o columnas con valores nulos serán eliminadas del DataFrame df y no se creará una copia del DataFrame sin los valores nulos.

Tambien, podemos eliminar columnas que por ejemplo, no tengan datos o que no sean relevantes para nuestro analisis. Para ello utilizamos el siguiente metodo:
* `df.dropna(subset=['columna1', 'columna2'], inplace=True)`: Este método se utiliza para eliminar columnas específicas de un DataFrame de pandas que no tengan datos relevantes o sean NaN.

In [232]:
df.drop(columns=["id-mapa"], inplace=True)
df.head()

KeyError: "['id-mapa'] not found in axis"

## Estadisticas descriptivas

Nuestros datos ya están limpios, ahora podemos proceder a realizar un analisis exploratorio de datos. Para ello, utilizaremos el siguiente metodo:
* `df.describe()`: Este método se utiliza para generar estadísticas descriptivas de un DataFrame de pandas. Proporciona un resumen estadístico de las columnas numéricas del DataFrame, incluyendo medidas como la media, la desviación estándar, los cuartiles y los valores mínimo y máximo.



### ¿Qué hace df.describe()?

Al aplicar df.describe() a un DataFrame, obtendrás una tabla resumen que incluye las siguientes estadísticas para cada columna numérica:

* count: El número de valores no nulos.
* mean: La media (promedio) de los valores.
* std: La desviación estándar de los valores.
* min: El valor mínimo.
* 25% (o quantile 0.25): El primer cuartil.
* 50% (o quantile 0.50): La mediana (segundo cuartil).
* 75% (o quantile 0.75): El tercer cuartil.
* max: El valor máximo.

In [26]:
#Obtenemos estatidsticas de nuestro df
# print(df.describe())
df['comuna'].unique()

array([4.0, 5.0, 1.0, 6.0, 7.0, 8.0, 2.0, 14.0, 13.0, 10.0, 9.0, 3.0,
       15.0, 12.0, 11.0, 0.0, '6', '3', '14', '15', '5', '2', '8', '1',
       '7', '12', '13', '0', '9', '10', '4', '11', 'CC-08', 'CC-09',
       'CC-01 NORTE', 'CC-04', 'CC-07', 'CC-15', 'CC-02', 'CC-12',
       'CC-10', 'CC-06', 'CC-13', 'CC-05', 'CC-01 SUR', 'CC-03', 'CC-14',
       'Sin geo', 'CC-11'], dtype=object)

Crearemos una columna nueva para obtener el total de las ventas y modificaremos la columna fecha para convertirla a tipo `datetime`

In [8]:
df['fecha'] = pd.to_datetime(df['fecha'], errors='coerce')
df.head()



Unnamed: 0,anio,mes,dia,fecha,franja,tipo,subtipo,uso_arma,uso_moto,barrio,comuna,latitud,longitud,cantidad,dia_semana_num,tipo_dia,trimestre,latitud_norm,longitud_norm
0,2019,enero,LUN,2019-01-28,8,Hurto,Hurto total,NO,NO,PARQUE PATRICIOS,4,-34630835.0,-58391528.0,1,0,Laboral,1,-34.630835,-58.391528
1,2019,marzo,LUN,2019-03-04,11,Hurto,Hurto total,NO,NO,PARQUE PATRICIOS,4,-34628442.0,-58391876.0,1,0,Laboral,1,-34.628442,-58.391876
2,2019,abril,MIE,2019-04-10,18,Robo,Robo total,NO,NO,PARQUE PATRICIOS,4,-34630313.0,-58391512.0,1,2,Laboral,2,-34.630313,-58.391512
3,2019,noviembre,LUN,2019-11-18,12,Hurto,Hurto total,NO,NO,PARQUE PATRICIOS,4,-34630163.0,-58391542.0,1,0,Laboral,4,-34.630163,-58.391542
4,2019,abril,LUN,2019-04-01,17,Robo,Robo total,NO,NO,PARQUE PATRICIOS,4,-34629944.0,-58391882.0,1,0,Laboral,2,-34.629944,-58.391882


In [None]:
# Convertir abreviaturas de día a número (LUN=0, MAR=1, etc.)
dia_mapping = {'LUN': 0, 'MAR': 1, 'MIE': 2, 'JUE': 3, 'VIE': 4, 'SAB': 5, 'DOM': 6}
df['dia_semana_num'] = df['dia'].map(dia_mapping)

# Crear columna que indique si es día laboral o fin de semana
df['tipo_dia'] = df['dia_semana_num'].apply(lambda x: 'Fin de semana' if x >= 5 else 'Laboral')

# Mapear mes a trimestre
mes_a_trimestre = {
    'enero': 1, 'febrero': 1, 'marzo': 1,
    'abril': 2, 'mayo': 2, 'junio': 2,
    'julio': 3, 'agosto': 3, 'septiembre': 3,
    'octubre': 4, 'noviembre': 4, 'diciembre': 4
}
df['trimestre'] = df['mes'].map(mes_a_trimestre)

# Convertir las columnas 'latitud' y 'longitud' a tipo numérico
df['latitud'] = pd.to_numeric(df['latitud'], errors='coerce')
df['longitud'] = pd.to_numeric(df['longitud'], errors='coerce')

# df['dia_semana_num'] = df['dia_semana_num'].fillna(0).astype(int)
# df['trimestre'] = df['trimestre'].fillna(0).astype(int)
# df['franja'] = df['franja'].fillna(0).astype(int)

# # df.dropna(subset=["id-mapa"], inplace=True)

#creamos un nuevo csv con nuestros df limpio
# df.to_csv("datasets_delitos_2019_2023_limpio.csv", index=False)
# df

Escala detectada - Latitud: 34598564.5, Longitud: 58406035.0
Coordenadas normalizadas - Rango de latitud: -34700000000.0 a 3.5e-05
Coordenadas normalizadas - Rango de longitud: -58600000000.0 a 5.840982


Unnamed: 0,anio,mes,dia,fecha,franja,tipo,subtipo,uso_arma,uso_moto,barrio,comuna,latitud,longitud,cantidad,dia_semana_num,tipo_dia,trimestre,latitud_norm,longitud_norm
0,2019,enero,LUN,2019-01-28,8.0,Hurto,Hurto total,NO,NO,PARQUE PATRICIOS,4.0,-34630835.0,-58391528.0,1,0.0,Laboral,1.0,-34.630835,-58.391528
1,2019,marzo,LUN,2019-03-04,11.0,Hurto,Hurto total,NO,NO,PARQUE PATRICIOS,4.0,-34628442.0,-58391876.0,1,0.0,Laboral,1.0,-34.628442,-58.391876
2,2019,abril,MIE,2019-04-10,18.0,Robo,Robo total,NO,NO,PARQUE PATRICIOS,4.0,-34630313.0,-58391512.0,1,2.0,Laboral,2.0,-34.630313,-58.391512
3,2019,noviembre,LUN,2019-11-18,12.0,Hurto,Hurto total,NO,NO,PARQUE PATRICIOS,4.0,-34630163.0,-58391542.0,1,0.0,Laboral,4.0,-34.630163,-58.391542
4,2019,abril,LUN,2019-04-01,17.0,Robo,Robo total,NO,NO,PARQUE PATRICIOS,4.0,-34629944.0,-58391882.0,1,0.0,Laboral,2.0,-34.629944,-58.391882
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
646035,2023,diciembre,VIE,2023-12-01,14.0,Homicidios,Homicidio Doloso,NO,NO,PARQUE CHACABUCO,7,0.0,0.0,1,4.0,Laboral,4.0,0.000000,0.000000
646036,2023,diciembre,DOM,2023-12-17,23.0,Homicidios,Homicidio Doloso,NO,NO,MONSERRAT,1,0.0,0.0,1,6.0,Fin de semana,4.0,0.000000,0.000000
646037,2023,diciembre,DOM,2023-12-24,22.0,Homicidios,Homicidio Doloso,NO,NO,VILLA CRESPO,15,0.0,0.0,1,6.0,Fin de semana,4.0,0.000000,0.000000
646038,2023,diciembre,DOM,2023-12-24,17.0,Homicidios,Homicidio Doloso,NO,NO,BALVANERA,3,0.0,0.0,1,6.0,Fin de semana,4.0,0.000000,0.000000


In [28]:
df['comuna'].unique()


array([4.0, 5.0, 1.0, 6.0, 7.0, 8.0, 2.0, 14.0, 13.0, 10.0, 9.0, 3.0,
       15.0, 12.0, 11.0, 0.0, '6', '3', '14', '15', '5', '2', '8', '1',
       '7', '12', '13', '0', '9', '10', '4', '11', 'CC-08', 'CC-09',
       'CC-01 NORTE', 'CC-04', 'CC-07', 'CC-15', 'CC-02', 'CC-12',
       'CC-10', 'CC-06', 'CC-13', 'CC-05', 'CC-01 SUR', 'CC-03', 'CC-14',
       'Sin geo', 'CC-11'], dtype=object)

In [29]:


df['comuna'] = df['comuna'].astype(str)

mapeo_manual = {
    'Sin geo': '0',
    'CC-01 NORTE': '1',
    'CC-01 SUR': '1',
    'CC-02': '2',
    'CC-03': '3',
    'CC-04': '4',
    'CC-05': '5',
    'CC-06': '6',
    'CC-07': '7',
    'CC-08': '8',
    'CC-09': '9',
    'CC-10': '10',
    'CC-11': '11',
    'CC-12': '12',
    'CC-13': '13',
    'CC-14': '14',
    'CC-15': '15'
}

df['comuna'] = df['comuna'].replace(mapeo_manual)

df['comuna'] = pd.to_numeric(df['comuna'], errors='coerce')

df['comuna'] = df['comuna'].astype('Int64')

df['comuna'].unique()

<IntegerArray>
[4, 5, 1, 6, 7, 8, 2, 14, 13, 10, 9, 3, 15, 12, 11, 0]
Length: 16, dtype: Int64

In [39]:
df['anio'].unique()

<IntegerArray>
[2019, 2020, 2021, 2022, 2023]
Length: 5, dtype: Int64

In [34]:
df['barrio'].unique()

array(['PARQUE PATRICIOS', 'BOEDO', 'NUEVA POMPEYA', 'MONSERRAT',
       'CABALLITO', 'PARQUE CHACABUCO', 'CONSTITUCION', 'ALMAGRO',
       'SAN NICOLAS', 'VILLA SOLDATI', 'RECOLETA', 'VILLA LUGANO',
       'RETIRO', 'VILLA RIACHUELO', 'PALERMO', 'BELGRANO', 'VILLA LURO',
       'VERSALLES', 'LINIERS', 'VILLA REAL', 'MONTE CASTRO',
       'VELEZ SARSFIELD', 'BALVANERA', 'SAN TELMO', 'FLORES', 'PATERNAL',
       'NUÑEZ', 'SAAVEDRA', 'VILLA DEVOTO', 'SAN CRISTOBAL', 'CHACARITA',
       'NO ESPECIFICADA', 'VILLA CRESPO', 'FLORESTA', 'COLEGIALES',
       'BARRACAS', 'PUERTO MADERO', 'LA BOCA', 'VILLA SANTA RITA',
       'VILLA GENERAL MITRE', 'VILLA DEL PARQUE', 'VILLA ORTUZAR',
       'PARQUE CHAS', 'VILLA PUEYRREDON', 'VILLA URQUIZA', 'COGHLAN',
       'MATADEROS', 'PARQUE AVELLANEDA', 'AGRONOMIA', 'CONTITUCIÓN'],
      dtype=object)

In [35]:

mapeo_barrios = {
  'NUÃ‘EZ': 'NUÑEZ',
  'NUNEZ': 'NUÑEZ',
  'VILLA GRAL. MITRE': 'VILLA GENERAL MITRE',
  'VILLA ´PUEYRREDON': 'VILLA PUEYRREDON',
  'BOCA': 'LA BOCA',
  '0': 'NO ESPECIFICADA',
  'Sin geo': 'NO ESPECIFICADA',
  'AV BOEDO': 'BOEDO',
  'RODRIGO BUENO': 'PUERTO MADERO',
  'SD': 'NO ESPECIFICADA',
  'GREGORIO DE LAFERRERE': 'NO ESPECIFICADA',
  'FLORIDA': 'NO ESPECIFICADA',
  'BERNAL': 'NO ESPECIFICADA',
  'DOCK SUD': 'NO ESPECIFICADA',
  'SANTA MARÍA': 'NO ESPECIFICADA',
  'VILLA LUZURIAGA': 'NO ESPECIFICADA',
  'CASEROS': 'NO ESPECIFICADA',
  'BANFIELD OESTE': 'NO ESPECIFICADA',
  'CONSTITUCION': 'CONSTITUCIÓN',
}

df['barrio'] = df['barrio'].replace(mapeo_barrios)
df['barrio'] = df['barrio'].str.upper()
df['barrio'].unique()

array(['PARQUE PATRICIOS', 'BOEDO', 'NUEVA POMPEYA', 'MONSERRAT',
       'CABALLITO', 'PARQUE CHACABUCO', 'CONSTITUCIÓN', 'ALMAGRO',
       'SAN NICOLAS', 'VILLA SOLDATI', 'RECOLETA', 'VILLA LUGANO',
       'RETIRO', 'VILLA RIACHUELO', 'PALERMO', 'BELGRANO', 'VILLA LURO',
       'VERSALLES', 'LINIERS', 'VILLA REAL', 'MONTE CASTRO',
       'VELEZ SARSFIELD', 'BALVANERA', 'SAN TELMO', 'FLORES', 'PATERNAL',
       'NUÑEZ', 'SAAVEDRA', 'VILLA DEVOTO', 'SAN CRISTOBAL', 'CHACARITA',
       'NO ESPECIFICADA', 'VILLA CRESPO', 'FLORESTA', 'COLEGIALES',
       'BARRACAS', 'PUERTO MADERO', 'LA BOCA', 'VILLA SANTA RITA',
       'VILLA GENERAL MITRE', 'VILLA DEL PARQUE', 'VILLA ORTUZAR',
       'PARQUE CHAS', 'VILLA PUEYRREDON', 'VILLA URQUIZA', 'COGHLAN',
       'MATADEROS', 'PARQUE AVELLANEDA', 'AGRONOMIA', 'CONTITUCIÓN'],
      dtype=object)

In [21]:
mapeo_dias = {
    'LUNES': 'LUN',
    'MARTES': 'MAR',
    'MIERCOLES': 'MIE',
    'JUEVES': 'JUE',
    'VIERNES': 'VIE',
    'SABADO': 'SAB',
    'DOMINGO': 'DOM',
}

df['dia'] = df['dia'].replace(mapeo_dias)
df['dia'] = df['dia'].str.upper()
df['dia'].unique()

<StringArray>
['LUN', 'MIE', 'JUE', 'DOM', 'VIE', 'MAR', 'SAB']
Length: 7, dtype: string

In [20]:

# convertir a tipo de dato adecuado automáticamente
df = df.convert_dtypes()
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 635648 entries, 0 to 635647
Data columns (total 19 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   anio            635648 non-null  Int64  
 1   mes             635648 non-null  string 
 2   dia             635648 non-null  string 
 3   fecha           635648 non-null  string 
 4   franja          635648 non-null  Int64  
 5   tipo            635648 non-null  string 
 6   subtipo         635648 non-null  string 
 7   uso_arma        635648 non-null  string 
 8   uso_moto        635648 non-null  string 
 9   barrio          635648 non-null  string 
 10  comuna          635648 non-null  Int64  
 11  latitud         635648 non-null  Float64
 12  longitud        635648 non-null  Float64
 13  cantidad        635648 non-null  Int64  
 14  dia_semana_num  635648 non-null  Int64  
 15  tipo_dia        635648 non-null  string 
 16  trimestre       635648 non-null  Int64  
 17  latitud_no

In [26]:
# df = df[df['barrio'] != 'NO ESPECIFICADA'].reset_index(drop=True)
# df = df[df['comuna'] != 0].reset_index(drop=True)
df.groupby('anio')['dia_semana_num'].value_counts().reset_index(name='count')


Unnamed: 0,anio,dia_semana_num,count
0,2019,4,23011
1,2019,0,22184
2,2019,2,21795
3,2019,1,21698
4,2019,3,21608
5,2019,5,19510
6,2019,6,17558
7,2020,2,13018
8,2020,3,12864
9,2020,0,12636


In [28]:

# df = df.convert_dtypes()
# df['fecha'] = pd.to_datetime(df['fecha'], errors='coerce')

df.to_csv("datasets_delitos_2019_2023_limpio.csv", index=False)
df.info()



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 635648 entries, 0 to 635647
Data columns (total 17 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   anio            635648 non-null  Int64  
 1   mes             635648 non-null  string 
 2   dia             635648 non-null  string 
 3   fecha           635648 non-null  string 
 4   franja          635648 non-null  Int64  
 5   tipo            635648 non-null  string 
 6   subtipo         635648 non-null  string 
 7   uso_arma        635648 non-null  string 
 8   uso_moto        635648 non-null  string 
 9   barrio          635648 non-null  string 
 10  comuna          635648 non-null  Int64  
 11  latitud         635648 non-null  Float64
 12  longitud        635648 non-null  Float64
 13  cantidad        635648 non-null  Int64  
 14  dia_semana_num  635648 non-null  int64  
 15  tipo_dia        635648 non-null  string 
 16  trimestre       635648 non-null  Int64  
dtypes: Float64

In [6]:

df.groupby('comuna')['barrio'].unique().to_csv("barrios_por_comuna.csv", index=True)

In [9]:

# Crear un diccionario con las comunas y sus barrios válidos
comunas_barrios = {
    1: ['MONSERRAT', 'CONSTITUCIÓN', 'SAN NICOLAS', 'RETIRO', 'SAN TELMO',
        'PUERTO MADERO'],
    2: ['RECOLETA'],
    3: ['BALVANERA', 'SAN CRISTOBAL'],
    4: ['PARQUE PATRICIOS', 'NUEVA POMPEYA', 'BARRACAS', 'LA BOCA'],
    5: ['BOEDO', 'ALMAGRO'],
    6: ['CABALLITO'],
    7: ['PARQUE CHACABUCO', 'FLORES'],
    8: ['VILLA SOLDATI', 'VILLA LUGANO', 'VILLA RIACHUELO'],
    9: ['LINIERS', 'MATADEROS', 'PARQUE AVELLANEDA'],
    10: ['VILLA LURO', 'VERSALLES', 'VILLA REAL', 'MONTE CASTRO', 'VELEZ SARSFIELD',
         'FLORESTA'],
    11: ['VILLA DEVOTO', 'VILLA SANTA RITA', 'VILLA GENERAL MITRE',
         'VILLA DEL PARQUE'],
    12: ['SAAVEDRA', 'VILLA PUEYRREDON', 'VILLA URQUIZA', 'COGHLAN'],
    13: ['BELGRANO', 'NUÑEZ', 'COLEGIALES'],
    14: ['PALERMO'],
    15: ['PATERNAL', 'CHACARITA', 'VILLA CRESPO', 'VILLA ORTUZAR', 'PARQUE CHAS',
         'AGRONOMIA']
}

# Filtrar el DataFrame para eliminar registros de barrios que no pertenezcan a las comunas
def filtrar_barrios_por_comuna(df, comunas_barrios):
    # Crear una lista para almacenar los índices de los registros válidos
    indices_validos = []
    
    # Iterar sobre cada fila del DataFrame
    for idx, row in df.iterrows():
        comuna = row['comuna']
        barrio = row['barrio']
        
        # Verificar si la comuna está en el diccionario y si el barrio pertenece a esa comuna
        if comuna in comunas_barrios and barrio in comunas_barrios[comuna]:
            indices_validos.append(idx)
    
    # Filtrar el DataFrame usando los índices válidos
    return df.loc[indices_validos]

# Cargar el DataFrame original
df = pd.read_csv("datasets_delitos_2019_2023_limpio.csv")

# Aplicar el filtro
df_filtrado = filtrar_barrios_por_comuna(df, comunas_barrios)

# Guardar el DataFrame filtrado
df_filtrado.to_csv("datasets_delitos_2019_2023_limpio.csv", index=False)

In [10]:
df_filtrado.info()

<class 'pandas.core.frame.DataFrame'>
Index: 635082 entries, 0 to 635647
Data columns (total 17 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   anio            635082 non-null  int64  
 1   mes             635082 non-null  object 
 2   dia             635082 non-null  object 
 3   fecha           635082 non-null  object 
 4   franja          635082 non-null  int64  
 5   tipo            635082 non-null  object 
 6   subtipo         635082 non-null  object 
 7   uso_arma        635082 non-null  object 
 8   uso_moto        635082 non-null  object 
 9   barrio          635082 non-null  object 
 10  comuna          635082 non-null  int64  
 11  latitud         635082 non-null  float64
 12  longitud        635082 non-null  float64
 13  cantidad        635082 non-null  int64  
 14  dia_semana_num  635082 non-null  int64  
 15  tipo_dia        635082 non-null  object 
 16  trimestre       635082 non-null  int64  
dtypes: float64(2), 