# **Introducción al análisis de datos en Python** 
#### Profesor: Juan Pablo Salas

## Clase 5. Ideas avanzadas en Pandas y visualización

### Aplicar funciones a las columnas
En Pandas, el método `apply` se utiliza para aplicar una función a una serie o a un dataframe. El método `apply` toma como argumento una función y la aplica a cada elemento de la serie o del dataframe, devolviendo una nueva serie o dataframe con los resultados de la función aplicada a cada elemento.

La función que se aplica en el método `apply` puede ser una función lambda o una función definida por el usuario. Esta función debe tomar como argumento un elemento de la serie o dataframe y devolver el resultado de aplicar la función al elemento.

El método `apply` se puede aplicar de varias formas en un dataframe:

- Aplicar una función a una columna específica: Se puede utilizar el método `apply` en una columna específica de un dataframe utilizando la siguiente sintaxis:

```python
dataframe["nombre_columna"].apply(funcion)
```

Donde "nombre_columna" es el nombre de la columna en la que se desea aplicar la función y "funcion" es la función que se desea aplicar a cada elemento de la columna.

- Aplicar una función a un dataframe completo: Se puede utilizar el método `apply` en un dataframe completo utilizando la siguiente sintaxis:

```python
dataframe.apply(funcion)
```

Donde "funcion" es la función que se desea aplicar a cada elemento del dataframe.

- Aplicar una función a una fila específica: Se puede utilizar el método `apply` en una fila específica de un dataframe utilizando la siguiente sintaxis:

```python
dataframe.loc[etiqueta_fila].apply(funcion)
```

Donde "etiqueta_fila" es la etiqueta de la fila en la que se desea aplicar la función y "funcion" es la función que se desea aplicar a cada elemento de la fila.

- el método `apply` también puede ser utilizado con funciones **lambda**, que son funciones anónimas y pequeñas que se definen dentro de una línea de código. Por ejemplo, si se quisiera aplicar una función **lambda** que tome como entrada una cadena de caracteres y devuelva la versión en mayúsculas de la misma, se podría utilizar el método apply de la siguiente manera:

```python
dataframe['nombre_columna'].apply(lambda x: x.upper())
```

<center>
<div>
<img src="./img/lambda.PNG" width="200"/>
</div>
</center>

<center>
<div>
<img src="./img/lambda1.PNG" width="200"/>
</div>
</center>

El método `apply` también puede aplicarse a múltiples columnas o filas utilizando la opción axis. Si `axis=0`, la función se aplicará a cada columna del dataframe. Si `axis=1`, la función se aplicará a cada fila del dataframe.

En resumen, el método `apply` se utiliza en Pandas para aplicar una función a una serie o dataframe, y puede utilizarse de diferentes maneras para aplicar la función.



In [248]:
import pandas as pd
import numpy as np

In [None]:
dict_df = {'nombres':['Jose Urrutia López','Sebastian Carvajal López','Hamadys Gómez López','Carlos Tobón López','Julian Pardo López','Juan Lopez López'],
           'edad':[24.0,25.0,32.0,45.0,52.0,20.0],
           'peso':[75,80,60,86,72,70]}
data = pd.DataFrame(dict_df)
data['nueva_variable']=pd.cut(data['edad'],bins=[0,25,33,55,np.inf],labels=['Rango 1: 18-24','Rango 2: 25-32','Rango 3: 33-54','Rango 4: 55+'],right=False).astype('str')
data['edad_dias']=data['edad']*365
data = data.reset_index()
data['nueva_variable2']=np.nan
data

In [None]:
# Multiplicar x 2 todas las celdas
data.apply(lambda i: i*2)

In [None]:
# Convertir la edad de días a años
data["edad_dias"].apply(lambda x: x/365)

In [252]:
def funcion_ayuda(x):
    return x/365

In [None]:
data.edad_dias.apply(funcion_ayuda)

In [None]:
data[['edad','peso']].apply(np.mean)

In [None]:
data[['edad','peso']].max()

### Eliminar filas y columnas

In [None]:
data

In [None]:
# Borre la fila identificada como 1
data.drop(1) 

In [258]:
# Borre la columna nueva_variable y nueva_variable2
data.drop(columns = ["index", "nueva_variable2"], inplace = True) 

In [None]:
data

In [260]:
# Creemos un valor faltante
data.loc[0, "nombres"] = np.nan

In [None]:
data

In [None]:
# Eliminamos las filas con valores faltantes
data.dropna()

### Exportar bases de datos
1. [to_excel()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html)
2. [to_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html)
3. [to_pickle](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_pickle.html)

In [263]:
data.to_excel('./data/data_export.xlsx',index=False)

La función `pd.concat` en Pandas se utiliza para concatenar dos o más objetos de Pandas a lo largo de un eje específico. Los objetos de Pandas pueden ser dataframes o series. La concatenación implica unir los objetos uno al lado del otro o uno debajo del otro, dependiendo del eje especificado.

La sintaxis básica de `pd.concat` es la siguiente:
```python
pd.concat(objetos, axis = 0, join = 'outer', ignore_index = False)
```
Donde:

- `objetos`: es una lista o tupla de objetos de Pandas que se desea concatenar.
- `axis`: especifica el eje a lo largo del cual se realizará la concatenación. Si `axis=0`, se concatenarán los objetos uno debajo del otro (verticalmente). Si `axis=1`, se concatenarán los objetos uno al lado del otro (horizontalmente).
- `join`: especifica el tipo de unión que se desea realizar. Puede ser `'inner'` (intersección de los índices), `'outer'` (unión de los índices) o `'left'` (unión de los índices del objeto en el lado izquierdo).
- `ignore_index`: especifica si se deben ignorar los índices originales y crear nuevos índices. Si es `True`, se crearán nuevos índices.

La función `pd.concat` **es muy útil para combinar dataframes o series que tienen columnas o índices en común**. Por ejemplo, si se tienen dos dataframes que comparten las mismas columnas y se desea combinarlos verticalmente, se podría utilizar el siguiente código:

In [None]:
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df1

In [None]:
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})
df2

In [None]:
nuevo_df = pd.concat([df1, df2], axis=0)
nuevo_df.reset_index(drop=True)

En este caso, se utilizará `axis=0` para concatenar los dataframes verticalmente. Los índices de los dataframes originales se conservarán en el nuevo dataframe.

La función `pd.concat` también puede ser utilizada para combinar dataframes o series que no tienen columnas o índices en común. En este caso, las columnas o índices faltantes se rellenarán con valores nulos. Por ejemplo, si se quisiera combinar horizontalmente dos dataframes que tienen diferentes columnas, se podría utilizar el siguiente código:

In [None]:
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df1

In [None]:
df2 = pd.DataFrame({'C': [5, 6], 'D': [7, 8]})
df2

In [None]:
nuevo_df = pd.concat([df1, df2], axis=1)
nuevo_df

En este caso, se utilizará `axis=1` para concatenar los dataframes horizontalmente. Como los dataframes no tienen columnas en común, se crearán nuevas columnas con valores nulos.

En resumen, la función `pd.concat` en Pandas es una herramienta muy útil para combinar dataframes o series a lo largo de un eje específico. Se puede utilizar con diferentes parámetros para personalizar la unión de los objetos y crear un nuevo dataframe o serie.

In [None]:
data

In [271]:
# Creemos una nueva fila
nueva_fila = pd.DataFrame({"nombres": "Andrea Saldarriaga", "sexo": "F", "edad": 32, "peso": 60,'nueva_variable':'Rango 2: 25-32','edad_dias':12000}, index = [0])

In [None]:
nueva_fila

In [None]:
data = pd.concat((data, nueva_fila), axis = 0)
data

In [274]:
# Creemos una fila duplicada
data = pd.concat((data, data.iloc[1:2,]), axis = 0)

In [None]:
data

In [None]:
# Eliminemos duplicados. Conserva la primera observación
data = data.drop_duplicates()
data

In [None]:
data.reset_index(drop=True,inplace=True)
data

In [278]:
data2 = pd.DataFrame({'direccion':['Cra 14','Calle 3','Carrera 4','Calle 72','Carrera 24','Calle 127']})

In [None]:
data2

In [None]:
pd.concat([data,data2],axis=1)

In [None]:
data.drop_duplicates(subset='sexo')

In [None]:
data

In [None]:
data2

In [None]:
pd.concat([data,data2],axis=1)

### Unir bases de datos (`merge`)

En la sesión anterior aprendimos como concatenar filas y columnas de diferentes bases de datos. Para hacer esto es necesario que la cantidad de columnas y filas, respectivamente, de los dataframes a juntar sean los mismos y que sus índices o llaves también lo sean.

No obstante, muchas veces cuando trate de juntar bases de datos, notará que no necesariamente todas las llaves están presentes en ambas bases de datos, o que incluso, a cada fila de la base izquierda, querrá pegarle más de una fila de la base derecha, o viceversa.

A la hora de hacer pegues más complejos, hablamos de que vamos a utilizar un `merge`. 

Comencemos con la sintaxis del `merge`. Para pegar dos bases de datos, usted usará un comando similar al siguiente:

```python
pd.merge(left = left_dataframe, right = right_dataframe, on = "alguna(s)_columa(s)", how = "left|right|inner|outer")`
```

Los argumentos que toma la función son:
- `left`: dataframe que va de primero.
- `right`: dataframe que va de segundo.
- `on`: es la columna o la lista de columnas que determinan qué filas de una tabla coinciden con qué filas de la segunda tabla. Comúnmente a estas variables se les llaman las llaves del pegue y debe identificar a cada observación de forma única. A veces, las columnas que desea fusionar tienen nombres diferentes en los datos. Por ejemplo, suponga que tiene dos bases de datos, una que registra el dinero mensual gastado por persona en almacenes Éxito y otra que tiene características personales de las personas. Usted podría tratar de juntar ambas bases con el identificador de fila o persona de cada base que en este caso podría ser la cédula, sin embargo, en un dataframe tal vez la variable se llame "cc" mientras que en el otro puede que se llame "cédula". En esos casos, puede especificar los nombres de columna por separado para cada marco de datos utilizando los argumentos "left_on" y "right_on".
- `how`: es el método a usar, por defecto Pandas usa el método "inner". Más adelante exploraremos más al respecto.

<center>
<div>
<img src="./img/merges.png" width="400"/>
</div>
</center>

Tenemos cuatro grandes métodos para relacionar las bases porque no siempre tenemos una coincidencia uno a uno (one to one) entre las filas. Estos cuatro métodos afectan la forma en que Pandas trata los datos no coincidentes y eso es lo que veremos más adelante.

<center>
<div>
<img src="./img/one-many.png" width="400"/>
</div>
</center>



In [285]:
# ejemplos de pegues
left_dataframe = pd.DataFrame({"ID": [1,2,3,4], "left_side": "Izquierda"})
right_dataframe = pd.DataFrame({"ID": [3,4,5,6], "right_side": "Derecha"})

In [None]:
left_dataframe

In [None]:
right_dataframe

#### Left merge
En un Left merge lo que más nos interesa son los datos del lado IZQUIERDO a los cuales queremos pegarles columnas de una base de datos en el lado DERECHO.

Para hacer eso, cortamos las filas en el marco de datos DERECHO y pegamos partes en el marco de datos IZQUIERDO. Recuerde, nos preocupamos principalmente por el lado IZQUIERDO y solo queremos datos del lado DERECHO si tiene alguna de las mismas ID. Entonces, si algo en el marco de datos DERECHO no coincide o no existe, entonces tenemos que hacer cosas para mantener las columnas de la misma longitud. Lo hacemos agregando NaN para llenar el vacío o descartando algunas filas por completo.

En este ejemplo, el lado IZQUIERDO tiene los ID 1, 2, 3 y 4:
- El lado DERECHO no tiene ID 1 o 2, por lo que agregamos NaN porque necesitamos que las columnas tengan la misma longitud.
- El lado DERECHO tiene datos para los ID 3 y 4, así que lo agregamos como una nueva columna.
- El lado IZQUIERDO no tiene ID 5 o 6, por lo que no necesitamos esa información del DERECHO y se descarta.

<center>
<div>
<img src="./img/left_merge.png" width="400"/>
</div>
</center>

In [None]:
# Left merge con "ID" como llave
pd.merge(left = left_dataframe, right = right_dataframe, on = "ID", how = "left")

#### Right merge
Los Right merges funcionan igual que los Left merges, la diferencia es que nos preocupamos principalmente por el lado DERECHO y nos gustaría agregar datos desde el IZQUIERDO si tienen ID coincidentes.

<center>
<div>
<img src="./img/right_merge.png" width="400"/>
</div>
</center>

In [None]:
# Right merge con "ID" como llave
pd.merge(left = left_dataframe, right = right_dataframe, on = "ID", how = "right")

#### Inner merge
Con un Inner merge, cortamos ambos marcos de datos y solo pegamos las cosas que coinciden. Si una ID no está en ambos marcos de datos, no la mantenemos y no agregamos NaN.

<center>
<img src="./img/inner_merge.png" width="400"/>
</center>

In [None]:
# Inner merge con "ID" como llave
pd.merge(left = left_dataframe, right = right_dataframe, on = "ID", how = "inner")

#### Outer merge
Con un Outer merge, cortamos ambos marcos de datos y mantenemos todo de ambos lados. Luego agregamos NaN para llenar los espacios en blanco.

<center>
<img src="./img/outer_merge.png" width="400"/>
</center>

In [None]:
# Outer merge con "ID" como llave
pd.merge(left = left_dataframe, right = right_dataframe, on = "ID", how = "outer")

### Groupby


Uno de los métodos más útiles para los analistas de datos es `.groupby()`. Este método permite dividir los datos en grupos y a cada uno de estos aplicarles una función de agregación.

Veamos el siguiente ejemplo para entender este concepto mejor:

In [None]:
#dir_path = './data'
dir_path = '.' #GoogleColab

In [None]:
df = pd.read_excel(f"{dir_path}/ejemplo_groupby.xlsx")
df

In [None]:
df.animal.unique()

Note que tenemos un `dataframe` con cuatro tipos de animales: 
- alligators (cocodrilos 🐊)
- cats (gatos 🐱)
- snakes (serpientes 🐍)
- hamsters (hamsters 🐹)

Cada una de las filas indican un chequeo en el veterinario donde se registra edad, peso y largo del animal. Por ende, usted como investigador quiere estudiar algunas estadísticas descriptivas por especie. Por ejemplo ¿Cuál es el peso promedio de cada especie?

In [294]:
# El primer paso es agrupar por animal
animal_groups = df.groupby("animal")

In [None]:
animal_groups

In [None]:
# Veamos la conformación de cada uno de los grupos. ¿En qué filas aparece cada animal?
animal_groups.groups

In [None]:
df

In [None]:
# El segundo paso es aplicar una funcion agregadora
# ¿Cuál es la media del peso por especie?
animal_groups["weight"].mean()

In [None]:
animal_groups.mean()['weight']

Visualmente, lo que sucedió fue lo siguiente:

1. Se agrupa los valores únicos de la columna animal.
<center>
<img src = "./img/groupby1.jpg" width = "400">
</center>

2. La segmentación de cada grupo se vería de la siguiente manera
<center>
<img src = "./img/groupby2.jpg" width = "400">
</center>

3. Se le asignan las otras variables/columnas a cada grupo
<center>
<img src = "./img/groupby3.jpg" width = "400">
</center>

4. Se aplica la función agregadora `.mean()` sobre la columna `weight` de cada grupo.
<center>
<img src = "./img/groupby4.jpg" width = "400">
</center>


In [None]:
df

In [None]:
# Probemos otros ejemplos
# ¿Cuál es la edad mediana por animal?
df.groupby("animal")["age"].median()

In [None]:
# ¿Cuál es el largo máximo por animal?
df.groupby("animal")["length"].max()

In [None]:
# ¿Cuál es la desviación estándar del peso por animal?
df.groupby("animal")['weight'].std()

In [None]:
df.groupby("animal")[['weight','length']].max()

#### Método .agg()
El método .agg() se puede utilizar después de aplicar un método .groupby() en pandas para realizar operaciones de agregación en los datos de cada grupo.

La sintaxis general de la función .groupby() es la siguiente:
```python
dataframe.groupby(columnas).agg(funciones)
```
Donde:
- dataframe: el DataFrame al que se aplicará la función `groupby()`.
- columnas: la(s) columna(s) que se utilizarán para agrupar los datos.
- funciones: la(s) operación(es) de agregación que se aplicarán a los datos agrupados.

Por ejemplo, para calcular la media, el máximo y el mínimo de las columnas de peso y longitud del DataFrame agrupado por la columna 'animal', se puede utilizar la siguiente sintaxis:

In [None]:
df.groupby("animal")[['weight','length']].agg(["min", "mean", "max"])

In [None]:
df.groupby("animal").agg({'weight': ['mean', 'max'], 'length': 'std', 
                                     "age": lambda x: np.percentile(x, 50)})

In [None]:
# Otra sintaxis, en vez de un diccionario, usar tuplas
# (nombre_columna,funcion)
df.groupby("animal").agg(peso_promedio = ("weight", 'mean'), 
                                   peso_maximo = ("weight", 'max'),
                                   edad_mediana = ("age", lambda x: np.percentile(x, 50)))

### Gráficos rápidos
Desde `pandas`, cuando tengamos un `dataframe` podemos construir gráficos rápidamente sin la necesidad de escribir mucho código. Esto se debe a que `pandas` se integra con la librería para visualización en Python `matplotlib`.

El método más importante para hacer gráficos desde `pandas` es `. plot()`. Por ejemplo, si tienes un DataFrame con dos columnas, 'x' e 'y', puedes crear un gráfico de dispersión con el siguiente código:


In [None]:
data = {'var_ind': [1, 2, 3, 4, 5], 'var_dep': [2, 4, 6, 8, 10]}
df = pd.DataFrame(data)
df

Gráfico de dispersión

In [None]:
df.plot(x = 'var_ind', y = 'var_dep', kind = 'scatter')
#Scatter -> Dispersión

Este código creará un gráfico de dispersión con los valores de 'x' en el eje horizontal y los valores de 'y' en el eje vertical.

Puedes personalizar tu gráfico utilizando los métodos de `Matplotlib`. Por ejemplo, para cambiar el color de los puntos, puedes utilizar el parámetro `color`:

In [None]:
df.plot(x = 'var_ind', y = 'var_dep', kind = 'scatter', color = 'darkblue')

La función `plot()` de Pandas es utilizada para visualizar datos de un DataFrame o Series. La sintaxis básica es la siguiente:

```python
DataFrame.plot(x = None, y = None, kind = 'line', ax = None, subplots = False, layout = None, figsize = None, use_index = True, title = None, grid = None, legend = True, style = None, logx = False, logy = False, loglog = False, xticks = None, yticks = None, xlim = None, ylim = None, rot = None, xerr = None, yerr = None, label = None, secondary_y = False, **kwds)
```
A continuación, te explico los principales parámetros de esta función:

- `x` y `y`: son las etiquetas o nombres de las columnas que se utilizarán para el eje x y el eje y, respectivamente.
- `kind`: es el tipo de gráfico que se quiere generar, como 'line' para un gráfico de líneas, 'bar' para un gráfico de barras, 'scatter' para un gráfico de dispersión, etc. Por defecto, el valor es 'line'.
- `figsize`: es un parámetro opcional que permite especificar el tamaño del gráfico en pulgadas. El valor por defecto es (6,4).
- `title`: es un parámetro opcional que permite agregar un título al gráfico.
- `xlabel` y `ylabel`: son parámetros opcionales que permiten agregar etiquetas a los ejes x e y del gráfico.
- `xlim` y `ylim`: son parámetros opcionales que permiten establecer los límites del eje x e y, respectivamente.
- `legend`: es un parámetro opcional que permite controlar si se muestra o no la leyenda en el gráfico. El valor por defecto es True.
- `style`: es un parámetro opcional que permite especificar el estilo de la línea o puntos en el gráfico.
- `logx`, `logy` y `loglog`: son parámetros opcionales que permiten mostrar los ejes en una escala logarítmica en lugar de lineal.
- `subplots`: es un parámetro opcional que permite generar un gráfico para cada columna de un DataFrame y presentarlos en un arreglo de subplots.

Hay muchos otros parámetros opcionales que se pueden utilizar con la función `plot()`. Te recomiendo revisar la [documentación oficial de Pandas para obtener más detalles sobre la función y sus parámetros](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html).

In [None]:
base_de_datos = pd.read_csv(f'{dir_path}/info_accidentes.csv')
base_de_datos['Fecha'] = pd.to_datetime(base_de_datos['Fecha'])

Esta base de datos nos muestra la información de accidentes vehiculares ocurridos en Bogotá durante el año 2016. Incluye información sobre la localidad, fecha y hora del accidente así como información del tiempo atmosférico y del número de víctimas que este ocasionó.

In [None]:
base_de_datos.head()

In [None]:
base_de_datos.groupby("Fecha").size().reset_index(name = "Número de accidentes")

In [229]:
import matplotlib.pyplot as plt

In [None]:
base_de_datos.groupby("Fecha").size().reset_index(name = "Número de accidentes").plot(x = "Fecha", y = "Número de accidentes", kind = "line")

In [None]:
# Cambiemosle el tamaño al gráfico
base_de_datos.groupby("Fecha").size().reset_index(name = "Número de accidentes").plot(x = "Fecha", y = "Número de accidentes", kind = "line", figsize = (20, 5))

In [None]:
# Pongamosle título
base_de_datos.groupby("Fecha").size().reset_index(name = "Número de accidentes") \
    .plot(x = "Fecha", y = "Número de accidentes", kind = "line", figsize = (20, 5), 
          title = "Accidentes diarios en Bogotá (2016)")

In [None]:
# Quitemosle la legenda
base_de_datos.groupby("Fecha").size().reset_index(name = "Número de accidentes") \
    .plot(x = "Fecha", y = "Número de accidentes", kind = "line", figsize = (20, 5), 
          title = "Accidentes diarios en Bogotá (2016)", legend = False)

In [None]:
base_de_datos.groupby("Fecha").size().reset_index(name = "Número de accidentes")

In [None]:
# Pongamosle color a la línea
base_de_datos.groupby("Fecha").size().reset_index(name = "Número de accidentes") \
    .plot(x = "Fecha", y = "Número de accidentes", kind = "line", figsize = (20, 5), 
          title = "Accidentes diarios en Bogotá (2016)", legend = False,
          color = "darkred")

¿Cómo hago para saber qué colores existen? Por defecto, `pandas` y `matplotlib` tienen algunas palabras asociadas a algunos [colores](https://matplotlib.org/stable/gallery/color/named_colors.html)

<center>
<div>
<img src="https://raw.githubusercontent.com/edco-proyectos-analitica-python/IntroAnalisisDatos2025Q1/refs/heads/main/clase_5/img/colors.png" width="400"/>
</div>
</center>

In [None]:
# Pongamosle color a la línea
base_de_datos.groupby("Fecha").size().reset_index(name = "Número de accidentes") \
    .plot(x = "Fecha", y = "Número de accidentes", kind = "line", figsize = (20, 5), 
          title = "Accidentes diarios en Bogotá (2016)", legend = False,
          color = "cadetblue")

In [None]:
# Pongamosle color a la línea
base_de_datos.groupby("Fecha").size().reset_index(name = "Número de accidentes") \
    .plot(x = "Fecha", y = "Número de accidentes", kind = "line", figsize = (20, 5), 
          title = "Accidentes diarios en Bogotá (2016)", legend = False,
          color = "purple")

In [None]:
# Pongamosle color a la línea
base_de_datos.groupby("Fecha").size().reset_index(name = "Número de accidentes") \
    .plot(x = "Fecha", y = "Número de accidentes", kind = "line", figsize = (20, 5), 
          title = "Accidentes diarios en Bogotá (2016)", legend = False,
          color = "forestgreen")

Sin embargo, puede crear cualquier color que quiera a partir del [código HEX](https://www.google.com/search?q=HEX+color&rlz=1C1CHZN_enCO1034CO1034&sxsrf=APwXEdfScUmp_Pr0bIhq9xV33av52uCWKA%3A1680729192725&ei=aOQtZOv1K--FwbkP1PCygAM&ved=0ahUKEwjryfuT1JP-AhXvQjABHVS4DDAQ4dUDCA8&uact=5&oq=HEX+color&gs_lcp=Cgxnd3Mtd2l6LXNlcnAQAzIHCAAQigUQQzIHCAAQigUQQzIHCAAQigUQQzIHCAAQigUQQzIGCAAQBxAeMgcIABCKBRBDMggIABCABBDLATIICAAQgAQQywEyBggAEAcQHjIGCAAQBxAeOgoIABBHENYEELADOgoIABCKBRCwAxBDSgQIQRgAUNYPWL0RYPYUaAJwAXgAgAHFAYgBlQSSAQMwLjOYAQCgAQHIAQrAAQE&sclient=gws-wiz-serp)


<center>
<div>
<img src="https://raw.githubusercontent.com/edco-proyectos-analitica-python/IntroAnalisisDatos2025Q1/refs/heads/main/clase_5/img/HEX.png" width="400"/>
</div>
</center>

In [None]:
# Pongamosle color a la línea
base_de_datos.groupby("Fecha").size().reset_index(name = "Número de accidentes") \
    .plot(x = "Fecha", y = "Número de accidentes", kind = "line", figsize = (20, 5),
          title = "Accidentes diarios en Bogotá (2016)", legend = False,
          color = "#fcba03")

Exploremos otro tipo de gráficos como los histogramas. Veamos cómo se distribuyen la cantidad de accidentes por horas del día

In [188]:
base_de_datos['Mes'] = base_de_datos['Fecha'].dt.month

In [None]:
base_de_datos.Mes.plot(kind='hist')

In [None]:
base_de_datos['HoraOcurrenciaCorregida'] = pd.to_datetime(base_de_datos.HoraOcurrencia)

In [None]:
# Hay dos picos de accidentalidad: Al rededor de las 7-8 am y 2-3 pm
base_de_datos["HoraOcurrenciaCorregida"].dt.hour.plot(kind = "hist")

In [None]:
base_de_datos["HoraOcurrenciaCorregida"].dt.hour.plot(kind = "hist", color = "navy", 
                                          title = "Distribución de los accidentes por hora del día")

In [None]:
base_de_datos.head()

In [None]:
base_de_datos.plot(x = "TotalMuertos", y = "TotalHeridos", kind = "scatter", 
                xlabel = "Número de muertos", ylabel = "Número de heridos",
                title = "Relación entre heridos y muertos")

In [None]:
# Creemos un gráfico de barras en donde se visualice la cantidad de accidentes por tipo
tipos_accidentes = base_de_datos["GravedadNombre"].value_counts().reset_index()
tipos_accidentes

In [None]:
tipos_accidentes.values

In [None]:
tipos_accidentes.plot(x = "GravedadNombre", y = "count", kind = "bar", 
                      xlabel = "Tipo de accidente", ylabel = "Cantidad", 
                      color = "navy", legend = False, 
                      title = "Cantidad de accidentes por tipo",
                      figsize = (10, 6),rot=45)

In [198]:
# ¿Cómo pasamos estos números a porcentajes?
tipos_accidentes["Proporción"] = tipos_accidentes["count"]/tipos_accidentes["count"].sum()

In [None]:
tipos_accidentes

In [None]:
# Si vamos a hacer un gráfico de torta el índice debe reflejar las categoría a visualizar
tipos_accidentes.set_index("GravedadNombre").plot(y = "Proporción", kind = "pie")

También podemos importar [paletas usando el paquete seaborn](https://seaborn.pydata.org/tutorial/color_palettes.html)

<center>
<div>
<img src="img/palette.png" width="800"/>
</div>
</center>

In [201]:
#!pip install seaborn

In [None]:
import seaborn as sns
sns.color_palette("Spectral")

In [None]:
sns.color_palette("Spectral", as_cmap = True)

In [None]:
sns.color_palette("Paired")

In [None]:
sns.color_palette("Blues")

In [None]:
sns.color_palette("viridis")

In [None]:
sns.color_palette('RdYlGn')

In [None]:
sns.color_palette('RdYlGn', as_cmap = True)

In [None]:
sns.color_palette('RdYlGn_r')

In [None]:
tipos_accidentes.set_index("GravedadNombre").plot(y = "Proporción", kind = "pie", 
                                         colors = sns.color_palette('RdYlGn_r'))

In [None]:
tipos_accidentes.set_index("GravedadNombre").plot(y = "Proporción", kind = "pie", 
                                         colors = sns.color_palette('RdYlGn_r', n_colors = 3))

In [None]:
# También se pueden poner los labels de forma manual en vez de usar el índice
tipos_accidentes.plot(y = "Proporción", 
                      labels = ["Daños", "Heridos", "Muertos"], 
                      kind = "pie", 
                      colors = ["#a8dadc", "#1d3557", "#e63946"],
                      ylabel = "",
                      title = "Gravedad de los accidentes",
                      legend = False)

In [None]:
# Podemos añadirle los porcentajes
tipos_accidentes.plot(y = "Proporción", 
                      labels = ["Daños", "Heridos", "Muertos"], 
                      kind = "pie", 
                      colors = ["#a8dadc", "#1d3557", "#e63946"],
                      ylabel = "",
                      title = "Gravedad de los accidentes",
                      legend = False,
                      autopct = '%1.0f%%',)

In [None]:
# Podemos mover el pie
tipos_accidentes.plot(y = "Proporción", 
                      labels = ["Daños", "Heridos", "Muertos"], 
                      kind = "pie", 
                      colors = ["#a8dadc", "#1d3557", "#e63946"],
                      ylabel = "",
                      title = "Gravedad de los accidentes",
                      legend = False,
                      autopct = '%1.2f%%',
                      startangle = 90)

In [None]:
# Podemos mover el pie
tipos_accidentes.plot(y = "Proporción", 
                      labels = ["Daños", "Heridos", "Muertos"], 
                      kind = "pie", 
                      colors = ["#a8dadc", "#1d3557", "#e63946"],
                      ylabel = "",
                      title = "Gravedad de los accidentes",
                      legend = False,
                      autopct = '%1.2f%%',
                      startangle = 180)

In [None]:
# Podemos mover la legenda
tipos_accidentes.plot(y = "Proporción", 
                      labels = ["Daños", "Heridos", "Muertos"], 
                      kind = "pie", 
                      colors = ["#a8dadc", "#1d3557", "#e63946"],
                      ylabel = "",
                      title = "Gravedad de los accidentes",
                      legend = False,
                      startangle = 180,
                      # Distancia de los labels al centro
                      labeldistance = 0.4)

In [None]:
# Podemos mover los porcentajes
tipos_accidentes.plot(y = "Proporción", 
                      labels = ["Daños", "Heridos", "Muertos"], 
                      kind = "pie", 
                      colors = ["#a8dadc", "#1d3557", "#e63946"],
                      ylabel = "",
                      title = "Gravedad de los accidentes",
                      legend = False,
                      startangle = 180,
                      # Distancia de los labels al centro
                      labeldistance = 1.4,
                      # Distancia de los porcentajes al centro
                      autopct = '%1.2f%%',
                      pctdistance = 1.2
                      )

In [None]:
# Separar las porciones
tipos_accidentes.plot(y = "Proporción", 
                      labels = ["Daños", "Heridos", "Muertos"], 
                      kind = "pie", 
                      colors = ["#a8dadc", "#1d3557", "#e63946"],
                      ylabel = "",
                      title = "Gravedad de los accidentes",
                      legend = False,
                      startangle = 180,
                      # Distancia de los labels al centro
                      labeldistance = 1.4,
                      # Distancia de los porcentajes al centro
                      autopct = '%1.2f%%',
                      pctdistance = 1.2,
                      # Mover porciones
                      explode = [0.1, 0.1, 0.1]
                      )

In [None]:
# Resaltar una porción
tipos_accidentes.plot(y = "Proporción", 
                      labels = ["Daños", "Heridos", "Muertos"], 
                      kind = "pie", 
                      colors = ["#a8dadc", "#1d3557", "#e63946"],
                      ylabel = "",
                      title = "Gravedad de los accidentes \n\n",
                      legend = False,
                      startangle = 180,
                      # Distancia de los labels al centro
                      labeldistance = 1.4,
                      # Distancia de los porcentajes al centro
                      autopct = '%1.2f%%',
                      pctdistance = 1.2,
                      # Mover porciones
                      explode = [0, 0, 0.15]
                      )

In [None]:
fig, eje = plt.subplots()
# Resaltar una porción
tipos_accidentes.plot(y = "Proporción", 
                      labels = ["Daños", "Heridos", "Muertos"], 
                      kind = "pie", 
                      colors = ["#a8dadc", "#1d3557", "#e63946"],
                      ylabel = "",
                      title = "Gravedad de los accidentes \n\n",
                      legend = False,
                      startangle = 180,
                      # Distancia de los labels al centro
                      labeldistance = 1.4,
                      # Distancia de los porcentajes al centro
                      autopct = '%1.2f%%',
                      pctdistance = 1.2,
                      # Mover porciones
                      explode = [0, 0, 0.15],
                      ax=eje)
fig.savefig('./data/figura_gravedad.png')

In [None]:
base_de_datos

In [None]:
sns.color_palette('Spectral')[0]

In [None]:
fig, ejes = plt.subplots(3,figsize=(10,15))

base_de_datos[base_de_datos.GravedadNombre=='Con Heridos'].HoraOcurrenciaCorregida.dt.hour.plot(kind='hist',grid=False,ax=ejes[0],style='default',title='Distribución de horas para accidentes Con Heridos')
base_de_datos[base_de_datos.GravedadNombre=='Solo Daños'].HoraOcurrenciaCorregida.dt.hour.plot(kind='hist',grid=False,color=sns.color_palette('Spectral')[1],ax=ejes[1],title='Distribución de horas para accidentes Solo Daños')
base_de_datos[base_de_datos.GravedadNombre=='Con Muertos'].HoraOcurrenciaCorregida.dt.hour.plot(kind='hist',grid=False,color=sns.color_palette('Spectral')[2],ax=ejes[2],title='Distribución de horas para accidentes Con Muertos')


fig.savefig('./data/dist_horas_categoria.pdf')

In [None]:
import matplotlib.patches as patches
import matplotlib.path as path

fig, axs = plt.subplots(1)

# histogram our data with numpy
data = base_de_datos[base_de_datos.GravedadNombre=='Con Heridos'].HoraOcurrenciaCorregida.dt.hour.values
n, bins = np.histogram(data, 50)

# get the corners of the rectangles for the histogram
left = bins[:-1]
right = bins[1:]
bottom = np.zeros(len(left))
top = bottom + n

# we need a (numrects x numsides x 2) numpy array for the path helper
# function to build a compound path
XY = np.array([[left, left, right, right], [bottom, top, top, bottom]]).T

# get the Path object
barpath = path.Path.make_compound_path_from_polys(XY)

# make a patch out of it, don't add a margin at y=0
patch = patches.PathPatch(barpath)
patch.sticky_edges.y[:] = [0]
axs.add_patch(patch)
axs.autoscale_view()

## Ejercicios adicionales

### Información de accidentes de tránsito en Bogotá en el 2016

A partir de la base de datos `info_accidentes.csv`, responda las siguientes preguntas:

1. ¿Cuántos muertos hay registrados en la base de datos?
2. ¿Cuántos heridos hay registrados en la base de datos?
3. ¿Cuantos accidentes hubo en la localidad de Santa Fe? ¿Cuántos muertos y cuántos heridos dejaron estos accidentes en total?
4. Explore la columna TipoTiempo, ¿cuál es la categoría en la que más ocurren accidentes?