# **[EIE409] Programación 2**

## **Clase 9:**

### **Tabla de contenido**

1. Pandas.




# **1. Pandas**

| [Revisar documentación oficial para tener una guía](https://pandas.pydata.org/docs/getting_started/index.html#getting-started) |

**Pandas** es una biblioteca de código abierto con [licencia BSD](https://es.wikipedia.org/wiki/Licencia_BSD#:~:text=La%20licencia%20BSD%20es%20la,OpenSSL%20o%20la%20MIT%20License.) que proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar para el lenguaje de programación Python.

## **1.1 ¿Cómo podemos entender Pandas?**

Pandas es un framework donde las estructuras de datos están **etiquetada**, y tenemos dos estructuras principales:

1. ``Series``: Es un array unidimensional etiquetado capaz de contener distintos tipos de datos (enteros, cadenas, números de coma flotante, objetos Python, etc).
2. `DataFrame`: Es una estructura de datos de dos dimensiones etiqueta con columnas. Se puede pensar esta estructura de datos como un excel, o una tabla SQL. **Nota**: Es la estructura de datos más utilizada.

## **1.2 Instalar Pandas**

Para utilizar Pandas debemos primero instalarlo en nuestro ambiente, en el caso de google colab ya viene instalado, simplemente se debe importar.

In [1]:
!pip install -q pandas


[notice] A new release of pip is available: 24.0 -> 25.0.1
[notice] To update, run: C:\Users\gol_m\AppData\Local\Programs\Python\Python311\python.exe -m pip install --upgrade pip


## **1.3 Importar Pandas**

In [1]:
import pandas as pd

## **1.4 Series**

Para crear una estructura de datos `Series` utilizamos la notación del punto para pandas y recibe principalmente dos parámetros, los datos y la etiqueta, en este caso la indexación.

* **datos**: Puede ser cualquier tipo de datos (puede entregarse una lista, escalar o un ndarray).
* **index**: Debe ser una lista de string, que contiene la indexación.

```python

data = np.random.randint(1, 10, (4, )) # Datos que son objetos de numpy

s = pd.Series(data, index=['a', 'b', 'c', 'd'])
```

In [7]:
# Escriba el código anterior y muestre el resultado.

Se pueden crear Series de pandas pasando un diccionario como parámetro de entrada.

```python
diccionario = {
    "nombre": "Gabriel",
    "apellido": "Olmos"
}
s = pd.Series(diccionario)
```


In [9]:
# Escriba el código y muestre el resultado

Puedes replicar el mismo dato pero que contenga distintas indexaciones (o etiquetas).

In [10]:
scalar = 5.0
index = ['param1', 'param2', 'param3', 'param4']

s = pd.Series(scalar, index=index)

In [12]:
# Muestra el contenido de s

### **1.4.1 Acceder a los elementos**

Para acceder al contenido de una **Series**, podemos hacerlo de distintas formas:

1. Método ``iloc[índice]``.
2. Como si fuera un diccionario de Python.

In [18]:
import numpy as np

np.random.seed(5)

datos = np.random.randint(1, 10, (10,))
abc = "abcdefghij"
index = list(abc) # Creamos la etiquetas

s = pd.Series(datos, index=index)
# s # Mostrar s

Muestra los siguientes contenidos utilizando el slicing, pero con ``iloc[]``.

* Acceder al primer elemento de la Series.
* Acceder al último elemento de la Series.
* Acceder a un conjunto de elementos, debe ser el segundo elemento hasta el quinto elemento (deben mostrarse cuatro elementos).

In [None]:
# Realice lo solicitado

Muestra los siguientes contenidos como si fuera un diccionario.

* Acceder al primer elemento de la Series.
* Acceder al último elemento de la Series.
* Acceder a un conjunto de elementos, debe ser el segundo elemento hasta el quinto elemento (deben mostrarse cuatro elementos). Para realizar lo solicitado, debe entregarse una lista con las etiquetas.

In [25]:
# Realice lo solicitado

### **1.4.2 Operaciones con Series**

A una ``Series`` podemos aplicarle distintas operaciones matemáticas. Por ejemplo, podemos aplicar a cada elemento la potencia de n, exponencial de cada elemento, etc.

In [26]:
np.random.seed(5)

data = np.random.randint(1,10,(10,))
etiquetas = "abcdefghij"
index = list(etiquetas)

s = pd.Series(data, index=index)

Al objeto s aplique las siguientes operaciones:

1. Elevar al cuadrado.
2. Aplicar la exponencial (utilice numpy).
3. Sume un escalar que tenga el valor de 1.
4. Sume s con la misma estructura (s+s).

In [38]:
# Relice las operaciones

### **1.4.3 Atributos con Series**

Como todo objeto, Series tiene algunos atributos interesantes, podemos acceder al tipo de dato, su nombre, etc. 

**Nota**: A las estructuras de datos de Pandas, podemos asignarle un nombre.

* ``pd.Series().dtype``
* ``pd.Series().name``


In [39]:
s = pd.Series(np.random.randn(5), name="Mi primera Series")

In [43]:
# Muestre s y acceda a esos dos atributos

## **1.5 DataFrame**

| [Documentación DataFrame](https://pandas.pydata.org/docs/user_guide/dsintro.html#dataframe) |

``DataFrame`` es una estructura de datos bidimensional (2-dimensional) etiquetada con columnas de tipos potencialmente diferentes. Se puede pensar en él como una hoja de cálculo (excel) o una tabla SQL, o como un dictado de objetos Series. Generalmente es el objeto pandas más utilizado. Al igual que Series, DataFrame acepta muchos tipos diferentes de entrada: 

* Dict de 1D ndarrays, listas, dicts, o Series 
* 2-D numpy.ndarray 
* ndarray estructurado o de registro 
* Una Series 
* Otro DataFrame.

A continuación, se mostrarán distintas formas para crear un ``DataFrame``. Recordemos que hay que pensar en un DataFrame como si fuera un excel, que es una matriz que tiene filas y columnas etiquetadas.

### **1.5.1 A partir de Listas**

Podemos crear un `DataFrame` a partir de **listas de listas** (cada sublista es una fila)

In [44]:
datos = [
    ['Gabriel', 50],
    ['Juan', 45],
    ['Ana', 30],
    ['Luis', 28]
]

columnas = ['Nombres', 'Edades']

df = pd.DataFrame(datos, columns=columnas)

In [None]:
# Muestre df

### **1.5.2 A partir de Listas de Diccionarios**

Cada diccionario es una fila.

In [46]:
datos = [
    {'Nombres': "Gabriel", 'Edades': 50},
    {'Nombres': "Juan", 'Edades': 45},
    {'Nombres': "Ana", 'Edades': 30},
    {'Nombres': "Luis", 'Edades': 28},
]

df = pd.DataFrame(datos)

In [None]:
# Muestre df

### **1.5.3 A partir de una única Lista**

Si es a partir de una única lista, contendría una única columna.

In [48]:
nombres = ["Juan", "Ana", "Luis"]
df = pd.DataFrame(nombres, columns=["Nombres"])

In [None]:
# Muestre df

### **1.5.4 A partir Diccionario de Listas**

In [50]:
datos = {
    "Nombres": ["Gabriel", "Juan", "Pedro", "Felipe"],
    "Edades": [50, 48, 45, 42]
}

df = pd.DataFrame(datos)

In [None]:
# Mostrar s

**Nota**: Este enfoque para mi es el más rápido para crear ``DataFrames``.

### **1.5.5 A partir Series**

In [52]:
s_nombre = pd.Series(["Juan", "Ana", "Luis"])
s_edad = pd.Series([25, 30, 28])

dic = {
    "Nombres": s_nombre,
    "Edades": s_edad
}

df = pd.DataFrame(dic)

In [64]:
# Mostrar s

### **1.5.6 Slicing en DataFrame**

Para acceder a los elementos de un DataFrame se puede realizar de diferentes formas:

#### **Acceder a las Columnas**

1. ``df['clave']`` (como si fuera un diccionario de Python).
2. ``df.Columns`` (Utilizando la notación del punto, solo si no tiene espacios ni caracteres especiales).

#### **Acceder a las Filas**

1. ``df.loc[índice]`` (Series) o ``df.loc[[índice]]`` (DataFrame).
2. ``df.iloc[índice_fila]`` o ``df.iloc[[índice_fila]]``

#### Comparación visual rápida

| Método      | Significado                         | Ejemplo                          |
|-------------|-------------------------------------|----------------------------------|
| `loc[1, 'Col']`   | Fila con índice 1, columna `'Col'`   | Usa etiquetas                    |
| `iloc[1, 1]`      | Segunda fila, segunda columna       | Usa posiciones numéricas         |

In [54]:
s_nombre = pd.Series(["Juan", "Ana", "Luis"])
s_edad = pd.Series([25, 30, 28])

dic = {
    "Nombres": s_nombre,
    "Edades": s_edad
}

df = pd.DataFrame(dic)

Realicemos distintos ejercicios para aprender a acceder a los elementos de un DataFrame.

1. Accede a las distintas columnas.
2. Acceder a la primera fila, utilizando loc (``df.loc[0]``).
3. Acceder a la primera fila junto con la segunda columna, utilizando loc (``df.loc[0, 'Edades']``).
4. Accede a la primera fila, utilizando iloc (``df.iloc[0]``).
4. Accede a la primera fila junto con la segunda columna, utilizando iloc (``df.iloc[0, 1]``).

In [None]:
df['Edades'] # Esto nos retorna una Series de Pandas

In [None]:
# Muestra la segunda columna

## **1.6 Cargar Archivos a un DataFrames**

| [Revisar la documentación para más información](https://pandas.pydata.org/docs/user_guide/io.html#io-tools-text-csv-hdf5) |

Podemos cargar distintos tipos de archivos a un ``DataFrame`` de Pandas, algunos de los más comunes son:

1. csv: ``pd.read_csv()``
2. excel: ``pd.read_excel()``
3. json: ``pd.read_json()``


### **1.6.1 Cargar CSV**

In [65]:
ruta = r"C:\Users\gol_m\OneDrive\Desktop\Magíster en Ciencias de la Ingeniería\2025\Cursos Dictados\Primer Semestre\EIE409 - PROGRAMACIÓN 2\CLASES\materiales\dataset.csv"

df = pd.read_csv(ruta)

In [None]:
# Muestre el data frame

### **1.6.2 Cargar EXCEL**

Si estás desde tu dispositivo, lo más probable es que debas instalar una biblioteca.

```bash
pip install -q openpyxl
```

In [3]:
ruta = r"C:\Users\gol_m\OneDrive\Desktop\Magíster en Ciencias de la Ingeniería\2025\Cursos Dictados\Primer Semestre\EIE409 - PROGRAMACIÓN 2\CLASES\materiales\datos_excel.xlsx"

df = pd.read_excel(ruta)

In [None]:
# Muestre el data frame

### **1.6.3 Cargar JSON**

In [5]:
ruta = r"C:\Users\gol_m\OneDrive\Desktop\Magíster en Ciencias de la Ingeniería\2025\Cursos Dictados\Primer Semestre\EIE409 - PROGRAMACIÓN 2\CLASES\materiales\test.json"

df = pd.read_json(ruta)

In [None]:
# Mostra df

## **1.7 Exploración y Análisis de Datos con Pandas: Dataset Spotify**

En esta sección se realizarán distintos proceso al dataset de Spotify. Este dataset consiste en un conjunto de top canciones de 70 países. Para obtener más información puedes revisar la página [Kaggle: Top Spotify Songs](https://www.kaggle.com/datasets/asaniczka/top-spotify-songs-in-73-countries-daily-updated).

### **1.7.1 Cargar CSV**

In [3]:
ruta = r"C:\Users\gol_m\OneDrive\Desktop\Magíster en Ciencias de la Ingeniería\2025\Cursos Dictados\Primer Semestre\EIE409 - PROGRAMACIÓN 2\CLASES\materiales\dataset.csv"

df = pd.read_csv(ruta)

### **1.7.2 Mostrar DataFrame y otros datos**

A continuación, vamos a utilizar algunos métodos y atributos que nos permiten obtener información sobre el archivo que hemos cargado.

1. `df.head()`: Muestra el DataFrame (df).
2. `df.info()`: Nos entrega información general del df.
3. `df.dtypes`: Nos entrega el tipo de datos de cada columna.
4. `df.columns`: Nos retorna un objeto con las columnas del df.
5. `df.shape`: Nos retorna una tupla que indica la dimensión del df.

In [None]:
# Para mostrar 5 elementos por defecto, se utiliza .head()
df.head()

In [None]:
# Para mostrar más elementos, se le entrega la cantidad de elementos a .head()
df.head(10)

In [None]:
# Obtener info general del dataframe
print(df.info())

In [None]:
# Obtener los tipos de datos de cada columna
print(df.dtypes)

In [None]:
# Obtener las columnas del dataframe
df.columns

In [None]:
# Obtener la forma del dataframe
df.shape

### **1.7.3 Realizar Operaciones**

A continuación, debes realizar distintas operaciones para comprender cómo manejar el DataFrame.

1. Mostrar todas las columnas.
2. Seleccionar una columna, mostrar el contenido de la primera fila y de la última fila.
3. Busca algún artista.

In [None]:
df.columns

In [None]:
# Puedes seleccionar la columna artists
df['artists']

In [17]:
# Para mostrar la primera fila y luego la última fila puedes utilizar loc o iloc.

### **1.7.4 Slicing**

1. Mostar una columna.
2. Mostrar un conjunto de columnas.
3. Mostrar primera fila.
4. seleccionar un rango de filas.

In [None]:
# escribir código

### **1.7.5 Filtrado**

1. Filtrar canciones por popularidad mayor a 80 y mostrar con head().
2. Utilizando el punto anterior, muestra las columnas "track_name", "artists" y "popularity".
3. Buscar artista, para ello debe utilizar la siguiente sintáxis ``df[df['artists']=='Nombre Artista']``
4. Contar cuántas canciones tiene cada artistas (debe seleccionar un artista, por ejemplo Metallica).
5. Revisar duplicados.
6. Convertir la duración en ms a min.
7. Buscar las canciones con mayor y menor duración de un artista.

In [None]:
# Escriba su código

### **1.7.6 Gráficas**

1. Graficar popularidad de un artista mediante plot.
2. Graficar histograma de la duración de las canciones de un artista.

In [None]:
# Escriba su código