# **Introducción a Pandas**

## Bloque 1: Introducción a Pandas

### 1.1. ¿Qué es Pandas?

[Pandas](https://pandas.pydata.org/) es una biblioteca de Python especializada en la manipulación y el análisis de datos. Ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales. Es un software libre distribuido bajo la licencia BSD. Es especialmente útil para:

- Manipulación y análisis de datos.
- Operaciones rápidas y eficientes con estructuras de datos como *DataFrames* y *Series*.

La documentación oficial se encuentra en [https://pandas.pydata.org/docs](https://pandas.pydata.org/docs). En esta etapa, vamos a trabajar y prácticar mediante el uso de *Notebooks* de forma local usando [Jupyter](https://jupyter.org/) o en la nube mediante [Google Colab](https://colab.research.google.com/).

### 1.2. Instalación

Si no tenes Pandas instalado, podes hacerlo con:

```bash
pip install pandas
```

### 1.3. Conceptos básicos

- **Series:** Una columna de datos (unidimensional).
- **DataFrame:** Una tabla de datos (bidimensional).

Una *Series* es un n-arreglo unidimensional con etiquetas de eje (incluyendo series de tiempo). Es decir, un tipo de arreglo que permite almacenar información de diversa tipología; sea por medio de cadenas de texto, flotantes o enteros, dtype, entre otros. En un nivel más sutil puedes incluso trabajar con constructores y toda una diversidad de métodos.

Un *DataFrame* es una serie de Series Pandas indexadas por un valor. El formato de estas estructuras puede compararse con los diccionarios de Python. Efectivamente, las claves son los nombres de las columnas y los valores son las Series. Cada fila contiene datos específicos de varias columnas, que son variables. El nombre de las filas de un DataFrame se llama *index* que, por defecto, empieza siempre por 0.

<div align="center"><img src="./Pandas-structures.png" alt="Pandas Dataframe & Series" width="1000"/></div>

### 1.4. Crear una Series

In [None]:
import pandas as pd
from pandas import Series

# Definimos una Series
mi_series = Series([17,5,7,5,67,84,29,52,12,53,1,10])

# El patrón de sintaxis es el siguiente: Series([valores])
# Donde valores es una lista de valores que queremos que tenga la Serie
print(mi_series)

### 1.5. Crear un DataFrame

In [None]:
# Crear un DataFrame desde un diccionario
data = {
    "Nombre": ["Juan", "Ana", "Luis"],
    "Edad": [25, 30, 22],
    "Ciudad": ["Buenos Aires", "Mar del Plata", "Tandil"]
}

mi_dataframe = pd.DataFrame(data)
print(mi_dataframe)

### 1.6. Ejercitación

1. Explorar la función `pd.Series` para crear una columna individual.
2. Crear un DataFrame con tus datos favoritos (nombres, edades, ciudades, etc.).
3. Crear cinco Series y con ellas, luego crear un DataFrame. 

---

## Bloque 2: Carga y Exploración de Datos

### 2.1. Leer archivos

Pandas permite cargar datos de varios formatos:

In [39]:
import pandas as pd

# Leer un archivo CSV
df_messi = pd.read_csv("messi_goals.csv")

### 2.2. Métodos para explorar datos

In [None]:
# Ver la estructura del DataFrame
print(df_messi.info())

In [None]:
# Ver los tipos de datos de las columnas del dataset
print(df_messi.dtypes)

In [None]:
# Ver la cantidad de registros y columnas del dataset
print(df_messi.shape)

In [None]:
# Estadísticas descriptivas, columnas numéricas
print(df_messi.describe())  # Media, desviación estándar, etc.

In [None]:
# Estadísticas descriptivas, columnas categoricas
print(df_messi.describe(include=['object']))  # Media, desviación estándar, etc.

In [None]:
# Ver la cantidad de valores unicos de una columna
print(df_messi.Club.unique())

In [None]:
# Ver la cantidad de veces que se repite cada valor único en una columna
print(df_messi.Club.value_counts())

In [None]:
# Ver las primeras 5 filas
print(df_messi.head(5))

In [None]:
# Ver los últimos 4 registros del dataset
print(df_messi.tail(4))

In [None]:
# Ver 3 registros aleatorios del dataset
print(df_messi.sample(3))

In [None]:
# Retorna el valor numérico más pequeño
# En un string, retorna el valor que sería el "menor" en orden alfabético
df_messi["GoalID"].min()

In [None]:
# Retorna el valor numérico más grande
# En un string, retorna el valor que sería el "mayor" en orden alfabético
df_messi["GoalID"].max()

In [None]:

# Calcula la suma de todos los valores numéricos
# En un string, concatenará todos los valores string en la columna
df_messi["GoalID"].sum()

### 2.3. Indexación básica

In [None]:
# Acceder a una columna
print(df_messi["Club"])

In [None]:
# Notación de punto
print(df_messi.Club)

**`loc`** (Selection by Label), se utiliza para seleccionar datos *por etiquetas* (nombres de filas y columnas). Admite rangos con nombres de índices, y el límite superior está incluido. Es útil cuando los índices no son enteros secuenciales (pueden ser strings, fechas, etc.). Puede aceptar:

- Etiquetas individuales (una fila/columna).
- Listas de etiquetas.
- Condiciones booleanas para filtrar datos.

In [None]:
df = pd.DataFrame({
    "A": [10, 20, 30],
    "B": [40, 50, 60],
}, index=["uno", "dos", "tres"])

# Seleccionar una fila por etiqueta
print(df.loc["dos"])  # Devuelve la fila con índice "dos"

In [None]:
# Seleccionar múltiples filas y columnas
print(df.loc[["uno", "tres"], ["A"]])  # Devuelve A para índices "uno" y "tres"

In [None]:
# Filtrar con condiciones
print(df.loc[df["A"] > 15])  # Filas donde el valor de A es mayor que 15

In [None]:
# Volviendo a los goles de Messi
# Seleccionar una fila por indice y una columna por nombre
print(df_messi.loc[[3],["Opponent"]])

In [None]:
# Filtrar con condiciones
print(df_messi.loc[df_messi["GoalID"] > 700])

**`iloc`** (Selection by Position), se utiliza para seleccionar datos por *posición numérica* (índices enteros). Admite índices basados en posiciones (similares a listas de Python), y el límite superior está excluido (rango estilo `slice`). Es útil para operaciones cuando el índice no importa o es desconocido.

In [None]:
# Acceder a una fila por índice
print(df_messi.iloc[3])  # Cuarta fila

In [None]:
# Seleccionar la segunda fila
print(df_messi.iloc[1])  # Devuelve la segunda fila (índice 1 en base 0)

In [None]:
# Seleccionar un rango de filas
print(df_messi.iloc[0:2])  # Devuelve las filas 0 y 1

In [None]:
# Seleccionar un rango de filas y columnas
print(df_messi.iloc[0:2, 13:])  # Filas 0 a 1, columna 0

### 2.4. Ejercitación

1. Cargar un archivo CSV y mostrar las primeras 10 filas.
2. Usar `info()` para entender la estructura de tu DataFrame.
3. Seleccionar y mostrar las filas del 100 al 150.

---

## Bloque 3: Manipulación de Datos

### 3.1. Convertir datos

In [None]:
import pandas as pd

df_messi = pd.read_csv("messi_goals.csv")

# Verificar los tipos de datos de cada columna
print(df_messi.dtypes)

In [None]:
# Verificar el tipo de datos específico de una columna
print(type(df_messi["Minute"].iloc[0]))

In [None]:
# Mostrar algunas filas para ver el contenido de la columna
print(df_messi["Minute"].head())

#### Convertir a números

In [None]:
# Datos están en object (texto) pero representan números
# pd.to_numeric convierte los valores a números
# El parámetro errors="coerce" maneja valores no convertibles
# Los valores no convertibles se convierten en NaN

df_messi["Minute"] = pd.to_numeric(df_messi["Minute"], errors="coerce")
print(df_messi["Minute"].info())
print(df_messi["Minute"].head())

In [None]:
# Mostrar las filas con valores NaN, devuelve True
print(df_messi["Minute"].isnull())

In [None]:
# Podemos saber cuántos valores nulos tenemos aplicando sum()
print(df_messi["Minute"].isnull().sum())

In [None]:
# Forzar a valores enteros: eliminar los NaN y convertir a int
df_messi["Minute"] = pd.to_numeric(df_messi["Minute"], errors="coerce").fillna(0).astype(int)
print(df_messi["Minute"].info())
print(df_messi["Minute"].head())

In [None]:
# Convertir int a float
df_messi["Minute"] = df_messi["Minute"].astype(float)
print(df_messi["Minute"].info())
print(df_messi["Minute"].head())

In [None]:
# Convertir float a int
df_messi["Minute"] = df_messi["Minute"].astype(int)
print(df_messi["Minute"].info())
print(df_messi["Minute"].head())

#### Convertir a Strings

In [None]:
# astype(str) convierte todos los valores a cadenas
df_messi["Minute"] = df_messi["Minute"].astype(str)
print(df_messi["Minute"].info())
print(df_messi["Minute"].head())

In [None]:
# Convertir incluso valores nulos
df_messi["Minute"] = df_messi["Minute"].fillna("").astype(str)
print(df_messi["Minute"].info())
print(df_messi["Minute"].head())

#### Convertir a fecha

In [None]:
# Antes de convertir, veamos el contenido de la columna
print(df_messi["Date"].head())

In [None]:
# Convertir a formato datetime estableciendo el formato
#  pd.to_datetime(df["column"], format="%d/%m/%y")

# Convertir manejando formatos mixtos automáticamente
df_messi["Date"] = pd.to_datetime(df_messi["Date"], format="mixed")

print(df_messi["Date"].head())
print(df_messi["Date"].info())

### 3.2. Filtrar datos

Es posible filtrar un dataframe mediante la notación `df[condición]`, donde `condicion` es una serie booleana (una lista de `True` o `False`) que indica qué filas deben ser incluidas en el resultado.

In [None]:
# Filtra las filas donde la columna "Minute" es menor a 5
serie_minute = df_messi["Minute"] < 5
print(serie_minute.info())
print(serie_minute.head())

Podemos seleccionar las filas donde la condición es `True` de la siguiente manera:

In [None]:
filtro_minute = df_messi[serie_minute] 
print(filtro_minute.info())
print(filtro_minute.head())

También podemos combinar múltiples condiciones mediante los operadores booleanos **and** (`&`), **or** (`|`) y **not** (`~`):

In [None]:
# Filtrar filas donde el tiempo de juego sea menor a 5
filtro = df_messi[(df_messi["Minute"] > 0) & (df_messi["Minute"] < 5)]

print(filtro.info())
print(filtro)

Es posible generar máscaras para filtrar datos especificos usando `loc`:

In [None]:
# Filtrar solo los goles anotados en LaLiga
# Generar una mascara (mask), que es una Serie booleana
mask_laliga = df_messi["Competition"] == "LaLiga"
print(mask_laliga.info())
print(mask_laliga.head())

In [None]:
# Apliquemos la máscara al DataFrame
df_laliga = df_messi.loc[mask_laliga]
print(df_laliga.info())
print(df_laliga.head())

In [None]:
# Contar la cantidad de goles anotados en LaLiga
cant_laliga = df_laliga["GoalID"].count()
total_goles = df_messi["GoalID"].count()
print(f"Messi anotó {cant_laliga} goles en LaLiga de un total de {total_goles} goles registrados.")

In [None]:
# Filtrar los goles anotados contra el equipo que menos goles recibió
# idxmin() devolverá el índice del valor mínimo del primer valor de la serie
min_opponent = df_messi["Opponent"].value_counts().idxmin()
mask_opponent = df_messi["Opponent"] == min_opponent
df_min_opponent = df_messi.loc[mask_opponent]

cant_goles_min = df_min_opponent["GoalID"].count()
print(f"El equipo que menos goles recibió de Messi fue {min_opponent} con {cant_goles_min} goles.")

In [None]:
# Filtrar los goles en una temporada específica (ejemplo: 2014/2015)
mask_season = df_messi["Season"] == "14/15"
df_season = df_messi.loc[mask_season]
cant_goles_season = df_season["GoalID"].count()
print(f"En la temporada 2014/2015, Messi anotó {cant_goles_season} goles.")

In [None]:
# Filtrar los goles anotados en el minuto inicial (0 a 5 minutos)
mask_minuto_inicial = df_messi["Minute"] <= 5
df_minuto_inicial = df_messi.loc[mask_minuto_inicial]
cant_minuto_inicial = df_minuto_inicial["GoalID"].count()
print(f"Messi anotó {cant_minuto_inicial} goles en los primeros 5 minutos de juego.")

In [None]:
# Filtrar los goles anotados en finales de competiciones
mask_finales = df_messi["Matchday"] == "Final"
# mask_finales = df_messi["Matchday"].str.lower() == "final"

df_finales = df_messi.loc[mask_finales]
cant_finales = df_finales["GoalID"].count()
print(f"Messi anotó {cant_finales} goles en finales.")

In [None]:
# Filtrar los goles con asistencia de un jugador específico (ejemplo: Iniesta)
mask_asistencia = df_messi["Goal_assist"] == "Andres Iniesta"
df_asistencias = df_messi.loc[mask_asistencia]
cant_asistencias = df_asistencias["GoalID"].count()
print(f"Iniesta asistió en {cant_asistencias} goles de Messi.")

In [None]:
# Filtrar los goles en partidos jugados fuera de casa
mask_away = df_messi["Venue"] == "A"
df_away = df_messi.loc[mask_away]
cant_away = df_away["GoalID"].count()
print(f"Messi anotó {cant_away} goles en partidos fuera de casa.")

In [None]:
# Filtrar los goles contra equipos específicos (ejemplo: Real Madrid y Atlético de Madrid)
mask_big_rivals = df_messi["Opponent"].isin(["Real Madrid", "Atletico de Madrid"])
df_big_rivals = df_messi.loc[mask_big_rivals]
cant_big_rivals = df_big_rivals["GoalID"].count()
print(f"Messi anotó {cant_big_rivals} goles contra Real Madrid y Atlético de Madrid.")

In [None]:

# Filtrar los goles en competencias internacionales (Champions League)
mask_international = df_messi["Competition"] == "UEFA Champions League"
df_international = df_messi.loc[mask_international]
cant_international = df_international["GoalID"].count()
print(f"Messi anotó {cant_international} goles en la Champions League.")

In [None]:
# Filtrar los goles en partidos jugados en una fecha específica (ejemplo: 17 de junio de 2007)
mask_fecha = df_messi["Date"] == "2007-06-17"
df_fecha = df_messi.loc[mask_fecha]
cant_fecha = df_fecha["GoalID"].count()
print(f"El 17 de junio de 2007, Messi anotó {cant_fecha} goles.")

### 3.3. Manipular columnas

In [None]:
# Crear una nueva columna
df_messi["Minutos"] = df_messi["Minute"]
print(df_messi.info())
print(df_messi.Minutos.head())

In [None]:
# Modificar el nombre de una columna
df_messi = df_messi.rename(columns = {"Minutos": "Minutitos"})
print(df_messi.info())

In [None]:
# Eliminar la columna "Minutitos"
df_messi = df_messi.drop("Minutitos", axis=1)
print(df_messi.info())

### 3.4. Agrupar datos

In [None]:
# Agrupar por una columna según los valores únicos en la columna Date
# Todas las filas que tienen el mismo valor en Date se agrupan juntas
agrupado = df_messi.groupby("Date")["Minute"]

for grupo, datos in agrupado:
    print(f"Grupo: {grupo}")
    print(datos)

### 3.5. Ejercitación

1. Filtrar las filas que cumplan una condición.
2. Crear una nueva columna calculada.
3. Renombrar la columna anterior.
4. Eliminar una columna del dataset.

---

## Bloque 4: Transformaciones, Funciones y Exportar

### 4.1. Ordenar datos

In [None]:
import pandas as pd

df_messi = pd.read_csv("messi_goals.csv")
df_messi["Date"] = pd.to_datetime(df_messi["Date"], format="mixed")

# Ordenar por fecha de manera descendente
df_messi = df_messi.sort_values("Date", ascending=False)
print(df_messi.head())

### 4.2. Trabajar con valores nulos

In [None]:
# Detectar valores nulos
print(df_messi.isnull().sum())

In [None]:
# Rellenar valores nulos
df_messi["Type"].fillna(0, inplace=True)
print(df_messi.Type.isnull().sum())

### 4.3. Cambiar índices

In [None]:
# Usar una columna como índice
print(df_messi.info())
df_messi.set_index("GoalID", inplace=True)
print(df_messi.info())

### 4.4. Aplicar funciones a columnas

In [None]:
# Convertir todas las edades a string
df_messi["Venue"] = df_messi["Venue"].apply(str)
print(type(df_messi.Venue.iloc[0]))

La columna `Minute` presenta un caso particular: el dataset computa los minutos pasados el tiempo reglamentario como un adicional, es decir, el minuto 91 está almacenado como 90+1. Anteriormente, vimos que al querer convertir la columna de `object` a `int` esos valores deben ser tratados de alguna manera.

Por ejemplo, podemos utilizar el método `eval()` que permite ejecutar código almacenado en un string:

In [None]:
# Ejecutar la función eval() en cada fila
print(df_messi["Minute"].apply(eval))

### 4.5. Exportar datos

In [27]:
# A CSV
df_messi.to_csv("output.csv", index=False)

In [85]:
# A Microsoft Excel
df_messi.to_excel("output.xlsx", index=False)

### 4.6. Ejercitación

1. Ordena tu DataFrame por una columna.
2. Reemplaza valores nulos en tu DataFrame.
3. Usa `apply()` para transformar los datos de una columna.
4. Exporta un DataFrame a un archivo CSV.

---

## Bloque 5: Proyecto Final

Crear un script en Pandas que cargue un archivo CSV, limpie los datos y genere estadísticas útiles.

1. Cargar datos mediante `df = pd.read_csv("messi-vs-cristiano.csv")`.
2. Realizar una limpieza de los datos, por ejemplo, eliminar filas con valores nulos y filtrar datos irrelevantes.
3. Realizar un análisis, por ejemplo, encontrar valores medios, mínimos y máximos; agrupar los datos y calcula promedios.
4. Exportar resultados `df.to_csv("ejemplo_limpio.csv", index=False)`.

---

## Resumen Final

| Método                        | Descripción                                                                 |
|-------------------------------|-----------------------------------------------------------------------------|
| `pd.read_csv`                 | Carga un archivo CSV en un DataFrame.                                       |
| `pd.DataFrame`                | Crea un DataFrame a partir de un diccionario u otra estructura de datos.    |
| `.info`                       | Muestra un resumen conciso de un DataFrame, incluyendo tipos y valores nulos. |
| `.dtypes`                     | Devuelve los tipos de datos de cada columna en el DataFrame.                |
| `.shape`                      | Obtiene las dimensiones del DataFrame (filas, columnas).                    |
| `.describe`                   | Genera estadísticas descriptivas de las columnas numéricas.                |
| `.unique`                     | Devuelve los valores únicos de una Serie.                                   |
| `.value_counts`               | Cuenta la cantidad de ocurrencias de cada valor en una Serie.               |
| `.head`                       | Devuelve las primeras n filas de un DataFrame.                              |
| `.tail`                       | Devuelve las últimas n filas de un DataFrame.                               |
| `.sample`                     | Retorna una muestra aleatoria de filas del DataFrame.                       |
| `.set_index`                  | Define una columna como el índice del DataFrame.                            |
| `.min`                        | Retorna el valor mínimo de una Serie o columna.                             |
| `.max`                        | Retorna el valor máximo de una Serie o columna.                             |
| `.sum`                        | Retorna la suma de los valores en una Serie o columna.                      |
| `.nunique`                    | Devuelve el número de valores únicos en una Serie.                          |
| `.count`                      | Cuenta los valores no nulos en una Serie o DataFrame.                       |
| `.loc`                        | Accede a filas y columnas por etiquetas o un array booleano.                |
| `.iloc`                       | Accede a filas y columnas por posición (indexación basada en enteros).      |
| `.apply`                      | Aplica una función a lo largo de un eje del DataFrame (filas o columnas).   |
| `.astype`                     | Convierte una Serie u objeto del DataFrame a un tipo de datos específico.    |
| `.isnull`                     | Devuelve un DataFrame indicando valores nulos con `True`.                   |
| `.rename`                     | Cambia los nombres de las columnas o el índice.                             |
| `.drop`                       | Elimina filas o columnas del DataFrame.                                     |
| `.groupby`                    | Agrupa los datos por una o más columnas y permite aplicar funciones a grupos. |
| `.sort_values`                | Ordena un DataFrame por los valores de una o más columnas.                  |
| `.to_csv`                     | Exporta el DataFrame a un archivo CSV.                                      |
| `.to_excel`                   | Exporta el DataFrame a un archivo Excel.                                    |
| `.datetime`                   | Manipula valores de tiempo y fecha.                                         |