<a href="https://colab.research.google.com/github/JoaquinJustelP/Python_UB_2024/blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Pandas**

Pandas es un paquete más nuevo creado sobre NumPy y proporciona una implementación eficiente de un DataFrame. Los marcos de datos son esencialmente matrices multidimensionales con etiquetas de fila y columna adjuntas y, a menudo, con tipos heterogéneos y/o datos faltantes.

Como vimos, la estructura de datos ndarray de NumPy proporciona características esenciales para el tipo de datos limpios y bien organizados que se ven normalmente en las tareas de computación numérica.

Si bien sirve muy bien para este propósito, sus limitaciones se hacen evidentes cuando necesitamos más flexibilidad (p. ej., adjuntar etiquetas a los datos, trabajar con datos faltantes, etc.) y cuando intentamos operaciones que no se corresponden bien con la transmisión por elementos (p. ej., agrupaciones, pivotes, etc.), cada uno de los cuales es una pieza importante para analizar los datos menos estructurados disponibles en muchas formas en el mundo que nos rodea.

In [None]:
import pandas as pd
import numpy as np
import random

## Objeto "Series"

Un objeto `Series` de Pandas es un array unidimensional de datos indexados. Se puede crear a partir de una lista o array de la siguiente manera:

> Bloque con sangría




In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

Como vemos en el resultado, las `series` envuelven tanto una secuencia de valores como una secuencia de índices, a los que podemos acceder con los `values` y los atributos de `index`. Los `values` son simplemente un array de NumPy:


In [None]:
data.values

`Index` es un objeto similar a un array de tipo pd.Index.

In [None]:
data.index

Al igual que con un array NumPy, se puede acceder a los datos mediante el índice asociado a través de la conocida notación de corchetes de Python:

In [None]:
data[1]

In [None]:
data[1:3]

Hasta aquí, podríamos pensar que una `Serie` de Pandas es como un array de una dimensión de Numpy. La diferencia principal sería la presencia del indice, que en las `Series` de Pandas está definido explícitamente, a diferencia del array de Numpy.
La definición del indice permite tener capacidades adicionales, como usar cualquier tipo de valores como índice, ya sea enteros o cadenas, y también el uso de índices no contiguos o no secuenciales.

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

También podríamos verlo como una especie de diccionario con sus pares claves:valores, sin embargo, las `Series` son más eficientes que los diccionarios para ciertas operaciones.

Esta relación se puede hacer más clara creando un objeto `Series` a partir de un diccionario:

In [None]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

Si quisiéramos acceder a un elemento:

In [None]:
population['California']

Sin embargo, el objeto `Series`también nos permite operaciones como los arrays, como el "slicing".

In [None]:
population['California':'Illinois']

Podemos obtener estadísticos descriptivos con el siguiente método:

In [None]:
population.describe()

## Objeto "DataFrame"

La siguiente estrutura fundamental es el denominado `DataFrame`.

Si con las `Series` decíamos que era como un array unidimensional con índices flexibles, un `DataFrame` sería análogo a un array bidimensional con indices de filas y columnas flexibles. Es como una secuencia de `Series` alineadas (compartiendo el mismo indice).

Para verlo, creemos un objeto `Series` con el area de los cinco estados del ejemplo anterior:

In [None]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

Teniendo las `Series` de población y área, podemos construir un `DataFrame`:

In [None]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

In [None]:
states.index

In [None]:
states.columns

Como en el caso de las `Series`, podemos ver a un `DataFrame` como un diccionario. Donde el diccionario asigna una clave a un valor, un `DataFrame` asigna un nombre de columna a una `Serie` de datos de columna.

In [None]:
states['area']

In [None]:
states.info()

In [None]:
states.describe()

### **Construyendo objetos `DataFrame`**

Un `DataFrame` se puede construir de diversas maneras:

#### **De un objeto `Serie`:**
Como ya hemos comentado, un `DataFrame` es una colección de objetos `Series`:


In [None]:
pd.DataFrame(population, columns=['population'])

#### **De una lista de diccionarios:**

In [None]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
pd.DataFrame(data)

Incluso si faltan algunas claves en el diccionario, Pandas las completará con valores `NaN`:

In [None]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

#### **De un diccionario de objetos Series:**

Como ya hemos visto:

In [None]:
pd.DataFrame({'population': population,
              'area': area})

#### **De un array de Numpy de dos dimensiones:**



In [None]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

#### **De una lista de listas:**


In [None]:
data = [
    ['Asabeneh', 'Finland', 'Helsink'],
    ['David', 'UK', 'London'],
    ['John', 'Sweden', 'Stockholm']
]
df = pd.DataFrame(data, columns=['Names','Country','City'])
print(df)

### **Importación de datos a objeto `DataFrame`**

In [None]:
# 1. Leer un CSV con separador distinto (por ejemplo, punto y coma)
df = pd.read_csv('datos_pacientes.csv', sep=';')

# 2. Leer solo algunas columnas de interés
df = pd.read_csv('datos_pacientes.csv', usecols=['id', 'edad', 'diagnostico'])

# 3. Leer y convertir una columna a fecha automáticamente
df = pd.read_csv('datos_pacientes.csv', parse_dates=['fecha_ingreso'])
# parse_dates es un argumento muy útil de pd.read_csv que permite convertir automáticamente columnas de texto que representan fechas en objetos de tipo datetime de pandas al leer el archivo.

# 4. Leer un archivo sin cabecera y asignar nombres de columna
df = pd.read_csv('datos_sin_cabecera.csv', header=None, names=['id', 'edad', 'sexo', 'diagnostico'])

# 5. Leer un archivo y usar una columna como índice
df = pd.read_csv('datos_pacientes.csv', index_col='id')

# 6. Leer y especificar tipos de datos para columnas
df = pd.read_csv('datos_pacientes.csv', dtype={'id': str, 'edad': float})

# 7. Leer un archivo y tratar ciertos valores como NaN
df = pd.read_csv('datos_pacientes.csv', na_values=['NA', 'n/a', ''])

# 8. Leer un CSV estándar desde una URL
df = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')
df.head()


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


* `filepath:`

    Esta es la ruta del archivo o un objeto de tipo file que contiene los datos CSV.

* `sep:`

    Especifica el delimitador que se utiliza en el archivo CSV para separar los valores. El valor predeterminado es ,, pero puedes cambiarlo según sea necesario (por ejemplo, sep=';' si el delimitador es un punto y coma).
* `header:`

    Indica qué fila del archivo CSV se utilizará como encabezado (nombre de las columnas).
    Puede ser un número entero (el número de fila, por ejemplo, header=0 para usar la primera fila como encabezado) o None si no hay encabezado en el archivo.
* `index_col:`

    Especifica qué columna (o columnas) se debe usar como índice del DataFrame.
    Puede ser el nombre de la columna o su posición numérica.
* `usecols:`

    Permite seleccionar un subconjunto de columnas para leer. Puede ser una lista de nombres de columnas o un rango de columnas (por ejemplo, usecols=['col1', 'col2']).
* `dtype:`

    Especifica el tipo de datos de las columnas o de todo el DataFrame.
    Puede ser un diccionario que mapee nombres de columnas a tipos de datos, o simplemente un tipo de datos (por ejemplo, dtype={'col1': str, 'col2': float}).

## Indexación y selección de datos

Existe una variedad de métodos para seleccionar datos de un obeto  `Series` o `DataFrame` de Pandas.

Teniendo una `Serie`:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

In [None]:
data['b']

In [None]:
'b' in data

In [None]:
data.keys()

In [None]:
list(data.items())

In [None]:
data['a':'c'] #selección con los índices explícitos (ultimo indice incluido)

In [None]:
data[0:2] #selección con los índices enteros (ultimo indice excluido)

In [None]:
data[(data > 0.3) & (data < 0.8)] #condiciones

In [None]:
data[['a', 'e']]

### Indexadores: `loc`, `iloc`:

Para evitar posibles confusiones con los métodos anteriores y hacerlo de una manera más optimizada, existen estos métodos.

#### `Series`

In [None]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

**`loc`**

Permite la indexación y la selección que siempre hace referencia al índice explícito:

In [None]:
data.loc[1] #devuelve el que tiene valor 1

In [None]:
data.loc[1:3]

**`iloc`**

Permite la indexación y la selección que siempre hace referencia al índice implícito al estilo Python:

In [None]:
data.iloc[1] #devuelve la posición 1

In [None]:
data.iloc[1:3]

Un tercer atributo de indexación, **`ix`**, aunque en las última versiones ya está deprecado, es un híbrido de los dos, y para los objetos `Series` es equivalente a la indexación estándar basada en `[ ]`.

#### `DataFrames`

In [None]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

In [None]:
data['area']

In [None]:
data['density'] = data['pop'] / data['area'] #Podemos modificar el objeto creando nuevas variables
data

In [None]:
data.values #Para ver los datos "crudos"

In [None]:
data.T #Podemos trasponer los datos

In [None]:
data.values[0] #accedemos a la primera fila

In [None]:
data['area'] #accedemos a la primera columna

**`loc`**

Igual que antes pero marcando fila y columna.

In [None]:
data.loc[:'Illinois', :'pop']

**`iloc`**

In [None]:
data.iloc[:3, :2]

**`ix`**

Ya deprecado. Es un híbrido de los anteriores.

In [None]:
data.ix[:3, :'pop']

También se pueden seleccionar los índices de otras maneras:

In [None]:
data.loc[data.density > 100, ['pop', 'density']]

## Operaciones

Pandas hereda muchas de las funcionalidades de Numpy, como la habilidad de las operaciones elemento a elemento. Sin embargo, posee algunas utilidades como la conservación de las etiquetas de índice y columna en la salida, o el alineamiento de índices, manteniendo así el contexto de los datos y pudiendo combinar datos de diferentes fuentes fácilmente.

Preservación de índices

In [None]:
rng = np.random.RandomState(42)

In [None]:
df = pd.DataFrame(rng.randint(0, 10, (3, 4)),
                  columns=['A', 'B', 'C', 'D'])
df

In [None]:
np.sin(df * np.pi / 4)

Alineamiento de indices

In [None]:
A = pd.DataFrame(rng.randint(0, 20, (2, 2)),
                 columns=list('AB'))
A

In [None]:
B = pd.DataFrame(rng.randint(0, 10, (3, 3)),
                 columns=list('BAC'))
B

In [None]:
A + B

Observad que los índices están alineados correctamente independientemente de su orden en los dos objetos, y los índices en el resultado están ordenados.

Cualquier elemento para el que uno u otro no tenga una entrada se marca con NaN, o "No es un número", que es como Pandas marca los datos que faltan. Si el uso de valores NaN no es lo que buscamos, el valor de relleno se puede modificar mediante el siguiente método, usando funciones de Pandas en lugar de directamente el operador matemático.

In [None]:
fill = A.stack().mean()
A.add(B, fill_value=fill) #llenamos los valores vacíos con la media de los valores de A

| **Python Operator** |	**Pandas Method(s)** |
|------|------|
|+ |	add()|
|- |	sub(), subtract()|
|*	|mul(), multiply()|
|/	|truediv(), div(), divide()|
|//|	floordiv()|
|%|	mod()|
|**|	pow()|

### Tratar con "Missing Data"

Los datos en el mundo real raramente están limpios y son homogéneos. Por lo general podemos encontrar grandes cantidades de datos faltantes ("missing data"), lo que pone en relevancia el saber detectar su presencia.

Pandas utiliza los valores `Nan` y el objeto `None` para los valores faltantes.
`NaN` (acrónimo de Not a Number) es un valor de punto flotante especial.

| **Typeclass** |	**Conversion When Storing NAs** |	**NA Sentinel Value**|
|------|------|------|
|floating|	No change|	np.nan|
|object|	No change|	None or np.nan|
|integer|	Cast to `float64`|	np.nan|
|boolean|	Cast to `object`|	None or np.nan|

In [None]:
vals2 = np.array([1, np.nan, 3, 4])
vals2.dtype

In [None]:
1 + np.nan

In [None]:
vals2.sum(), vals2.min(), vals2.max()

Para ignorar los valores nan:

In [None]:
np.nansum(vals2), np.nanmin(vals2), np.nanmax(vals2)

Pandas trata a `None` y `NaN` prácticamente como intercambiables para indicar valores faltantes o nulos. Para facilitar esta convención, existen varios métodos útiles para detectar, eliminar y reemplazar valores nulos en las estructuras de datos de Pandas.

+ isnull(): genera una máscara booleana que indica valores faltantes
+ notnull(): Opuesto a isnull()
+ dropna(): Devuelve una versión filtrada de los datos
+ fillna (): devuelve una copia de los datos con los valores faltantes completados o imputados

In [None]:
data = pd.Series([1, np.nan, 'hello', None])

In [None]:
data.isnull()

In [None]:
data[data.notnull()]

In [None]:
data.dropna()

Sin embargo, en un `DataFrame` solo podemos eliminar filas o columnas enteras, no valores sueltos.

In [None]:
df = pd.DataFrame([[1,      np.nan, 2],
                   [2,      3,      5],
                   [np.nan, 4,      6]])
df

In [None]:
df.dropna() #eliminara las filas que contengan algun valor nulo

In [None]:
df.dropna(axis='columns') #eliminara las columnas

A veces nos interesará no eliminar todas las filas o columnas que contengan al menos un valor nulo, si no que por ejemplo, solo las que tengan un mínimo de ellos. Esto lo podemos hacer especificando con `how` y `thresh`.

In [None]:
df.dropna(axis='columns', how='all') #solo eliminara las columnas que tengan todos valores nan

In [None]:
df.dropna(axis='rows', thresh=3) #permite especificar un número mínimo de valores no nulos para la fila/columna que se mantendrá

Para rellenar:

In [None]:
df.fillna(method='ffill', axis=1)

In [None]:
df.fillna(method='bfill', axis=1)

### Formatos de fechas y tiempo en Pandas

En el análisis de datos es muy común trabajar con información temporal: fechas de ingreso y alta hospitalaria, fechas de nacimiento, seguimientos de pacientes, administración de tratamientos, etc. Por eso, es fundamental saber cómo manejar correctamente las fechas y los datos temporales en Pandas.

Pandas ofrece herramientas muy potentes para convertir columnas de texto a fechas, extraer componentes temporales (año, mes, día, hora), calcular diferencias entre fechas y realizar filtrados o agrupaciones basadas en el tiempo.

#### Conversión de texto a fechas

Supongamos que tenemos un DataFrame con una columna de fechas en formato texto:


In [None]:
df = pd.DataFrame({
    'paciente': ['A', 'B', 'C'],
    'fecha_ingreso': ['2024-01-10', '2024-02-15', '2024-03-20']
})

# Convertimos la columna a tipo datetime
df['fecha_ingreso'] = pd.to_datetime(df['fecha_ingreso'])

#### Extracción de componentes temporales

Una vez convertida la columna, podemos extraer fácilmente información relevante:


In [None]:
df['año'] = df['fecha_ingreso'].dt.year
df['mes'] = df['fecha_ingreso'].dt.month
df['dia'] = df['fecha_ingreso'].dt.day

: 

#### Cálculo de diferencias entre fechas

Si tenemos dos columnas de fechas, podemos calcular el tiempo transcurrido entre ellas:


In [None]:
df['fecha_alta'] = pd.to_datetime(['2024-01-15', '2024-02-20', '2024-03-25'])
df['dias_estancia'] = (df['fecha_alta'] - df['fecha_ingreso']).dt.days

#### Filtrado y agrupación por fechas

También podemos filtrar o agrupar datos por periodos de tiempo:

In [None]:
# Filtrar pacientes ingresados en febrero
df_febrero = df[df['fecha_ingreso'].dt.month == 2]

# Agrupar por mes de ingreso y contar pacientes
df.groupby(df['fecha_ingreso'].dt.month)['paciente'].count()

#### Consejos prácticos

- Usa siempre `pd.to_datetime()` para convertir columnas de fechas.
- El atributo `.dt` permite acceder a partes de la fecha y realizar operaciones temporales.
- Para datos con fechas y horas, Pandas también soporta formatos con tiempo (`YYYY-MM-DD HH:MM:SS`).
- Si tus datos tienen fechas en diferentes formatos, puedes especificar el formato con el argumento `format` en `pd.to_datetime()`.

### Ventanas móviles (Rolling Windows) en Pandas

Las ventanas móviles permiten calcular estadísticas (media, suma, desviación, etc.) sobre una ventana deslizante de datos, útil para suavizar series temporales o detectar tendencias.

Por ejemplo, para calcular la media móvil de 3 días de una columna de valores:


In [None]:
df['media_movil'] = df['valor'].rolling(window=3).mean()

Esto calcula la media de cada grupo de 3 valores consecutivos. Puedes usar otros métodos como `.sum()`, `.std()`, etc.

Consulta la [documentación oficial](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.rolling.html) para más ejemplos y opciones.

## Combinando Datasets

Nos podemos encontrar con la situación de tener que trabajar con datos de diferentes fuentes. En estos casos, toma relevancia la posibilidad de combinar todos estos datos en un solo dataset.

Estas operaciones pueden ir desde concatenaciones sencillas, a uniones o fusiones más complicadas para manejar cualquier superpsoición entre conjuntos de datos. Pandas incluye funciones y métodos que hacen que este tipo de tratamiento de datos sea rápido y sencillo.

### Concatenaciones

Para concatenaciones sencillas, Pandas incluye la función `pd.concat()`
```python
# Signature in Pandas v0.18
pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
          keys=None, levels=None, names=None, verify_integrity=False,
          copy=True)
```

In [None]:
A = pd.DataFrame(rng.randint(0, 20, (2, 3)),
                 columns=list('ABC'))
A

Unnamed: 0,A,B,C
0,7,2,1
1,11,5,1


In [None]:
B = pd.DataFrame(rng.randint(0, 10, (2, 3)),
                 columns=list('BAC'))
B

Unnamed: 0,B,A,C
0,4,0,9
1,5,8,0


In [None]:
display('A',A,'B', B,'AB', pd.concat([A, B]))

'A'

Unnamed: 0,A,B,C
0,7,2,1
1,11,5,1


'B'

Unnamed: 0,B,A,C
0,4,0,9
1,5,8,0


'AB'

Unnamed: 0,A,B,C
0,7,2,1
1,11,5,1
0,0,4,9
1,8,5,0


In [None]:
display('A',A,'B', B,'AB', pd.concat([A, B],axis=1))

'A'

Unnamed: 0,A,B,C
0,7,2,1
1,11,5,1


'B'

Unnamed: 0,B,A,C
0,4,0,9
1,5,8,0


'AB'

Unnamed: 0,A,B,C,B.1,A.1,C.1
0,7,2,1,4,0,9
1,11,5,1,5,8,0


Podemos observar que los índices se repiten, si queremos que no lo hagan, podemos especificar lo siguiente, que nos avisará si se producen índices duplicados:

In [None]:
try:
    pd.concat([A, B], verify_integrity=True)
except ValueError as e:
    print("ValueError:", e)

ValueError: Indexes have overlapping values: Int64Index([0, 1], dtype='int64')


Si los índices no fuesen de interés, los podemos ignorar con `ignore_index`:

In [None]:
display('A',A,'B', B,'AB', pd.concat([A, B], ignore_index=True))

'A'

Unnamed: 0,A,B,C
0,7,2,1
1,11,5,1


'B'

Unnamed: 0,B,A,C
0,4,0,9
1,5,8,0


'AB'

Unnamed: 0,A,B,C
0,7,2,1
1,11,5,1
2,0,4,9
3,8,5,0


En el caso anterior vimos como unir dos dataframes con los mismos nombres de columnas pero, ¿qué pasaría si no coincidiesen?

In [None]:
A = pd.DataFrame(rng.randint(0, 10, (2, 3)),
                 columns=list('BAC'))
A

Unnamed: 0,B,A,C
0,9,2,6
1,3,8,2


In [None]:
B = pd.DataFrame(rng.randint(0, 20, (2, 3)),
                 columns=list('BCD'))
B

Unnamed: 0,B,C,D
0,4,18,6
1,8,6,17


In [None]:
display('AB', pd.concat([A, B]))

'AB'

Unnamed: 0,B,A,C,D
0,9,2.0,6,
1,3,8.0,2,
0,4,,18,6.0
1,8,,6,17.0


Por defecto, tenemos que las entradas sin valor son rellenadas con valores `Nan`. Para evitar esto, podemos utilizar la opción de `join`.

In [None]:
display('AB', pd.concat([A, B], join='inner')) #por defecto es 'outer'

'AB'

Unnamed: 0,B,C
0,9,6
1,3,2
0,4,18
1,8,6


En este caso solo unimos las columnas haciendo una intersección.

### Merge

La función `pd.merge()` de Pandas implementa varios tipos de uniones: uniones uno a uno, muchos a uno y muchos a muchos.

**Uno a uno**

In [None]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'hire_date': [2004, 2008, 2012, 2014]})
display(df1, df2)

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR


Unnamed: 0,employee,hire_date
0,Lisa,2004
1,Bob,2008
2,Jake,2012
3,Sue,2014


In [None]:
df3 = pd.merge(df1, df2)
df3

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


La función `pd.merge()` reconoce que cada DataFrame tiene una columna de "empleado" y se une automáticamente usando esta columna como clave. El resultado de la fusión es un nuevo DataFrame que combina la información de las dos entradas.

**Muchos a uno**

In [None]:
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'],
                    'supervisor': ['Carly', 'Guido', 'Steve']})

In [None]:
display(df3, df4, pd.merge(df3, df4))

**Muchos a muchos**

In [None]:
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting',
                              'Engineering', 'Engineering', 'HR', 'HR'],
                    'skills': ['math', 'spreadsheets', 'coding', 'linux',
                               'spreadsheets', 'organization']})

In [None]:
display(df1, df5, pd.merge(df1, df5))

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR


Unnamed: 0,group,skills
0,Accounting,math
1,Accounting,spreadsheets
2,Engineering,coding
3,Engineering,linux
4,HR,spreadsheets
5,HR,organization


Unnamed: 0,employee,group,skills
0,Bob,Accounting,math
1,Bob,Accounting,spreadsheets
2,Jake,Engineering,coding
3,Jake,Engineering,linux
4,Lisa,Engineering,coding
5,Lisa,Engineering,linux
6,Sue,HR,spreadsheets
7,Sue,HR,organization


**Especificación de clave**

También podemos especificar una columna como clave para la unión, hay varias opciones para hacerlo:

+ `on`: especificando el nombre de la columna.
+ `left_on` y `right_on`: cuando queremos unir datasets con nombres de columnas diferentes, para especificar cual en cada uno.

Como con la función `pd.concat()`, la unión se puede producir con los datos que coinciden en ambos (por defecto) o con todos. Esto lo especificamos con `how`, pudiendo elegir entre `inner`, `outer`, `left` o `rigth`.

In [None]:
df6 = pd.DataFrame({'name': ['Peter', 'Paul', 'Mary'],
                    'food': ['fish', 'beans', 'bread']},
                   columns=['name', 'food'])
df7 = pd.DataFrame({'name': ['Mary', 'Joseph'],
                    'drink': ['wine', 'beer']},
                   columns=['name', 'drink'])
display(df6, df7, pd.merge(df6, df7))

Unnamed: 0,name,food
0,Peter,fish
1,Paul,beans
2,Mary,bread


Unnamed: 0,name,drink
0,Mary,wine
1,Joseph,beer


Unnamed: 0,name,food,drink
0,Mary,bread,wine


In [None]:
pd.merge(df6, df7, how='inner') #por defecto
pd.merge(df6, df7, how='outer')

Unnamed: 0,name,food,drink
0,Peter,fish,
1,Paul,beans,
2,Mary,bread,wine
3,Joseph,,beer


In [None]:
pd.merge(df6, df7, how='left')

#### Overlap de nombre de columnas

In [None]:
from IPython.display import display
df8 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'rank': [1, 2, 3, 4]})
df9 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'rank': [3, 1, 4, 2]})
display(df8, df9, pd.merge(df8, df9, on="name"))

Unnamed: 0,name,rank
0,Bob,1
1,Jake,2
2,Lisa,3
3,Sue,4


Unnamed: 0,name,rank
0,Bob,3
1,Jake,1
2,Lisa,4
3,Sue,2


Unnamed: 0,name,rank_x,rank_y
0,Bob,1,3
1,Jake,2,1
2,Lisa,3,4
3,Sue,4,2


In [None]:
display('df8', 'df9', 'pd.merge(df8, df9, on="name", suffixes=["_L", "_R"])')

## Agrupaciones

Una pieza esencial del análisis de grandes datos es el resumen eficiente de estos. Para ello son importante las operaciones de agregación y agrupaciones.



In [None]:
import seaborn as sns
planets = sns.load_dataset('planets')
planets.shape

(1035, 6)

Brinda información sobre los planetas que los astrónomos han descubierto alrededor de otras estrellas (conocidos como planetas extrasolares o exoplanetas para abreviar).

In [None]:
planets.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


Podemos usar el método `describe()`, que calcula varios agregados comunes para cada columna y devuelve el resultado

In [None]:
planets.dropna().describe()

Sin embargo, para profundizar en los datos, los agregados simples a menudo no son suficientes. El siguiente nivel de resumen de datos es la operación `groupby()`, que le permite calcular agregados en subconjuntos de datos de manera rápida y eficiente.

<img src="https://jakevdp.github.io/PythonDataScienceHandbook/figures/03.08-split-apply-combine.png">

_image source:_ Jake VanderPlas, author of [Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/)

+ El paso de división implica dividir y agrupar un DataFrame según el valor de la clave especificada.
+ El paso de aplicación implica calcular alguna función, generalmente un agregado, transformación o filtrado, dentro de los grupos individuales.
+ El paso de combinación combina los resultados de estas operaciones en unaarray de salida.

In [None]:
planets.groupby('method')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f1dbd679790>

In [None]:
planets.groupby('method')['orbital_period']

<pandas.core.groupby.generic.SeriesGroupBy object at 0x7f1dbd679430>

In [None]:
planets.groupby('method')['orbital_period'].median()

method
Astrometry                         631.180000
Eclipse Timing Variations         4343.500000
Imaging                          27500.000000
Microlensing                      3300.000000
Orbital Brightness Modulation        0.342887
Pulsar Timing                       66.541900
Pulsation Timing Variations       1170.000000
Radial Velocity                    360.200000
Transit                              5.714932
Transit Timing Variations           57.011000
Name: orbital_period, dtype: float64

In [None]:
planets.groupby('method')['year'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Astrometry,2.0,2011.5,2.12132,2010.0,2010.75,2011.5,2012.25,2013.0
Eclipse Timing Variations,9.0,2010.0,1.414214,2008.0,2009.0,2010.0,2011.0,2012.0
Imaging,38.0,2009.131579,2.781901,2004.0,2008.0,2009.0,2011.0,2013.0
Microlensing,23.0,2009.782609,2.859697,2004.0,2008.0,2010.0,2012.0,2013.0
Orbital Brightness Modulation,3.0,2011.666667,1.154701,2011.0,2011.0,2011.0,2012.0,2013.0
Pulsar Timing,5.0,1998.4,8.38451,1992.0,1992.0,1994.0,2003.0,2011.0
Pulsation Timing Variations,1.0,2007.0,,2007.0,2007.0,2007.0,2007.0,2007.0
Radial Velocity,553.0,2007.518987,4.249052,1989.0,2005.0,2009.0,2011.0,2014.0
Transit,397.0,2011.236776,2.077867,2002.0,2010.0,2012.0,2013.0,2014.0
Transit Timing Variations,4.0,2012.5,1.290994,2011.0,2011.75,2012.5,2013.25,2014.0


In [None]:
decade = 10 * (planets['year'] // 10)
decade = decade.astype(str) + 's'
decade.name = 'decade'
planets.groupby(['method', decade])['number'].sum().unstack().fillna(0)

decade,1980s,1990s,2000s,2010s
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Astrometry,0.0,0.0,0.0,2.0
Eclipse Timing Variations,0.0,0.0,5.0,10.0
Imaging,0.0,0.0,29.0,21.0
Microlensing,0.0,0.0,12.0,15.0
Orbital Brightness Modulation,0.0,0.0,0.0,5.0
Pulsar Timing,0.0,9.0,1.0,1.0
Pulsation Timing Variations,0.0,0.0,1.0,0.0
Radial Velocity,1.0,52.0,475.0,424.0
Transit,0.0,0.0,64.0,712.0
Transit Timing Variations,0.0,0.0,0.0,9.0


Cuando queremos hacer agrupaciones aún más complicadas, el método `groupby` se nos puede quedar corto, por lo que en estos casos usaremos `pivot_table` (tablas dinámicas).

https://jalammar.github.io/visualizing-pandas-pivoting-and-reshaping/

In [None]:
titanic = sns.load_dataset('titanic')

Si queremos ver la tasa de supervivencia por sexo y clase:

In [None]:
titanic.groupby(['sex', 'class'])['survived'].aggregate('mean').unstack()

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


Agrupamos por clase y sexo y seleccionamos supervivencia, aplicamos la media agregada, combinamos los grupos resultantes y luego desapilamos el índice jerárquico para revelar la multidimensionalidad oculta.

Como vemos, se puede empezar a complicar. En cambio, usando `pivot_table`:

In [None]:
titanic.pivot_table('survived', index='sex', columns='class')

Otro ejemplo:

In [None]:
#Creamos un dataset biomédico simulado
df = pd.DataFrame({
    'paciente': ['A', 'B', 'C', 'D'],
    'edad': [34, 58, 45, 63],
    'tratamiento': ['A', 'B', 'A', 'B'],
    'sobrevivio': [1, 0, 1, 0]
})
# Tasa de supervivencia por tratamiento
df.pivot_table('sobrevivio', index='tratamiento')

## Buenas Prácticas al Trabajar con Pandas

- **Revisar los tipos de datos (`dtypes`):**  
  Antes de analizar, asegúrate de que cada columna tenga el tipo de dato correcto (por ejemplo, fechas como `datetime`, variables categóricas como `category`, etc.).

- **Explorar y limpiar los datos:**  
  Utiliza métodos como `head()`, `info()`, `describe()`, `isnull().sum()` para entender la estructura y detectar valores faltantes o atípicos.

- **Documentar el flujo de trabajo:**  
  Comenta el código y utiliza celdas de Markdown para explicar cada paso, facilitando la reproducibilidad y comprensión por parte de otros.

- **Evitar modificar los datos originales:**  
  Trabaja con copias (`df.copy()`) cuando vayas a transformar o limpiar datos, para no perder la información original.

- **Nombrar variables de forma clara:**  
  Usa nombres descriptivos para columnas y variables, especialmente en contextos biomédicos (por ejemplo, `edad_paciente`, `tratamiento`, `sobrevivio`).

- **Guardar y versionar los datos procesados:**  
  Guarda los DataFrames limpios y procesados en archivos separados (por ejemplo, CSV), y utiliza control de versiones si es posible.

- **Validar los resultados:**  
  Siempre revisa que los resultados de agrupaciones, merges o transformaciones sean los esperados, usando ejemplos pequeños o comprobaciones manuales.

- **Manejar valores faltantes de forma explícita:**  
  Decide cómo tratar los `NaN` según el contexto: eliminarlos, imputarlos o mantenerlos, y documenta la decisión.

- **Utilizar visualizaciones para explorar:**  
  Apóyate en gráficos simples (`hist`, `boxplot`, `countplot`) para detectar patrones, errores o valores extremos.

- **Mantener la reproducibilidad:**  
  Fija semillas aleatorias (`np.random.seed()`) cuando generes datos simulados y guarda los scripts/notebooks con los pasos completos.

# Documentación 
- **Documentación oficial de Pandas:**  
  https://pandas.pydata.org/docs/

- **10 Minutes to Pandas (tutorial oficial):**  
  https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html
  
- **Cheat Sheet de Pandas:**  
  https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf
