## Pandas
**Pandas** es una biblioteca de Python de código abierto que provee estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar. Fue diseñada para facilitar el trabajo con datos etiquetados o relacionales, lo que la convierte en una herramienta muy poderosa para tareas de análisis, limpieza y visualización de datos. Al estar construida sobre NumPy, Pandas hereda un rendimiento elevado y la capacidad de trabajar con grandes volúmenes de datos de manera eficiente.

La principal ventaja de Pandas es la simplicidad con la que permite transformar datos en estructuras flexibles, realizar análisis estadísticos y conectar con otras librerías de Python, como Matplotlib para visualización y SciPy para análisis numérico.

#### Serie

Una **Serie** es un objeto unidimensional que se asemeja a una columna en una hoja de cálculo o a un campo en una base de datos. Cada elemento de la serie posee un índice, el cual por defecto es un rango numérico `(0, 1, 2,...)` si no se especifica de otra manera. Esto permite acceder a los elementos de la serie tanto por su posición como por su etiqueta.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
s = pd.Series([1,3,4,np.nan, 5, 6], index = ['A', 'B', 'C', 'D', 'E', 'F'])
print(s)

Otra forma de crear una Serie es utilizando un diccionario, en cuyo caso las claves se transforman en etiquetas del índice:

In [None]:
dict_ejemplo = {'A': 1, 'B': 2, 'C': 3, 'D': np.nan, 'E': 5, 'F': 6}
s = pd.Series(dict_ejemplo)
print(s)

### DataFrame
El **DataFrame** es la estructura de datos central en Pandas. Se trata de un objeto bidimensional similar a una tabla de una base de datos o a una hoja de cálculo. Los DataFrames permiten almacenar datos en filas y columnas, facilitando operaciones complejas de análisis, limpieza y manipulación de datos. 


In [None]:
data = {'Genero': ['F', 'M', 'M'],
        'Emp_ID': ['E01', 'E02', 'E03'],
        'Edad': [25, 27, 25]}
# Si queremos el orden de las columnas, especificamos en el parametro columns
df = pd.DataFrame(data, columns=['Emp_ID', 'Genero', 'Edad'])
df 

#### Lectura y escritura de datos 

Veremos tres formatos de archivo de uso común: csv, archivo de texto y Excel. 

In [None]:
# Leyendo desde un archivo csv
df=pd.read_csv('Data/mtcars.csv')
df.head()

In [None]:
# Escribir un csv
#Al usar `index=False` se evita que los índices se escriban en el archivo CSV.

df.to_csv('Data/mtcars_nuevo.csv', index=False)

Cuando se trabaja con archivos de texto que utilizan delimitadores diferentes (por ejemplo, tabuladores), se puede especificar el separador:


In [None]:
# Leyendo desde un archivo .txt
df=pd.read_csv('Data/mtcars.txt', sep='\t')
df.to_csv('Data/mtcars_nuevo.txt', sep='\t', index=False)

Pandas permite leer y escribir hojas de cálculo Excel:

In [None]:
# Leyendo un archivo Excel
df=pd.read_excel('Data/mtcars.xlsx','Sheet2')
df.to_excel('Data/mtcars_nuevo.xlsx',sheet_name='Sheet1', index = False)

### Resumen de estadísticas básicas

Una de las ventajas de Pandas es la facilidad para obtener una visión rápida de los datos mediante funciones estadísticas. La función `describe()` genera un resumen que incluye la media, la desviación estándar, el valor mínimo, los percentiles (cuartiles) y el valor máximo para cada columna numérica.


In [None]:
df = pd.read_csv('Data/iris.csv')
df.describe()

Este método es especialmente útil para tener un primer acercamiento a la distribución y características de los datos.

#### Covarianza y correlacion

Pandas permite calcular matrices de covarianza y correlación, que son fundamentales para entender las relaciones entre variables.


In [None]:
# covarianza: devuelve la covarianza entre columnas adecuadas 
#df.cov()

# Selecciona solo columnas numericas
df_numeric = df.select_dtypes(include=['number'])

# Calculamos la matriz de covarianza
cov_matrix = df_numeric.cov()

# Calculamos la matriz de correlación
corr_matrix = df_numeric.corr()

# Mostrar resultados
print("Matriz de Covarianza:")
print(cov_matrix)

print("\nMatriz de Correlación:")
print(corr_matrix)


#### Visualización y exploración de datos

Pandas integra funciones que facilitan la exploración de un DataFrame:

- **Visualización de registros**:  
  - `df.head(n=2)`: Muestra los primeros `n` registros (por defecto 5 si no se especifica).
  - `df.tail()`: Muestra los últimos registros.

- **Información del DataFrame**:
  - `df.columns`: Devuelve los nombres de las columnas.
  - `df.dtypes`: Muestra el tipo de datos de cada columna.
  - `df.index`: Devuelve el índice del DataFrame.

- **Valores y ordenamiento**:
  - `df.values`: Devuelve los valores del DataFrame en forma de array.
  - `df.sort_values(by=['Column1', 'Column2'], ascending=[True, True])`: Ordena el DataFrame según una o varias columnas.

- **Selección de datos por columna o posición**:
  - Acceso a una columna: `df['column_name']`.
  - Acceso a filas por rango: `df[0:3]`.

In [None]:
df.head(n=2)

In [None]:
df.tail()

In [None]:
df.dtypes

In [None]:
print ("Nombres de las columnas:" , df.columns)

In [None]:
print ("Indice del DataFrame : ", df.index)

In [None]:
#print(df.values)

In [None]:
# Valores para una especifica columna
print(df['Sepal.Length'].values)

In [None]:
df['Species'].unique()

In [None]:
df['Sepal.Length'].unique()

In [None]:
df.sort_values(by = ['Species', 'Sepal.Length'], ascending=[True, True])

In [None]:
df['Species']

In [None]:
df[0:3]

#### Selección y filtrado de datos: loc, iloc,iat

Una de las características más potentes de Pandas es la capacidad para seleccionar y filtrar datos de manera eficiente. Se utilizan distintos métodos que varían en función de si se quiere acceder a datos por etiquetas o por posiciones numéricas.

##### **loc**

El método `loc` se basa en **etiquetas**. Es decir, se accede a los datos mediante las etiquetas de los índices y de las columnas. Es ideal cuando se quiere seleccionar datos específicos por sus nombres o rangos de etiquetas.

**Ejemplos:**

```python
# Selección por etiquetas en el índice (incluye el último valor)
print(df.loc[0:3])

# Selección de filas y columnas específicas utilizando etiquetas
print(df.loc[0:3, ['Species', 'Petal.Width']])
```

En estos ejemplos:
- `df.loc[0:3]` selecciona las filas cuyo índice está entre 0 y 3 (inclusivo).
- Al pasar una lista de nombres de columnas, se limita la selección solo a las columnas indicadas.

##### **iloc**

El método `iloc` se basa en la **posición** (índices numéricos) de los elementos en el DataFrame. Es útil cuando se conoce la posición exacta de las filas o columnas que se desean obtener.

In [None]:
# Selección por etiquetas en el índice (incluye el último valor)
print(df.loc[0:3])

In [None]:
# Selección de filas y columnas específicas utilizando etiquetas
print(df.loc[0:3, ['Species', 'Petal.Width']])

In [None]:
# Selección por posición de filas (las dos primeras)
print(df.iloc[0:2])

In [None]:
# Selección por posición específica: las filas 0 y 1, y columnas 0 y 1
df.iloc[0:2, 0:2]

#### Transformación y reorganización: Reshape

El término **reshape** se refiere al proceso de transformar la forma (dimensiones) de un array o DataFrame. En el contexto de Pandas (y NumPy, sobre el cual se basa Pandas), reshaping es fundamental cuando se necesita reorganizar los datos para análisis, visualización o para alimentar otros algoritmos.

Aunque en el ejemplo proporcionado no se muestra un uso directo de una función llamada `reshape`, en NumPy y Pandas existen funciones y métodos que permiten cambiar la forma de los datos. Por ejemplo:

- **NumPy reshape**: Si tenemos un array de NumPy, podemos cambiar su forma de la siguiente manera:

In [None]:
import numpy as np
array = np.array([1, 2, 3, 4, 5, 6])
array_reshaped = array.reshape((2, 3))
print(array_reshaped)

Este código transforma un array unidimensional de 6 elementos en una matriz 2x3.

- **Pivot, melt y stack/unstack en Pandas**:
  
En Pandas, las funciones `pivot()`, `melt()`, `stack()` y `unstack()` son herramientas muy potentes para realizar operaciones de reshape en DataFrames. Por ejemplo:
  
**Pivot**: Se utiliza para reorganizar los datos de manera que se transforme una columna en múltiples columnas.  
**Melt**: Realiza el proceso inverso, es decir, transforma columnas en filas para lograr una forma “larga” de los datos.
  
**Ejemplo con melt:**

In [None]:
data = {
      'ID': [1, 2, 3],
      'A': [10, 20, 30],
      'B': [40, 50, 60]
  }
df1 = pd.DataFrame(data)
print("DataFrame original:")
print(df1)
  
# Convertir columnas A y B en variables, creando un DataFrame en formato largo.
df_melted = pd.melt(df1, id_vars=['ID'], value_vars=['A', 'B'], var_name='Variable', value_name='Valor')
print("\nDataFrame tras aplicar melt:")
print(df_melted)

Este ejemplo ilustra cómo transformar un DataFrame que tiene dos columnas de variables (A y B) en una estructura larga en la que cada fila corresponde a un valor asociado a una variable específica.
  
- **Stack y Unstack**:  
Estos métodos permiten pivotar el nivel de los índices de un DataFrame.  

- `stack()` “apila” las columnas en un único nivel de índice, transformando el DataFrame de ancho a largo.  
- `unstack()` realiza la operación inversa, sacando un nivel del índice y convirtiéndolo en columnas.
  
**Ejemplo sencillo:**

In [None]:
df2 = pd.DataFrame({
      'A': [1, 2],
      'B': [3, 4]
  }, index=['X', 'Y'])
  
print("DataFrame original:")
print(df2)
  
print("\nDataFrame tras aplicar stack:")
print(df2.stack())
  
# Si se aplica unstack, se vuelve a la forma original.
print("\nDataFrame tras aplicar unstack:")
print(df2.stack().unstack())

Estas herramientas de reshaping son esenciales cuando se trabaja con datos en diferentes formatos y se requiere adaptarlos para análisis específicos o para la visualización.

#### Más sobre loc, iloc, iat

El método `iloc` se basa en la posición entera de las filas y columnas (índice basado en 0). Esto significa que para acceder a datos se utilizan números en lugar de las etiquetas de los índices o nombres de columnas.

In [None]:
# selección por posicion entre numeros de fila especificos dados
df = pd.read_csv('Data/iris.csv')
df.iloc[[1, 2, 4], [0, 2]]


Supongamos el siguiente DataFrame:

In [None]:
import pandas as pd

data = {
    'Nombre': ['Ana', 'Luis', 'Carlos', 'Marta', 'Elena', 'Juan'],
    'Edad': [23, 35, 45, 29, 40, 33],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 'Bilbao', 'Zaragoza']
}
df3 = pd.DataFrame(data)
print(df3.iloc[[1, 2, 4], [0, 2]])


##### Acceso a un valor escalar con iat

El método `iat` está optimizado para extraer un único valor del DataFrame de manera rápida. Es muy similar a `iloc`, pero se utiliza cuando se sabe que se quiere obtener un solo elemento (una celda).


In [None]:
# obtener valores escalares. es un iloc muy rapido 
print(df.iat[1,1]) 


Aunque `iat` es ideal para valores escalares, se puede usar `iloc` para obtener el mismo resultado. La diferencia es que `iloc` devuelve un DataFrame o una Serie, dependiendo del slicing.

In [None]:
# Obtencion de datos sin que este en el indice 
print(df.iloc[1,1])

Se puede seleccionar una columna completa utilizando el operador `:` en el índice de filas y especificando la posición de la columna deseada.

In [None]:
# selecciona columnas por posicion
print (df.iloc[:, 2]) 

La transposición de un DataFrame se obtiene con el atributo `.T`. Esto invierte filas por columnas.

In [None]:
# Transpuesta
df.T

**Ejemplo adicional:**

Si el DataFrame original es:

```
    Nombre   Edad     Ciudad
0      Ana    23     Madrid
1     Luis    35  Barcelona
2   Carlos    45   Valencia
```

Su transposición (`df.T`) resultará en:

```
              0         1         2
Nombre       Ana      Luis    Carlos
Edad          23       35        45
Ciudad    Madrid  Barcelona  Valencia
```

#### Indexado Booleano
El indexado booleano permite filtrar filas de un DataFrame basándose en condiciones lógicas.

In [None]:
#Filtrado según condición
df[df['Sepal.Length'] > 7.5]

In [None]:
# Filtrado utilizando isin()
df[df['Species'].isin(['versicolor', 'virginica'])]

In [None]:
#Filtrado con múltiples condiciones (AND)
df[(df['Sepal.Length']>7.5) & (df['Sepal.Width']>3)]

In [None]:
# Filtrado con múltiples condiciones (OR)
df[(df['Sepal.Length']>7.5) | (df['Sepal.Width']>3)]

#### Operaciones básicas con pandas

A continuación se explican algunas de las operaciones básicas que se pueden realizar sobre DataFrames utilizando Pandas. Cada una de estas operaciones es fundamental para el preprocesamiento y análisis de datos.

##### Conversión de cadenas a fechas

Convertir cadenas que representan fechas a objetos datetime de Pandas permite realizar operaciones de fecha y hora más fácilmente.


In [None]:
cadena_fechas = ('2017-04-01','2017-04-02','2017-04-03','2017-04-04')
pd.to_datetime(pd.Series(cadena_fechas))

##### Renombrado de columnas

Renombrar columnas es una operación común cuando se requiere estandarizar o clarificar los nombres.


In [None]:
df.rename(columns = {'Sepal.Length': 'Sepal_Length'}, inplace=True)

In [None]:
df.columns = ['Sepal_Length', 'Sepal_Width', 'Petal_Length', 'Petal_Width', 'Species']


##### Detección y eliminación de duplicados

En ocasiones, los datos pueden tener filas duplicadas que deben ser identificadas y eliminadas.

In [None]:
# Removemos los duplicados

data_1 = {'primer_nombre': ['Amy', 'Amy', 'Jason', 'Nick', 'Stephen','Amy'],
        'ultimo_nombre': ['Jackson', 'J', 'Miller', 'Milner', 'L','J'],
        'edad': [42, 42, 36, 24, 24, 42]}
df4 = pd.DataFrame(data_1, columns = ['primer_nombre', 'ultimo_nombre', 'edad'])
print(df4)

In [None]:
print(df4.duplicated())

In [None]:
print(df4.drop_duplicates())

In [None]:
df4.drop_duplicates(['primer_nombre'], keep ='first')

**Ejercicio**: Creación y modificación de columnas

Es común crear nuevas columnas basadas en las existentes o modificar los valores de alguna columna.

* Agrega las columnas siguientes: `edad_mas_5`, `nombre_completo` y `genero`
 - `edad_mas_5`viene de sumar 5 a la etiqueta `edad`
 - `nombre_completo` viene de sumar las etiquetas `primer_nombre`, `_` y `ultimo_nombre`
 - `genero` es una serie de elementos `'F','F','M','M','M','F'.`

In [None]:
# Tu respuesta

#### Datos perdidos

Pandas usa principalmente el valor `np.nan` para representar los datos que faltan. Por defecto no se incluye en los cálculos. 

In [None]:
df4.iloc[4,2] = np.nan
print(df4)

In [None]:
print(df4.dropna()) # Elimina todas las filas que contengan al menos un np.nan

In [None]:
df4.fillna(value =0)

In [None]:
df4.iloc[4,2] = np.nan
print(df4)

In [None]:
pd.isnull(df4) # verificación de datos faltantes

Relleno basado en estadísticas (por ejemplo, la media)

In [None]:
media = df4['edad'].mean()
media
# usamos la media para reeemplazar el NaN
df4['edad'].fillna(media)

In [None]:
#Relleno hacia adelante (forward fill)
df4.fillna(method='ffill',limit=1)

#### Operaciones estadísticas y agregación

Pandas permite calcular diversas estadísticas sobre los datos, lo que es fundamental para el análisis exploratorio.


In [None]:
import warnings
warnings.filterwarnings('ignore')
df4.mean(numeric_only=True)

In [None]:
df4.min()

In [None]:
df4.max()

In [None]:
df4.sum()

In [None]:
df4.count()

In [None]:
df4.cumsum()

#### Aplicación de función a elemento, columna o dataframe
Pandas facilita la aplicación de funciones a lo largo de diferentes ejes, lo que es muy útil para transformar los datos.


In [None]:
df4.apply(np.cumsum)

In [None]:
# Map: itera sobre cada elemento de una serie
df4['edad'].map(lambda x: 1+x) # agrega una constante 1 a cada elemento de la column1


Aplica funciones a cada elemento de un sub-dataFrame con `applymap`

In [None]:
func=lambda x: x+1
df_filtrado = df4.iloc[:, 2:4]
print(df_filtrado)

In [None]:
print(df_filtrado.applymap(func))

**Ejemplo completo**

La parte del poder de pandas se da por los métodos integrados en los objetos Series y DataFrame. 

In [None]:
from io import StringIO
data = StringIO('''UPC,Units,Sales,Date
1234,5,20.2,1-1-2014
1234,2,8.,1-2-2014
1234,3,13.,1-3-2014
789,1,2.,1-1-2014
789,2,3.8,1-2-2014
789,,,1-3-2014
789,1,1.8,1-5-2014''')

In [None]:
sales = pd.read_csv(data)
sales

In [None]:
sales.shape

El método `info` resume los tipos y columnas de un data frame. También proporciona información sobre la cantidad de memoria que se consume. Cuando tiene conjuntos de datos más grandes, esta información es útil para ver hacia dónde se dirige la memoria. La conversión de tipos de cadenas a tipos numéricos o de fecha puede ayudar mucho a reducir el uso de memoria:

In [None]:
sales.info()

A diferencia del objeto `Series` que prueba la pertenencia con el índice, el `DataFrame` prueba la pertenencia con las columnas. El comportamiento de iteración `(__iter__)` y el comportamiento de pertenencia `(__contains__)` es el mismo para el `DataFrame`.  

#### Operaciones de índice

Un data frame tiene varias operaciones de índice. El primero que exploraremos, `reindex`, ajusta los datos a un nuevo índice y/o columnas. Para extraer solo los elementos del índice 0 y 4, hacemos lo siguiente:


In [None]:
sales.reindex([0, 4])

In [None]:
sales.reindex(columns=['Date', 'Sales']) 

La selección de columnas e índices se puede combinar para refinar aún más la selección. Además, se pueden incluir nuevas entradas para valores de índices y nombres de columna. Por defecto, usarán el parámetro opcional `fill_value` (que es NaN a menos que se especifique): 

In [None]:
sales.reindex(index=[2, 6, 8], columns=['Sales', 'MIT', 'missing'])

In [None]:
by_date = sales.set_index('Date')
by_date

Para agregar un índice entero creciente a un data frame, usa `reset_index`: 

In [None]:
by_date.reset_index()

#### Obtener y establecer valores

Hay dos métodos para extraer una única casilla del data frame. Uno `iat` que usa la posición del índice y la columna (basado en 0):

In [None]:
sales.iat[4, 2]

Para insertar una columna en una ubicación específica, se usa el método `insert`. Ten en cuenta que este método funciona en el lugar y no tiene un valor de retorno. El primer parámetro del método es la ubicación de base cero de la nueva columna. El siguiente parámetro es el nombre de la nueva columna y el tercer parámetro es el nuevo valor.


A continuación, insertamos una columna `Category` después de ` UPC`  (en la posición 1): 

In [None]:
sales.insert(1, 'Category', 'Food')
sales

In [None]:
#sales['Category'] = 'Food'

La inserción de columnas también está disponible mediante la asignación de índices en el data frame.
Cuando se agregan nuevas columnas de esta manera, siempre se agregan al final (la columna más
a la derecha). 

El método `replace` es una forma poderosa de actualizar muchos valores de un data frame en las columnas. Para reemplazar todos los 789 con 790, realiza lo siguiente:

In [None]:
sales.replace(789, 790)

**Observacion:** 

Debido a que la columna `sales` para el índice 6 también tiene un valor de 789,
también se reemplazará. Para solucionar esto, en lugar de pasar un escalar para el parámetro
`to_replace`, usa un diccionario que mapea el nombre de las columnas a un diccionario de valores
nuevo valor. Si el nuevo valor de venta de 789.0 también fuera erróneo, podría actualizarse en la
misma llamada:

In [None]:
sales.replace({'UPC': {789:790},
                'Sales': {789: 1.4}})

El método `replace` también acepta expresiones regulares (pueden ser incluidas en diccionarios anidados) si  el paramétro`regex` se coloca en `True`.

In [None]:
sales.replace('(F.*d)', r'\1_stuff', regex=True)

#### Eliminación de  columnas

Hay al menos cuatro formas de eliminar una columna:

* El método `pop`

* El método `drop` con `axis = 1`

* El método `reindex`

* Indexación con una lista de nuevas columnas

El método `pop` toma el nombre de una columna y lo elimina del data frame. Opera in-place. En lugar de devolver un data frame, devuelve la columna eliminada.  

In [None]:
sales['subcat'] = 'Dairy'
sales

In [None]:
sales.pop('subcat')

In [None]:
sales

Para quitar una columna con el método `drop`, simplemente páselo (o una lista de nombres de columna) junto con la configuración del parámetro `axis` en 1: 

In [None]:
sales.drop(['Category', 'Units'], axis=1)

Para utilizar los dos métodos finales para eliminar columnas, simplemente crea una lista de las columnas deseadas. Pasa esa lista al método `reindex` o la operación de indexación:

In [None]:
cols = ['Sales', 'Date']

In [None]:
sales.reindex(columns=cols)

In [None]:
sales[cols]

#### Recortes

Pandas proporciona métodos poderosos para los recortes en un data frame. Los métodos `head` y `tail` permiten extraer datos del inicio y del final de un data frame. 

De forma predeterminada, solo muestran las cinco filas superiores o cinco inferiores:

In [None]:
sales.head()

In [None]:
sales.tail(2)

Los data frame también admiten el recorte en función de la posición del índice y la etiqueta.

Usemos un índice basado en cadenas para que quede más claro qué hacen las opciones de recorte:

In [None]:
sales['new_index'] = list('abcdefg')
df = sales.set_index('new_index')
df

In [None]:
del sales['new_index']

In [None]:
df

Para dividir por posición, usa el atributo `iloc`. Aquí tomamos filas en las posiciones dos hasta cuatro, pero sin incluirlas: 

In [None]:
df.iloc[2:4]

También podemos proporcionar posiciones de columna que también queremos mantener. Las posiciones de las columnas deben seguir una coma en la operación de índice. Aquí mantenemos las filas desde dos hasta pero sin incluir la fila cuatro. También tomamos solo la columna en la posición de índice cero.

Esto se expresa en la siguiente figura:


<img src="recorte-pandas.png" alt="Drawing" style="width: 400px;"/>

A continuación se muestra un resumen de las construcciones de  de data frame por posición y etiqueta.


```
.iloc [i: j]            Posición de filas i hasta pero sin incluir j (semiabierto)
.iloc [:, i: j]         Posición de las columnas i hasta pero sin incluir j (semiabierto)
.iloc [[i, k, m]]       Filas en i, k y m (no es un intervalo)
.loc [a: b]             Filas desde la etiqueta de índice a hasta b (cerrado)
.loc [:, c: d]          Columnas de la etiqueta de columna c a d (cerrado)
.loc [: [b, d, f]]      Columnas en las etiquetas b, d y f (no es un intervalo) 

```

<img src="recorte-ejemplo.png" alt="Drawing" style="width: 500px;"/>

In [None]:
df = df.drop(['Category'], axis=1)
df

In [None]:
df.iloc[2:4, 0:1]

También hay soporte para dividir datos por etiquetas. Usando el atributo `loc`, podemos tomar valores de índice desde la `a` a la `d`:

In [None]:
df.loc['a':'d']

Y al igual que `.iloc`, `.loc` tiene la capacidad de especificar columnas por etiqueta. En este ejemplo, solo tomamos la columna `Units` y, por lo tanto, devuelve una serie:

In [None]:
df.loc['d':, 'Units']

Si deseas dividir las columnas por valor, pero las filas por posición, puedes encadenar operaciones
de índice a `.iloc` o `.loc`  juntas. 

Sacamos las columnas `UPC` y `Sales`, pero con solo los últimos 4 valores:

In [None]:
df.loc[:,['UPC', 'Sales']].iloc[-4:]

### Merge/Join
Las operaciones de **Merge** y **Join** permiten combinar dos o más DataFrames basándose en columnas comunes o en sus índices. Estas operaciones son análogas a las uniones en bases de datos relacionales, donde se puede hacer un _inner join_, _outer join_, _left join_ o _right join_.  
  
- **Merge** es una función muy flexible de Pandas que permite combinar DataFrames especificando la(s) columna(s) o índice(s) clave.  
- **Join** es un método que se utiliza en los DataFrames y que internamente usa la misma lógica de combinación.

Estas operaciones son fundamentales cuando se tiene la información dividida en distintas tablas (por ejemplo, una tabla de empleados y otra de salarios) y se desea crear un conjunto de datos unificado.


In [None]:
data = {
        'emp_id': ['1', '2', '3', '4', '5'],
        'primer_nombre': ['Jason', 'Andy', 'Allen', 'John', 'Amy'], 
        'ultimo_nombre': ['Larkin', 'Jacob', 'A', 'AA', 'Jackson']}
df_1 = pd.DataFrame(data, columns = ['emp_id', 'primer_nombre', 'ultimo_nombre'])
print (df_1)

In [None]:
data = {
        'emp_id': ['4', '5', '6', '7'],
        'primer_nombre': ['James', 'Shize', 'Kim', 'Jose'], 
        'ultimo_nombre': ['Alexander', 'Suma', 'Mike', 'G']}
df_2 = pd.DataFrame(data, columns = ['emp_id', 'primer_nombre', 'ultimo_nombre'])
print (df_2)

El primer método mostrado es la función `pd.concat`, que permite concatenar DataFrames uno debajo del otro (por defecto, axis=0) o a lo largo de las columnas (axis=1).

In [None]:
# usando concat
df = pd.concat([df_1, df_2])
print(df)

In [None]:
# Juntando dos dataframes a lo largo de las columnas
pd.concat([df_1,df_2], axis=1)

La operación `merge` combina DataFrames basándose en una o más columnas comunes. En el siguiente ejemplo, se combinan `df_1` y `df_2` utilizando la columna `emp_id`:

In [None]:
print(pd.merge(df_1,df_2, on='emp_id'))

In [None]:
#pd.merge(df_1,df_2, on='emp_id', how='outer')
#pd.merge(df1, df2, on='emp_id', how='left')

### Grouping
El **grouping** (agrupación) es una técnica poderosa que permite segmentar los datos de un DataFrame en grupos basados en el valor de una o más columnas, para luego aplicar operaciones de agregación o transformación en cada grupo de forma independiente.  
  
Las operaciones comunes incluyen calcular promedios, medianas, sumas, contar elementos, etc.  
- Permite dividir los datos según ciertos criterios (por ejemplo, agrupar por "teacher" o "estado") y realizar cálculos agregados para cada grupo.
- Se usa a menudo en análisis estadísticos y en la preparación de informes.

<img src="Groupby.png" alt="Drawing" style="width: 600px;"/>

Como ejemplo, en el data frame `scores`, calcularemos las puntuaciones medias de cada `teacher`. Primero llamamos a `groupby` y entonces invocamos a `median` en el resultado: 

In [None]:
import pandas as pd
import numpy as np

# Crear DataFrame
scores = pd.DataFrame({
    'name': ['Adam', 'Bob', 'Dave', 'Fred'],
    'age': [15, 16, 16, 15],
    'test1': [95, 81, 89, np.nan],  # np.nan en lugar de None
    'test2': [80, 82, 84, 88],
    'teacher': ['Ashby', 'Ashby', 'Jones', 'Jones']
})

# Agrupar por 'teacher' y calcular la mediana solo en columnas numéricas
result = scores.groupby('teacher').median(numeric_only=True)

# Mostrar el resultado
print(result)


Podemos agrupar `teacher` y calcular la mediana solo en columnas numéricas

In [None]:
scores.groupby('teacher').median(numeric_only=True)[['test1', 'test2']]

La agrupación puede ser muy poderosa y también se puede utilizar para agrupar varias columnas. Para encontrar los valores medianos de cada grupo por edad para cada profesor: 


In [None]:
scores.groupby(['teacher', 'age']).median(numeric_only=True)

El método `agg` permite aplicar varias funciones de agregación al mismo tiempo. Por ejemplo, para obtener el puntaje mínimo y máximo de las pruebas por cada grupo de profesor y edad:

In [None]:
scores.groupby(['teacher','age']).agg([min, max])

**Ejercicio**

In [None]:
df = pd.DataFrame({'Nombre' : ['jack', 'jane', 'jack', 'jane', 'jack', 'jane', 'jack', 'jane'],
                   'Estado' : ['SFO', 'SFO', 'NYK', 'CA', 'NYK', 'NYK', 'SFO', 'CA'],
                   'Genero':['A','A','B','A','C','B','C','A'],
                   'Edad' : np.random.uniform(24, 50, size=8),
                   'Salario' : np.random.uniform(3000, 5000, size=8),})

Ten en cuenta que las columnas se ordenan automáticamente en su orden alfabético para un orden personalizado, usa el siguiente código_

`df = pd.DataFrame (data, columns = ['Nombre', 'Estado', 'Edad', 'Salario'])` 

* Calcula la suma por nombres.

* Encuentra la edad máxima y el salario por nombre/ estado. Puedes usar todas las funciones agregadas, como mínimo, máximo, media, conteo, suma acumulada.

In [None]:
# Tus  respuestas

#### Tablas pivot

Pandas proporciona una función `pivot_table` para crear una tabla pivot (dinámica )de estilo de hoja de cálculo de MS-Excel. Puede tomar los siguientes argumentos:

- `data`: objeto DataFrame
- `values`: columna para agregar
- `index`: etiquetas de fila
- `columns`: etiquetas de columna
- `aggfunc`: función de agregación que se usará en valores, el valor predeterminado es `NumPy.mean`. 

Usando una tabla pivot, podemos generalizar ciertos comportamientos grupales. Para obtener las puntuaciones medias de los profesores, podemos ejecutar lo siguiente: 

In [None]:
scores.pivot_table(index='teacher',
    values=['test1', 'test2'],
    aggfunc='median')

Si queremos agregar por profesor y edad, simplemente usamos una lista con ambos para el parámetro `index`: 

In [None]:
scores.pivot_table(index=['teacher', 'age'],
                   values=['test1', 'test2'],
                   aggfunc='median')

Si queremos aplicar múltiples funciones, simplemente usa una lista de esas funciones. Aquí, analizamos los puntajes mínimos y máximos de las pruebas por profesor: 

In [None]:
scores.pivot_table(index='teacher',
                   values=['test1', 'test2'],
                   aggfunc=[min, max])

Podemos ver que la tabla pivot y de grupo por comportamiento son muy similares. Hay del estilo declarativo de ` pivot_table` y el estilo  semántico de los grupos.

Una característica adicional de las tablas pivots es la capacidad de agregar filas de resumen. Simplemente estableciendo `margins= True` obtenemos esta funcionalidad:

In [None]:
scores.pivot_table(index='teacher',
                   values=['test1', 'test2'],
                   aggfunc='median', margins=True)

<img src="pivot.png" alt="Drawing" style="width: 600px;"/>

In [None]:
scores.pivot_table(index= ['teacher', 'age'],
                   values=['test1', 'test2'],
                   aggfunc=[len, sum], margins=True)

<img src="pivot-parameters.png" alt="Drawing" style="width: 600px;"/>

**Ejercicio** Del dataframe anterior agrupa por estado y nombre y encuentre la edad media para cada grado.


In [None]:
## Tu respuesta

#### Ejemplos adicionales y casos prácticos

##### Ejemplo adicional de Merge/Join

Imagina que tienes dos DataFrames con información complementaria sobre ventas. Uno tiene información de ventas diarias y otro tiene información de empleados responsables:

In [None]:
# DataFrame de ventas
ventas = pd.DataFrame({
    'venta_id': [101, 102, 103, 104],
    'emp_id': ['1', '2', '3', '4'],
    'monto': [200, 150, 300, 250],
    'fecha': ['2021-01-01', '2021-01-02', '2021-01-02', '2021-01-03']
})

# DataFrame de empleados
empleados = pd.DataFrame({
    'emp_id': ['1', '2', '3', '5'],
    'nombre': ['Ana', 'Luis', 'Carlos', 'Elena']
})

# Realizamos un merge para obtener la información del empleado en cada venta
ventas_empleados = pd.merge(ventas, empleados, on='emp_id', how='left')
print("Merge de ventas y empleados:")
print(ventas_empleados)

##### Ejemplo adicional de grouping con agregaciones múltiples

Supongamos que queremos analizar el rendimiento de ventas por empleado, obteniendo no solo la suma de las ventas, sino también la cantidad de ventas y la media:

In [None]:
# Agrupar por emp_id y calcular suma, cantidad y media de 'monto'
agrupacion_ventas = ventas.groupby('emp_id').agg({
    'monto': ['sum', 'count', 'mean']
})
print("Agregación de ventas por empleado:")
print(agrupacion_ventas)

#### Ejercicios


##### **Ejercicio 1: Agrupamiento y normalización de datos**
Dado un dataset de puntuaciones de estudiantes en varias pruebas, queremos analizar los resultados normalizados por cada profesor.

#### **Tareas:**
1. Usa `groupby` para agrupar por `"teacher"`, y dentro de cada grupo, normaliza las columnas `"test1"` y `"test2"` usando **Z-score normalization**:
   $$
   X_{\text{norm}} = \frac{X - \mu}{\sigma}
   $$
2. Muestra las medias y desviaciones estándar antes y después de la normalización.
3. Usa `agg()` para calcular estadísticas adicionales como `min`, `max`, `median`.

#### **Código base:**
```python
import pandas as pd
import numpy as np

# Crear dataset
scores = pd.DataFrame({
    'name': ['Adam', 'Bob', 'Dave', 'Fred'],
    'age': [15, 16, 16, 15],
    'test1': [95, 81, 89, np.nan],  
    'test2': [80, 82, 84, 88],
    'teacher': ['Ashby', 'Ashby', 'Jones', 'Jones']
})

# Normalizar test1 y test2 por cada maestro usando Z-score
def z_score_norm(x):
    return (x - x.mean()) / x.std()

normalized_scores = scores.groupby('teacher')[['test1', 'test2']].transform(z_score_norm)

# Ver estadísticas antes y después
print("Estadísticas antes de la normalización:")
print(scores.groupby('teacher')[['test1', 'test2']].agg(['mean', 'std']))

print("\nDatos normalizados:")
print(normalized_scores)
```


##### **Ejercicio 2: Construcción de una tabla dinámica para predicción de notas**
Dado el dataset de puntuaciones, queremos construir una **tabla dinámica (`pivot_table`)** para analizar las tendencias por maestro y edad.

#### **Tareas:**
1. Usa `pivot_table` para agrupar por **"teacher"** y **"age"**, agregando `"test1"` y `"test2"` con funciones `mean`, `min`, y `max`.
2. Usa `margins=True` para incluir los valores globales.
3. Compara los valores obtenidos con los de un modelo de predicción simple (puedes usar interpolación con `fillna()`).

#### **Código Base:**
```python
# Crear tabla dinámica
pivot = scores.pivot_table(index=['teacher', 'age'], 
                           values=['test1', 'test2'], 
                           aggfunc=['mean', 'min', 'max'],
                           margins=True)

print("Tabla dinámica con estadísticas por maestro y edad:")
print(pivot)
```

###### **Ejercicio 3: Predicción de resultados faltantes usando `groupby` y `apply`**
En muchas aplicaciones de IA, los datos incompletos deben predecirse antes de usarlos en modelos.

#### **Tareas:**
1. Usa `groupby` para agrupar por `"teacher"`.
2. Usa `.apply(lambda x: x.fillna(x.mean()))` para completar los valores faltantes en `"test1"`.
3. Agrega una nueva columna `"score_category"` donde:
   - `"Alto"` si `test1 >= 85`
   - `"Medio"` si `70 <= test1 < 85`
   - `"Bajo"` si `test1 < 70`
4. Usa `value_counts()` para contar cuántos estudiantes pertenecen a cada categoría.

#### **Código base:**
```python
# Rellenar valores nulos por el promedio del grupo
scores['test1'] = scores.groupby('teacher')['test1'].apply(lambda x: x.fillna(x.mean()))

# Crear la categoría de desempeño
def categorize_score(score):
    if score >= 85:
        return "Alto"
    elif score >= 70:
        return "Medio"
    else:
        return "Bajo"

scores['score_category'] = scores['test1'].apply(categorize_score)

# Contar la cantidad de estudiantes por categoría
category_counts = scores['score_category'].value_counts()
print("Cantidad de estudiantes por categoría de rendimiento:")
print(category_counts)
```

##### **Ejercicio 4: Detección de puntuaciones de estudiantes anómalas usando percentiles**
Los estudiantes con puntuaciones **fuera del percentil 10 o por encima del percentil 90** pueden considerarse atípicos.

#### **Tareas:**
1. Usa `groupby` para calcular los **percentiles 10 y 90** de `"test1"` y `"test2"` para cada `"teacher"`.
2. Filtra a los estudiantes cuya puntuación esté fuera de este rango.
3. Usa `.merge()` para unir estos datos con el dataset original y visualizar los resultados.

#### **Código base:**
```python
# Calcular percentiles 10 y 90 por maestro
percentiles = scores.groupby('teacher')[['test1', 'test2']].quantile([0.10, 0.90]).unstack()
low_test1 = percentiles.loc[0.10, 'test1']
high_test1 = percentiles.loc[0.90, 'test1']

# Filtrar estudiantes atípicos
outliers = scores[(scores['test1'] < low_test1[scores['teacher']]) | 
                  (scores['test1'] > high_test1[scores['teacher']])]

print("Estudiantes con puntajes atípicos:")
print(outliers)
```

##### **Ejercicio 5: Implementación de un mini-modelo de aprendizaje automático**
Ahora crearemos una regresión simple para predecir `"test1"` en función de `"test2"`.

#### **Tareas:**
1. Usa `LinearRegression` de `sklearn` para ajustar un modelo simple `test1 = f(test2)`.
2. Evalúa el modelo con un conjunto de prueba (`train_test_split`).
3. Grafica los resultados con `matplotlib`.

#### **Código base:**
```python
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt

# Eliminar filas con valores nulos
data = scores.dropna(subset=['test1', 'test2'])

# Separar datos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(data[['test2']], data['test1'], test_size=0.3, random_state=42)

# Entrenar modelo
model = LinearRegression()
model.fit(X_train, y_train)

# Predecir valores
y_pred = model.predict(X_test)

# Visualizar la relación test1 vs test2
plt.scatter(X_test, y_test, label="Actual")
plt.plot(X_test, y_pred, color='red', label="Predicted")
plt.xlabel("test2")
plt.ylabel("test1")
plt.legend()
plt.title("Regresión lineal: test1 vs test2")
plt.show()
```


In [None]:
## Tus respuestas