## Ejercicio 1

Crea un DataFrame llamado df con las siguientes columnas: "Nombre", "Edad", "Género". Ingresa al menos 5 filas de datos.

### Solución

In [1]:
import pandas as pd

# Generamos un diccionario con listas de misma longitud
data = {
    'Nombre': ['Ana', 'Juan', 'María', 'Luis', 'Elena'],
    'Edad'  : [25, 30, 22, 35, 28],
    'Género': ['F', 'M', 'F', 'M', 'F']
}

df = pd.DataFrame(data)
print(df)

  Nombre  Edad Género
0    Ana    25      F
1   Juan    30      M
2  María    22      F
3   Luis    35      M
4  Elena    28      F


## Ejercicio 2

Del dataframe anterior, selecciona solamente aquellas filas que sean de una edad superior a 25 años.

### Solución

In [2]:
# Filtramos el dataframe por columna edad
df_selected = df[df['Edad'] > 25]

print(df_selected)

  Nombre  Edad Género
1   Juan    30      M
3   Luis    35      M
4  Elena    28      F


## Ejercicio 3

Crea una nueva columna llamada "Grupo Edad". Define grupos como "Joven" para edades menores o iguales a 30 y "Adulto" para edades mayores a 30

### Solución

In [3]:
# Forma 1, definiendo una función para actuar a nivel de fila

def age_filter(row):
    # Si la fila es <=30 devolver Joven, si no Adulto
    if row <= 30:
        return "Joven"
    else:
        return "Adulto"
    
df["Grupo Edad"] = df.Edad.apply(age_filter)

print(df)

  Nombre  Edad Género Grupo Edad
0    Ana    25      F      Joven
1   Juan    30      M      Joven
2  María    22      F      Joven
3   Luis    35      M     Adulto
4  Elena    28      F      Joven


In [4]:
# Forma 2. Con pandas cut
df['Grupo de Edad'] = pd.cut(
    df['Edad'], 
    # De 0 a 30 y de 30 a infinito
    bins=[0, 30, float('inf')], 
    # Posibles etiquetas a asignar
    labels=['Joven', 'Adulto'])

print(df)

# Forma 3, investigar como filtrar a través de la función loc...

  Nombre  Edad Género Grupo Edad Grupo de Edad
0    Ana    25      F      Joven         Joven
1   Juan    30      M      Joven         Joven
2  María    22      F      Joven         Joven
3   Luis    35      M     Adulto        Adulto
4  Elena    28      F      Joven         Joven


## Ejercicio 4

Extrae las medias de edad por sexo

### Solución

In [5]:
grouped_df = df.groupby('Género')['Edad'].mean()

print(grouped_df)

Género
F    25.0
M    32.5
Name: Edad, dtype: float64


## Ejercicio 5

Agrega un par de valores nulos en la columna "Edad" y luego elimina las filas que contienen datos faltantes

### Solución

In [6]:
df.loc[3, 'Edad'] = pd.NA
df.loc[4, 'Edad'] = pd.NA

df = df.dropna()
print(df)

  Nombre  Edad Género Grupo Edad Grupo de Edad
0    Ana  25.0      F      Joven         Joven
1   Juan  30.0      M      Joven         Joven
2  María  22.0      F      Joven         Joven


## Ejercicio 6

Toma los siguientes dataframes

```python
data1 = {'ID': [1, 2, 3], 'Nombre': ['Ana', 'Juan', 'María'], 'Edad': [25, 30, 22]}
data2 = {'ID': [2, 3, 4], 'Ciudad': ['Madrid', 'Barcelona', 'Valencia'], 'Puntuación': [85, 92, 78]}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
```

Une los dos dataframes mediante una columna que sea común a los 2.

### Solución.

In [7]:
data1 = {'ID': [1, 2, 3], 'Nombre': ['Ana', 'Juan', 'María'], 'Edad': [25, 30, 22]}
data2 = {'ID': [2, 3, 4], 'Ciudad': ['Madrid', 'Barcelona', 'Valencia'], 'Puntuación': [85, 92, 78]}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

In [8]:
merged_df = pd.merge(df1, df2, on='ID', how='inner')
print(merged_df)

   ID Nombre  Edad     Ciudad  Puntuación
0   2   Juan    30     Madrid          85
1   3  María    22  Barcelona          92


## Ejercicio 7

Crea un DataFrame con información sobre ventas por mes para diferentes productos. Pivotar el DataFrame para obtener un resumen de las ventas por producto, las ventas se mostrarán como sumatorio por mes.

NOTA: Puedes tomar este dataframe de ejemplo. Investiga sobre la función de pandas `pivot_table` https://pandas.pydata.org/docs/reference/api/pandas.pivot_table.html

```python
data = {'Mes': ['Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo'],
        'Producto': ['A', 'A', 'A', 'B', 'B', 'B'],
        'Ventas': [100, 120, 80, 150, 130, 110]}

df = pd.DataFrame(data)
```
### Solución

In [9]:
data = {'Mes': ['Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo'],
        'Producto': ['A', 'A', 'A', 'B', 'B', 'B'],
        'Ventas': [100, 120, 80, 150, 130, 110]}

df = pd.DataFrame(data)

In [10]:
pivot_df = df.pivot_table(
    index   = 'Producto', 
    columns = 'Mes', 
    values  = 'Ventas', 
    aggfunc = 'sum', 
    fill_value=0)

print(pivot_df)

Mes       Enero  Febrero  Marzo
Producto                       
A           100      120     80
B           150      130    110


## Ejercicio 8

Toma este dataframe que contiene fechas.

```python
data = {'Fecha': [datetime(2023, 1, 1), datetime(2023, 1, 5), datetime(2023, 1, 10)],
        'Valor': [10, 15, 20]}

df = pd.DataFrame(data)
```

Calcula la diferencia en días entre cada fecha y la fecha mínima

In [11]:
# Para trabajar con fechas necesitamos datetime
from datetime import datetime

data = {'Fecha': [datetime(2023, 1, 1), datetime(2023, 1, 5), datetime(2023, 1, 10)],
        'Valor': [10, 15, 20]}

df = pd.DataFrame(data)
df

Unnamed: 0,Fecha,Valor
0,2023-01-01,10
1,2023-01-05,15
2,2023-01-10,20


In [12]:
df['Diferencia_Dias'] = (df['Fecha'] - df['Fecha'].min()).dt.days
print(df)

       Fecha  Valor  Diferencia_Dias
0 2023-01-01     10                0
1 2023-01-05     15                4
2 2023-01-10     20                9


## Ejercicio 8

Vamos a investigar sobre funciones de inteligencia de tiempo, emplea el siguiente dataframe

```python
data = {'Fecha': pd.date_range(start='2023-01-01', end='2023-01-31'),
        'Producto_A': np.random.randint(10, 100, 31),
        'Producto_B': np.random.randint(20, 80, 31)}

df = pd.DataFrame(data)
```

En proyectos de previsión de ventas (proyectos de series temporales (_forecasting_) en general) es común trabajar con medias móviles, por lo tanto, se pide: Obtén la media móvil en 7 días para cada producto.

PISTA: Investiga la función `rolling()` https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rolling.html

### Solución

In [13]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# Crear DataFrame de ventas diarias
np.random.seed(42)
data = {'Fecha': pd.date_range(start='2023-01-01', end='2023-01-31'),
        'Producto_A': np.random.randint(10, 100, 31),
        'Producto_B': np.random.randint(20, 80, 31)}

df = pd.DataFrame(data)
df

Unnamed: 0,Fecha,Producto_A,Producto_B
0,2023-01-01,61,35
1,2023-01-02,24,34
2,2023-01-03,81,66
3,2023-01-04,70,70
4,2023-01-05,30,63
5,2023-01-06,92,74
6,2023-01-07,96,71
7,2023-01-08,84,76
8,2023-01-09,84,22
9,2023-01-10,97,56


In [14]:
# Para calcular la media móvil empleamos la función rolling
#  como tamaño de ventana (Window) tomamos 7 días
#  como estadístico para las ventanas, la función media

df['Media_Movil_A'] = df['Producto_A'].rolling(window=7).mean()
df['Media_Movil_B'] = df['Producto_B'].rolling(window=7).mean()

print(df)

        Fecha  Producto_A  Producto_B  Media_Movil_A  Media_Movil_B
0  2023-01-01          61          35            NaN            NaN
1  2023-01-02          24          34            NaN            NaN
2  2023-01-03          81          66            NaN            NaN
3  2023-01-04          70          70            NaN            NaN
4  2023-01-05          30          63            NaN            NaN
5  2023-01-06          92          74            NaN            NaN
6  2023-01-07          96          71      64.857143      59.000000
7  2023-01-08          84          76      68.142857      64.857143
8  2023-01-09          84          22      76.714286      63.142857
9  2023-01-10          97          56      79.000000      61.714286
10 2023-01-11          33          70      73.714286      61.714286
11 2023-01-12          12          26      71.142857      56.428571
12 2023-01-13          31          40      62.428571      51.571429
13 2023-01-14          62          28      57.57

## Ejercicio 9

En esta ocasión, vamos a trabajar con datos sobre texto.

Crea un DataFrame con columnas que contengan texto. Luego, utiliza la función apply para aplicar una función que cuente la cantidad de palabras en cada celda de texto

PISTA: Se recomienda investigar además de la función `apply` funciones anónimas lambda para realizar el split de la columna que contenga texto para ahorrarnos emplear bucles https://sparkbyexamples.com/pandas/pandas-apply-function-usage-examples/

Puedes tomar este df de ejemplo.

```python
data = {'Texto': ['Este es un ejemplo', 
                  'Pandas es genial', 
                  'Análisis de datos con Python']
       }

df = pd.DataFrame(data)
```

### Solución

In [15]:
data = {'Texto': ['Este es un ejemplo', 
                  'Pandas es genial', 
                  'Análisis de datos con Python']
       }

df = pd.DataFrame(data)
df

Unnamed: 0,Texto
0,Este es un ejemplo
1,Pandas es genial
2,Análisis de datos con Python


In [16]:
# Aplicamos una lambda que tome la longitud 
#  después de aplicar la función split

df['Cantidad_Palabras'] = df['Texto'].apply(lambda x: len(x.split()))
print(df)

                          Texto  Cantidad_Palabras
0            Este es un ejemplo                  4
1              Pandas es genial                  3
2  Análisis de datos con Python                  5


## Ejercicio 10

En esta ocasión vamos a trabajar con funciones de agrupación avanzadas, funciones de agregación https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.aggregate.html

Emplea el siguiente dataframe:

```python
data = {'Mes': ['Enero', 'Enero', 'Febrero', 'Febrero', 'Enero', 'Febrero'],
        'Region': ['Norte', 'Sur', 'Norte', 'Sur', 'Norte', 'Sur'],
        'Ventas': [100, 120, 150, 130, 80, 110]}

df = pd.DataFrame(data)
``` 

Utiliza la función `agg` para calcular estadísticas específicas para cada grupo, las estadísticas que debes obtener son:
- Promedio de ventas para cada grupo
- Suma de ventas para cada grupo
- Máximo nivel de ventas para cada grupo
- Número de registros por cada grupo.

### Solución

In [17]:
data = {'Mes': ['Enero', 'Enero', 'Febrero', 'Febrero', 'Enero', 'Febrero'],
        'Region': ['Norte', 'Sur', 'Norte', 'Sur', 'Norte', 'Sur'],
        'Ventas': [100, 120, 150, 130, 80, 110]}

df = pd.DataFrame(data)
df

Unnamed: 0,Mes,Region,Ventas
0,Enero,Norte,100
1,Enero,Sur,120
2,Febrero,Norte,150
3,Febrero,Sur,130
4,Enero,Norte,80
5,Febrero,Sur,110


In [18]:
# Calcular estadísticas por grupo (suma, promedio, máximo y frecuencia)
agg_stats = df.groupby(['Mes', 'Region']).agg(
    {'Ventas': ['sum', 'mean', 'max', "count"]}
)

print(agg_stats)


               Ventas                  
                  sum   mean  max count
Mes     Region                         
Enero   Norte     180   90.0  100     2
        Sur       120  120.0  120     1
Febrero Norte     150  150.0  150     1
        Sur       240  120.0  130     2
