# Ejercicios de NumPy y Pandas 📊📈

## Introducción
Esta es una serie de ejercicios diseñados para practicar tus habilidades con **NumPy** y **Pandas**. Los primeros ejercicios incluyen una pequeña guía para ayudarte a comprender mejor los conceptos y las funciones clave. Los ejercicios posteriores son más avanzados y te permitirán aplicar técnicas de análisis de datos.

In [1]:
# Importacion de modulos
import pandas as pd
import numpy as np
import seaborn as sns


## Ejercicio 1: Operaciones básicas con NumPy
**Objetivo**: Crear y manipular arrays.

1. Crea un array de NumPy de 10 elementos con valores entre 1 y 10.
2. Calcula la media, mediana, y desviación estándar de los valores.
3. Multiplica cada valor por 2.

**Mini-guía**:

- Usa `np.array` para crear un array.
- Métodos útiles: `np.mean()`, `np.median()`, `np.std()`.


In [6]:
# 1. CREA ARRAYS DE 10 ELEMENTOS ---> (Diferentes formas de crear un array)
array = np.array([1,2,3,4,5,6,7,8,9,10]) # Construcción básica
array_zeros = np.zeros([10]) # Array de ceros
array_ones = np.ones([10]) # Array de unos
array_con_rango = np.arange(10) # Array con rango 10 valores (empezando en el cero)
array_valores_random = np.random.randint(0,11, size=10) # Array con valores aleatorios de 0 al 10. de medida 10

# Visualización de los arrays
#print('Construcción básica --> ',array)
#print('Array de ceros --> ',array_zeros)
#print('Array de unos --> ', array_ones)
#print('Array con rango 10 valores --> ',array_con_rango)
print('Array con valores aleatorios --> ',array_valores_random)

# 2. CALCULA LA MEDIA, MEDIANA Y DESVIACION ESTANDAR ---> (Utilizo el array de valores aleatorios)
media = np.mean(array_valores_random) 
mediana = np.median(array_valores_random)
desviacion_estandar = np.std(array_valores_random)

# Imprimir los resultados
print('\nMedia: ',media)
print('Mediana: ',mediana)
print('Desviación estandar: ', desviacion_estandar)

# 3. MULTIPLICAR LOS ARRAYS
print(f"\nMultiplicacion del array por 2: {array*2}\n")




Array con valores aleatorios -->  [ 8 10  7  6  8  6  8 10  0  0]

Media:  6.3
Mediana:  7.5
Desviación estandar:  3.407345007480164

Multiplicacion del array por 2: [ 2  4  6  8 10 12 14 16 18 20]



### 📊 **2. Operaciones con Pandas DataFrames**

**Objetivo**: Crear y manipular un DataFrame.

**Enunciado**:
1. Crea un DataFrame con 3 columnas (A, B, C) y 5 filas con números aleatorios enteros.
2. Renombra las columnas a Col1, Col2, Col3.
3. Añade una nueva columna que sea la suma de las columnas Col1 y Col2.
4. Elimina todas las filas donde el valor de Col3 sea menor que 10.

**Mini-guía**:
- Métodos útiles: `pd.DataFrame()`, `df.rename()`, `df['NewCol']`, `df.drop()`.

In [3]:
# 1. CREA UN DATAFRAME ---> (Diferentes formas de crear un array)

# Forma 1: Crear un diccionario y convertirlo en dataframe
dic = {'A': [23, 14, 5, 4, 14], 'B': [3, 4, 5, 14, 4], 'C': [13, 8, 10, 11, 12]}  
df = pd.DataFrame(dic)
#print('Dataframe Forma 1:')
#print(df)

# Forma 2: Creando un arrar de dimesion 5*3 con numeros aleatorios hasta el 20
df = pd.DataFrame(np.random.randint(20, size=(5,3)), columns=['A', 'B', 'C'])
print('\nDataframe Forma 2:')
print(df)

# 2. RENOMBRA LAS COLUMNAS 
df = df.rename(columns={'A': 'Col1', 'B': 'Col2', 'C': 'Col3'})
print('\nRenombrando columnas')
print(df)

# 3. AÑADE UNA NUEVA COLUMNA = Col1 + Col2
df['New_Col'] = df['Col1'] + df['Col2']
print('\nDataframe con una nueva columna')
print(df)

# 4. ELIMINA TODAS LAS FILAS DONDE EL VALOR DE Col3 SEA MENOR QUE 10
df = df[df['Col3'] > 10] #FIltrado del dataframe 
print("Dataframe filtrado")
print(df)


Dataframe Forma 2:
    A   B   C
0   7  19   3
1  10  17   3
2   8  14  10
3   6   2   2
4  19  14  13

Renombrando columnas
   Col1  Col2  Col3
0     7    19     3
1    10    17     3
2     8    14    10
3     6     2     2
4    19    14    13

Dataframe con una nueva columna
   Col1  Col2  Col3  New_Col
0     7    19     3       26
1    10    17     3       27
2     8    14    10       22
3     6     2     2        8
4    19    14    13       33
Dataframe filtrado
   Col1  Col2  Col3  New_Col
4    19    14    13       33


## Ejercicio 3: Estadística descriptiva con Pandas
**Objetivo**: Aplicar análisis estadístico básico.

1. Crea un DataFrame con 100 valores aleatorios entre 0 y 50.
2. Calcula la media, mediana y moda de los valores.
3. Encuentra el valor mínimo y el valor máximo del DataFrame.

**Mini-guía**:

- Métodos útiles: `df.describe()`, `df['column'].mean()`, `df['column'].mode()`

In [20]:
# 1. Crea un DataFrame con 100 valores aleatorios entre 0 y 50.
df = pd.DataFrame(np.random.randint(0,51, size=100), columns=['Valores'])
print(df.head())

# 2. Calcula la media, mediana y moda de los valores.
mean = df['Valores'].mean()
mediana = df['Valores'].median()
moda = df['Valores'].mode()[0]  #Devuelve una serie con todos los valores que tienen la misma frecuencia, por eso [0]
print(f"media = {mean}, mediana = {mediana}, moda = {moda}")

# 3. Encuentra el valor mínimo y el valor máximo del DataFrame.
max = df['Valores'].max()
min = df['Valores'].min()
print(f"max = {max} y min = {min}")

print('\n',df.describe())

   Valores
0       47
1       13
2       38
3        2
4       37
media = 24.57, mediana = 23.0, moda = 47
max = 50 y min = 0

           Valores
count  100.000000
mean    24.570000
std     15.710934
min      0.000000
25%     12.000000
50%     23.000000
75%     39.000000
max     50.000000


## Ejercicio 4: Indexación y Filtrado
**Objetivo**: Practicar la selección de datos en un DataFrame.

1. Carga un dataset usando Pandas (por ejemplo, `df = sns.load_dataset('tips')`).
2. Selecciona todas las filas donde el valor de la columna `total_bill` sea mayor a 20.
3. Filtra y muestra solo las columnas `total_bill` y `tip`.
4. Ordena el DataFrame por la columna `tip` de mayor a menor.

**Mini-guía**:

- Métodos útiles: `df[df['column'] > valor]`, `df[['col1', 'col2']]`, `df.sort_values()`.


In [24]:
# 1. Carga un dataset usando Pandas
df = sns.load_dataset('tips')
#print(df.head())

#  2. Selecciona todas las filas donde el valor de la columna `total_bill` sea mayor a 20.
df_filter = df[df['total_bill']  > 20]
#print(df_filter)

# 3. Filtra y muestra solo las columnas `total_bill` y `tip`.
df_filter = df[['total_bill', 'tip']]
#print(df_filter)

# 4. Ordena el DataFrame por la columna `tip` de mayor a menor.
df_orden = df.sort_values(by=['tip'], ascending=False)
print(df_orden)

     total_bill    tip     sex smoker   day    time  size
170       50.81  10.00    Male    Yes   Sat  Dinner     3
212       48.33   9.00    Male     No   Sat  Dinner     4
23        39.42   7.58    Male     No   Sat  Dinner     4
59        48.27   6.73    Male     No   Sat  Dinner     4
141       34.30   6.70    Male     No  Thur   Lunch     6
..          ...    ...     ...    ...   ...     ...   ...
0         16.99   1.01  Female     No   Sun  Dinner     2
236       12.60   1.00    Male    Yes   Sat  Dinner     2
111        7.25   1.00  Female     No   Sat  Dinner     1
67         3.07   1.00  Female    Yes   Sat  Dinner     1
92         5.75   1.00  Female    Yes   Fri  Dinner     2

[244 rows x 7 columns]


## Ejercicio 5: Agrupaciones y funciones de agregación
**Objetivo**: Agrupar datos y aplicar funciones de resumen.

1. Carga el dataset de `titanic` desde Seaborn.
2. Agrupa los datos por la columna `pclass` (clase del pasajero).
3. Calcula la media de las edades (`age`) para cada grupo.
4. Encuentra el número total de pasajeros en cada clase.

**Mini-guía**:

- Métodos útiles: `df.groupby()`, `df['column'].mean()`, `df.size()`.

In [29]:
# 1. Carga el dataset de `titanic` desde Seaborn.
df = sns.load_dataset('titanic')
#print(df)

# 2. Agrupa los datos por la columna `pclass` (clase del pasajero).
df_group = df.groupby('pclass')

# 3. Calcula la media de las edades (`age`) para cada grupo.
age_mean = df['age'].mean()
age_mean_class = df_group['age'].mean()
print(f'Media de las edades: {age_mean}')
print(f'Media de las edades por clase: {age_mean_class}')

# 4. Encuentra el número total de pasajeros en cada clase.
num_pasajeros_clase = df_group.size()
print('El numero de pasajeros por clase es: \n', num_pasajeros_clase)

Media de las edades: 29.69911764705882
Media de las edades por clase: pclass
1    38.233441
2    29.877630
3    25.140620
Name: age, dtype: float64
El numero de pasajeros por clase es: 
 pclass
1    216
2    184
3    491
dtype: int64


## Ejercicio 6: Manipulación avanzada de DataFrames
**Objetivo**: Aplicar técnicas avanzadas de manipulación.

1. Carga el dataset `diamonds` de Seaborn.
2. Crea una nueva columna que calcule el precio por quilate (`price_per_carat`).
3. Filtra todos los diamantes con un precio por quilate superior a 5000.
4. Ordena el DataFrame por esta nueva columna.

In [33]:
# 1. Carga el dataset `diamonds` de Seaborn.
df = sns.load_dataset('diamonds')
#print(df.head())

# 2. Crea una nueva columna que calcule el precio por quilate (`price_per_carat`).
df['price_per_carat'] = df['carat'] / df['price']
#print(df)

# 3. Filtra todos los diamantes con un precio por quilate superior a 5000.
df_filter = df[df['price'] > 5000]
#print(df_filter)

# 4. Ordena el DataFrame por esta nueva columna.
df_filter['price'].sort_values()
df_filter.sort_values(by=['price'], ascending=False)
print(df_filter)


       carat        cut color clarity  depth  table  price     x     y     z  \
11416   1.16      Ideal     E     SI2   62.7   56.0   5001  6.69  6.73  4.21   
11417   1.16      Ideal     E     SI2   59.9   57.0   5001  6.80  6.82  4.08   
11418   0.90       Good     G    VVS2   63.6   58.0   5001  6.10  6.11  3.88   
11419   0.90  Very Good     E     VS1   62.3   56.0   5001  6.10  6.19  3.83   
11420   0.90    Premium     D     VS2   62.6   59.0   5001  6.14  6.17  3.85   
...      ...        ...   ...     ...    ...    ...    ...   ...   ...   ...   
27745   2.00  Very Good     H     SI1   62.8   57.0  18803  7.95  8.00  5.01   
27746   2.07      Ideal     G     SI2   62.5   55.0  18804  8.20  8.13  5.11   
27747   1.51      Ideal     G      IF   61.7   55.0  18806  7.37  7.41  4.56   
27748   2.00  Very Good     G     SI1   63.5   56.0  18818  7.90  7.97  5.04   
27749   2.29    Premium     I     VS2   60.8   60.0  18823  8.50  8.47  5.16   

       price_per_carat  
11416         

## Ejercicio 7: Análisis de series temporales con Pandas
**Objetivo**: Trabajar con fechas y series temporales.

1. Crea un DataFrame con una columna de fechas (usa `pd.date_range()` para generar las fechas).
2. Genera 100 valores aleatorios asociados a estas fechas.
3. Calcula la media móvil de los valores con una ventana de 5 días.

In [36]:
# 1. Crea un DataFrame con una columna de fechas (usa `pd.date_range()` para generar las fechas).
df = pd.DataFrame(pd.date_range(start='1/1/2020', periods=100), columns=['Fechas'])

# 2. Genera 100 valores aleatorios asociados a estas fechas. (Añado una nueva columna con los valores aleatorios)
df['Values'] = np.random.randint(101, size=100)
#print(df)

# 3. Calcula la media móvil de los valores con una ventana de 5 días. (Añado una nueva columna con la media movil)
df['media_movil'] = df['Values'].rolling(window=5).mean()
print(df.head(12))


       Fechas  Values  media_movil
0  2020-01-01      11          NaN
1  2020-01-02      86          NaN
2  2020-01-03      69          NaN
3  2020-01-04      29          NaN
4  2020-01-05      55         50.0
5  2020-01-06      52         58.2
6  2020-01-07      31         47.2
7  2020-01-08      59         45.2
8  2020-01-09      57         50.8
9  2020-01-10      17         43.2
10 2020-01-11      98         52.4
11 2020-01-12      58         57.8


## Ejercicio 8: Aplicación de funciones personalizadas
**Objetivo**: Aplicar funciones personalizadas a un DataFrame.

1. Crea un DataFrame con valores aleatorios.
2. Define una función que clasifique los valores como `alto` si son mayores a 0 y `bajo` si son menores o iguales.
3. Aplica esta función a todas las filas de una columna y crea una nueva columna con los resultados.


In [26]:
# 1. Crea un DataFrame con valores aleatorios.
df = pd.DataFrame(np.random.randint(low=-100, high=100, size=30), columns=['Values'])
#print(df)

# 2. Define una función que clasifique los valores como `alto` si son mayores a 0 y `bajo` si son menores o iguales.
def bajo_alto(valores):
    if valores <= 0:
        tipo = 'bajo'
    else:
        tipo = 'alto'
    return tipo
 
# 3. Aplica esta función a todas las filas de una columna y crea una nueva columna con los resultados.
df['resultado'] = df['Values'].apply(bajo_alto)
print(df.head())


   Values resultado
0     -46      bajo
1     -58      bajo
2      -5      bajo
3      54      alto
4      58      alto


## Ejercicio 9: Limpieza de datos con Pandas
**Objetivo**: Limpiar y manipular datos faltantes.

1. Crea un DataFrame con datos faltantes en algunas celdas.
2. Llena los valores faltantes con la media de la columna.
3. Elimina las filas que tengan más de 2 valores faltantes.

In [72]:
# 1. Crea un DataFrame con datos faltantes en algunas celdas.
df = pd.DataFrame(np.random.randint(low=0, high=100, size=(20,3)), columns=['a', 'b', 'c']) 
#print(df)

# Generar índices aleatorios de filas y columnas para asignar NaN
filas_nan = np.random.random_integers(0, 19, size=10)
columnas_nan = np.random.randint(0, 3, size=10)

for fila, columna in zip(filas_nan, columnas_nan): 
    df.iloc[fila, columna] = np.nan
print(df)

# 2. Llena los valores faltantes con la media de la columna.
df_cleaned = df.fillna(df.mean())
print(df_cleaned)

# 3. Elimina las filas que tengan más de 2 valores faltantes.
df_cleaned = df.dropna(thresh=3) 
print(df_cleaned)

       a     b     c
0   34.0   3.0  12.0
1   99.0  53.0  51.0
2    4.0  58.0  94.0
3   62.0   4.0  11.0
4    NaN  60.0   NaN
5    NaN  94.0  74.0
6   12.0   NaN   NaN
7   52.0  90.0  42.0
8   55.0  96.0  17.0
9   54.0  98.0   5.0
10  70.0  87.0   8.0
11   NaN  91.0  19.0
12  92.0  86.0  23.0
13   NaN  58.0  44.0
14  53.0  66.0  61.0
15  43.0  31.0  44.0
16  19.0  37.0  90.0
17  26.0   NaN  89.0
18  81.0  73.0  54.0
19  60.0  60.0  94.0
       a          b          c
0   34.0   3.000000  12.000000
1   99.0  53.000000  51.000000
2    4.0  58.000000  94.000000
3   62.0   4.000000  11.000000
4   51.0  60.000000  46.222222
5   51.0  94.000000  74.000000
6   12.0  63.611111  46.222222
7   52.0  90.000000  42.000000
8   55.0  96.000000  17.000000
9   54.0  98.000000   5.000000
10  70.0  87.000000   8.000000
11  51.0  91.000000  19.000000
12  92.0  86.000000  23.000000
13  51.0  58.000000  44.000000
14  53.0  66.000000  61.000000
15  43.0  31.000000  44.000000
16  19.0  37.000000  90.000000
1

  filas_nan = np.random.random_integers(0, 19, size=10)
