# Ejercicios de NumPy y Pandas 📊📈

## Introducción
Esta es una serie de ejercicios diseñados para practicar tus habilidades con **NumPy** y **Pandas**. Los primeros ejercicios incluyen una pequeña guía para ayudarte a comprender mejor los conceptos y las funciones clave. Los ejercicios posteriores son más avanzados y te permitirán aplicar técnicas de análisis de datos.

In [2]:
# Importacion de modulos
import pandas as pd
import numpy as np
import seaborn as sns


## Ejercicio 1: Operaciones básicas con NumPy
**Objetivo**: Crear y manipular arrays.

1. Crea un array de NumPy de 10 elementos con valores entre 1 y 10.
2. Calcula la media, mediana, y desviación estándar de los valores.
3. Multiplica cada valor por 2.

**Mini-guía**:

- Usa `np.array` para crear un array.
- Métodos útiles: `np.mean()`, `np.median()`, `np.std()`.


In [22]:
# 1. CREA ARRAYS DE 10 ELEMENTOS ---> (Diferentes formas de crear un array)
array = np.array([1,2,3,4,5,6,7,8,9,10]) # Construcción básica
array_zeros = np.zeros([10]) # Array de ceros
array_ones = np.ones([10]) # Array de unos
array_con_rango = np.arange(10) # Array con rango desde el 0
array_valores_random = np.random.randint(0,11, size=10) # Array con valores random de 0 al 10. de medida 10

# 2. CALCULA LA MEDIA, MEDIANA Y DESVIACION ESTANDAR ---> (Utilizo el array de valores random)
media = np.mean(array_valores_random)
mediana = np.median(array_valores_random)
desviacion_estandar = np.std(array_valores_random)

print('Media: ',media)
print('Mediana: ',mediana)
print('Desviación estandar: ', desviacion_estandar)

# 3. MULTIPLICA LOS ARRAYS
print(f"\nMultiplicacion del array por 2: {array*2}\n")

# Visualización de los arrays
print(array)
print(array_zeros)
print(array_ones)
print(array_con_rango)
print(array_valores_random)


Media:  6.1
Mediana:  6.0
Desviación estandar:  2.2561028345356955

Multiplicacion del array por 2: [ 2  4  6  8 10 12 14 16 18 20]

[ 1  2  3  4  5  6  7  8  9 10]
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
[0 1 2 3 4 5 6 7 8 9]
[ 8  8  5 10  3  2  7  6  6  6]


### 📊 **2. Operaciones con Pandas DataFrames**

**Objetivo**: Crear y manipular un DataFrame.

**Enunciado**:
1. Crea un DataFrame con 3 columnas (A, B, C) y 5 filas con números aleatorios enteros.
2. Renombra las columnas a Col1, Col2, Col3.
3. Añade una nueva columna que sea la suma de las columnas Col1 y Col2.
4. Elimina todas las filas donde el valor de Col3 sea menor que 10.

**Mini-guía**:
- Métodos útiles: `pd.DataFrame()`, `df.rename()`, `df['NewCol']`, `df.drop()`.

In [48]:
# 1. CREA UN DATAFRAME ---> (Diferentes formas de crear un array)

# Forma 1: creacion de diccionario y convertirlo en dataframe
d = {'A': [23, 14, 5, 4, 14], 'B': [3, 4, 5, 14, 4], 'C': [13, 8, 10, 11, 12]} 

df = pd.DataFrame(d)
#print('Dataframe Forma 1:')
#print(df)

# Forma 1: Creando un arrar de dimesion 5*3 con numeros aleatorios hasta el 20
df = pd.DataFrame(np.random.randint(20, size=(5,3)), columns=['A', 'B', 'C'])

print('\nDataframe Forma 2:')
print(df)

# 2. RENOMBRA LAS COLUMNAS
df_rename = df.rename(columns={'A': 'Col1', 'B': 'Col2', 'C': 'Col3'})

print('\nRenombrando columnas')
print(df_rename)

# 3. AÑADE UNA NUEVA COLUMNA = Col1 + Col2
df_rename['New_Col'] = df_rename['Col1'] + df_rename['Col2']

print('\nDataframe con una nueva columna')
print(df_rename)

# 4. ELIMINA TODAS LAS FILAS DONDE EL VALOR DE Col3 SEA MENOR QUE 10
df_filtered = df_rename[df_rename['Col3'] > 10]
print("dataframe filtrado")
print(df_filtered)


Dataframe Forma 2:
    A   B   C
0  18  19  12
1  11   3  17
2  17   3  16
3  15  12  10
4  12   4   3

Renombrando columnas
   Col1  Col2  Col3
0    18    19    12
1    11     3    17
2    17     3    16
3    15    12    10
4    12     4     3

Dataframe con una nueva columna
   Col1  Col2  Col3  New_Col
0    18    19    12       37
1    11     3    17       14
2    17     3    16       20
3    15    12    10       27
4    12     4     3       16
dataframe filtrado
   Col1  Col2  Col3  New_Col
0    18    19    12       37
1    11     3    17       14
2    17     3    16       20


## Ejercicio 3: Estadística descriptiva con Pandas
**Objetivo**: Aplicar análisis estadístico básico.

1. Crea un DataFrame con 100 valores aleatorios entre 0 y 50.
2. Calcula la media, mediana y moda de los valores.
3. Encuentra el valor mínimo y el valor máximo del DataFrame.

**Mini-guía**:

- Métodos útiles: `df.describe()`, `df['column'].mean()`, `df['column'].mode()`

In [5]:
# 1. Crea un DataFrame con 100 valores aleatorios entre 0 y 50.
df = pd.DataFrame(np.random.randint(0,51, size=100), columns=['Valores'])
print(df.head())

# 2. Calcula la media, mediana y moda de los valores.
mean = df['Valores'].mean()
mediana = df['Valores'].median()
moda = df['Valores'].mode()[0]

print(f"media = {mean}, mediana = {mediana}, moda = {moda}")

# 3. Encuentra el valor mínimo y el valor máximo del DataFrame.
max = df['Valores'].max()
min = df['Valores'].min()

print(f"max = {max} y min = {min}")

print(df.describe())

   Valores
0       11
1        3
2       46
3        5
4       12
media = 25.37, mediana = 26.0, moda = 1
max = 50 y min = 1
          Valores
count  100.000000
mean    25.370000
std     15.804778
min      1.000000
25%     11.750000
50%     26.000000
75%     40.000000
max     50.000000


## Ejercicio 4: Indexación y Filtrado
**Objetivo**: Practicar la selección de datos en un DataFrame.

1. Carga un dataset usando Pandas (por ejemplo, `df = sns.load_dataset('tips')`).
2. Selecciona todas las filas donde el valor de la columna `total_bill` sea mayor a 20.
3. Filtra y muestra solo las columnas `total_bill` y `tip`.
4. Ordena el DataFrame por la columna `tip` de mayor a menor.

**Mini-guía**:

- Métodos útiles: `df[df['column'] > valor]`, `df[['col1', 'col2']]`, `df.sort_values()`.


In [17]:
# 1. Carga un dataset usando Pandas
df = sns.load_dataset('tips')
#print(df.head())

#  2. Selecciona todas las filas donde el valor de la columna `total_bill` sea mayor a 20.
df_filter = df[df['total_bill']  > 20]
#print(df_filter)

# 3. Filtra y muestra solo las columnas `total_bill` y `tip`.
df_filter = df[['total_bill', 'tip']]
#print(df_filter)

# 4. Ordena el DataFrame por la columna `tip` de mayor a menor.
df_orden = df.sort_values(by=['tip'], ascending=False)
print(df_orden)

     total_bill    tip     sex smoker   day    time  size
170       50.81  10.00    Male    Yes   Sat  Dinner     3
212       48.33   9.00    Male     No   Sat  Dinner     4
23        39.42   7.58    Male     No   Sat  Dinner     4
59        48.27   6.73    Male     No   Sat  Dinner     4
141       34.30   6.70    Male     No  Thur   Lunch     6
..          ...    ...     ...    ...   ...     ...   ...
0         16.99   1.01  Female     No   Sun  Dinner     2
236       12.60   1.00    Male    Yes   Sat  Dinner     2
111        7.25   1.00  Female     No   Sat  Dinner     1
67         3.07   1.00  Female    Yes   Sat  Dinner     1
92         5.75   1.00  Female    Yes   Fri  Dinner     2

[244 rows x 7 columns]


## Ejercicio 5: Agrupaciones y funciones de agregación
**Objetivo**: Agrupar datos y aplicar funciones de resumen.

1. Carga el dataset de `titanic` desde Seaborn.
2. Agrupa los datos por la columna `pclass` (clase del pasajero).
3. Calcula la media de las edades (`age`) para cada grupo.
4. Encuentra el número total de pasajeros en cada clase.

**Mini-guía**:

- Métodos útiles: `df.groupby()`, `df['column'].mean()`, `df.size()`.

In [40]:
# 1. Carga el dataset de `titanic` desde Seaborn.
df = sns.load_dataset('titanic')
#print(df)

# 2. Agrupa los datos por la columna `pclass` (clase del pasajero).
df_group = df.groupby('pclass')

# 3. Calcula la media de las edades (`age`) para cada grupo.
age_mean = df['age'].mean()
age_mean_class = df_group['age'].mean()
print(f'Media de las edades: {age_mean}')
print(f'Media de las edades por clase: {age_mean_class}')

# 4. Encuentra el número total de pasajeros en cada clase.
num_pasajeros_clase = df_group.size()
print('El numero de pasajeros por clase es: \n', num_pasajeros_clase)

Media de las edades: 29.69911764705882
Media de las edades por clase: pclass
1    38.233441
2    29.877630
3    25.140620
Name: age, dtype: float64
El numero de pasajeros por clase es: 
 pclass
1    216
2    184
3    491
dtype: int64


## Ejercicio 6: Manipulación avanzada de DataFrames
**Objetivo**: Aplicar técnicas avanzadas de manipulación.

1. Carga el dataset `diamonds` de Seaborn.
2. Crea una nueva columna que calcule el precio por quilate (`price_per_carat`).
3. Filtra todos los diamantes con un precio por quilate superior a 5000.
4. Ordena el DataFrame por esta nueva columna.

In [12]:
# 1. Carga el dataset `diamonds` de Seaborn.
df = sns.load_dataset('diamonds')
#print(df.head())

# 2. Crea una nueva columna que calcule el precio por quilate (`price_per_carat`).
df['price_per_carat'] = df['carat'] / df['price']
#print(df)

# 3. Filtra todos los diamantes con un precio por quilate superior a 5000.
df_filter = df[df['price'] > 5000]
#print(df_filter)

# 4. Ordena el DataFrame por esta nueva columna.
df_filter['price'].sort_values()
df_filter.sort_values(by=['price'], ascending=False)
print(df_filter)


       carat        cut color clarity  depth  table  price     x     y     z  \
11416   1.16      Ideal     E     SI2   62.7   56.0   5001  6.69  6.73  4.21   
11417   1.16      Ideal     E     SI2   59.9   57.0   5001  6.80  6.82  4.08   
11418   0.90       Good     G    VVS2   63.6   58.0   5001  6.10  6.11  3.88   
11419   0.90  Very Good     E     VS1   62.3   56.0   5001  6.10  6.19  3.83   
11420   0.90    Premium     D     VS2   62.6   59.0   5001  6.14  6.17  3.85   
...      ...        ...   ...     ...    ...    ...    ...   ...   ...   ...   
27745   2.00  Very Good     H     SI1   62.8   57.0  18803  7.95  8.00  5.01   
27746   2.07      Ideal     G     SI2   62.5   55.0  18804  8.20  8.13  5.11   
27747   1.51      Ideal     G      IF   61.7   55.0  18806  7.37  7.41  4.56   
27748   2.00  Very Good     G     SI1   63.5   56.0  18818  7.90  7.97  5.04   
27749   2.29    Premium     I     VS2   60.8   60.0  18823  8.50  8.47  5.16   

       price_per_carat  
11416         

## Ejercicio 7: Análisis de series temporales con Pandas
**Objetivo**: Trabajar con fechas y series temporales.

1. Crea un DataFrame con una columna de fechas (usa `pd.date_range()` para generar las fechas).
2. Genera 100 valores aleatorios asociados a estas fechas.
3. Calcula la media móvil de los valores con una ventana de 5 días.

In [40]:
# 1. Crea un DataFrame con una columna de fechas (usa `pd.date_range()` para generar las fechas).
df = pd.DataFrame(pd.date_range(start='1/1/2020', periods=100), columns=['Fechas'])

# 2. Genera 100 valores aleatorios asociados a estas fechas.
df['Values'] = np.random.randint(101, size=100)
#print(df)

# 3. Calcula la media móvil de los valores con una ventana de 5 días.
df['media_movil'] = df['Values'].rolling(window=5).mean()
print(df.head())


       Fechas  Values  media_movil
0  2020-01-01      71          NaN
1  2020-01-02      91          NaN
2  2020-01-03      13          NaN
3  2020-01-04      29          NaN
4  2020-01-05      37         48.2
5  2020-01-06      42         42.4
6  2020-01-07      16         27.4
7  2020-01-08      69         38.6
8  2020-01-09      54         43.6
9  2020-01-10      99         56.0
10 2020-01-11      26         52.8
11 2020-01-12      46         58.8
12 2020-01-13      11         47.2
13 2020-01-14       9         38.2
14 2020-01-15      45         27.4
15 2020-01-16      82         38.6
16 2020-01-17      92         47.8
17 2020-01-18      19         49.4
18 2020-01-19      49         57.4
19 2020-01-20      56         59.6
20 2020-01-21      62         55.6
21 2020-01-22      55         48.2
22 2020-01-23      76         59.6
23 2020-01-24       2         50.2
24 2020-01-25      52         49.4
25 2020-01-26      83         53.6
26 2020-01-27      91         60.8
27 2020-01-28      4

## Ejercicio 8: Aplicación de funciones personalizadas
**Objetivo**: Aplicar funciones personalizadas a un DataFrame.

1. Crea un DataFrame con valores aleatorios.
2. Define una función que clasifique los valores como `alto` si son mayores a 0 y `bajo` si son menores o iguales.
3. Aplica esta función a todas las filas de una columna y crea una nueva columna con los resultados.


In [47]:
# 1. Crea un DataFrame con valores aleatorios.
df = pd.DataFrame(np.random.randint(low=-100, high=100, size=30), columns=['Values'])
#print(df)

# 2. Define una función que clasifique los valores como `alto` si son mayores a 0 y `bajo` si son menores o iguales.
def bajo_alto(valores):
    if valores <= 0:
        tipo = 'bajo'
    else:
        tipo = 'alto'
    return tipo
 
# 3. Aplica esta función a todas las filas de una columna y crea una nueva columna con los resultados.
df['resultado'] = df['Values'].apply(bajo_alto)
print(df.head())


   Values resultado
0      75      alto
1      63      alto
2      -2      bajo
3     -42      bajo
4      27      alto


## Ejercicio 9: Limpieza de datos con Pandas
**Objetivo**: Limpiar y manipular datos faltantes.

1. Crea un DataFrame con datos faltantes en algunas celdas.
2. Llena los valores faltantes con la media de la columna.
3. Elimina las filas que tengan más de 2 valores faltantes.

In [48]:
# 1. Crea un DataFrame con datos faltantes en algunas celdas.
df = pd.DataFrame(np.random.randint(low=0, high=100, size=(20,3)), columns=['a', 'b', 'c'])


filas = np.random.random_integers(0, len(df), size=10)
columnas = np.random.randint(0, df.shape[1], size=10)
#print(array)
df.iloc[filas, columnas] = np.nan
print(df)
# 2. Llena los valores faltantes con la media de la columna.
#df_new = df.fillna(df['Values'].mean())
#print(df_new)

# 3. Elimina las filas que tengan más de 2 valores faltantes.

       a     b     c
0    NaN   NaN   NaN
1   17.0  41.0   8.0
2   41.0  83.0  43.0
3    NaN   NaN   NaN
4   39.0   8.0  49.0
5   42.0  69.0  36.0
6    NaN   NaN   NaN
7   94.0  84.0  32.0
8   99.0  60.0   2.0
9   89.0  44.0  94.0
10   NaN   NaN   NaN
11   NaN   NaN   NaN
12   7.0   9.0  74.0
13  14.0  81.0  82.0
14  83.0  60.0  21.0
15   NaN   NaN   NaN
16   6.0   8.0  76.0
17   NaN   NaN   NaN
18  55.0  84.0  92.0
19  56.0  68.0  55.0


  filas = np.random.random_integers(0, len(df), size=10)


## Ejercicio 10: Proyecto Final 🚀
**Objetivo**: Realiza un análisis completo.

1. Elige un dataset de tu interés (puedes usar uno de Seaborn o uno descargado de Kaggle).
2. Realiza un análisis exploratorio: estadísticas descriptivas, visualizaciones y correlaciones.
3. Identifica relaciones interesantes entre las variables.
4. Aplica técnicas avanzadas de visualización.
5. Presenta un informe con gráficos y conclusiones.
