# Introducción a numpy y pandas

En esta sesión se describirán las técnicas para cargar, almacenar y manipular datos en memoria de manera efectiva en Python. El tema es muy amplio: los conjuntos de datos pueden provenir de una amplia gama de fuentes y una amplia gama de formatos, incluyendo colecciones de documentos, colecciones de imágenes, colecciones de clips de sonido, colecciones de mediciones numéricas o casi cualquier otra cosa. A pesar de esta aparente heterogeneidad, nos ayudará a pensar en todos los datos fundamentalmente como matrices de números.

In [70]:
import numpy 
numpy.__version__

'1.24.3'

In [71]:
import pandas
pandas.__version__

'2.0.3'

### NumPy 

NumPy es una biblioteca de Python utilizada para el cómputo científico y la manipulación de arrays. Ofrece una amplia variedad de operaciones de alto rendimiento en arrays, como funciones matemáticas, lógicas, estadísticas y mucho más.


#### 1. Arrays en NumPy 

##### Creación de Arrays

- **Array Unidimensional**: Esencialmente una lista de números.


In [1]:
import numpy as np
arr_1d = np.array([1, 2, 3, 4, 5])
print("Array 1D:", arr_1d)

Array 1D: [1 2 3 4 5]


- **Array Bidimensional**: Una lista de listas, similar a una matriz.

In [2]:

arr_2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("Array 2D:\n", arr_2d)


Array 2D:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]


- **Arrays con Ceros y Unos**: Usados comúnmente como matrices iniciales.

In [3]:
zeros = np.zeros((2, 3))
ones = np.ones((2, 3))

##### Operaciones Básicas

- Suma, resta, multiplicación elemento a elemento.

In [4]:
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])
print("Suma:", arr1 + arr2)
print("Resta:", arr1 - arr2)
print("Multiplicación:", arr1 * arr2)

Suma: [5 7 9]
Resta: [-3 -3 -3]
Multiplicación: [ 4 10 18]


#### 2. Funciones de Agregación 

- Estas funciones proporcionan un resumen estadístico del array.

In [5]:
arr = np.array([1, 2, 3, 4, 5])

print("Media:", np.mean(arr))
print("Suma:", np.sum(arr))
print("Mínimo:", np.min(arr))
print("Máximo:", np.max(arr))

Media: 3.0
Suma: 15
Mínimo: 1
Máximo: 5


#### 3. Indexación y Segmentación 

- **Indexación**: Acceder a elementos individuales del array.

In [6]:
arr = np.array([1, 2, 3, 4, 5])
print("Primer elemento:", arr[0])
print("Último elemento:", arr[-1])

Primer elemento: 1
Último elemento: 5


- **Segmentación**: Acceder a subconjuntos del array.

In [7]:
arr = np.array([1, 2, 3, 4, 5])
print("Primeros tres elementos:", arr[:3])
print("Elementos del 2 al 4:", arr[1:4])

Primeros tres elementos: [1 2 3]
Elementos del 2 al 4: [2 3 4]


#### 4. Manipulación de Formas

- **Reshape**: Cambia la forma del array.



In [8]:
arr = np.array([1, 2, 3, 4, 5, 6])
arr_reshaped = arr.reshape(2, 3)
print("Array reformado:\n", arr_reshaped)

Array reformado:
 [[1 2 3]
 [4 5 6]]



- **Flatten**: Convierte el array a una dimensión.

In [9]:
arr = np.array([[1, 2], [3, 4]])
arr_flattened = arr.flatten()
print("Array aplanado:", arr_flattened)

Array aplanado: [1 2 3 4]


#### Otras aplicaciones de Numpy

##### Álgebra lineal

- **Multiplicación Matricial**: Se puede realizar fácilmente con el método `dot`.




In [10]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6], [7, 8]])
result = np.dot(a, b)


- **Cálculo de Autovalores y Autovectores**: Útil en una variedad de aplicaciones que van desde la resolución de ecuaciones diferenciales hasta el aprendizaje automático.


In [11]:
eigenvalues, eigenvectors = np.linalg.eig(a)

### Generación de Números Aleatorios

- NumPy ofrece funciones para generar números aleatorios que son útiles en estadísticas y simulaciones.

In [12]:
random_numbers = np.random.rand(5)
random_numbers

array([0.93197455, 0.14599637, 0.43954258, 0.76740282, 0.67526829])

### Operaciones Elemento a Elemento

- Operaciones como el seno, coseno, exponenciación se pueden hacer elemento a elemento en un array.


In [13]:
arr = np.array([1, 2, 3])
sin_arr = np.sin(arr)

### Estadísticas

- Se pueden calcular varianzas, medianas, percentiles, entre otros.



In [14]:
mean = np.mean(arr)
variance = np.var(arr)
median = np.median(arr)
percentile_90 = np.percentile(arr, 90)



### Concatenación y División

- Puedes concatenar dos arrays y dividir un array en varias partes más pequeñas.




In [15]:

concatenated = np.concatenate((arr1, arr2))
split = np.split(arr, 3)  # Divide en 3 arrays de igual tamaño

### Broadcasting

- El broadcasting permite que NumPy maneje arrays con diferentes formas durante las operaciones aritméticas.


In [16]:
a = np.array([1, 2, 3])
b = 2
result = a * b  # [2, 4, 6]

### Máscaras Booleanas

- Muy útiles para extraer información que cumple ciertos criterios.


In [17]:
arr = np.array([1, 2, 3, 4, 5])
mask = arr > 3  # [False, False, False, True, True]
filtered = arr[mask]  # [4, 5]

### Funciones Universales (ufunc)

- Estas son funciones que operan en arrays de NumPy, y se ejecutan elemento a elemento, permitiendo un código más rápido.



In [18]:
arr = np.array([1, 2, 3, 4])
pow_arr = np.power(arr, 2)  # Eleva cada elemento al cuadrado

In [19]:
a = np.arange(1,6)
np.add.accumulate(a)

array([ 1,  3,  6, 10, 15])

In [20]:
np.multiply.accumulate(a)

array([  1,   2,   6,  24, 120])

### Pandas 

In [22]:
import pandas as pd



#### 1. Series y DataFrames (10 minutos)

- **Series**: Esencialmente, una Series es una columna. Puedes crear una Series desde una lista, diccionario, o un array de NumPy.


Crear una Series desde una lista:

In [25]:
my_series = pd.Series([1, 2, 3, 4])
my_series

0    1
1    2
2    3
3    4
dtype: int64

Crear una Series desde un diccionario:


In [26]:
my_series = pd.Series({'a': 1, 'b': 2, 'c': 3})
my_series

a    1
b    2
c    3
dtype: int64

  
- **DataFrame**: Un DataFrame es una tabla multi-dimensional que puede contener múltiples Series.

 Crear un DataFrame desde un diccionario:

In [104]:
df = pd.DataFrame({'A': [1, 2, 3], 'B': ['a', 'b', 'c']})

Crear un DataFrame desde listas de listas (y especificar nombres de columnas):

In [None]:
df = pd.DataFrame([[1, 'a'], [2, 'b'], [3, 'c']], columns=['A', 'B'])

- **Manipulación básica de columnas y filas**: 
    - Seleccionar una columna: `df['A']`
    - Añadir una columna: `df['C'] = [4, 5, 6]`
    - Eliminar una columna: `df.drop('C', axis=1, inplace=True)`
    - Seleccionar una fila por índice: `df.loc[0]`

#### 2. Importación y Exportación de Datos

- **Leer datos desde archivos CSV y Excel**

In [None]:
df_csv = pd.read_csv('archivo.csv')
df_excel = pd.read_excel('archivo.xlsx')

- **Guardar DataFrames en archivos CSV y Excel**

In [105]:
df.to_csv('salida.csv', index=False)
# df.to_excel('salida.xlsx', index=False)

ModuleNotFoundError: No module named 'openpyxl'

#### 3. Limpieza de Datos

- **Eliminar valores nulos**: `df.dropna()`

In [106]:
df.dropna(axis=0, how='any', inplace=True)

- **Rellenar valores nulos**: `df.fillna()`

In [108]:
df.fillna(0, inplace=True)

- **Eliminar filas duplicadas**: `df.drop_duplicates()`

In [None]:
df.drop_duplicates(inplace=True)

#### 4. Exploración de Datos

- **Resumen inicial del DataFrame**: 
    - `df.head()` muestra las primeras 5 filas.
    - `df.tail()` muestra las últimas 5 filas.
    - `df.info()` muestra información sobre el DataFrame, como tipos de datos y valores nulos.
    - `df.describe()` ofrece estadísticas descriptivas del DataFrame.

- **Filtrar datos**: 
    - Filtrar por condición: `df[df['A'] > 1]`
    - Utilizar múltiples condiciones: `df[(df['A'] > 1) & (df['B'] == 'a')]`

- **Agrupar datos**: `df.groupby()`

In [115]:
grouped = df.groupby('B')
grouped

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fb8734d68d0>

- **Funciones de agregación**:
    - Suma: `grouped.sum()`
    - Media: `grouped.mean()`
    - Máximo y mínimo: `grouped.max()`, `grouped.min()`
  

# Ejercicios

Mostrar las primeras y las últimas filas del DataFrame.

Mostrar estadísticas descriptivas del DataFrame.

Seleccionar las calificaciones de un solo estudiante.

Seleccionar las calificaciones en una sola materia.

Cambiar la calificación de un estudiante en una materia.

Encontrar el estudiante con la calificación más alta en Física.

Encontrar la materia en la que los estudiantes tienen el rendimiento más bajo (media más baja).

Agregar una nueva columna con la media de calificaciones para cada estudiante.

Eliminar la columna 'Media' para regresar al DataFrame original.

Guardar el DataFrame en un archivo CSV.