#### 1. ¿Qué es pandas y por qué usarlo?
**pandas** es una librería de Python que facilita la manipulación y análisis de datos. Está diseñada para trabajar con grandes conjuntos de datos de manera eficiente. Es una de las herramientas más importantes para el análisis de datos en Python y se usa extensamente en ciencia de datos, finanzas, investigación, y muchas otras áreas.

- **Características principales**:
  - Estructuras de datos flexibles y potentes (`Series` y `DataFrame`).
  - Funciones para leer y escribir diferentes formatos de archivos (CSV, Excel, JSON).
  - Operaciones rápidas para manipulación de datos (filtrar, agrupar, fusionar).
  - Herramientas avanzadas para analizar datos (estadísticas descriptivas, resúmenes).





#### 2. Estructuras de datos principales en pandas
pandas proporciona dos estructuras de datos principales:
1. **Series**: Una columna de datos, de una sola dimensión.
2. **DataFrame**: Una tabla de datos de dos dimensiones con etiquetas para filas y columnas.

```python
import pandas as pd

# Creando una Series a partir de una lista
data = [1, 2, 3, 4, 5]
series = pd.Series(data, name="Ejemplo_Series")
print(series)
```

**Explicación:**
- `pd.Series()` crea una serie con los datos provistos. Una serie puede ser vista como una columna en una tabla.
- Las series tienen índices automáticos si no se especifican.





#### 3. Creación de DataFrames
Un **DataFrame** es la estructura más utilizada en pandas. Puedes crearlo desde diferentes fuentes de datos:
- Listas
- Diccionarios
- Archivos (CSV, Excel, etc.)

**Ejemplo: Creación de un DataFrame desde un diccionario**

```python
data = {
    'Producto': ['Manzanas', 'Naranjas', 'Plátanos', 'Fresas'],
    'Precio': [1.50, 2.00, 0.50, 3.00],
    'Cantidad': [10, 15, 20, 5]
}
df = pd.DataFrame(data)
print(df)
```

**Explicación:**
- Un diccionario es una buena forma de organizar los datos en filas y columnas.
- pandas organiza los datos automáticamente en el formato tabular (DataFrame).




#### 4. Carga de datos desde archivos (CSV)
El formato **CSV** (Comma-Separated Values) es uno de los más utilizados para almacenar datos. pandas ofrece la función `read_csv()` para leer archivos CSV.

```python
# Cargando un archivo CSV
df = pd.read_csv("alumnos.csv")
print(df.head())
```

**Explicación:**
- `read_csv()` lee el archivo y lo convierte en un DataFrame.
- `head()` devuelve las primeras cinco filas del DataFrame, lo cual es útil para inspeccionar rápidamente los datos cargados.





#### 5. Exploración y análisis básico de un DataFrame

- **Ver las primeras filas**: `head()`
- **Ver las últimas filas**: `tail()`
- **Obtener información general**: `info()`
- **Obtener estadísticas descriptivas**: `describe()`

```python
print(df.head())         # Primeras 5 filas
print(df.tail())         # Últimas 5 filas
print(df.info())         # Información general del DataFrame
print(df.describe())     # Estadísticas descriptivas
```

**Explicación:**
- `info()` es crucial para entender el tipo de datos en cada columna y si hay valores nulos.
- `describe()` devuelve estadísticas como media, desviación estándar, valores mínimos y máximos, y es útil para análisis rápidos.



#### 6. Selección de datos: Filas y columnas

1. **Acceder a una columna**:

```python
# Accediendo a la columna "Nombre"
print(df['Nombre'])
```

2. **Acceder a varias columnas**:

```python
# Seleccionar varias columnas
print(df[['Nombre', 'Edad']])
```

3. **Acceder a una fila por índice**:

```python
# Accediendo a la primera fila
print(df.iloc[0])
```

4. **Acceder a una fila por nombre de índice** (si tienes índices con etiquetas):

```python
# Accediendo a filas usando etiquetas con loc
print(df.loc[0])
```

**Explicación:**
- `iloc[]` se usa para seleccionar filas y columnas por posición (índices numéricos).
- `loc[]` se usa para seleccionar por nombres de índices o etiquetas, muy útil cuando trabajamos con datos etiquetados.



#### 7. Filtrado de datos
Filtrar datos es una de las tareas más comunes. pandas permite aplicar condiciones para seleccionar subconjuntos de datos.

```python
# Filtrar alumnos con nota mayor a 8 en matemáticas
filtro = df['Nota Matemáticas'] > 8
print(df[filtro])
```

**Explicación:**
- La expresión `df['Nota Matemáticas'] > 8` genera una serie booleana (True/False), que se usa para filtrar las filas del DataFrame.
- Este método es extremadamente poderoso para analizar subconjuntos de datos de manera rápida.




#### 8. Eliminación de datos
Puedes eliminar columnas o filas usando `drop()`.

```python
# Eliminar una columna
df = pd.DataFrame(data)
df = df.drop(columns=['Promedio'])
print(df)

# Eliminar filas
df = df.drop([0, 1], axis=0)
print(df)
```

**Explicación:**
- `drop()` elimina elementos del DataFrame, tanto filas como columnas. Es importante especificar si se eliminará por fila (`axis=0`) o por columna (`axis=1`).




#### 9. Agrupación y agregación
La función `groupby()` permite agrupar datos por una columna y luego aplicar funciones de agregación como `sum()`, `mean()`, `count()`.

```python
# Agrupar por edad y obtener la media de las notas
grupo = df.groupby('Edad')['Nota Matemáticas'].mean()
print(grupo)
```

**Explicación:**
- `groupby()` agrupa los datos por valores únicos en una columna. Luego, podemos aplicar funciones agregadas como media, suma, etc.




#### 10. Manejo de datos faltantes
Es común encontrar valores faltantes en los datos. pandas ofrece funciones para manejar estos casos:

```python
# Detectar valores nulos
print(df.isnull())

# Eliminar filas con valores nulos
df_limpio = df.dropna()
print(df_limpio)

# Rellenar valores nulos con un valor
df_rellenado = df.fillna(0)
print(df_rellenado)
```

**Explicación:**
- `dropna()` elimina las filas que contienen valores nulos.
- `fillna()` reemplaza los valores nulos con un valor específico.




#### 12. Guardar datos
Finalmente, podemos guardar los DataFrames en archivos de diferentes formatos, como CSV, Excel o JSON.

```python
# Guardar DataFrame en un archivo CSV
df.to_csv("alumnos_modificado.csv", index=False)
```

**Explicación:**
- `to_csv()` guarda el DataFrame en un archivo CSV. El parámetro `index=False` asegura que no se guarde el índice de las filas.





### Ejercicios:
1. Cargar los datos desde un archivo CSV y calcular la desviación estándar de las notas en matemáticas.
2. Filtrar los alumnos con una edad mayor o igual a 22 años y calcular el promedio de sus notas de historia.
3. Crear una nueva columna que contenga un "ranking" basado en el promedio de notas (del 1 al número total de alumnos).
4. Agrupar los datos por el rango de edad y obtener la nota máxima de cada grupo en matemáticas.
5. Guardar el DataFrame final con todos los cambios realizados.



###  DataFrame

Un DataFrame es una estructura de datos bidimensional etiquetada con columnas de tipos potencialmente diferentes.

```python
# Creando un DataFrame desde un diccionario
data = {'nombre': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
        'edad': [25, 30, 35, 28, 22],
        'ciudad': ['New York', 'Paris', 'London', 'Tokyo', 'Berlin'],
        'salario': [50000, 60000, 70000, 65000, 55000]}
df = pd.DataFrame(data)
print("DataFrame básico:")
print(df)

# Creando un DataFrame desde un array NumPy
arr = np.random.randn(5, 4)
df_numpy = pd.DataFrame(arr, columns=['A', 'B', 'C', 'D'])
print("\nDataFrame desde NumPy array:")
print(df_numpy)
```



###  Otros formatos

Pandas soporta múltiples formatos de entrada/salida:

```python
# Excel
df.to_excel('output.xlsx', sheet_name='Sheet1')

# JSON
df.to_json('output.json')




print("\nMuestra aleatoria de 2 filas:")
print(df.sample(2))
```




###  Selección por etiquetas: loc

```python
# Seleccionar fila por índice de etiqueta
print(df.loc)

# Seleccionar filas y columnas por etiqueta
print(df.loc[1:3, ['nombre', 'ciudad']])
```

###  Selección por posición: iloc

```python
# Seleccionar por posición
print(df.iloc)

# Seleccionar filas y columnas por posición
print(df.iloc[0:3, 1:3])
```

### Filtrado booleano

```python
# Filtrar filas basadas en una condición
print(df[df['edad'] > 30])

# Filtros complejos
print(df[(df['edad'] > 30) & (df['salario'] > 60000)])
```




###  Operaciones aritméticas

```python
# Sumar una constante a una columna
df['salario_ajustado'] = df['salario'] + 1000
print(df)

# Operaciones entre columnas
df['salario_doble'] = df['salario'] * 2
print(df)
```

###  Aplicar funciones

```python
# Aplicar una función a una columna
def categoria_edad(edad):
    if edad < 30:
        return 'Joven'
    elif 30 <= edad < 40:
        return 'Adulto'
    else:
        return 'Mayor'

df['categoria_edad'] = df['edad'].apply(categoria_edad)
print(df)

# Aplicar una función a múltiples columnas
df['nombre_ciudad'] = df.apply(lambda x: f"{x['nombre']} vive en {x['ciudad']}", axis=1)
print(df)
```




###  Concatenación

```python
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                    'B': ['B0', 'B1', 'B2']},
                    index=['K0', 'K1', 'K2'])

df2 = pd.DataFrame({'C': ['C0', 'C1', 'C2'],
                    'D': ['D0', 'D1', 'D2']},
                    index=['K0', 'K2', 'K3'])

print("Concatenación vertical:")
print(pd.concat([df1, df2]))

print("\nConcatenación horizontal:")
print(pd.concat([df1, df2], axis=1))
```



##  Visualización con Pandas

```python
# Crear un DataFrame de ejemplo
df_viz = pd.DataFrame(np.random.randn(10, 4), columns=['A', 'B', 'C', 'D'])

# Gráfico de líneas
df_viz.plot(figsize=(10, 6))
plt.title('Gráfico de Líneas')
plt.show()

# Gráfico de barras
df_viz.plot.bar(figsize=(10, 6))
plt.title('Gráfico de Barras')
plt.show()

# Histograma
df_viz['A'].plot.hist(bins=20)
plt.title('Histograma')
plt.show()

# Diagrama de caja
df_viz.plot.box()
plt.title('Diagrama de Caja')
plt.show()
```


In [1]:
resultado = []
lista = [2,4,3]

for numero in range(min(lista), max(lista)+1):
    resultado.append(lista.index(numero))

resultado

[0, 2, 1]