### Series y DataFrames en Pandas

En **Pandas**, dos estructuras de datos son fundamentales para el análisis y manipulación de datos: **Series** y **DataFrames**. A lo largo de este capítulo, profundizaremos en ambos conceptos, sus características y cómo se utilizan en análisis de datos con ejemplos prácticos.

### 1. Series

Una **Serie** es una estructura de datos unidimensional en Pandas, similar a una lista o array de Python, pero con la ventaja de tener un índice etiquetado. Es ideal para trabajar con datos secuenciales donde cada valor tiene una etiqueta (índice).

#### Características de una Serie:

- Almacena una sola columna de datos.
- Cada valor tiene un índice asociado.
- Puede contener cualquier tipo de datos: numéricos, de texto, booleanos, etc.
  
#### Creación de Series

Para crear una Serie, podemos usar la función `pd.Series()` de Pandas. Hay varias maneras de hacerlo, dependiendo de la fuente de datos.

##### Creación desde una lista:

In [22]:
import pandas as pd

# Crear una Serie a partir de una lista
mi_serie = pd.Series([10, 20, 30, 40])
print(mi_serie)

0    10
1    20
2    30
3    40
dtype: int64


##### Creación desde un diccionario:

In [23]:
mi_serie = pd.Series({'a': 10, 'b': 20, 'c': 30})
print(mi_serie)

a    10
b    20
c    30
dtype: int64


##### Índice personalizado:

In [24]:
# Crear una Serie con un índice específico
mi_serie = pd.Series([10, 20, 30], index=['uno', 'dos', 'tres'])
print(mi_serie)

uno     10
dos     20
tres    30
dtype: int64


#### Operaciones comunes con Series

Las Series permiten realizar operaciones rápidas y eficaces sobre los datos:

- **Acceder a elementos**: Utilizando el índice o la posición.

In [25]:
# Acceder por índice
print(mi_serie['uno'])

# Acceder por posición
print(mi_serie[0])

10
10


  print(mi_serie[0])


- **Realizar operaciones matemáticas**:

In [26]:
# Sumar una constante a todos los elementos
print(mi_serie + 5)

# Sumar dos Series
mi_serie2 = pd.Series([5, 10, 15], index=['uno', 'dos', 'tres'])
print(mi_serie + mi_serie2)

uno     15
dos     25
tres    35
dtype: int64
uno     15
dos     30
tres    45
dtype: int64


- **Estadísticas básicas**:

In [27]:
# Calcular la media
print(mi_serie.mean())

# Calcular la suma
print(mi_serie.sum())

20.0
60


- **Filtrado y selección**:

In [28]:
# Filtrar valores mayores a 15
print(mi_serie[mi_serie > 15])

dos     20
tres    30
dtype: int64


### 2. DataFrames

Un **DataFrame** es una estructura bidimensional que se asemeja a una tabla, donde los datos están organizados en filas y columnas. Es la estructura más poderosa y flexible para manejar y analizar datos en Pandas.

#### Características de un DataFrame:

- Almacena datos en formato tabular con etiquetas para las filas y las columnas.
- Cada columna es una Serie, lo que permite manipular columnas individuales de forma eficiente.
- Puede contener datos de diferentes tipos en cada columna (por ejemplo, una columna con valores numéricos y otra con cadenas).

#### Creación de DataFrames

Los DataFrames pueden crearse a partir de varias fuentes de datos: diccionarios, listas de listas, archivos de datos (CSV, Excel, SQL), entre otros.

##### Creación desde un diccionario:

In [29]:
# Crear un DataFrame desde un diccionario
data = {'Nombre': ['Ana', 'Luis', 'María'], 'Edad': [23, 35, 29]}
df = pd.DataFrame(data)
print(df)

  Nombre  Edad
0    Ana    23
1   Luis    35
2  María    29


##### Creación desde una lista de listas:

In [30]:
# Crear un DataFrame desde una lista de listas
data = [[23, 'Ana'], [35, 'Luis'], [29, 'María']]
df = pd.DataFrame(data, columns=['Edad', 'Nombre'])
print(df)

   Edad Nombre
0    23    Ana
1    35   Luis
2    29  María


#### Operaciones comunes con DataFrames

Los DataFrames proporcionan una amplia gama de operaciones para manipular y analizar datos.

- **Acceder a columnas y filas**:

In [31]:
# Seleccionar una columna
print(df['Nombre'])

# Seleccionar varias columnas
print(df[['Nombre', 'Edad']])

# Acceder a una fila específica
print(df.loc[0])   # Acceso por índice
print(df.iloc[0])  # Acceso por posición

0      Ana
1     Luis
2    María
Name: Nombre, dtype: object
  Nombre  Edad
0    Ana    23
1   Luis    35
2  María    29
Edad       23
Nombre    Ana
Name: 0, dtype: object
Edad       23
Nombre    Ana
Name: 0, dtype: object


- **Filtrado y selección**:

In [32]:
# Filtrar filas donde la Edad es mayor a 25
print(df[df['Edad'] > 25])

   Edad Nombre
1    35   Luis
2    29  María


- **Agregar y eliminar columnas**:

In [33]:
# Agregar una nueva columna
df['Salario'] = [50000, 60000, 70000]
print(df)

# Eliminar una columna
df.drop(columns=['Salario'], inplace=True)
print(df)

   Edad Nombre  Salario
0    23    Ana    50000
1    35   Luis    60000
2    29  María    70000
   Edad Nombre
0    23    Ana
1    35   Luis
2    29  María


- **Estadísticas básicas en DataFrames**:

In [34]:
# Calcular la media de una columna
print(df['Edad'].mean())

# Estadísticas generales del DataFrame
print(df.describe())

29.0
       Edad
count   3.0
mean   29.0
std     6.0
min    23.0
25%    26.0
50%    29.0
75%    32.0
max    35.0


- **Ordenar los datos**:

In [35]:
# Ordenar por la columna 'Edad'
df_ordenado = df.sort_values(by='Edad')
print(df_ordenado)

   Edad Nombre
0    23    Ana
2    29  María
1    35   Luis


#### Modificación de un DataFrame

- **Renombrar columnas**:

In [36]:
df.rename(columns={'Nombre': 'Name', 'Edad': 'Age'}, inplace=True)
print(df)

   Age   Name
0   23    Ana
1   35   Luis
2   29  María


- **Reindexar filas**:

In [37]:
# Reindexar las filas
df_reindex = df.reindex([2, 0, 1])
print(df_reindex)

   Age   Name
2   29  María
0   23    Ana
1   35   Luis


- **Modificar valores**:

In [38]:
# Cambiar el valor en una celda específica
df.at[0, 'Age'] = 24
print(df)

   Age   Name
0   24    Ana
1   35   Luis
2   29  María


#### Importancia de los índices en DataFrames

Los DataFrames en Pandas tienen un índice de fila que sirve para identificar cada fila de manera única. El índice puede ser numérico o de cadena, y también puede ser una combinación de varias columnas (índice multi-nivel).

In [40]:
# Establecer una columna como índice
df.set_index('Name', inplace=True)
print(df)

       Age
Name      
Ana     24
Luis    35
María   29
