## **Introducción a Pandas**

Pandas es una biblioteca clave en Python para trabajar con datos tabulares de forma sencilla y eficiente. Permite manipular, analizar y limpiar datos utilizando estructuras como Series y DataFrames.



### Importación de Librerías

Antes de comenzar a trabajar con Pandas, es necesario importar la biblioteca junto con otras herramientas útiles para análisis de datos.



In [None]:
# Importar la biblioteca Pandas
import pandas as pd

# Importar NumPy (opcional, pero útil para análisis numérico)
import numpy as np


### Lectura de Archivos con Pandas

Pandas permite leer datos desde diferentes tipos de archivos, como CSV, Excel, JSON, entre otros. Aquí se muestra cómo cargar un archivo CSV en un DataFrame.





In [None]:
# Leer el archivo "titles.csv"
data = pd.read_csv("titles.csv")

# Mostrar las primeras filas del DataFrame
print(data.head())

### DataFrame en pandas
Un **DataFrame** es una estructura de datos bidimensional de Pandas, similar a una tabla en una base de datos o una hoja de cálculo. Está compuesta por filas y columnas etiquetadas, lo que permite almacenar y manipular datos de diferentes tipos en un formato organizado.



### Series en pandas
Una **Serie** es una estructura de datos unidimensional de Pandas, similar a una lista o un arreglo. Cada elemento de la Serie tiene un índice asociado, lo que facilita el acceso y manipulación de los datos de manera etiquetada.


## Métodos para *Visualización de alto nivel*


### Método `df.shape`

El método `df.shape` se utiliza para obtener las dimensiones de un DataFrame. Retorna una tupla con dos valores: el número de filas y el número de columnas.

```python
# Ejemplo de uso
print(data.shape)  # Salida: (n_filas, n_columnas)

### Atributo `df.columns`

El atributo `df.columns` devuelve los nombres de las columnas de un DataFrame como un objeto de tipo `Index`. Esto es útil para identificar las etiquetas de las columnas.

```python
# Ejemplo de uso
print(data.columns)  # Salida: Index(['columna1', 'columna2', ...], dtype='object')

### Método `df.info`

El método `df.info` proporciona un resumen detallado del DataFrame, incluyendo el número de entradas, el nombre de las columnas, el tipo de datos de cada columna y la cantidad de valores no nulos.

```python
# Ejemplo de uso
data.info()

### Método `df.describe`

El método `df.describe` genera estadísticas descriptivas de las columnas numéricas en un DataFrame. Incluye métricas como la media, desviación estándar, valores mínimo y máximo, y percentiles.

```python
# Ejemplo de uso
data.describe()

## Métodos de Acceso y Procesamiento

### Acceso a una columna 
Este método se utiliza para acceder a una columna específica dentro de un DataFrame. El nombre de la columna se debe colocar entre comillas.

```python
# Ejemplo de uso
column_data = data["column_name"]

### Ordenar valores `.sort_values()`

El método `.sort_values()` permite ordenar un DataFrame según los valores de una o más columnas.
```python
# Ejemplo de uso
sorted_data = data.sort_values(by="column_name")

### Ordenar por índice: `.sort_index()`

El método `.sort_index()` ordena un DataFrame según sus índices. Es útil cuando se desea reorganizar las filas basadas en su orden original.
```python
# Ejemplo de uso
sorted_by_index = data.sort_index()


### Contar valores únicos `.value_counts()`
El método `.value_counts()` muestra la frecuencia de los valores únicos en una 
columna, ideal para análisis de distribución de datos.
```python
# Ejemplo de uso
value_counts = data["column_name"].value_counts()
```

### Identificar valores nulos `.isnull(), .notnull()`

Los métodos `.isnull()` y `.notnull()` se utilizan para identificar valores nulos o no nulos en un DataFrame, respectivamente. Devuelven un DataFrame o Serie de valores booleanos.
```python
# Ejemplo de uso
null_values = data["column_name"].isnull()
non_null_values = data["column_name"].notnull()
```

## Métodos de Operaciones con Cadenas de Caracteres en Series

### Longitud de una cadena `s.str.len()`
El método `.str.len()` devuelve la longitud de las cadenas de texto en una Serie de Pandas.

```python
# Ejemplo de uso
lengths = data["column_name"].str.len()
```


### Verificar si contiene una subcadena `s.str.contains()`

El método `.str.contains()` permite verificar si cada elemento de una Serie de cadenas contiene una subcadena específica. Devuelve un valor booleano para cada fila.
```python
# Ejemplo de uso
contains_substring = data["column_name"].str.contains("subcadena")

### Verificar si empieza con una subcadena `s.str.startswith()`

El método `.str.startswith()` verifica si las cadenas en una Serie comienzan con una subcadena específica. Devuelve un valor booleano para cada fila.
```python
# Ejemplo de uso
starts_with = data["column_name"].str.startswith("subcadena")
```

### Verificar si termina con una subcadena`s.str.endswith()`

El método `.str.endswith()` verifica si las cadenas en una Serie terminan con una subcadena específica. También devuelve un valor booleano.

## Filtros en Pandas

Los filtros en Pandas permiten seleccionar datos específicos basados en condiciones. A continuación se muestran algunos métodos comunes para aplicar filtros a un DataFrame.

### Filtrar por Condición

Se puede aplicar un filtro a un DataFrame utilizando condiciones lógicas. Esto devuelve un DataFrame con las filas que cumplen la condición.

```python
# Filtrar filas donde el valor de la columna 'Edad' sea mayor que 30
filtered_data = data[data["Edad"] > 30]
```

### Filtrar con Múltiples Condiciones

Es posible combinar múltiples condiciones usando los operadores `&` (Y) y `|` (O). Recuerda encerrar cada condición entre paréntesis.

```python
# Filtrar filas donde la 'Edad' sea mayor que 30 y la 'Ciudad' sea 'Cochabamba'
filtered_data = data[(data["Edad"] > 30) & (data["Ciudad"] == "Cochabamba")]
```

### Filtrar por Valores Específicos

Se puede filtrar para obtener solo las filas que contienen valores específicos en una columna utilizando `.isin()`.
```python
# Filtrar filas donde la columna 'Ciudad' sea 'La Paz' o 'Santa Cruz'
filtered_data = data[data["Ciudad"].isin(["La Paz", "Santa Cruz"])]