# **5. Introducción al manejo de datos con `Pandas` 🐼**

Pandas es una librería de Python, que se ha convertido en una herramienta indispensable para científicos de datos, analistas y profesionales que trabajan con datos estructurados.

**¿Por qué Pandas?**

Pandas destaca por su capacidad para manejar datos de manera eficiente y flexible. Sus principales ventajas incluyen:

* La habilidad para procesar tanto datos estructurados como no estructurados
* Potentes herramientas para limpieza y transformación de datos
* Funcionalidades avanzadas para el análisis estadístico
* Integración perfecta con otras librerías (numpy, seaborn matplot, statsmodels)


El análisis de datos con Pandas típicamente sigue un **flujo de trabajo estructurado**:

* **Importación  de Datos**: Pandas facilita la lectura de diversos formatos como CSV, Excel, SQL y JSON, entre otros.
* **Limpieza de Datos**: Una fase crítica que incluye el manejo de valores faltantes, eliminación de duplicados y corrección de inconsistencias.
* **Transformación**: Proceso de reestructuración de datos mediante operaciones como filtrado, agregación y pivoteo.
* **Análisis Exploratorio**: Utilización de estadísticas descriptivas y visualizaciones para comprender patrones y relaciones en los datos.

Para comenzar a utilizar Pandas se tiene que ejecutar el comando: 

```Python 
   import pandas as pd 

```

En este caso se utiliza la abreviación `pd` para ejecutar funciones que pertenecen a esta librería. 

## **5.1 Objetos básicos en Pandas**

**Estructuras de Datos Fundamentales**

Pandas se basa en dos estructuras de datos principales u objetos:

* **Series**: Arreglos unidimensionales etiquetados, similares a una lista, un arreglo (una dimensión) o una columna en una hoja de Excel.

* **DataFrame**: Estructuras bidimensionales que pueden verse como una tabla de base de datos.


### **5.1.1 Series**

Una **Serie** en Python (``pandas.Series``) es una estructura de datos unidimensional etiquetada (indexados) que puede contener cualquier tipo de datos (números, cadenas, objetos Python, datos personalizados) y pueden ser creadas a partir de listas, arreglos, diccionarios, etc.

**Sintáxis**

Para definir una serie en Pandas se utiliza la siguiente sintáxis.

```Python 
   pd.Series([e_1,...e_n])
``` 
Ejemplo: 

* Creación de Serie a partir de una **diccionario**.

  En este caso los valores están indexados o etiquetados por las claves del diccionario:

In [11]:
#Importamos librería
import pandas as pd 

#Creaos diccionario
salarios_data = {
                '2020': 120.36,  # Salario promedio 2020
                '2021': 130.97,  # Salario promedio 2021
                '2022': 140.89   # Salario promedio 2022
}

# Crear la serie

serie_salarios = pd.Series(salarios_data, name='Salario_Promedio_MXN')

print(serie_salarios)

2020    120.36
2021    130.97
2022    140.89
Name: Salario_Promedio_MXN, dtype: float64


* Creación de Serie a partir de una lista 

  Para el caso de las **listas** la indexación será por la posición del valor en ésta:


In [16]:
#Lista
salarios_data = [ 
                 120.36,  # Salario promedio 2020
                 130.97,  # Salario promedio 2021
                 140.89   # Salario promedio 2022
                 ]

# Crear la serie
serie_salarios2 = pd.Series(salarios_data, name='Salario_Promedio_MXN')

print(serie_salarios2)

0    120.36
1    130.97
2    140.89
Name: Salario_Promedio_MXN, dtype: float64


Por lo tanto, las **Series** tendran dos propiedad valores (*values*) e índices (*index*): 

In [17]:
#Valores 
print(serie_salarios.values)
#Index
print(serie_salarios.index)

[120.36 130.97 140.89]
Index(['2020', '2021', '2022'], dtype='object')


El 

### **5.1.2 Dataframes**

Un **Dataframe** en Python (``pandas.Series``) es una estructura de datos unidimensional etiquetada (indexados) que puede contener cualquier tipo de datos (números, cadenas, objetos Python, datos personalizados) y pueden ser creadas a partir de listas, arreglos, diccionarios, etc.

**Sintáxis**

Para definir una serie en Pandas se utiliza la siguiente sintáxis.

```Python 
   pd.Series([e_1,...e_n])
``` 
Ejemplo: 

* Creación de Serie a partir de una **diccionario**.

  En este caso los valores están indexados o etiquetados por las claves del diccionario:

## **5.2 Importar y explorar diferentes tipos de datos**


## **5.3 Limpieza y transformación de datos**


## **5.4 Agrupación y resumen de datos**


## **5.5 Trabajando con joins y merges**