# **5. Introducción al manejo de datos con `Pandas` 🐼**

Pandas es una librería de Python, que se ha convertido en una herramienta indispensable para científicos de datos, analistas y profesionales que trabajan con datos estructurados.

**¿Por qué Pandas?**

Pandas destaca por su capacidad para manejar datos de manera eficiente y flexible. Sus principales ventajas incluyen:

* La habilidad para procesar tanto datos estructurados como no estructurados
* Potentes herramientas para limpieza y transformación de datos
* Funcionalidades avanzadas para el análisis estadístico
* Integración perfecta con otras librerías (numpy, seaborn matplot, statsmodels)


El análisis de datos con Pandas típicamente sigue un **flujo de trabajo estructurado**:

* **Importación  de Datos**: Pandas facilita la lectura de diversos formatos como CSV, Excel, SQL y JSON, entre otros.
* **Limpieza de Datos**: Una fase crítica que incluye el manejo de valores faltantes, eliminación de duplicados y corrección de inconsistencias.
* **Transformación**: Proceso de reestructuración de datos mediante operaciones como filtrado, agregación y pivoteo.
* **Análisis Exploratorio**: Utilización de estadísticas descriptivas y visualizaciones para comprender patrones y relaciones en los datos.

Para comenzar a utilizar Pandas se tiene que ejecutar el comando: 

```Python 
   import pandas as pd 

```

En este caso se utiliza la abreviación `pd` para ejecutar funciones que pertenecen a esta librería. 

## **5.1 Objetos básicos en Pandas**

**Estructuras de Datos Fundamentales**

Pandas se basa en dos estructuras de datos principales u objetos:

* **Series**: Arreglos unidimensionales etiquetados, similares a una lista, un arreglo (una dimensión) o una columna en una hoja de Excel.

* **DataFrame**: Estructuras bidimensionales que pueden verse como una tabla de base de datos.


### **5.1.1 Series**

Una **Serie** en Python (``pandas.Series``) es una estructura de datos unidimensional etiquetada (indexados) que puede contener cualquier tipo de datos (números, cadenas, objetos Python, datos personalizados) y pueden ser creadas a partir de listas, arreglos, diccionarios, etc.

**Sintáxis**

Para definir una serie en Pandas se utiliza la siguiente sintáxis.

```Python 
   pd.Series([e_1,...e_n])
``` 
Ejemplo: 

* Creación de Serie a partir de una **diccionario**.

  En este caso los valores están indexados o etiquetados por las claves del diccionario:

In [11]:
#Importamos librería
import pandas as pd 

#Creación diccionario
salarios_data = {
                '2020': 120.36,  # Salario promedio 2020
                '2021': 130.97,  # Salario promedio 2021
                '2022': 140.89   # Salario promedio 2022
}

# Crear la serie

serie_salarios = pd.Series(salarios_data, name='Salario_Promedio_MXN')

print(serie_salarios)

2020    120.36
2021    130.97
2022    140.89
Name: Salario_Promedio_MXN, dtype: float64


* Creación de Serie a partir de una lista 

  Para el caso de las **listas** la indexación será por la posición del valor en ésta:


In [16]:
#Lista
salarios_data = [ 
                 120.36,  # Salario promedio 2020
                 130.97,  # Salario promedio 2021
                 140.89   # Salario promedio 2022
                 ]

# Crear la serie
serie_salarios2 = pd.Series(salarios_data, name='Salario_Promedio_MXN')

print(serie_salarios2)

0    120.36
1    130.97
2    140.89
Name: Salario_Promedio_MXN, dtype: float64


Por lo tanto, las **Series** tendran dos propiedad valores (*values*) e índices (*index*): 

In [17]:
#Valores 
print(serie_salarios.values)
#Index
print(serie_salarios.index)

[120.36 130.97 140.89]
Index(['2020', '2021', '2022'], dtype='object')


Para el manejo y operación con series se combina características de diccionarios, listas y arreglos como :

* Acceso a elementos:  se puede acceder a elementos por su posición usando índices numéricos, igual que en listaso bien por la etiqueta no númerica definida.

* Operación: las series se operan de forma simiar a las listas y se le aplican funciones similares vistas en la **sección 2.2.1**

* Mutabilidad: A diferencia de listas y diccionarios, no puedes modificar elementos directamente por posición sin crear una nueva serie (aunque puedes modificar valores existentes).


### **5.1.2 Dataframes**

Un **Dataframe (DF)** en Python (``pandas.Series``) es una estructura de datos formada por columnas y filas, y al igual que las Series también puede está indexado. Este tipo de estructura en Pandas es la más común en el análisis de datos ya que es compatible con un gran número de librarías para el desarrollo de modelos econométricos y estadísticos. Los DF se forman a patir de otras estructuras más simples como lo son las listas, series, arreglos y diccionarios.


 * **Creación de Dataframe a partir de un diccionario**

     **Sintáxis**
     
     Para definir una DF en  Pandas a partir de un **diccionari**o se utiliza la siguiente sintáxis:
     
     ```Python 
        pd.DataFrame(dict)
     ``` 
     
     Ejemplo: 
     
      Se tiene un diccionario con datos de porcentaje de la población en situación de pobreza por estado en México ([CONEVAL 2022](https://www.coneval.org.mx/Medicion/MP/Paginas/Pobreza_2022.aspx)):




In [None]:
#Definir Diccionario
dic_estados = { "Estados": ["Chiapas", "Guerrero", "Oaxaca", "Puebla", "Tlaxcala", "Veracruz", "Tabasco", "Campeche", "Zacatecas", "México", "Michoacán", "Morelos", "Hidalgo", "Yucatán", "San Luis Potosí", "Durango", "Guanajuato", "Nayarit", "Quintana Roo", "Tamaulipas", "Ciudad de México", "Aguascalientes", "Jalisco", "Sonora", "Querétaro", "Sinaloa", "Colima", "Coahuila", "Chihuahua", "Nuevo León", "Baja California", "Baja California Sur"],
                "TasaPobreza": [67.4, 60.4, 58.4, 54.0, 52.5, 51.7, 46.5, 45.1, 44.2, 42.9, 41.7, 41.1, 41.0, 38.8, 35.5, 34.3, 33.0, 29.3, 27.0, 26.8, 24.0, 23.7, 21.8, 21.7, 21.7, 21.6, 20.5, 18.2, 17.6, 16.0, 13.4, 13.3]
}
print(fr"El diccionario tiene como claves{dic_estados.keys()}")

#Crear DataFrame
df_estados = pd.DataFrame(dic_estados)

print(df_estados ,"\n", type(df_estados), "\n")

El diccionario tiene como clavesdict_keys(['Estados', 'TasaPobreza'])
                Estados  TasaPobreza
0               Chiapas         67.4
1              Guerrero         60.4
2                Oaxaca         58.4
3                Puebla         54.0
4              Tlaxcala         52.5
5              Veracruz         51.7
6               Tabasco         46.5
7              Campeche         45.1
8             Zacatecas         44.2
9                México         42.9
10            Michoacán         41.7
11              Morelos         41.1
12              Hidalgo         41.0
13              Yucatán         38.8
14      San Luis Potosí         35.5
15              Durango         34.3
16           Guanajuato         33.0
17              Nayarit         29.3
18         Quintana Roo         27.0
19           Tamaulipas         26.8
20     Ciudad de México         24.0
21       Aguascalientes         23.7
22              Jalisco         21.8
23               Sonora         21.7
24   

Como se observa en la salida anterior, los DF son estructuras bidimensionales que están indexadas por las **filas** y también por las **columnas**. Para ver el índice  de las columnas utilizamos el comando `columns`:

In [40]:
#Columnas del Dataframe
df_estados.columns

Index(['Estados', 'TasaPobreza'], dtype='object')

Para obtener el número de filas y columnas de un Df podemo aplicar el comando  `shape`:

In [39]:
#Dimensión de Dataframe
df_estados.shape

(32, 2)

Además, si se requiere dar un vistazo a las primeras  o últimas `n` filas de DF se utilizarán las funciones `head()` y `tail()`:


In [44]:
#Primera 5 filas
print(df_estados.head(5))

#Ultimas 5 filas
print(df_estados.tail(5))

    Estados  TasaPobreza
0   Chiapas         67.4
1  Guerrero         60.4
2    Oaxaca         58.4
3    Puebla         54.0
4  Tlaxcala         52.5
                Estados  TasaPobreza
27             Coahuila         18.2
28            Chihuahua         17.6
29           Nuevo León         16.0
30      Baja California         13.4
31  Baja California Sur         13.3


 * **Creación de Dataframe a partir de Serie**

     **Sintáxis**
     
     Para definir una DF en  Pandas a partir de un **Serie**o se utiliza la siguiente sintáxis:
     
     ```Python 
        pd.DataFrame(Serie)
     ``` 
     
     Ejemplo: 
      * Retomando la Serie de salarios promedio:
      


In [64]:
#Retomar Serie
serie_salarios = pd.Series(salarios_data, name='Salario_Promedio_MXN')
print(type(serie_salarios))

#Crear DF
df_salarios = pd.DataFrame(serie_salarios)

print( fr"Mi DF de salarios es de tamaño: {df_salarios.shape} , y tiene las columnas {df_salarios.columns}" )

<class 'pandas.core.series.Series'>
Mi DF de salarios es de tamaño: (3, 1) , y tiene las columnas Index(['Salario_Promedio_MXN'], dtype='object')


 * **Creación de Dataframe a partir de Arreglo de Numpy**

     **Sintáxis**
     
     Para definir una DF en  Pandas a partir de un **Arreglo** de dos dimensiones de Numpy o se utiliza la siguiente sintáxis:
     
     ```Python 
        pd.DataFrame(array, columns = ["nombres"])
     ``` 
     
     Ejemplo: 
      * Tenemos el arreglo :
      

## **5.2 Importar y explorar diferentes tipos de datos**


## **5.3 Limpieza y transformación de datos**


## **5.4 Agrupación y resumen de datos**


## **5.5 Trabajando con joins y merges**