# **5. Introducci√≥n al manejo de datos con `Pandas` üêº**

Pandas es una librer√≠a de Python, que se ha convertido en una herramienta indispensable para cient√≠ficos de datos, analistas y profesionales que trabajan con datos estructurados.

**¬øPor qu√© Pandas?**

Pandas destaca por su capacidad para manejar datos de manera eficiente y flexible. Sus principales ventajas incluyen:

* La habilidad para procesar tanto datos estructurados como no estructurados
* Potentes herramientas para limpieza y transformaci√≥n de datos
* Funcionalidades avanzadas para el an√°lisis estad√≠stico
* Integraci√≥n perfecta con otras librer√≠as (numpy, seaborn matplot, statsmodels)


El an√°lisis de datos con Pandas t√≠picamente sigue un **flujo de trabajo estructurado**:

* **Importaci√≥n  de Datos**: Pandas facilita la lectura de diversos formatos como CSV, Excel, SQL y JSON, entre otros.
* **Limpieza de Datos**: Una fase cr√≠tica que incluye el manejo de valores faltantes, eliminaci√≥n de duplicados y correcci√≥n de inconsistencias.
* **Transformaci√≥n**: Proceso de reestructuraci√≥n de datos mediante operaciones como filtrado, agregaci√≥n y pivoteo.
* **An√°lisis Exploratorio**: Utilizaci√≥n de estad√≠sticas descriptivas y visualizaciones para comprender patrones y relaciones en los datos.

Para comenzar a utilizar Pandas se tiene que ejecutar el comando: 

```Python 
   import pandas as pd 

```

En este caso se utiliza la abreviaci√≥n `pd` para ejecutar funciones que pertenecen a esta librer√≠a. 

## **5.1 Objetos b√°sicos en Pandas**

**Estructuras de Datos Fundamentales**

Pandas se basa en dos estructuras de datos principales u objetos:

* **Series**: Arreglos unidimensionales etiquetados, similares a una lista, un arreglo (una dimensi√≥n) o una columna en una hoja de Excel.

* **DataFrame**: Estructuras bidimensionales que pueden verse como una tabla de base de datos.


### **5.1.1 Series**

Una **Serie** en Python (``pandas.Series``) es una estructura de datos unidimensional etiquetada (indexados) que puede contener cualquier tipo de datos (n√∫meros, cadenas, objetos Python, datos personalizados) y pueden ser creadas a partir de listas, arreglos, diccionarios, etc.

**Sint√°xis**

Para definir una serie en Pandas se utiliza la siguiente sint√°xis.

```Python 
   pd.Series([e_1,...e_n])
``` 
Ejemplo: 

* Creaci√≥n de Serie a partir de una **diccionario**.

  En este caso los valores est√°n indexados o etiquetados por las claves del diccionario:

In [70]:
#Importamos librer√≠a
import pandas as pd 

#Creaci√≥n diccionario
salarios_data = {
    
                '2021': 130.97,  # Salario promedio 2021
                '2022': 140.89   # Salario promedio 2022
                 }
# Crear la serie
serie_salarios = pd.Series(salarios_data, name='Salario_Promedio_MXN')

print(serie_salarios)

2021    130.97
2022    140.89
Name: Salario_Promedio_MXN, dtype: float64


* Creaci√≥n de Serie a partir de una lista 

  Para el caso de las **listas** la indexaci√≥n ser√° por la posici√≥n del valor en √©sta:


In [71]:
#Lista
salarios_data = [ 
                 120.36,  # Salario promedio 2020
                 130.97,  # Salario promedio 2021
                 140.89   # Salario promedio 2022
                 ]

# Crear la serie
serie_salarios2 = pd.Series(salarios_data, name='Salario_Promedio_MXN')

print(serie_salarios2)

0    120.36
1    130.97
2    140.89
Name: Salario_Promedio_MXN, dtype: float64


Por lo tanto, las **Series** tendran dos propiedad valores (*values*) e √≠ndices (*index*): 

In [72]:
#Valores 
print(serie_salarios.values)
#Index
print(serie_salarios.index)

[130.97 140.89]
Index(['2021', '2022'], dtype='object')


Para el manejo y operaci√≥n con series se combina caracter√≠sticas de diccionarios, listas y arreglos como :

* Acceso a elementos:  se puede acceder a elementos por su posici√≥n usando √≠ndices num√©ricos, igual que en listaso bien por la etiqueta no n√∫merica definida.

* Operaci√≥n: las series se operan de forma simiar a las listas y se le aplican funciones similares vistas en la **secci√≥n 2.2.1**

* Mutabilidad: A diferencia de listas y diccionarios, no puedes modificar elementos directamente por posici√≥n sin crear una nueva serie (aunque puedes modificar valores existentes).


### **5.1.2 Dataframes**

Un **Dataframe (DF)** en Python (``pandas.Series``) es una estructura de datos formada por columnas y filas, y al igual que las Series tambi√©n puede est√° indexado. Este tipo de estructura en Pandas es la m√°s com√∫n en el an√°lisis de datos ya que es compatible con un gran n√∫mero de librar√≠as para el desarrollo de modelos econom√©tricos y estad√≠sticos. Los DF se forman a patir de otras estructuras m√°s simples como lo son las listas, series, arreglos y diccionarios.


 * **Creaci√≥n de Dataframe a partir de un diccionario**

     **Sint√°xis**
     
     Para definir una DF en  Pandas a partir de un **diccionari**o se utiliza la siguiente sint√°xis:
     
     ```Python 
        pd.DataFrame(dict)
     ``` 
     
     Ejemplo: 
     
      Se tiene un diccionario con datos de porcentaje de la poblaci√≥n en situaci√≥n de pobreza por estado en M√©xico ([CONEVAL 2022](https://www.coneval.org.mx/Medicion/MP/Paginas/Pobreza_2022.aspx)):




In [128]:
#Diccionario
dic_estados = {
    "Estados": ["Chiapas", "Guerrero", "Oaxaca", "Puebla", "Tlaxcala", "Veracruz", "Tabasco", "Campeche", "Zacatecas", "M√©xico", "Michoac√°n", "Morelos", "Hidalgo", "Yucat√°n", "San Luis Potos√≠", "Durango", "Guanajuato", "Nayarit", "Quintana Roo", "Tamaulipas", "Ciudad de M√©xico", "Aguascalientes", "Jalisco", "Sonora", "Quer√©taro", "Sinaloa", "Colima", "Coahuila", "Chihuahua", "Nuevo Le√≥n", "Baja California", "Baja California Sur"],
    "TasaPobreza": [67.4, 60.4, 58.4, 54.0, 52.5, 51.7, 46.5, 45.1, 44.2, 42.9, 41.7, 41.1, 41.0, 38.8, 35.5, 34.3, 33.0, 29.3, 27.0, 26.8, 24.0, 23.7, 21.8, 21.7, 21.7, 21.6, 20.5, 18.2, 17.6, 16.0, 13.4, 13.3],
    "TasaDesempleo": [3.5, 2.8, 2.7, 3.0, 3.2, 3.3, 4.1, 3.8, 3.7, 4.0, 3.6, 3.5, 3.2, 2.9, 3.4, 3.6, 3.8, 3.3, 3.5, 4.2, 5.1, 3.9, 3.7, 3.5, 4.0, 3.6, 3.4, 3.2, 3.0, 3.1, 3.5, 3.2],
    "Region": ["Sur", "Sur", "Sur", "Centro", "Centro", "Sur", "Sur", "Sur", "Centro", "Centro", "Centro", "Centro", "Centro", "Sur", "Centro", "Norte", "Centro", "Centro", "Sur", "Norte", "Centro", "Centro", "Centro", "Norte", "Centro", "Norte", "Centro", "Norte", "Norte", "Norte", "Norte", "Norte"]
             }

print(fr"El diccionario tiene como claves{dic_estados.keys()}")



El diccionario tiene como clavesdict_keys(['Estados', 'TasaPobreza', 'TasaDesempleo', 'Region'])


In [None]:
#Crear DataFrame
df_estados = pd.DataFrame(dic_estados)

print(df_estados ,"\n", type(df_estados), "\n")

                Estados  TasaPobreza  TasaDesempleo  Region
0               Chiapas         67.4            3.5     Sur
1              Guerrero         60.4            2.8     Sur
2                Oaxaca         58.4            2.7     Sur
3                Puebla         54.0            3.0  Centro
4              Tlaxcala         52.5            3.2  Centro
5              Veracruz         51.7            3.3     Sur
6               Tabasco         46.5            4.1     Sur
7              Campeche         45.1            3.8     Sur
8             Zacatecas         44.2            3.7  Centro
9                M√©xico         42.9            4.0  Centro
10            Michoac√°n         41.7            3.6  Centro
11              Morelos         41.1            3.5  Centro
12              Hidalgo         41.0            3.2  Centro
13              Yucat√°n         38.8            2.9     Sur
14      San Luis Potos√≠         35.5            3.4  Centro
15              Durango         34.3

Como se observa en la salida anterior, los DF son estructuras bidimensionales que est√°n indexadas por las **filas** y tambi√©n por las **columnas**.


### **Manejo y Funciones b√°sicas en Data Frames**



#### **Funciones en dataframes**



In [75]:
#Columnas del Dataframe
df_estados.columns

Index(['Estados', 'TasaPobreza', 'TasaDesempleo', 'Region'], dtype='object')

Para obtener el n√∫mero de filas y columnas de un Df podemo aplicar el comando  `shape`:

In [76]:
#Dimensi√≥n de Dataframe
df_estados.shape

(32, 4)

Adem√°s, si se requiere dar un vistazo a las primeras  o √∫ltimas `n` filas de DF se utilizar√°n las funciones `head()` y `tail()`:


In [77]:
#Primera 5 filas
print(df_estados.head(5))

#Ultimas 5 filas
print(df_estados.tail(5))

    Estados  TasaPobreza  TasaDesempleo  Region
0   Chiapas         67.4            3.5     Sur
1  Guerrero         60.4            2.8     Sur
2    Oaxaca         58.4            2.7     Sur
3    Puebla         54.0            3.0  Centro
4  Tlaxcala         52.5            3.2  Centro
                Estados  TasaPobreza  TasaDesempleo Region
27             Coahuila         18.2            3.2  Norte
28            Chihuahua         17.6            3.0  Norte
29           Nuevo Le√≥n         16.0            3.1  Norte
30      Baja California         13.4            3.5  Norte
31  Baja California Sur         13.3            3.2  Norte


- **Informaci√≥n del DF**

In [78]:
# Informaci√≥n sobre el DataFrame
df_estados.info()  


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Estados        32 non-null     object 
 1   TasaPobreza    32 non-null     float64
 2   TasaDesempleo  32 non-null     float64
 3   Region         32 non-null     object 
dtypes: float64(2), object(2)
memory usage: 1.1+ KB


In [79]:
#Estad√≠stica descriptiva de variables n√∫mericas 
df_estados.describe()

Unnamed: 0,TasaPobreza,TasaDesempleo
count,32.0,32.0
mean,34.534375,3.509375
std,14.934235,0.474076
min,13.3,2.7
25%,21.7,3.2
50%,33.65,3.5
75%,44.425,3.725
max,67.4,5.1


#### **Selecci√≥n de elementos  y modificaci√≥n**

##### **Columnas**

In [80]:
#Columnas 
df_estados['Estados']

0                 Chiapas
1                Guerrero
2                  Oaxaca
3                  Puebla
4                Tlaxcala
5                Veracruz
6                 Tabasco
7                Campeche
8               Zacatecas
9                  M√©xico
10              Michoac√°n
11                Morelos
12                Hidalgo
13                Yucat√°n
14        San Luis Potos√≠
15                Durango
16             Guanajuato
17                Nayarit
18           Quintana Roo
19             Tamaulipas
20       Ciudad de M√©xico
21         Aguascalientes
22                Jalisco
23                 Sonora
24              Quer√©taro
25                Sinaloa
26                 Colima
27               Coahuila
28              Chihuahua
29             Nuevo Le√≥n
30        Baja California
31    Baja California Sur
Name: Estados, dtype: object

In [81]:
#Seleccionar multiples columnas 
df_estados_2 = df_estados[['Estados', 'TasaPobreza']]

print(df_estados_2)


                Estados  TasaPobreza
0               Chiapas         67.4
1              Guerrero         60.4
2                Oaxaca         58.4
3                Puebla         54.0
4              Tlaxcala         52.5
5              Veracruz         51.7
6               Tabasco         46.5
7              Campeche         45.1
8             Zacatecas         44.2
9                M√©xico         42.9
10            Michoac√°n         41.7
11              Morelos         41.1
12              Hidalgo         41.0
13              Yucat√°n         38.8
14      San Luis Potos√≠         35.5
15              Durango         34.3
16           Guanajuato         33.0
17              Nayarit         29.3
18         Quintana Roo         27.0
19           Tamaulipas         26.8
20     Ciudad de M√©xico         24.0
21       Aguascalientes         23.7
22              Jalisco         21.8
23               Sonora         21.7
24            Quer√©taro         21.7
25              Sinaloa         

##### **Columnas**

In [102]:
#Primera Fila 
df_estados.iloc[0]

Estados          Chiapas
TasaPobreza         67.4
TasaDesempleo        3.5
Region               Sur
Name: 0, dtype: object

In [None]:
#Listas
df_estados[0]

KeyError: 0

In [109]:
#√öltima fila 
df_estados.iloc[-1]

Estados          Baja California Sur
TasaPobreza                     13.3
TasaDesempleo                    3.2
Region                         Norte
Name: 31, dtype: object

In [110]:
#Rango de filas
df_estados.iloc[0:3]  

Unnamed: 0,Estados,TasaPobreza,TasaDesempleo,Region
0,Chiapas,67.4,3.5,Sur
1,Guerrero,60.4,2.8,Sur
2,Oaxaca,58.4,2.7,Sur


In [111]:
#Toda tod 
#Rango de filas
df_estados.iloc[:]  

Unnamed: 0,Estados,TasaPobreza,TasaDesempleo,Region
0,Chiapas,67.4,3.5,Sur
1,Guerrero,60.4,2.8,Sur
2,Oaxaca,58.4,2.7,Sur
3,Puebla,54.0,3.0,Centro
4,Tlaxcala,52.5,3.2,Centro
5,Veracruz,51.7,3.3,Sur
6,Tabasco,46.5,4.1,Sur
7,Campeche,45.1,3.8,Sur
8,Zacatecas,44.2,3.7,Centro
9,M√©xico,42.9,4.0,Centro


Podemos realizar la selecci√≥n similar a las listas siempre y cuando sea un rango de filas

In [119]:
#Rango de filas son funci√≥n iloc 
df_estados[0:3]  
df_estados[3:-1]  

Unnamed: 0_level_0,TasaPobreza,TasaDesempleo,Region
Estados,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Puebla,54.0,3.0,Centro
Tlaxcala,52.5,3.2,Centro
Veracruz,51.7,3.3,Sur
Tabasco,46.5,4.1,Sur
Campeche,45.1,3.8,Sur
Zacatecas,44.2,3.7,Centro
M√©xico,42.9,4.0,Centro
Michoac√°n,41.7,3.6,Centro
Morelos,41.1,3.5,Centro
Hidalgo,41.0,3.2,Centro


**Podemos agregar la selecci√≥n de columnas**

Sintaxis: 

```Python 
   df[inicio_row:final_row , incio_col: final_col ]
``` 

Ejemplo: 


‚úÖ Primeras 2 filas y todas las columnas

‚úÖ Todas las filas, primera columna (variable)

In [124]:
print(df_estados.iloc[0:2, :] )

          TasaPobreza  TasaDesempleo Region
Estados                                    
Chiapas          67.4            3.5    Sur
Guerrero         60.4            2.8    Sur


In [125]:
print(df_estados.iloc[:, 0])

Estados
Chiapas                67.4
Guerrero               60.4
Oaxaca                 58.4
Puebla                 54.0
Tlaxcala               52.5
Veracruz               51.7
Tabasco                46.5
Campeche               45.1
Zacatecas              44.2
M√©xico                 42.9
Michoac√°n              41.7
Morelos                41.1
Hidalgo                41.0
Yucat√°n                38.8
San Luis Potos√≠        35.5
Durango                34.3
Guanajuato             33.0
Nayarit                29.3
Quintana Roo           27.0
Tamaulipas             26.8
Ciudad de M√©xico       24.0
Aguascalientes         23.7
Jalisco                21.8
Sonora                 21.7
Quer√©taro              21.7
Sinaloa                21.6
Colima                 20.5
Coahuila               18.2
Chihuahua              17.6
Nuevo Le√≥n             16.0
Baja California        13.4
Baja California Sur    13.3
Name: TasaPobreza, dtype: float64


Lo DataFrames en Pandas vienen con un **√≠ndice preestablecido**, que puede ser una columna con identificadores √∫nicos, una fecha en series temporales o una variable categ√≥rica

Para establecer un √≠ndice personalizado utilizamoss la funci√≥n   `.loc[]`

Sint√°xis

```Python
df.loc['col_index'] 
```


In [130]:
#Establecer Indice
df_estados.set_index('Estados',
                      inplace=True) #Inplace modifica el df original sin necesidad de asignarlo

In [136]:
#Estado
df_estados.loc['Chiapas']

TasaPobreza      67.4
TasaDesempleo     3.5
Region            Sur
Name: Chiapas, dtype: object

**.iloc[] vs .loc[]**

**Ventajas de  .iloc[]**
- Si el DF tiene un √≠ndice personalizado (ej., nombres en lugar de n√∫meros), .iloc sigue funcionando con posiciones.

- Si un DF (por ejemplo, se reordena o se cambia el √≠ndice), .iloc sigue funcionando, mientras que .loc podr√≠a fallar si el √≠ndice ya no existe.
- .iloc es m√°s √ötil para seleccionar por posici√≥n en loops

In [146]:
print(df_estados.iloc[-1])

TasaPobreza       13.3
TasaDesempleo      3.2
Region           Norte
Name: Baja California Sur, dtype: object


In [143]:
for i in range(len(df_estados)):

    print(df_estados.iloc[i])  # : len(df_estados) - 3

TasaPobreza      67.4
TasaDesempleo     3.5
Region            Sur
Name: Chiapas, dtype: object
TasaPobreza      60.4
TasaDesempleo     2.8
Region            Sur
Name: Guerrero, dtype: object
TasaPobreza      58.4
TasaDesempleo     2.7
Region            Sur
Name: Oaxaca, dtype: object
TasaPobreza        54.0
TasaDesempleo       3.0
Region           Centro
Name: Puebla, dtype: object
TasaPobreza        52.5
TasaDesempleo       3.2
Region           Centro
Name: Tlaxcala, dtype: object
TasaPobreza      51.7
TasaDesempleo     3.3
Region            Sur
Name: Veracruz, dtype: object
TasaPobreza      46.5
TasaDesempleo     4.1
Region            Sur
Name: Tabasco, dtype: object
TasaPobreza      45.1
TasaDesempleo     3.8
Region            Sur
Name: Campeche, dtype: object
TasaPobreza        44.2
TasaDesempleo       3.7
Region           Centro
Name: Zacatecas, dtype: object
TasaPobreza        42.9
TasaDesempleo       4.0
Region           Centro
Name: M√©xico, dtype: object
TasaPobreza        41.

**Ventajas de  .loc[]**

 * **Creaci√≥n de Dataframe a partir de Serie**

     **Sint√°xis**
     
     Para definir una DF en  Pandas a partir de un **Serie**o se utiliza la siguiente sint√°xis:
     
     ```Python 
        pd.DataFrame(Serie)
     ``` 
     
     Ejemplo: 
      * Retomando la Serie de salarios promedio:
      


In [17]:
#Retomar Serie
serie_salarios = pd.Series(salarios_data,
                          name='Salario_Promedio_MXN')
print(type(serie_salarios))

#Crear DF
df_salarios = pd.DataFrame(serie_salarios)

print( fr"Mi DF de salarios es de tama√±o: {df_salarios.shape} , y tiene las columnas {df_salarios.columns}" )


NameError: name 'salarios_data' is not defined

 * **Creaci√≥n de Dataframe a partir de Arreglo de Numpy**

     **Sint√°xis**
     
     Para definir una DF en  Pandas a partir de un **Arreglo** de dos dimensiones de Numpy o se utiliza la siguiente sint√°xis:
     
     ```Python 
        pd.DataFrame(array, columns = ["name_col1, name_col2"])
     ``` 
     
     Ejemplo: 
      * Tenemos el arreglo :
      

In [18]:
# Arreglo con TOP 10 
import  numpy as np 
pais_pib = np.array([
                         ['Estados Unidos', 26954000],
                         ['China', 17963170],
                         ['Jap√≥n', 4210700],
                         ['Alemania', 4030400],
                         ['India', 3385090],
                         ['Reino Unido', 3108530],
                         ['Francia', 2780540],
                         ['Canad√°', 2117480],
                         ['Italia', 2010350],
                         ['Brasil', 1920960]
                          ], dtype=object)


#Dataframe a partir de arreglo 

df_pib = pd.DataFrame(pais_pib, columns= ['Pa√≠ses', "PIB"])

print(df_pib)

           Pa√≠ses       PIB
0  Estados Unidos  26954000
1           China  17963170
2           Jap√≥n   4210700
3        Alemania   4030400
4           India   3385090
5     Reino Unido   3108530
6         Francia   2780540
7          Canad√°   2117480
8          Italia   2010350
9          Brasil   1920960


## **5.2 Importar y explorar diferentes tipos de datos**




## **5.3 Limpieza y transformaci√≥n de datos**


## **5.4 Agrupaci√≥n y resumen de datos**


## **5.5 Trabajando con joins y merges**