# **5. Introducción al manejo de datos con `Pandas` 🐼**

Pandas es una librería de Python, que se ha convertido en una herramienta indispensable para científicos de datos, analistas y profesionales que trabajan con datos estructurados.

**¿Por qué Pandas?**

Pandas destaca por su capacidad para manejar datos de manera eficiente y flexible. Sus principales ventajas incluyen:

* La habilidad para procesar tanto datos estructurados como no estructurados
* Potentes herramientas para limpieza y transformación de datos
* Funcionalidades avanzadas para el análisis estadístico
* Integración perfecta con otras librerías (numpy, seaborn matplot, statsmodels)


El análisis de datos con Pandas típicamente sigue un **flujo de trabajo estructurado**:

* **Importación  de Datos**: Pandas facilita la lectura de diversos formatos como CSV, Excel, SQL y JSON, entre otros.
* **Limpieza de Datos**: Una fase crítica que incluye el manejo de valores faltantes, eliminación de duplicados y corrección de inconsistencias.
* **Transformación**: Proceso de reestructuración de datos mediante operaciones como filtrado, agregación y pivoteo.
* **Análisis Exploratorio**: Utilización de estadísticas descriptivas y visualizaciones para comprender patrones y relaciones en los datos.

Para comenzar a utilizar Pandas se tiene que ejecutar el comando:

```Python
   import pandas as pd

```

En este caso se utiliza la abreviación `pd` para ejecutar funciones que pertenecen a esta librería.

## **5.1 Objetos básicos en Pandas**

**Estructuras de Datos Fundamentales**

Pandas se basa en dos estructuras de datos principales u objetos:

* **Series**: Arreglos unidimensionales etiquetados, similares a una lista, un arreglo (una dimensión) o una columna en una hoja de Excel.

* **DataFrame**: Estructuras bidimensionales que pueden verse como una tabla de base de datos.


### **5.1.1 Series**

Una **Serie** en Python (``pandas.Series``) es una estructura de datos unidimensional etiquetada (indexados) que puede contener cualquier tipo de datos (números, cadenas, objetos Python, datos personalizados) y pueden ser creadas a partir de listas, arreglos, diccionarios, etc.

**Sintáxis**

Para definir una serie en Pandas se utiliza la siguiente sintáxis.

```Python
   pd.Series([e_1,...e_n])
```
Ejemplo:

* Creación de Serie a partir de una **diccionario**.

  En este caso los valores están indexados o etiquetados por las claves del diccionario:

In [None]:
#Importamos librería
import pandas as pd

#Creación diccionario
salarios_data = {

                '2021': 130.97,  # Salario promedio 2021
                '2022': 140.89   # Salario promedio 2022
                 }
# Crear la serie
serie_salarios = pd.Series(salarios_data, name='Salario_Promedio_MXN')

print(serie_salarios)

2021    130.97
2022    140.89
Name: Salario_Promedio_MXN, dtype: float64


* Creación de Serie a partir de una lista

  Para el caso de las **listas** la indexación será por la posición del valor en ésta:


In [None]:
#Lista
salarios_data = [
                 120.36,  # Salario promedio 2020
                 130.97,  # Salario promedio 2021
                 140.89   # Salario promedio 2022
                 ]

# Crear la serie
serie_salarios2 = pd.Series(salarios_data, name='Salario_Promedio_MXN')

print(serie_salarios2)

0    120.36
1    130.97
2    140.89
Name: Salario_Promedio_MXN, dtype: float64


Por lo tanto, las **Series** tendran dos propiedad valores (*values*) e índices (*index*):

In [None]:
#Valores
print(serie_salarios.values)
#Index
print(serie_salarios.index)

[130.97 140.89]
Index(['2021', '2022'], dtype='object')


Para el manejo y operación con series se combina características de diccionarios, listas y arreglos como :

* Acceso a elementos:  se puede acceder a elementos por su posición usando índices numéricos, igual que en listaso bien por la etiqueta no númerica definida.

* Operación: las series se operan de forma simiar a las listas y se le aplican funciones similares vistas en la **sección 2.2.1**

* Mutabilidad: A diferencia de listas y diccionarios, no puedes modificar elementos directamente por posición sin crear una nueva serie (aunque puedes modificar valores existentes).


### **5.1.2 Dataframes**

Un **Dataframe (DF)** en Python (``pandas.Series``) es una estructura de datos formada por columnas y filas, y al igual que las Series también puede está indexado. Este tipo de estructura en Pandas es la más común en el análisis de datos ya que es compatible con un gran número de librarías para el desarrollo de modelos econométricos y estadísticos. Los DF se forman a patir de otras estructuras más simples como lo son las listas, series, arreglos y diccionarios.


 * **Creación de Dataframe a partir de un diccionario**

     **Sintáxis**
     
     Para definir una DF en  Pandas a partir de un **diccionari**o se utiliza la siguiente sintáxis:
     
     ```Python
        pd.DataFrame(dict)
     ```
     
     Ejemplo:
     
      Se tiene un diccionario con datos de porcentaje de la población en situación de pobreza por estado en México ([CONEVAL 2022](https://www.coneval.org.mx/Medicion/MP/Paginas/Pobreza_2022.aspx)):




In [None]:
#Diccionario
dic_estados = {
    "Estados": ["Chiapas", "Guerrero", "Oaxaca", "Puebla", "Tlaxcala", "Veracruz", "Tabasco", "Campeche", "Zacatecas", "México", "Michoacán", "Morelos", "Hidalgo", "Yucatán", "San Luis Potosí", "Durango", "Guanajuato", "Nayarit", "Quintana Roo", "Tamaulipas", "Ciudad de México", "Aguascalientes", "Jalisco", "Sonora", "Querétaro", "Sinaloa", "Colima", "Coahuila", "Chihuahua", "Nuevo León", "Baja California", "Baja California Sur"],
    "TasaPobreza": [67.4, 60.4, 58.4, 54.0, 52.5, 51.7, 46.5, 45.1, 44.2, 42.9, 41.7, 41.1, 41.0, 38.8, 35.5, 34.3, 33.0, 29.3, 27.0, 26.8, 24.0, 23.7, 21.8, 21.7, 21.7, 21.6, 20.5, 18.2, 17.6, 16.0, 13.4, 13.3],
    "TasaDesempleo": [3.5, 2.8, 2.7, 3.0, 3.2, 3.3, 4.1, 3.8, 3.7, 4.0, 3.6, 3.5, 3.2, 2.9, 3.4, 3.6, 3.8, 3.3, 3.5, 4.2, 5.1, 3.9, 3.7, 3.5, 4.0, 3.6, 3.4, 3.2, 3.0, 3.1, 3.5, 3.2],
    "Region": ["Sur", "Sur", "Sur", "Centro", "Centro", "Sur", "Sur", "Sur", "Centro", "Centro", "Centro", "Centro", "Centro", "Sur", "Centro", "Norte", "Centro", "Centro", "Sur", "Norte", "Centro", "Centro", "Centro", "Norte", "Centro", "Norte", "Centro", "Norte", "Norte", "Norte", "Norte", "Norte"]
             }

print(fr"El diccionario tiene como claves{dic_estados.keys()}")



El diccionario tiene como clavesdict_keys(['Estados', 'TasaPobreza', 'TasaDesempleo', 'Region'])


In [None]:
#Crear DataFrame
df_estados = pd.DataFrame(dic_estados)

print(df_estados ,"\n", type(df_estados), "\n")

                Estados  TasaPobreza  TasaDesempleo  Region
0               Chiapas         67.4            3.5     Sur
1              Guerrero         60.4            2.8     Sur
2                Oaxaca         58.4            2.7     Sur
3                Puebla         54.0            3.0  Centro
4              Tlaxcala         52.5            3.2  Centro
5              Veracruz         51.7            3.3     Sur
6               Tabasco         46.5            4.1     Sur
7              Campeche         45.1            3.8     Sur
8             Zacatecas         44.2            3.7  Centro
9                México         42.9            4.0  Centro
10            Michoacán         41.7            3.6  Centro
11              Morelos         41.1            3.5  Centro
12              Hidalgo         41.0            3.2  Centro
13              Yucatán         38.8            2.9     Sur
14      San Luis Potosí         35.5            3.4  Centro
15              Durango         34.3    

Como se observa en la salida anterior, los DF son estructuras bidimensionales que están indexadas por las **filas** y también por las **columnas**.


### **Manejo y Funciones básicas en Data Frames**



#### **Funciones en dataframes**



In [None]:
#Columnas del Dataframe
df_estados.columns

Index(['Estados', 'TasaPobreza', 'TasaDesempleo', 'Region'], dtype='object')

Para obtener el número de filas y columnas de un Df podemo aplicar el comando  `shape`:

In [None]:
#Dimensión de Dataframe
df_estados.shape

(32, 4)

Además, si se requiere dar un vistazo a las primeras  o últimas `n` filas de DF se utilizarán las funciones `head()` y `tail()`:


In [None]:
#Primera 5 filas
print(df_estados.head(5))

#Ultimas 5 filas
print(df_estados.tail(5))

    Estados  TasaPobreza  TasaDesempleo  Region
0   Chiapas         67.4            3.5     Sur
1  Guerrero         60.4            2.8     Sur
2    Oaxaca         58.4            2.7     Sur
3    Puebla         54.0            3.0  Centro
4  Tlaxcala         52.5            3.2  Centro
                Estados  TasaPobreza  TasaDesempleo Region
27             Coahuila         18.2            3.2  Norte
28            Chihuahua         17.6            3.0  Norte
29           Nuevo León         16.0            3.1  Norte
30      Baja California         13.4            3.5  Norte
31  Baja California Sur         13.3            3.2  Norte


- **Información del DF**

In [None]:
# Información sobre el DataFrame
df_estados.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Estados        32 non-null     object 
 1   TasaPobreza    32 non-null     float64
 2   TasaDesempleo  32 non-null     float64
 3   Region         32 non-null     object 
dtypes: float64(2), object(2)
memory usage: 1.1+ KB


In [None]:
#Estadística descriptiva de variables númericas
df_estados.describe()

Unnamed: 0,TasaPobreza,TasaDesempleo
count,32.0,32.0
mean,34.534375,3.509375
std,14.934235,0.474076
min,13.3,2.7
25%,21.7,3.2
50%,33.65,3.5
75%,44.425,3.725
max,67.4,5.1


#### **Selección de elementos de un DF**

##### **Columnas**

In [None]:
#Columnas
df_estados['Estados']

0                 Chiapas
1                Guerrero
2                  Oaxaca
3                  Puebla
4                Tlaxcala
5                Veracruz
6                 Tabasco
7                Campeche
8               Zacatecas
9                  México
10              Michoacán
11                Morelos
12                Hidalgo
13                Yucatán
14        San Luis Potosí
15                Durango
16             Guanajuato
17                Nayarit
18           Quintana Roo
19             Tamaulipas
20       Ciudad de México
21         Aguascalientes
22                Jalisco
23                 Sonora
24              Querétaro
25                Sinaloa
26                 Colima
27               Coahuila
28              Chihuahua
29             Nuevo León
30        Baja California
31    Baja California Sur
Name: Estados, dtype: object

In [None]:
#Seleccionar multiples columnas
df_estados_2 = df_estados[['Estados', 'TasaPobreza']]

print(df_estados_2)


                Estados  TasaPobreza
0               Chiapas         67.4
1              Guerrero         60.4
2                Oaxaca         58.4
3                Puebla         54.0
4              Tlaxcala         52.5
5              Veracruz         51.7
6               Tabasco         46.5
7              Campeche         45.1
8             Zacatecas         44.2
9                México         42.9
10            Michoacán         41.7
11              Morelos         41.1
12              Hidalgo         41.0
13              Yucatán         38.8
14      San Luis Potosí         35.5
15              Durango         34.3
16           Guanajuato         33.0
17              Nayarit         29.3
18         Quintana Roo         27.0
19           Tamaulipas         26.8
20     Ciudad de México         24.0
21       Aguascalientes         23.7
22              Jalisco         21.8
23               Sonora         21.7
24            Querétaro         21.7
25              Sinaloa         21.6
2

##### **Filas**

In [None]:
#Primera Fila
df_estados.iloc[0]

Estados          Chiapas
TasaPobreza         67.4
TasaDesempleo        3.5
Region               Sur
Name: 0, dtype: object

In [None]:
#Listas
df_estados[0]

KeyError: 0

In [None]:
#Última fila
df_estados.iloc[-1]

Estados          Baja California Sur
TasaPobreza                     13.3
TasaDesempleo                    3.2
Region                         Norte
Name: 31, dtype: object

In [None]:
#Rango de filas
df_estados.iloc[0:3]

Unnamed: 0,Estados,TasaPobreza,TasaDesempleo,Region
0,Chiapas,67.4,3.5,Sur
1,Guerrero,60.4,2.8,Sur
2,Oaxaca,58.4,2.7,Sur


In [None]:
#Toda tod
#Rango de filas
df_estados.iloc[:]

Unnamed: 0,Estados,TasaPobreza,TasaDesempleo,Region
0,Chiapas,67.4,3.5,Sur
1,Guerrero,60.4,2.8,Sur
2,Oaxaca,58.4,2.7,Sur
3,Puebla,54.0,3.0,Centro
4,Tlaxcala,52.5,3.2,Centro
5,Veracruz,51.7,3.3,Sur
6,Tabasco,46.5,4.1,Sur
7,Campeche,45.1,3.8,Sur
8,Zacatecas,44.2,3.7,Centro
9,México,42.9,4.0,Centro


Podemos realizar la selección similar a las listas siempre y cuando sea un rango de filas

In [None]:
#Rango de filas son función iloc
df_estados[0:3]
df_estados[3:-1]

Unnamed: 0_level_0,TasaPobreza,TasaDesempleo,Region
Estados,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Puebla,54.0,3.0,Centro
Tlaxcala,52.5,3.2,Centro
Veracruz,51.7,3.3,Sur
Tabasco,46.5,4.1,Sur
Campeche,45.1,3.8,Sur
Zacatecas,44.2,3.7,Centro
México,42.9,4.0,Centro
Michoacán,41.7,3.6,Centro
Morelos,41.1,3.5,Centro
Hidalgo,41.0,3.2,Centro


**Podemos agregar la selección de columnas**

Sintaxis:

```Python
   df[inicio_row:final_row , incio_col: final_col ]
```

Ejemplo:


✅ Primeras 2 filas y todas las columnas

✅ Todas las filas, primera columna (variable)

In [None]:
print(df_estados.iloc[0:2, :] )

          TasaPobreza  TasaDesempleo Region
Estados                                    
Chiapas          67.4            3.5    Sur
Guerrero         60.4            2.8    Sur


In [None]:
print(df_estados.iloc[:, 0])

Estados
Chiapas                67.4
Guerrero               60.4
Oaxaca                 58.4
Puebla                 54.0
Tlaxcala               52.5
Veracruz               51.7
Tabasco                46.5
Campeche               45.1
Zacatecas              44.2
México                 42.9
Michoacán              41.7
Morelos                41.1
Hidalgo                41.0
Yucatán                38.8
San Luis Potosí        35.5
Durango                34.3
Guanajuato             33.0
Nayarit                29.3
Quintana Roo           27.0
Tamaulipas             26.8
Ciudad de México       24.0
Aguascalientes         23.7
Jalisco                21.8
Sonora                 21.7
Querétaro              21.7
Sinaloa                21.6
Colima                 20.5
Coahuila               18.2
Chihuahua              17.6
Nuevo León             16.0
Baja California        13.4
Baja California Sur    13.3
Name: TasaPobreza, dtype: float64


Lo DataFrames en Pandas vienen con un **índice preestablecido**, que puede ser una columna con identificadores únicos, una fecha en series temporales o una variable categórica

Para establecer un índice personalizado utilizamoss la función   `.loc[]`

Sintáxis

```Python
df.loc['col_index']
```


In [None]:
#Establecer Indice
df_estados.set_index('Estados',
                      inplace=True) #Inplace modifica el df original sin necesidad de asignarlo

In [None]:
#Estado
df_estados.loc['Chiapas']

TasaPobreza      67.4
TasaDesempleo     3.5
Region            Sur
Name: Chiapas, dtype: object

**.iloc[] vs .loc[]**

**Ventajas de  .iloc[]**
- Si el DF tiene un índice personalizado (ej., nombres en lugar de números), .iloc sigue funcionando con posiciones.

- Si un DF (por ejemplo, se reordena o se cambia el índice), .iloc sigue funcionando, mientras que .loc podría fallar si el índice ya no existe.
- .iloc es más útil para seleccionar por posición en loops

In [None]:
print(df_estados.iloc[-1])

TasaPobreza       13.3
TasaDesempleo      3.2
Region           Norte
Name: Baja California Sur, dtype: object


In [None]:
for i in range(len(df_estados)):

    print(df_estados.iloc[i])  # : len(df_estados) - 3

TasaPobreza      67.4
TasaDesempleo     3.5
Region            Sur
Name: Chiapas, dtype: object
TasaPobreza      60.4
TasaDesempleo     2.8
Region            Sur
Name: Guerrero, dtype: object
TasaPobreza      58.4
TasaDesempleo     2.7
Region            Sur
Name: Oaxaca, dtype: object
TasaPobreza        54.0
TasaDesempleo       3.0
Region           Centro
Name: Puebla, dtype: object
TasaPobreza        52.5
TasaDesempleo       3.2
Region           Centro
Name: Tlaxcala, dtype: object
TasaPobreza      51.7
TasaDesempleo     3.3
Region            Sur
Name: Veracruz, dtype: object
TasaPobreza      46.5
TasaDesempleo     4.1
Region            Sur
Name: Tabasco, dtype: object
TasaPobreza      45.1
TasaDesempleo     3.8
Region            Sur
Name: Campeche, dtype: object
TasaPobreza        44.2
TasaDesempleo       3.7
Region           Centro
Name: Zacatecas, dtype: object
TasaPobreza        42.9
TasaDesempleo       4.0
Region           Centro
Name: México, dtype: object
TasaPobreza        41.7

**Ventajas de  .loc[]**


- Asignación de valores y  modificación de valores con condiciones sin afectar el resto del DF


#### **Modificación de elementos de un DF**


Para el reemplazo o modificación de elementos en un DF. Podemos utilizar las siguientes funciones como:  `.loc, .iloc, .replace()`

Para el caso de la modificación de forma específica y directa

**Sintáxis**

```Python
1. df['columna_x'] = df['columna_x'].replace({'val_i': 'valor_n'})

2. df.loc['index_key', 'columna_x'] = 'valor_n'

3. df.iloc['index_num', 'columna_x'] = 'valor_n'

```

Ejemplos:

- Reemplazar o modificar columna índice

In [None]:
#Modificación de columna índice
df_estados = df_estados.reset_index() #reestablecer índice antes de reemplazar

df_estados['Estados'] = df_estados['Estados'].replace({'Nuevo León': 'NL',
                                                      'Ciudad de México': 'CDMX'})

#Opcional: Volver a establecer columna estados con índice
df_estados = df_estados.set_index('Estados')

print(df_estados.head(20))

                 index  TasaPobreza  TasaDesempleo  Region
Estados                                                   
Chiapas              0         67.4            3.5     Sur
Guerrero             1         60.4            2.8     Sur
Oaxaca               2         58.4            2.7     Sur
Puebla               3         54.0            3.0  Centro
Tlaxcala             4         52.5            3.2  Centro
Veracruz             5         51.7            3.3     Sur
Tabasco              6         46.5            4.1     Sur
Campeche             7         45.1            3.8     Sur
Zacatecas            8         44.2            3.7  Centro
México               9         42.9            4.0  Centro
Michoacán           10         41.7            3.6  Centro
Morelos             11         41.1            3.5  Centro
Hidalgo             12         41.0            3.2  Centro
Yucatán             13         38.8            2.9     Sur
San Luis Potosí     14         35.5            3.4  Cent

In [None]:
#Localizar valor
print(df_estados.loc['Chiapas', 'TasaDesempleo'])

#Reemplazo de valor específico con
df_estados.loc['Chiapas', 'TasaDesempleo'] = 4.7
#Nueva tasa
print(df_estados.loc['Chiapas', 'TasaDesempleo'])


65.4
4.7


In [None]:
#Localizar
print(df_estados.iloc[0, 2])
#Reemplazar valor de de forma directa
df_estados.loc[0, 2] = 5.3
#Nuevo
print(df_estados.iloc[0, 2])


4.7
4.7


**Creación de variables**

- Creación de **variables categóricas** a partir de una condición con `.loc`

**Sintáxis**

```Python

df.loc[condición , nueva_col] = 'valor_n'

```

Ejemplos:

- Clasificación de probreza :

In [None]:
df_estados.loc[df_estados["TasaPobreza"] > 50, "Clasif_Pobreza"] = "Alta"
df_estados.loc[df_estados["TasaPobreza"] <= 50, "Clasif_Pobreza"] = "Media"

print(df_estados['Clasif_Pobreza'])

Estados
Chiapas                 Alta
Guerrero                Alta
Oaxaca                  Alta
Puebla                  Alta
Tlaxcala                Alta
Veracruz                Alta
Tabasco                Media
Campeche               Media
Zacatecas              Media
México                 Media
Michoacán              Media
Morelos                Media
Hidalgo                Media
Yucatán                Media
San Luis Potosí        Media
Durango                Media
Guanajuato             Media
Nayarit                Media
Quintana Roo           Media
Tamaulipas             Media
CDMX                   Media
Aguascalientes         Media
Jalisco                Media
Sonora                 Media
Querétaro              Media
Sinaloa                Media
Colima                 Media
Coahuila               Media
Chihuahua              Media
NL                     Media
Baja California        Media
Baja California Sur    Media
0                        NaN
Name: Clasif_Pobreza, dtype: object

In [None]:
#Variable binaria
df_estados["dummy_Norte"] = 0
df_estados.loc[df_estados["Region"] == "Norte", "dummy_Norte"] = 1

#print(df_estados["dummy_Norte"])

* Multiples condiciones

In [None]:
#Definición de multiples condiciones
#Categoría por default
df_estados['Status región'] = 'Región no vulnerable'
#Creación de variable status de vulnerabilidad
df_estados.loc[(df_estados["Region"] == "Sur") & (df_estados["TasaPobreza"] > 50), "Status región"] = "Región Vulnerable"

#df_estados['Status región']

In [None]:
df_estados.reset_index()

Unnamed: 0,Estados,index,TasaPobreza,TasaDesempleo,Region,TasaDesemplep,2,Clasif_Pobreza,dummy_Norte,Status,Status región
0,Chiapas,0.0,67.4,4.7,Región Vulnerable,65.4,,Alta,0,,Región no vulnerable
1,Guerrero,1.0,60.4,2.8,Región Vulnerable,,,Alta,0,,Región no vulnerable
2,Oaxaca,2.0,58.4,2.7,Región Vulnerable,,,Alta,0,,Región no vulnerable
3,Puebla,3.0,54.0,3.0,Centro,,,Alta,0,,Región no vulnerable
4,Tlaxcala,4.0,52.5,3.2,Centro,,,Alta,0,,Región no vulnerable
5,Veracruz,5.0,51.7,3.3,Región Vulnerable,,,Alta,0,,Región no vulnerable
6,Tabasco,6.0,46.5,4.1,Sur,,,Media,0,,Región no vulnerable
7,Campeche,7.0,45.1,3.8,Sur,,,Media,0,,Región no vulnerable
8,Zacatecas,8.0,44.2,3.7,Centro,,,Media,0,,Región no vulnerable
9,México,9.0,42.9,4.0,Centro,,,Media,0,,Región no vulnerable


- Creación de variables **booleanas** a partir condiciones:

In [None]:
df_estados["Riesgo"] = (df_estados["TasaPobreza"] > 50) & (df_estados["TasaDesempleo"] > 4)


* Creación de variables con la función `.cut()`

In [None]:
#Creación de variables por cortes
df_estados["NivelDesempleo"] = pd.cut(df_estados["TasaDesempleo"],
                                      bins=[0, 3, 4, 5, 10],
                                      labels=["Bajo", "Medio", "Alto", "Crítico"])

* Creación de variable ranking por determinanda variable con `.rank()`

In [None]:
df_estados["RankingPobreza"] = df_estados["TasaPobreza"].rank(ascending=False)
df_estados["RankingPobreza"]

Estados
Chiapas                 1.0
Guerrero                2.0
Oaxaca                  3.0
Puebla                  4.0
Tlaxcala                5.0
Veracruz                6.0
Tabasco                 7.0
Campeche                8.0
Zacatecas               9.0
México                 10.0
Michoacán              11.0
Morelos                12.0
Hidalgo                13.0
Yucatán                14.0
San Luis Potosí        15.0
Durango                16.0
Guanajuato             17.0
Nayarit                18.0
Quintana Roo           19.0
Tamaulipas             20.0
CDMX                   21.0
Aguascalientes         22.0
Jalisco                23.0
Sonora                 24.5
Querétaro              24.5
Sinaloa                26.0
Colima                 27.0
Coahuila               28.0
Chihuahua              29.0
NL                     30.0
Baja California        31.0
Baja California Sur    32.0
0                       NaN
Name: RankingPobreza, dtype: float64

 * **Creación de Dataframe a partir de Serie**

     **Sintáxis**
     
     Para definir una DF en  Pandas a partir de un **Serie**o se utiliza la siguiente sintáxis:
     
     ```Python
        pd.DataFrame(Serie)
     ```
     
     Ejemplo:
      * Retomando la Serie de salarios promedio:
      


In [None]:
#Retomar Serie
serie_salarios = pd.Series(salarios_data,
                          name='Salario_Promedio_MXN')
print(type(serie_salarios))

#Crear DF
df_salarios = pd.DataFrame(serie_salarios)

print( fr"Mi DF de salarios es de tamaño: {df_salarios.shape} , y tiene las columnas {df_salarios.columns}" )


NameError: name 'salarios_data' is not defined

 * **Creación de Dataframe a partir de Arreglo de Numpy**

     **Sintáxis**
     
     Para definir una DF en  Pandas a partir de un **Arreglo** de dos dimensiones de Numpy o se utiliza la siguiente sintáxis:
     
     ```Python
        pd.DataFrame(array, columns = ["name_col1, name_col2"])
     ```
     
     Ejemplo:
      * Tenemos el arreglo :
      

In [None]:
# Arreglo con TOP 10
import  numpy as np
pais_pib = np.array([
                         ['Estados Unidos', 26954000],
                         ['China', 17963170],
                         ['Japón', 4210700],
                         ['Alemania', 4030400],
                         ['India', 3385090],
                         ['Reino Unido', 3108530],
                         ['Francia', 2780540],
                         ['Canadá', 2117480],
                         ['Italia', 2010350],
                         ['Brasil', 1920960]
                          ], dtype=object)


#Dataframe a partir de arreglo

df_pib = pd.DataFrame(pais_pib, columns= ['Países', "PIB"])

print(df_pib)

           Países       PIB
0  Estados Unidos  26954000
1           China  17963170
2           Japón   4210700
3        Alemania   4030400
4           India   3385090
5     Reino Unido   3108530
6         Francia   2780540
7          Canadá   2117480
8          Italia   2010350
9          Brasil   1920960


## **5.2 Importar y explorar diferentes tipos de datos**




## **5.3 Limpieza y transformación de datos**


## **5.4 Agrupación y resumen de datos**


## **5.5 Trabajando con joins y merges**