<a href="https://colab.research.google.com/github/DiegoSReco/intro_python_para_economistas/blob/main/script_python_5_Analisis_Datos_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **5. Introducci√≥n al manejo de datos con `Pandas` üêº**

Pandas es una librer√≠a de Python, que se ha convertido en una herramienta indispensable para cient√≠ficos de datos, analistas y profesionales que trabajan con datos estructurados.

**¬øPor qu√© Pandas?**

Pandas destaca por su capacidad para manejar datos de manera eficiente y flexible. Sus principales ventajas incluyen:

* La habilidad para procesar tanto datos estructurados como no estructurados
* Potentes herramientas para limpieza y transformaci√≥n de datos
* Funcionalidades avanzadas para el an√°lisis estad√≠stico
* Integraci√≥n perfecta con otras librer√≠as (numpy, seaborn matplot, statsmodels)


El an√°lisis de datos con Pandas t√≠picamente sigue un **flujo de trabajo estructurado**:

* **Importaci√≥n  de Datos**: Pandas facilita la lectura de diversos formatos como CSV, Excel, SQL y JSON, entre otros.
* **Limpieza de Datos**: Una fase cr√≠tica que incluye el manejo de valores faltantes, eliminaci√≥n de duplicados y correcci√≥n de inconsistencias.
* **Transformaci√≥n**: Proceso de reestructuraci√≥n de datos mediante operaciones como filtrado, agregaci√≥n y pivoteo.
* **An√°lisis Exploratorio**: Utilizaci√≥n de estad√≠sticas descriptivas y visualizaciones para comprender patrones y relaciones en los datos.

Para comenzar a utilizar Pandas se tiene que ejecutar el comando:

```Python
   import pandas as pd

```

En este caso se utiliza la abreviaci√≥n `pd` para ejecutar funciones que pertenecen a esta librer√≠a.

## **5.1 Objetos b√°sicos en Pandas**

**Estructuras de Datos Fundamentales**

Pandas se basa en dos estructuras de datos principales u objetos:

* **Series**: Arreglos unidimensionales etiquetados, similares a una lista, un arreglo (una dimensi√≥n) o una columna en una hoja de Excel.

* **DataFrame**: Estructuras bidimensionales que pueden verse como una tabla de base de datos.


### **5.1.1 Series**

Una **Serie** en Python (``pandas.Series``) es una estructura de datos unidimensional etiquetada (indexados) que puede contener cualquier tipo de datos (n√∫meros, cadenas, objetos Python, datos personalizados) y pueden ser creadas a partir de listas, arreglos, diccionarios, etc.

**Sint√°xis**

Para definir una serie en Pandas se utiliza la siguiente sint√°xis.

```Python
   pd.Series([e_1,...e_n])
```
Ejemplo:

* Creaci√≥n de Serie a partir de una **diccionario**.

  En este caso los valores est√°n indexados o etiquetados por las claves del diccionario:

In [2]:
#Importamos librer√≠a
import pandas as pd

#Creaci√≥n diccionario
salarios_data = {

                '2021': 130.97,  # Salario promedio 2021
                '2022': 140.89   # Salario promedio 2022
                 }
# Crear la serie
serie_salarios = pd.Series(salarios_data, name='Salario_Promedio_MXN')

print(serie_salarios)

type(serie_salarios)

2021    130.97
2022    140.89
Name: Salario_Promedio_MXN, dtype: float64


* Creaci√≥n de Serie a partir de una lista

  Para el caso de las **listas** la indexaci√≥n ser√° por la posici√≥n del valor en √©sta:


In [4]:
#Lista
salarios_data = [
                 120.36,  # Salario promedio 2020
                 130.97,  # Salario promedio 2021
                 140.89   # Salario promedio 2022
                 ]

# Crear la serie
serie_salarios2 = pd.Series(salarios_data, name='Salario_Promedio_MXN')

print(serie_salarios2)

0    120.36
1    130.97
2    140.89
Name: Salario_Promedio_MXN, dtype: float64


Por lo tanto, las **Series** tendran dos propiedad valores (*values*) e √≠ndices (*index*):

In [6]:
#Valores
print(serie_salarios.values)
#Index
print(serie_salarios.index)

[130.97 140.89]
Index(['2021', '2022'], dtype='object')


In [7]:
#Valores
print(serie_salarios2.values)
#Index
print(serie_salarios2.index)

[120.36 130.97 140.89]
RangeIndex(start=0, stop=3, step=1)


Para el manejo y operaci√≥n con series se combina caracter√≠sticas de diccionarios, listas y arreglos como :

* Acceso a elementos:  se puede acceder a elementos por su posici√≥n usando √≠ndices num√©ricos, igual que en listaso bien por la etiqueta no n√∫merica definida.

* Operaci√≥n: las series se operan de forma simiar a las listas y se le aplican funciones similares vistas en la **secci√≥n 2.2.1**

* Mutabilidad: A diferencia de listas y diccionarios, no puedes modificar elementos directamente por posici√≥n sin crear una nueva serie (aunque puedes modificar valores existentes).


### **5.1.2 Dataframes**

Un **Dataframe (DF)** en Python (``pandas.Series``) es una estructura de datos formada por columnas y filas, y al igual que las Series tambi√©n puede est√° indexado. Este tipo de estructura en Pandas es la m√°s com√∫n en el an√°lisis de datos ya que es compatible con un gran n√∫mero de librar√≠as para el desarrollo de modelos econom√©tricos y estad√≠sticos. Los DF se forman a patir de otras estructuras m√°s simples como lo son las listas, series, arreglos y diccionarios.


 * **Creaci√≥n de Dataframe a partir de un diccionario**

     **Sint√°xis**
     
     Para definir una DF en  Pandas a partir de un **diccionari**o se utiliza la siguiente sint√°xis:
     
     ```Python
        pd.DataFrame(dict)
     ```
     
     Ejemplo:
     
      Se tiene un diccionario con datos de porcentaje de la poblaci√≥n en situaci√≥n de pobreza por estado en M√©xico ([CONEVAL 2022](https://www.coneval.org.mx/Medicion/MP/Paginas/Pobreza_2022.aspx)):




In [8]:
#Diccionario
dic_estados = {
    "Estados": ["Chiapas", "Guerrero", "Oaxaca", "Puebla", "Tlaxcala", "Veracruz", "Tabasco", "Campeche", "Zacatecas", "M√©xico", "Michoac√°n", "Morelos", "Hidalgo", "Yucat√°n", "San Luis Potos√≠", "Durango", "Guanajuato", "Nayarit", "Quintana Roo", "Tamaulipas", "Ciudad de M√©xico", "Aguascalientes", "Jalisco", "Sonora", "Quer√©taro", "Sinaloa", "Colima", "Coahuila", "Chihuahua", "Nuevo Le√≥n", "Baja California", "Baja California Sur"],
    "TasaPobreza": [67.4, 60.4, 58.4, 54.0, 52.5, 51.7, 46.5, 45.1, 44.2, 42.9, 41.7, 41.1, 41.0, 38.8, 35.5, 34.3, 33.0, 29.3, 27.0, 26.8, 24.0, 23.7, 21.8, 21.7, 21.7, 21.6, 20.5, 18.2, 17.6, 16.0, 13.4, 13.3],
    "TasaDesempleo": [3.5, 2.8, 2.7, 3.0, 3.2, 3.3, 4.1, 3.8, 3.7, 4.0, 3.6, 3.5, 3.2, 2.9, 3.4, 3.6, 3.8, 3.3, 3.5, 4.2, 5.1, 3.9, 3.7, 3.5, 4.0, 3.6, 3.4, 3.2, 3.0, 3.1, 3.5, 3.2],
    "Region": ["Sur", "Sur", "Sur", "Centro", "Centro", "Sur", "Sur", "Sur", "Centro", "Centro", "Centro", "Centro", "Centro", "Sur", "Centro", "Norte", "Centro", "Centro", "Sur", "Norte", "Centro", "Centro", "Centro", "Norte", "Centro", "Norte", "Centro", "Norte", "Norte", "Norte", "Norte", "Norte"]
             }

print(fr"El diccionario tiene como claves{dic_estados.keys()}")



El diccionario tiene como clavesdict_keys(['Estados', 'TasaPobreza', 'TasaDesempleo', 'Region'])


In [9]:
#Crear DataFrame
df_estados = pd.DataFrame(dic_estados)

print(df_estados ,"\n", type(df_estados), "\n")

                Estados  TasaPobreza  TasaDesempleo  Region
0               Chiapas         67.4            3.5     Sur
1              Guerrero         60.4            2.8     Sur
2                Oaxaca         58.4            2.7     Sur
3                Puebla         54.0            3.0  Centro
4              Tlaxcala         52.5            3.2  Centro
5              Veracruz         51.7            3.3     Sur
6               Tabasco         46.5            4.1     Sur
7              Campeche         45.1            3.8     Sur
8             Zacatecas         44.2            3.7  Centro
9                M√©xico         42.9            4.0  Centro
10            Michoac√°n         41.7            3.6  Centro
11              Morelos         41.1            3.5  Centro
12              Hidalgo         41.0            3.2  Centro
13              Yucat√°n         38.8            2.9     Sur
14      San Luis Potos√≠         35.5            3.4  Centro
15              Durango         34.3

Como se observa en la salida anterior, los DF son estructuras bidimensionales que est√°n indexadas por las **filas** y tambi√©n por las **columnas**.


### **Manejo y Funciones b√°sicas en Data Frames**



#### **Funciones en dataframes**



In [12]:
#Columnas del Dataframe
df_estados.columns

Index(['Estados', 'TasaPobreza', 'TasaDesempleo', 'Region'], dtype='object')

Para obtener el n√∫mero de filas y columnas de un Df podemo aplicar el comando  `shape`:

In [13]:
#Dimensi√≥n de Dataframe
df_estados.shape

(32, 4)

Adem√°s, si se requiere dar un vistazo a las primeras  o √∫ltimas `n` filas de DF se utilizar√°n las funciones `head()` y `tail()`:


In [16]:
#Primera 5 filas
print(df_estados.head(10))

#Ultimas 5 filas
print(df_estados.tail(3))

     Estados  TasaPobreza  TasaDesempleo  Region
0    Chiapas         67.4            3.5     Sur
1   Guerrero         60.4            2.8     Sur
2     Oaxaca         58.4            2.7     Sur
3     Puebla         54.0            3.0  Centro
4   Tlaxcala         52.5            3.2  Centro
5   Veracruz         51.7            3.3     Sur
6    Tabasco         46.5            4.1     Sur
7   Campeche         45.1            3.8     Sur
8  Zacatecas         44.2            3.7  Centro
9     M√©xico         42.9            4.0  Centro
                Estados  TasaPobreza  TasaDesempleo Region
29           Nuevo Le√≥n         16.0            3.1  Norte
30      Baja California         13.4            3.5  Norte
31  Baja California Sur         13.3            3.2  Norte


- **Informaci√≥n del DF**

In [17]:
# Informaci√≥n sobre el DataFrame
df_estados.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Estados        32 non-null     object 
 1   TasaPobreza    32 non-null     float64
 2   TasaDesempleo  32 non-null     float64
 3   Region         32 non-null     object 
dtypes: float64(2), object(2)
memory usage: 1.1+ KB


In [18]:
#Estad√≠stica descriptiva de variables n√∫mericas
df_estados.describe()

Unnamed: 0,TasaPobreza,TasaDesempleo
count,32.0,32.0
mean,34.534375,3.509375
std,14.934235,0.474076
min,13.3,2.7
25%,21.7,3.2
50%,33.65,3.5
75%,44.425,3.725
max,67.4,5.1


#### **Selecci√≥n de elementos de un DF**

##### **Columnas**

In [19]:
#Columnas
df_estados['TasaDesempleo']

Unnamed: 0,TasaDesempleo
0,3.5
1,2.8
2,2.7
3,3.0
4,3.2
5,3.3
6,4.1
7,3.8
8,3.7
9,4.0


In [22]:
#Seleccionar multiples columnas
df_estados_2 = df_estados[['Estados', 'TasaPobreza']]

print(df_estados_2)


                Estados  TasaPobreza
0               Chiapas         67.4
1              Guerrero         60.4
2                Oaxaca         58.4
3                Puebla         54.0
4              Tlaxcala         52.5
5              Veracruz         51.7
6               Tabasco         46.5
7              Campeche         45.1
8             Zacatecas         44.2
9                M√©xico         42.9
10            Michoac√°n         41.7
11              Morelos         41.1
12              Hidalgo         41.0
13              Yucat√°n         38.8
14      San Luis Potos√≠         35.5
15              Durango         34.3
16           Guanajuato         33.0
17              Nayarit         29.3
18         Quintana Roo         27.0
19           Tamaulipas         26.8
20     Ciudad de M√©xico         24.0
21       Aguascalientes         23.7
22              Jalisco         21.8
23               Sonora         21.7
24            Quer√©taro         21.7
25              Sinaloa         

##### **Filas**

In [23]:
#Primera Fila
df_estados.iloc[0]

Unnamed: 0,0
Estados,Chiapas
TasaPobreza,67.4
TasaDesempleo,3.5
Region,Sur


In [25]:
#Listas
df_estados[0]

KeyError: 0

In [26]:
#√öltima fila
df_estados.iloc[-1]

Unnamed: 0,31
Estados,Baja California Sur
TasaPobreza,13.3
TasaDesempleo,3.2
Region,Norte


In [27]:
#Rango de filas
df_estados.iloc[0:3]

Unnamed: 0,Estados,TasaPobreza,TasaDesempleo,Region
0,Chiapas,67.4,3.5,Sur
1,Guerrero,60.4,2.8,Sur
2,Oaxaca,58.4,2.7,Sur


In [29]:
#Toda tod
#Rango de filas
df_estados.iloc[5:]

Unnamed: 0,Estados,TasaPobreza,TasaDesempleo,Region
5,Veracruz,51.7,3.3,Sur
6,Tabasco,46.5,4.1,Sur
7,Campeche,45.1,3.8,Sur
8,Zacatecas,44.2,3.7,Centro
9,M√©xico,42.9,4.0,Centro
10,Michoac√°n,41.7,3.6,Centro
11,Morelos,41.1,3.5,Centro
12,Hidalgo,41.0,3.2,Centro
13,Yucat√°n,38.8,2.9,Sur
14,San Luis Potos√≠,35.5,3.4,Centro


Podemos realizar la selecci√≥n similar a las listas siempre y cuando sea un rango de filas

In [34]:
#Rango de filas son funci√≥n iloc
df_estados[0:3]
df_estados[3:-1]

Unnamed: 0,Estados,TasaPobreza,TasaDesempleo,Region
3,Puebla,54.0,3.0,Centro
4,Tlaxcala,52.5,3.2,Centro
5,Veracruz,51.7,3.3,Sur
6,Tabasco,46.5,4.1,Sur
7,Campeche,45.1,3.8,Sur
8,Zacatecas,44.2,3.7,Centro
9,M√©xico,42.9,4.0,Centro
10,Michoac√°n,41.7,3.6,Centro
11,Morelos,41.1,3.5,Centro
12,Hidalgo,41.0,3.2,Centro


**Podemos agregar la selecci√≥n de columnas**

Sintaxis:

```Python
   df[inicio_row:final_row , incio_col: final_col ]
```

Ejemplo:


‚úÖ Primeras 2 filas y todas las columnas

‚úÖ Todas las filas, primera columna (variable)

In [36]:
print(df_estados.iloc[0:2, :] )

    Estados  TasaPobreza  TasaDesempleo Region
0   Chiapas         67.4            3.5    Sur
1  Guerrero         60.4            2.8    Sur


In [38]:
print(df_estados.iloc[:, 1])

0     67.4
1     60.4
2     58.4
3     54.0
4     52.5
5     51.7
6     46.5
7     45.1
8     44.2
9     42.9
10    41.7
11    41.1
12    41.0
13    38.8
14    35.5
15    34.3
16    33.0
17    29.3
18    27.0
19    26.8
20    24.0
21    23.7
22    21.8
23    21.7
24    21.7
25    21.6
26    20.5
27    18.2
28    17.6
29    16.0
30    13.4
31    13.3
Name: TasaPobreza, dtype: float64


Lo DataFrames en Pandas vienen con un **√≠ndice preestablecido**, que puede ser una columna con identificadores √∫nicos, una fecha en series temporales o una variable categ√≥rica

Para establecer un √≠ndice personalizado utilizamoss la funci√≥n   `.loc[]`

Sint√°xis

```Python
df.loc['col_index']
```


In [40]:
df_estados.index

RangeIndex(start=0, stop=32, step=1)

In [41]:
#Establecer Indice
df_estados.set_index('Estados',
                      inplace=True) #Inplace modifica el df original sin necesidad de asignarlo

In [42]:
df_estados.index

Index(['Chiapas', 'Guerrero', 'Oaxaca', 'Puebla', 'Tlaxcala', 'Veracruz',
       'Tabasco', 'Campeche', 'Zacatecas', 'M√©xico', 'Michoac√°n', 'Morelos',
       'Hidalgo', 'Yucat√°n', 'San Luis Potos√≠', 'Durango', 'Guanajuato',
       'Nayarit', 'Quintana Roo', 'Tamaulipas', 'Ciudad de M√©xico',
       'Aguascalientes', 'Jalisco', 'Sonora', 'Quer√©taro', 'Sinaloa', 'Colima',
       'Coahuila', 'Chihuahua', 'Nuevo Le√≥n', 'Baja California',
       'Baja California Sur'],
      dtype='object', name='Estados')

In [46]:
#Estado
df_estados.loc['M√©xico']

Unnamed: 0,M√©xico
TasaPobreza,42.9
TasaDesempleo,4.0
Region,Centro


**.iloc[] vs .loc[]**

**Ventajas de  .iloc[]**
- Si el DF tiene un √≠ndice personalizado (ej., nombres en lugar de n√∫meros), .iloc sigue funcionando con posiciones.

- Si un DF (por ejemplo, se reordena o se cambia el √≠ndice), .iloc sigue funcionando, mientras que .loc podr√≠a fallar si el √≠ndice ya no existe.
- .iloc es m√°s √∫til para seleccionar por posici√≥n en loops

In [47]:
print(df_estados.iloc[-1])

TasaPobreza       13.3
TasaDesempleo      3.2
Region           Norte
Name: Baja California Sur, dtype: object


In [48]:
for i in range(len(df_estados)):

    print(df_estados.iloc[i])  # : len(df_estados) - 3

TasaPobreza      67.4
TasaDesempleo     3.5
Region            Sur
Name: Chiapas, dtype: object
TasaPobreza      60.4
TasaDesempleo     2.8
Region            Sur
Name: Guerrero, dtype: object
TasaPobreza      58.4
TasaDesempleo     2.7
Region            Sur
Name: Oaxaca, dtype: object
TasaPobreza        54.0
TasaDesempleo       3.0
Region           Centro
Name: Puebla, dtype: object
TasaPobreza        52.5
TasaDesempleo       3.2
Region           Centro
Name: Tlaxcala, dtype: object
TasaPobreza      51.7
TasaDesempleo     3.3
Region            Sur
Name: Veracruz, dtype: object
TasaPobreza      46.5
TasaDesempleo     4.1
Region            Sur
Name: Tabasco, dtype: object
TasaPobreza      45.1
TasaDesempleo     3.8
Region            Sur
Name: Campeche, dtype: object
TasaPobreza        44.2
TasaDesempleo       3.7
Region           Centro
Name: Zacatecas, dtype: object
TasaPobreza        42.9
TasaDesempleo       4.0
Region           Centro
Name: M√©xico, dtype: object
TasaPobreza        41.

**Ventajas de  .loc[]**


- Asignaci√≥n de valores y  modificaci√≥n de valores con condiciones sin afectar el resto del DF


#### **Modificaci√≥n de elementos de un DF**


Para el reemplazo o modificaci√≥n de elementos en un DF. Podemos utilizar las siguientes funciones como:  `.loc, .iloc, .replace()`

Para el caso de la modificaci√≥n de forma espec√≠fica y directa

**Sint√°xis**

```Python
1. df['columna_x'] = df['columna_x'].replace({'val_i': 'valor_n'})

2. df.loc['index_key', 'columna_x'] = 'valor_n'

3. df.iloc['index_num', 'columna_x'] = 'valor_n'

```

Ejemplos:

- Reemplazar o modificar columna √≠ndice

In [51]:
#Modificaci√≥n de columna √≠ndice
df_estados = df_estados.reset_index() #reestablecer √≠ndice antes de reemplazar

df_estados['Estados'] = df_estados['Estados'].replace({'Nuevo Le√≥n': 'NL',
                                                       'Ciudad de M√©xico': 'CDMX'})

#Opcional: Volver a establecer columna estados con √≠ndice
df_estados = df_estados.set_index('Estados')

print(df_estados)

                     index  TasaPobreza  TasaDesempleo  Region
Estados                                                       
Chiapas                  0         67.4            3.5     Sur
Guerrero                 1         60.4            2.8     Sur
Oaxaca                   2         58.4            2.7     Sur
Puebla                   3         54.0            3.0  Centro
Tlaxcala                 4         52.5            3.2  Centro
Veracruz                 5         51.7            3.3     Sur
Tabasco                  6         46.5            4.1     Sur
Campeche                 7         45.1            3.8     Sur
Zacatecas                8         44.2            3.7  Centro
M√©xico                   9         42.9            4.0  Centro
Michoac√°n               10         41.7            3.6  Centro
Morelos                 11         41.1            3.5  Centro
Hidalgo                 12         41.0            3.2  Centro
Yucat√°n                 13         38.8            2

In [53]:
#Localizar valor
print(df_estados.loc['Chiapas', 'TasaDesempleo'])

#Reemplazo de valor espec√≠fico con
df_estados.loc['Chiapas', 'TasaDesempleo'] = 4.7


#Nueva tasa
print(df_estados.loc['Chiapas', 'TasaDesempleo'])

3.5
4.7


In [55]:
df_estados

Unnamed: 0_level_0,index,TasaPobreza,TasaDesempleo,Region
Estados,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Chiapas,0,67.4,4.7,Sur
Guerrero,1,60.4,2.8,Sur
Oaxaca,2,58.4,2.7,Sur
Puebla,3,54.0,3.0,Centro
Tlaxcala,4,52.5,3.2,Centro
Veracruz,5,51.7,3.3,Sur
Tabasco,6,46.5,4.1,Sur
Campeche,7,45.1,3.8,Sur
Zacatecas,8,44.2,3.7,Centro
M√©xico,9,42.9,4.0,Centro


In [56]:
#Localizar
print(df_estados.iloc[0, 2])

#Reemplazar valor de de forma directa
df_estados.loc[0, 2] = 5.3
#Nuevo
print(df_estados.iloc[0, 2])

4.7


**Creaci√≥n de variables**

- Creaci√≥n de **variables categ√≥ricas** a partir de una condici√≥n con `.loc`

**Sint√°xis**

```Python

df.loc[condici√≥n , nueva_col] = 'valor_n'

```

Ejemplos:

- Clasificaci√≥n de probreza :

In [61]:
df_estados.head(10)

Unnamed: 0_level_0,index,TasaPobreza,TasaDesempleo,Region,Clasif_Pobreza
Estados,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Chiapas,0,67.4,4.7,Sur,Alta
Guerrero,1,60.4,2.8,Sur,Alta
Oaxaca,2,58.4,2.7,Sur,Alta
Puebla,3,54.0,3.0,Centro,Alta
Tlaxcala,4,52.5,3.2,Centro,Alta
Veracruz,5,51.7,3.3,Sur,Alta
Tabasco,6,46.5,4.1,Sur,
Campeche,7,45.1,3.8,Sur,
Zacatecas,8,44.2,3.7,Centro,
M√©xico,9,42.9,4.0,Centro,


In [63]:
df_estados.loc[df_estados["TasaPobreza"] > 50, "Clasif_Pobreza"] = "Alta"
df_estados.loc[df_estados["TasaPobreza"] <= 50, "Clasif_Pobreza"] = "Media"

print(df_estados['Clasif_Pobreza'])

Estados
Chiapas                 Alta
Guerrero                Alta
Oaxaca                  Alta
Puebla                  Alta
Tlaxcala                Alta
Veracruz                Alta
Tabasco                Media
Campeche               Media
Zacatecas              Media
M√©xico                 Media
Michoac√°n              Media
Morelos                Media
Hidalgo                Media
Yucat√°n                Media
San Luis Potos√≠        Media
Durango                Media
Guanajuato             Media
Nayarit                Media
Quintana Roo           Media
Tamaulipas             Media
CDMX                   Media
Aguascalientes         Media
Jalisco                Media
Sonora                 Media
Quer√©taro              Media
Sinaloa                Media
Colima                 Media
Coahuila               Media
Chihuahua              Media
NL                     Media
Baja California        Media
Baja California Sur    Media
Name: Clasif_Pobreza, dtype: object


In [66]:
#Variable binaria
df_estados["dummy_Norte"] = 0

df_estados.loc[df_estados["Region"] == "Norte", "dummy_Norte"] = 1

* Multiples condiciones

In [69]:
#Definici√≥n de multiples condiciones
#Categor√≠a por default
df_estados['Status regi√≥n'] = "Regi√≥n no vulnerable"
#Creaci√≥n de variable status de vulnerabilidad
df_estados.loc[(df_estados["Region"] == "Sur") & (df_estados["TasaPobreza"] > 50), "Status regi√≥n"] = "Regi√≥n Vulnerable"

df_estados

Unnamed: 0_level_0,index,TasaPobreza,TasaDesempleo,Region,Clasif_Pobreza,dummy_Norte,Status regi√≥n
Estados,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Chiapas,0,67.4,4.7,Sur,Alta,0,Regi√≥n Vulnerable
Guerrero,1,60.4,2.8,Sur,Alta,0,Regi√≥n Vulnerable
Oaxaca,2,58.4,2.7,Sur,Alta,0,Regi√≥n Vulnerable
Puebla,3,54.0,3.0,Centro,Alta,0,Regi√≥n no vulnerable
Tlaxcala,4,52.5,3.2,Centro,Alta,0,Regi√≥n no vulnerable
Veracruz,5,51.7,3.3,Sur,Alta,0,Regi√≥n Vulnerable
Tabasco,6,46.5,4.1,Sur,Media,0,Regi√≥n no vulnerable
Campeche,7,45.1,3.8,Sur,Media,0,Regi√≥n no vulnerable
Zacatecas,8,44.2,3.7,Centro,Media,0,Regi√≥n no vulnerable
M√©xico,9,42.9,4.0,Centro,Media,0,Regi√≥n no vulnerable


In [70]:
df_estados.reset_index()

Unnamed: 0,Estados,index,TasaPobreza,TasaDesempleo,Region,Clasif_Pobreza,dummy_Norte,Status regi√≥n
0,Chiapas,0,67.4,4.7,Sur,Alta,0,Regi√≥n Vulnerable
1,Guerrero,1,60.4,2.8,Sur,Alta,0,Regi√≥n Vulnerable
2,Oaxaca,2,58.4,2.7,Sur,Alta,0,Regi√≥n Vulnerable
3,Puebla,3,54.0,3.0,Centro,Alta,0,Regi√≥n no vulnerable
4,Tlaxcala,4,52.5,3.2,Centro,Alta,0,Regi√≥n no vulnerable
5,Veracruz,5,51.7,3.3,Sur,Alta,0,Regi√≥n Vulnerable
6,Tabasco,6,46.5,4.1,Sur,Media,0,Regi√≥n no vulnerable
7,Campeche,7,45.1,3.8,Sur,Media,0,Regi√≥n no vulnerable
8,Zacatecas,8,44.2,3.7,Centro,Media,0,Regi√≥n no vulnerable
9,M√©xico,9,42.9,4.0,Centro,Media,0,Regi√≥n no vulnerable


- Creaci√≥n de variables **booleanas** a partir condiciones:

In [71]:
df_estados["Riesgo"] = (df_estados["TasaPobreza"] > 50) & (df_estados["TasaDesempleo"] > 4)


In [73]:
df_estados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 32 entries, Chiapas to Baja California Sur
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   index           32 non-null     int64  
 1   TasaPobreza     32 non-null     float64
 2   TasaDesempleo   32 non-null     float64
 3   Region          32 non-null     object 
 4   Clasif_Pobreza  32 non-null     object 
 5   dummy_Norte     32 non-null     int64  
 6   Status regi√≥n   32 non-null     object 
 7   Riesgo          32 non-null     bool   
dtypes: bool(1), float64(2), int64(2), object(3)
memory usage: 3.1+ KB


* Creaci√≥n de variables con la funci√≥n `.cut()`

In [None]:
#Creaci√≥n de variables por cortes
df_estados["NivelDesempleo"] = pd.cut(df_estados["TasaDesempleo"],
                                      bins=[0, 3, 4, 5, 10],
                                      labels=["Bajo", "Medio", "Alto", "Cr√≠tico"])

* Creaci√≥n de variable ranking por determinanda variable con `.rank()`

In [None]:
df_estados["RankingPobreza"] = df_estados["TasaPobreza"].rank(ascending=False)
df_estados["RankingPobreza"]

Estados
Chiapas                 1.0
Guerrero                2.0
Oaxaca                  3.0
Puebla                  4.0
Tlaxcala                5.0
Veracruz                6.0
Tabasco                 7.0
Campeche                8.0
Zacatecas               9.0
M√©xico                 10.0
Michoac√°n              11.0
Morelos                12.0
Hidalgo                13.0
Yucat√°n                14.0
San Luis Potos√≠        15.0
Durango                16.0
Guanajuato             17.0
Nayarit                18.0
Quintana Roo           19.0
Tamaulipas             20.0
CDMX                   21.0
Aguascalientes         22.0
Jalisco                23.0
Sonora                 24.5
Quer√©taro              24.5
Sinaloa                26.0
Colima                 27.0
Coahuila               28.0
Chihuahua              29.0
NL                     30.0
Baja California        31.0
Baja California Sur    32.0
0                       NaN
Name: RankingPobreza, dtype: float64

 * **Creaci√≥n de Dataframe a partir de Serie**

     **Sint√°xis**
     
     Para definir una DF en  Pandas a partir de un **Serie**o se utiliza la siguiente sint√°xis:
     
     ```Python
        pd.DataFrame(Serie)
     ```
     
     Ejemplo:
      * Retomando la Serie de salarios promedio:
      


In [None]:
#Retomar Serie
serie_salarios = pd.Series(salarios_data,
                          name='Salario_Promedio_MXN')
print(type(serie_salarios))

#Crear DF
df_salarios = pd.DataFrame(serie_salarios)

print( fr"Mi DF de salarios es de tama√±o: {df_salarios.shape} , y tiene las columnas {df_salarios.columns}" )


NameError: name 'salarios_data' is not defined

 * **Creaci√≥n de Dataframe a partir de Arreglo de Numpy**

     **Sint√°xis**
     
     Para definir una DF en  Pandas a partir de un **Arreglo** de dos dimensiones de Numpy o se utiliza la siguiente sint√°xis:
     
     ```Python
        pd.DataFrame(array, columns = ["name_col1, name_col2"])
     ```
     
     Ejemplo:
      * Tenemos el arreglo :
      

In [None]:
# Arreglo con TOP 10
import  numpy as np
pais_pib = np.array([
                         ['Estados Unidos', 26954000],
                         ['China', 17963170],
                         ['Jap√≥n', 4210700],
                         ['Alemania', 4030400],
                         ['India', 3385090],
                         ['Reino Unido', 3108530],
                         ['Francia', 2780540],
                         ['Canad√°', 2117480],
                         ['Italia', 2010350],
                         ['Brasil', 1920960]
                          ], dtype=object)


#Dataframe a partir de arreglo

df_pib = pd.DataFrame(pais_pib, columns= ['Pa√≠ses', "PIB"])

print(df_pib)

           Pa√≠ses       PIB
0  Estados Unidos  26954000
1           China  17963170
2           Jap√≥n   4210700
3        Alemania   4030400
4           India   3385090
5     Reino Unido   3108530
6         Francia   2780540
7          Canad√°   2117480
8          Italia   2010350
9          Brasil   1920960


## **5.2 Importar y explorar diferentes tipos de datos**




## **5.3 Limpieza y transformaci√≥n de datos**


## **5.4 Agrupaci√≥n y resumen de datos**


## **5.5 Trabajando con joins y merges**