# Modulo 3: Manejo de Datos con Pandas

In [1]:
# Importamos la libreria
import pandas as pd

**Nota: Siempre se recomienda importar todas las librerias que se van a utilizar al inicio del código**

# 1. Lectura y exporte de datos de con Pandas 
Para leer datos en Pandas, puedes utilizar diferentes métodos según el tipo de archivo o fuente de datos que desees leer.

## 1.1. Leer desde un archivo CSV

Para leer datos de formato **`.csv`** se utiliza `pd.read_csv('ruta del archivo')`.

In [2]:
# Datos formato csv
covid_2020 = pd.read_csv('Datos/Casos_positivos_COVID_2020.csv')
covid_2020.head() #Muestra las primeras observaciones del DataFrame

Unnamed: 0,year,mes,dia,caso,divipola_depto,depto,divipola_mpio,mpio,edad,grupo_edad,sexo,contagio
0,2020,9,7,675918,18,Caqueta,18001,Florencia,64,60 o mas,Masculino,Comunitaria
1,2020,9,7,675919,50,Meta,50001,Villavicencio,57,29-59,Masculino,Comunitaria
2,2020,9,7,675920,76,Valle del cauca,76001,Cali,33,29-59,Femenino,Comunitaria
3,2020,9,7,675921,20,Cesar,20001,Valledupar,34,29-59,Femenino,Comunitaria
4,2020,9,7,675922,8,Atlantico,8001,Barranquilla,45,29-59,Masculino,Comunitaria


## 1.2. Leer desde un archivo Excel

Para leer datos de formato **`Excel`** se utiliza `pd.read_excel('ruta del archivo')`.

In [3]:
# Datos formato Excel
co2 = pd.read_excel('Datos/co2_production.xlsx', sheet_name = 'co2')
co2.head() #Muestra las primeras observaciones del DataFrame

Unnamed: 0,code,country,co2_prod_2010,co2_prod_2011,co2_prod_2012,co2_prod_2013,co2_prod_2014,co2_prod_2015,co2_prod_2016,co2_prod_2017,co2_prod_2018,co2_prod_2019,co2_prod_2020
0,AFG,Afghanistan,0.287739,0.401954,0.327922,0.261571,0.232967,0.22968,0.190617,0.188995,0.224492,0.319299,0.312376
1,AGO,Angola,1.235836,1.252224,1.346212,1.277248,1.235861,1.205736,1.088803,0.953168,0.791171,0.737992,0.67541
2,ALB,Albania,1.508842,1.717788,1.601835,1.697127,1.940611,1.555329,1.556278,1.838242,1.642153,1.688178,1.575754
3,AND,Andorra,6.117538,5.862658,5.912019,5.896947,5.828084,5.964928,6.067376,6.043168,6.423396,6.505535,6.034945
4,ARE,United Arab Emirates,21.125375,21.571042,22.047365,22.330116,21.914832,23.381781,22.932086,17.795688,16.01124,15.780701,15.193336


En la opción `sheet_name` se utiliza para leer una hoja de excel especifica. Si no se coloca, por defecto Pandas lee la primera hoja.

## 1.3. Exportar datos a CSV
Para exportar datos a formato **`.csv`** se utiliza `df.to_csv('ruta del archivo')`. Donde `df` es el nombre que s ela ha asignado al DataFrame.

In [4]:
# Exportando a formato csv
co2.to_csv('Datos/Co2_exp.csv', index=False)

La opción `index=False` se utiliza para no incluir el índice del DataFrame en el archivo CSV. 

## 1.4. Exportar datos a Excel

Para datos a un archivo de `Excel`, se puede utilizar el método `df.to_excel(''Ruta del archivo)`. Donde `df` es el nombre que s ela ha asignado al DataFrame.

In [5]:
# Exportando a formato Excel
co2.to_excel('Datos/Co2_exp.xlsx', index=False)

## Guia para importar otros tipos de datos

En el siguiente Link puede encontrar la forma de cómo importar y exportar datos en los diferentes formatos: [Guia de Pandas](https://pandas.pydata.org/docs/user_guide/io.html).

# 2. Explorando los datos en Pandas
Pandas ofrece una variedad de métodos que puedes utilizar para explorar y analizar tus datos.

In [6]:
# Importamos los datos
hdi_world = pd.read_excel('Datos/HDI.xlsx', sheet_name='hdi')

## 2.1. Usando `.head()` y `.tail()`

La primera aproximación para conocer los datos es viendo su estructura. Esto se puede hacer con los métodos `.head()` que muestra, por defecto, las priemras 5 observaciones, y el método `.tail()` que muestra, pro defecto, las últimas 5 observaciones.

In [7]:
# Primeras obervaciones
hdi_world.head()

Unnamed: 0,code,country,hdi_2010,hdi_2011,hdi_2012,hdi_2013,hdi_2014,hdi_2015,hdi_2016,hdi_2017,hdi_2018,hdi_2019,hdi_2020
0,AFG,Afghanistan,0.448,0.456,0.466,0.474,0.479,0.478,0.481,0.482,0.483,0.488,0.483
1,AGO,Angola,0.51,0.526,0.541,0.552,0.563,0.582,0.596,0.597,0.595,0.595,0.59
2,ALB,Albania,0.754,0.766,0.778,0.785,0.792,0.795,0.798,0.802,0.806,0.81,0.794
3,AND,Andorra,0.848,0.849,0.869,0.864,0.871,0.867,0.871,0.868,0.872,0.873,0.848
4,ARE,United Arab Emirates,0.835,0.84,0.846,0.852,0.859,0.865,0.87,0.897,0.909,0.92,0.912


In [8]:
# Últimas obervaciones
hdi_world.tail()

Unnamed: 0,code,country,hdi_2010,hdi_2011,hdi_2012,hdi_2013,hdi_2014,hdi_2015,hdi_2016,hdi_2017,hdi_2018,hdi_2019,hdi_2020
190,WSM,Samoa,0.713,0.713,0.709,0.71,0.711,0.716,0.717,0.716,0.716,0.715,0.712
191,YEM,Yemen,0.51,0.509,0.512,0.513,0.505,0.477,0.467,0.459,0.459,0.461,0.46
192,ZAF,South Africa,0.675,0.686,0.696,0.704,0.712,0.716,0.719,0.72,0.726,0.736,0.727
193,ZMB,Zambia,0.529,0.534,0.548,0.554,0.557,0.562,0.564,0.568,0.572,0.575,0.57
194,ZWE,Zimbabwe,0.512,0.535,0.557,0.567,0.576,0.582,0.588,0.594,0.602,0.601,0.6


## 2.2. Obteniendo información sobre los datos


### Método `info()`
Muestra información sobre el DataFrame, incluyendo el tipo de datos de cada columna y el recuento de valores no nulos.

In [9]:
# Info()
hdi_world.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 195 entries, 0 to 194
Data columns (total 13 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   code      195 non-null    object 
 1   country   195 non-null    object 
 2   hdi_2010  189 non-null    float64
 3   hdi_2011  190 non-null    float64
 4   hdi_2012  190 non-null    float64
 5   hdi_2013  190 non-null    float64
 6   hdi_2014  190 non-null    float64
 7   hdi_2015  190 non-null    float64
 8   hdi_2016  190 non-null    float64
 9   hdi_2017  190 non-null    float64
 10  hdi_2018  191 non-null    float64
 11  hdi_2019  191 non-null    float64
 12  hdi_2020  191 non-null    float64
dtypes: float64(11), object(2)
memory usage: 19.9+ KB


Podemos ver que el DataFrame tiene 194 filas (observaciones) y 13 columnas. La columna `"code"` y `"country"` tienen un tipo de datos `object` (cadena de texto), mientras que las démas columnas tipo de datos `float64` (flotantes). También se muestra el recuento de valores no nulos en cada columna.

### Método `shape`
Muestra las dimensiones del DataFrame, es decir, el número de filas y columnas.

In [10]:
# Shape()
hdi_world.shape

(195, 13)

La salida resultante será una tupla que indica la forma del DataFrame. En este caso, el DataFrame tiene 195 filas y 13 columnas, por lo que la salida es `(195, 13)`.

### Método `dtypes`
Muestra los tipos de datos de las columnas del DataFrame.

In [11]:
# dtypes
hdi_world.dtypes

code         object
country      object
hdi_2010    float64
hdi_2011    float64
hdi_2012    float64
hdi_2013    float64
hdi_2014    float64
hdi_2015    float64
hdi_2016    float64
hdi_2017    float64
hdi_2018    float64
hdi_2019    float64
hdi_2020    float64
dtype: object

### Método `columns`
Muestra una lista con los nombres de las columnas del DataFrame.

In [12]:
# Columns
hdi_world.columns

Index(['code', 'country', 'hdi_2010', 'hdi_2011', 'hdi_2012', 'hdi_2013',
       'hdi_2014', 'hdi_2015', 'hdi_2016', 'hdi_2017', 'hdi_2018', 'hdi_2019',
       'hdi_2020'],
      dtype='object')

### Método `describe()`
Proporciona estadísticas descriptivas sobre el DataFrame, como recuento, media, desviación estándar, etc., para columnas numéricas.

In [13]:
# Describe()
hdi_world.describe()

Unnamed: 0,hdi_2010,hdi_2011,hdi_2012,hdi_2013,hdi_2014,hdi_2015,hdi_2016,hdi_2017,hdi_2018,hdi_2019,hdi_2020
count,189.0,190.0,190.0,190.0,190.0,190.0,190.0,190.0,191.0,191.0,191.0
mean,0.689185,0.694589,0.699416,0.704153,0.708463,0.712258,0.716058,0.719547,0.723927,0.727497,0.721524
std,0.156691,0.154363,0.153326,0.153183,0.15238,0.151868,0.151512,0.151377,0.150751,0.150415,0.149417
min,0.338,0.346,0.354,0.362,0.37,0.376,0.383,0.39,0.395,0.393,0.386
25%,0.553,0.5615,0.572,0.57325,0.58325,0.59125,0.596,0.5975,0.6025,0.6105,0.606
50%,0.721,0.7205,0.725,0.7265,0.7295,0.736,0.7415,0.744,0.746,0.746,0.736
75%,0.812,0.81175,0.8165,0.8185,0.82225,0.8285,0.833,0.83375,0.84,0.8435,0.8315
max,0.942,0.944,0.946,0.949,0.952,0.954,0.956,0.959,0.962,0.962,0.959


# 3. Manejo de los datos

## 3.1. Índice en los DataFrame
En un DataFrame de pandas, el índice es una estructura que proporciona una identificación única a cada fila. El índice se utiliza para acceder y manipular los datos en el DataFrame. Por defecto, cuando se crea un DataFrame, se asigna un índice numérico automáticamente a las filas, comenzando desde 0 y aumentando en incrementos de 1. Sin embargo, también es posible establecer una columna existente o una variable como índice en lugar de utilizar el índice numérico predeterminado con el método `.set_index()`.

In [14]:
# Importamos otros datos
co2_world = pd.read_excel('Datos/co2_production.xlsx', sheet_name = 'co2')
co2_world.head()

Unnamed: 0,code,country,co2_prod_2010,co2_prod_2011,co2_prod_2012,co2_prod_2013,co2_prod_2014,co2_prod_2015,co2_prod_2016,co2_prod_2017,co2_prod_2018,co2_prod_2019,co2_prod_2020
0,AFG,Afghanistan,0.287739,0.401954,0.327922,0.261571,0.232967,0.22968,0.190617,0.188995,0.224492,0.319299,0.312376
1,AGO,Angola,1.235836,1.252224,1.346212,1.277248,1.235861,1.205736,1.088803,0.953168,0.791171,0.737992,0.67541
2,ALB,Albania,1.508842,1.717788,1.601835,1.697127,1.940611,1.555329,1.556278,1.838242,1.642153,1.688178,1.575754
3,AND,Andorra,6.117538,5.862658,5.912019,5.896947,5.828084,5.964928,6.067376,6.043168,6.423396,6.505535,6.034945
4,ARE,United Arab Emirates,21.125375,21.571042,22.047365,22.330116,21.914832,23.381781,22.932086,17.795688,16.01124,15.780701,15.193336


In [15]:
# Asignamos la columna 'country' como índice
co2_world.set_index('country', inplace=True)
co2_world.head(10) # Muestra las diez primeras observaciones

Unnamed: 0_level_0,code,co2_prod_2010,co2_prod_2011,co2_prod_2012,co2_prod_2013,co2_prod_2014,co2_prod_2015,co2_prod_2016,co2_prod_2017,co2_prod_2018,co2_prod_2019,co2_prod_2020
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Afghanistan,AFG,0.287739,0.401954,0.327922,0.261571,0.232967,0.22968,0.190617,0.188995,0.224492,0.319299,0.312376
Angola,AGO,1.235836,1.252224,1.346212,1.277248,1.235861,1.205736,1.088803,0.953168,0.791171,0.737992,0.67541
Albania,ALB,1.508842,1.717788,1.601835,1.697127,1.940611,1.555329,1.556278,1.838242,1.642153,1.688178,1.575754
Andorra,AND,6.117538,5.862658,5.912019,5.896947,5.828084,5.964928,6.067376,6.043168,6.423396,6.505535,6.034945
United Arab Emirates,ARE,21.125375,21.571042,22.047365,22.330116,21.914832,23.381781,22.932086,17.795688,16.01124,15.780701,15.193336
Argentina,ARG,4.566076,4.604828,4.5914,4.505955,4.424674,4.466724,4.389427,4.274395,4.082392,3.741918,3.473292
Armenia,ARM,1.478008,1.727389,1.993008,1.910209,1.924215,1.869493,1.772053,1.880133,1.97368,1.869271,1.987788
Antigua and Barbuda,ATG,5.161312,4.967228,5.065867,5.044582,4.987576,5.129855,5.194072,5.145139,5.175207,5.008031,4.395123
Australia,AUS,18.259493,17.984909,17.580628,16.906991,16.920093,16.8507,17.143393,16.870352,16.708116,16.446992,15.36838
Austria,AUT,8.561324,8.267427,7.911257,7.91925,7.447395,7.645374,7.684142,7.89112,7.486503,7.589238,6.732425


EEn este ejemplo, la columna `'country'` se establece como el índice del DataFrame utilizando el método `.set_index()`. El argumento `inplace=True` se utiliza para aplicar el cambio directamente en el DataFrame original en lugar de devolver un nuevo DataFrame.

Una vez que se establece un índice en un DataFrame, puedes acceder a las filas utilizando los valores del índice en lugar de los números de fila.

In [16]:
# Realizamos el mismo proceso para el DataFrame 'hdi_world'
hdi_world.set_index('country', inplace=True)
hdi_world.head(10) # Muestra las diez primeras observaciones

Unnamed: 0_level_0,code,hdi_2010,hdi_2011,hdi_2012,hdi_2013,hdi_2014,hdi_2015,hdi_2016,hdi_2017,hdi_2018,hdi_2019,hdi_2020
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Afghanistan,AFG,0.448,0.456,0.466,0.474,0.479,0.478,0.481,0.482,0.483,0.488,0.483
Angola,AGO,0.51,0.526,0.541,0.552,0.563,0.582,0.596,0.597,0.595,0.595,0.59
Albania,ALB,0.754,0.766,0.778,0.785,0.792,0.795,0.798,0.802,0.806,0.81,0.794
Andorra,AND,0.848,0.849,0.869,0.864,0.871,0.867,0.871,0.868,0.872,0.873,0.848
United Arab Emirates,ARE,0.835,0.84,0.846,0.852,0.859,0.865,0.87,0.897,0.909,0.92,0.912
Argentina,ARG,0.834,0.841,0.843,0.845,0.846,0.848,0.847,0.851,0.85,0.852,0.84
Armenia,ARM,0.746,0.75,0.755,0.76,0.764,0.766,0.765,0.768,0.771,0.778,0.757
Antigua and Barbuda,ATG,0.79,0.783,0.787,0.787,0.789,0.791,0.794,0.795,0.798,0.8,0.788
Australia,AUS,0.923,0.926,0.93,0.929,0.931,0.933,0.935,0.937,0.941,0.941,0.947
Austria,AUT,0.902,0.905,0.906,0.905,0.909,0.91,0.915,0.916,0.917,0.919,0.913


Para quitar el índice utizamos `resset_index()`. Utilizamos argumento `inplace=True` en caso de que qeuramos hacer un cambio directamente al DataFrame original.

In [17]:
# reset_index()
hdi_world.reset_index()

Unnamed: 0,country,code,hdi_2010,hdi_2011,hdi_2012,hdi_2013,hdi_2014,hdi_2015,hdi_2016,hdi_2017,hdi_2018,hdi_2019,hdi_2020
0,Afghanistan,AFG,0.448,0.456,0.466,0.474,0.479,0.478,0.481,0.482,0.483,0.488,0.483
1,Angola,AGO,0.510,0.526,0.541,0.552,0.563,0.582,0.596,0.597,0.595,0.595,0.590
2,Albania,ALB,0.754,0.766,0.778,0.785,0.792,0.795,0.798,0.802,0.806,0.810,0.794
3,Andorra,AND,0.848,0.849,0.869,0.864,0.871,0.867,0.871,0.868,0.872,0.873,0.848
4,United Arab Emirates,ARE,0.835,0.840,0.846,0.852,0.859,0.865,0.870,0.897,0.909,0.920,0.912
...,...,...,...,...,...,...,...,...,...,...,...,...,...
190,Samoa,WSM,0.713,0.713,0.709,0.710,0.711,0.716,0.717,0.716,0.716,0.715,0.712
191,Yemen,YEM,0.510,0.509,0.512,0.513,0.505,0.477,0.467,0.459,0.459,0.461,0.460
192,South Africa,ZAF,0.675,0.686,0.696,0.704,0.712,0.716,0.719,0.720,0.726,0.736,0.727
193,Zambia,ZMB,0.529,0.534,0.548,0.554,0.557,0.562,0.564,0.568,0.572,0.575,0.570


## 3.2. Unión de Dataframe

Con Pandas podemos unir dos o más DataFrame de diferentes formas. Podemos unir DataFrame de forma horizontas para agregar nuevas variable o de forma vertical apra agregar nuevas observaciones.

### 3.2.1. Unión horizontal
Cuando se realiza una unión entre DataFrames en Pandas, existen diferentes tipos de uniones que se pueden utilizar según la lógica deseada.

* **`Inner`:** La intersección de los conjuntos de filas de ambos DataFrames. Solo se incluyen las filas que tienen valores coincidentes en la(s) columna(s) especificada(s) en el parámetro on. En otras palabras, se mantienen solo las filas que tienen coincidencias en ambos DataFrames.

* **`Left`:** Se incluyen todas las filas del DataFrame izquierdo y las filas coincidentes del DataFrame derecho. Las filas del DataFrame izquierdo que no tienen coincidencias en el DataFrame derecho se llenan con valores nulos.

* **`Right`:** Se incluyen todas las filas del DataFrame derecho y las filas coincidentes del DataFrame izquierdo. Las filas del DataFrame derecho que no tienen coincidencias en el DataFrame izquierdo se llenan con valores nulos.

* **`Outer`:** Se incluyen todas las filas de ambos DataFrames. Las filas que tienen coincidencias se combinan, y las filas que no tienen coincidencias se llenan con valores nulos.

### Método `merge()`

El método `merge()` en Pandas se utiliza para combinar dos DataFrames en función de una o varias columnas comunes. La sintaxis básica es la siguiente:

```python
merged_df = pd.merge(left, right, on='columna_comun', how='tipo_de_union')
```
donde:

* `left` y `right` son los DataFrames que se desean combinar.
* `'columna_comun'` es el nombre de la columna o columnas en las que se basará la unión.
* `'tipo_de_union'` especifica el tipo de unión a realizar.

[Guia de **merge()** Pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html)

In [18]:
# Se crean los DataFrames de ejemplo
data1 = {'ID': [1, 2, 3, 4],
         'Nombre': ['Juan', 'María', 'Pedro', 'Ana']}
data2 = {'ID': [2, 3, 4, 5],
         'Edad': [25, 30, 35, 40]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

print(df1)
print(' ')
print(df2)

   ID Nombre
0   1   Juan
1   2  María
2   3  Pedro
3   4    Ana
 
   ID  Edad
0   2    25
1   3    30
2   4    35
3   5    40


In [19]:
# Ejemplo 1: Inner
df_inner = pd.merge(df1, df2, how='inner', on='ID')
df_inner

Unnamed: 0,ID,Nombre,Edad
0,2,María,25
1,3,Pedro,30
2,4,Ana,35


In [20]:
# Ejemplo 2: Left
df_left = pd.merge(df1, df2, how='left', on='ID')
df_left

Unnamed: 0,ID,Nombre,Edad
0,1,Juan,
1,2,María,25.0
2,3,Pedro,30.0
3,4,Ana,35.0


In [21]:
# Ejemplo 3: Right
df_right = pd.merge(df1, df2, how='right', on='ID')
df_right

Unnamed: 0,ID,Nombre,Edad
0,2,María,25
1,3,Pedro,30
2,4,Ana,35
3,5,,40


In [22]:
# Ejemplo 4: Outer
df_outer = pd.merge(df1, df2, how='outer', on='ID')
df_outer

Unnamed: 0,ID,Nombre,Edad
0,1,Juan,
1,2,María,25.0
2,3,Pedro,30.0
3,4,Ana,35.0
4,5,,40.0


### Método `join()`
El método join() en pandas se utiliza para combinar dos DataFrames basándose en sus índices. La sintaxis básica es la siguiente:

```python
joined_df = df1.join(df2, how='tipo_de_union')
```

Donde:

* `df1` y `df2` son los DataFrames que se desean combinar.
* `'tipo_de_union'` especifica el tipo de unión a realizar. 

[Guia de **join()** Pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html)

In [23]:
# Se crean los DataFrames de ejemplo
data1 = {'ID': [1, 2, 3, 4],
         'Nombre': ['Juan', 'María', 'Pedro', 'Ana']}
data2 = {'ID': [2, 3, 4, 5],
         'Edad': [25, 30, 35, 40]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

print(df1)
print(' ')
print(df2)

   ID Nombre
0   1   Juan
1   2  María
2   3  Pedro
3   4    Ana
 
   ID  Edad
0   2    25
1   3    30
2   4    35
3   5    40


In [24]:
# Ejemplo 5: Left Join
left_join = df1.join(df2.set_index('ID'), on='ID', how='left')
left_join

Unnamed: 0,ID,Nombre,Edad
0,1,Juan,
1,2,María,25.0
2,3,Pedro,30.0
3,4,Ana,35.0


In [25]:
# Ejemplo 6: Right Join
right_join = df1.join(df2.set_index('ID'), on='ID', how='right')
right_join

Unnamed: 0,ID,Nombre,Edad
1.0,2,María,25
2.0,3,Pedro,30
3.0,4,Ana,35
,5,,40


In [26]:
# Ejemplo 7: Outer Join
outer_join = df1.join(df2.set_index('ID'), on='ID', how='outer')
outer_join

Unnamed: 0,ID,Nombre,Edad
0.0,1,Juan,
1.0,2,María,25.0
2.0,3,Pedro,30.0
3.0,4,Ana,35.0
,5,,40.0


In [27]:
# Ejemplo 8: Inner Join
inner_join = df1.join(df2.set_index('ID'), on='ID', how='inner')
inner_join

Unnamed: 0,ID,Nombre,Edad
1,2,María,25
2,3,Pedro,30
3,4,Ana,35


### 3.2.2. Unión vertical

La unión vertical en Pandas se puede lograr utilizando el método `concat()` o `append()`. 

### Método `concat()`

El método `concat()` en Pandas se utiliza para realizar una concatenación de DataFrames a lo largo de un eje específico.

[Guia de **concat()** Pandas](https://pandas.pydata.org/docs/reference/api/pandas.concat.html)

In [28]:
# Crear DataFrames de ejemplo
data1 = {'ID': [1, 2, 3],
         'Nombre': ['Juan', 'María', 'Pedro']}
data2 = {'ID': [4, 5, 6],
         'Nombre': ['Ana', 'Luis', 'Laura']}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

print(df1)
print(' ')
print(df2)

   ID Nombre
0   1   Juan
1   2  María
2   3  Pedro
 
   ID Nombre
0   4    Ana
1   5   Luis
2   6  Laura


In [29]:
# Concatenar los DataFrames a lo largo del eje vertical (axis=0)
df_concat = pd.concat([df1, df2])
df_concat

Unnamed: 0,ID,Nombre
0,1,Juan
1,2,María
2,3,Pedro
0,4,Ana
1,5,Luis
2,6,Laura


En el ejemplo anterior, se utiliza `concat()` para concatenar los DataFrames `df1` y `df2` a lo largo del eje vertical. El resultado es un nuevo DataFrame `df_concat` que contiene la unión vertical de ambos DataFrames. Los índices de las filas se conservan en el DataFrame resultante.

### Método `append()`

El método append() en pandas se utiliza para agregar filas a un DataFrame existente.

[Guia de **append()** Pandas](https://pandas.pydata.org/pandas-docs/version/1.3/reference/api/pandas.DataFrame.append.html)

In [30]:
# Crear DataFrames de ejemplo
data1 = {'ID': [1, 2, 3],
         'Nombre': ['Juan', 'María', 'Pedro']}
data2 = {'ID': [4, 5, 6],
         'Nombre': ['Ana', 'Luis', 'Laura']}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

print(df1)
print(' ')
print(df2)

   ID Nombre
0   1   Juan
1   2  María
2   3  Pedro
 
   ID Nombre
0   4    Ana
1   5   Luis
2   6  Laura


In [31]:
# Agregar la nuevas filas al DataFrame existente
df_append = df1.append(df2, ignore_index=True)
df_append 

  df_append = df1.append(df2, ignore_index=True)


Unnamed: 0,ID,Nombre
0,1,Juan
1,2,María
2,3,Pedro
3,4,Ana
4,5,Luis
5,6,Laura


En el ejemplo anterior, utilizamos el método `append()` para agregar esta nuevas filas al final del DataFrame `df1`. El parámetro `ignore_index=True` se utiliza para reiniciar los índices de las filas en el DataFrame resultante.

## 3.3. Cambio de forma de los DataFrame: Reshape

El `reshape` en pandas se refiere a transformar la estructura de un DataFrame de una forma a otra. Puede implicar convertir un formato largo a un formato ancho o viceversa, reorganizar las filas y columnas.

### 3.3.1. De formato largo a formato ancho: `pivot()`

El método `pivot()` en Pandas se utiliza para cambiar la forma de un DataFrame de formato largo a formato ancho. Permite reorganizar los datos utilizando columnas existentes como índices, columnas y valores.

[Guia de **pivot()** Pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.pivot.html)

La sintaxis básica del método es la siguiente:

```python
DataFrame.pivot(index, columns, values)
```

* **index:** Especifica la columna o columnas que se utilizarán como índice en el DataFrame resultante.
* **columns:** Especifica la columna que se convertirá en columnas del DataFrame resultante.
* **values:** Especifica la columna que se llenará con los valores correspondientes a cada combinación de índice y columna.

In [32]:
# Se crea DataFrame de ejemplo
data = {'ID': [1, 1, 2, 2],
        'Variable': ['A', 'B', 'A', 'B'],
        'Valor': [10, 20, 30, 40]}
df = pd.DataFrame(data)
df

Unnamed: 0,ID,Variable,Valor
0,1,A,10
1,1,B,20
2,2,A,30
3,2,B,40


In [33]:
# Aplicar pivot()
df_pivot = df.pivot(index='ID', columns='Variable', values='Valor')
df_pivot

Variable,A,B
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
1,10,20
2,30,40


En este ejemplo, hemos utilizado la columna `"ID"` como índice, la columna `"Variable"` como columnas y la columna `"Valor"` para llenar los valores en el DataFrame resultante.

### 3.3.2. De formato ancho a formato largo: `melt()`

El método `melt()` en pandas se utiliza para transformar un DataFrame de formato ancho a formato largo. Permite convertir las columnas en una sola columna, mientras se mantiene la información de las demás columnas como identificadores.

La sintaxis básica del método es la siguiente:

```python
DataFrame.melt(id_vars, value_vars, var_name, value_name)
```

* **id_vars:** Especifica las columnas que se mantendrán como identificadores en el DataFrame resultante.
* **value_vars:** Especifica las columnas que se "desenrollarán" y se convertirán en valores en la columna resultante.
* **var_name:** Especifica el nombre de la columna que contendrá los nombres de las columnas desenrolladas.
* **value_name:** Especifica el nombre de la columna que contendrá los valores de las columnas desenrolladas.

In [34]:
# Crear DataFrame de ejemplo
data = {'ID': [1, 2, 3],
        'A': [10, 20, 30],
        'B': [40, 50, 60],
        'C': [70, 80, 90]}
df = pd.DataFrame(data)

df

Unnamed: 0,ID,A,B,C
0,1,10,40,70
1,2,20,50,80
2,3,30,60,90


In [35]:
# Aplicar melt()
df_melted = df.melt(id_vars='ID', value_vars=['A', 'B', 'C'], var_name='Variable', value_name='Valor')
df_melted

Unnamed: 0,ID,Variable,Valor
0,1,A,10
1,2,A,20
2,3,A,30
3,1,B,40
4,2,B,50
5,3,B,60
6,1,C,70
7,2,C,80
8,3,C,90


En este ejemplo, hemos convertido las columnas `"A", "B" y "C"` en una sola, utilizando la columna `"ID"` como identificador. Ahora tenemos una columna `"Variable"` que contiene los nombres de las columnas desenrolladas y una columna `"Valor"` que contiene los valores correspondientes.

## 3.4. Índice Múltiple

Un índice múltiple en Pandas se refiere a tener más de una columna como índice en un DataFrame. Permite organizar los datos de manera jerárquica y facilita el acceso y la manipulación de los datos en función de múltiples niveles de información.

Para crear un índice múltiple en pandas, puedes utilizar la función `set_index()` y pasar una lista de columnas que deseas utilizar como índice. 

In [36]:
# Se crea el DataFrame para el ejemplo
data = {'Grupo': ['A', 'A', 'B', 'B'],
        'Subgrupo': ['X', 'Y', 'X', 'Y'],
        'Valor': [10, 20, 30, 40]}

df = pd.DataFrame(data)
df

Unnamed: 0,Grupo,Subgrupo,Valor
0,A,X,10
1,A,Y,20
2,B,X,30
3,B,Y,40


In [37]:
# Se aplica el índice múltiple
df_multi_index = df.set_index(['Grupo', 'Subgrupo'])
df_multi_index

Unnamed: 0_level_0,Unnamed: 1_level_0,Valor
Grupo,Subgrupo,Unnamed: 2_level_1
A,X,10
A,Y,20
B,X,30
B,Y,40


En el ejemplo anterior, hemos creado un DataFrame con tres columnas: `'Grupo', 'Subgrupo' y 'Valor'`. Luego, utilizamos la función `set_index()` para establecer un índice múltiple utilizando las columnas `'Grupo' y 'Subgrupo'`. Ahora, el DataFrame tiene un índice jerárquico con dos niveles.

## 3.5. Creando columnas y eliminando columnas y filas

## 3.5.1. Creando nuevas columnas

En pandas, puedes crear nuevas columnas en un DataFrame utilizando diferentes métodos, como asignar un valor constante, aplicar una función a una columna existente, realizar operaciones aritméticas entre columnas o aplicar condiciones lógicas.

In [38]:
# Ejemplo 1: Asignando un valor constante a una nueva variable
df = pd.DataFrame({'A': [1, 2, 3, 4, 5]})
df['B'] = 10  # Asigna el valor constante 10 a la columna 'B'
df

Unnamed: 0,A,B
0,1,10
1,2,10
2,3,10
3,4,10
4,5,10


In [39]:
# Ejemplo 2: Realizando operaciones aritméticas entre columnas para crear una nueva variable
df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [10, 20, 30, 40, 50]})
df['C'] = df['A'] + df['B']  # Suma los valores de las columnas 'A' y 'B' y los asigna a la columna 'C'
df

Unnamed: 0,A,B,C
0,1,10,11
1,2,20,22
2,3,30,33
3,4,40,44
4,5,50,55


In [40]:
# Ejemplo 3: Utilizando el operador de comparación
df = pd.DataFrame({'A': [1, 2, 3, 4, 5]})
df['B'] = df['A'] > 3  # Compara los valores de la columna 'A' con 3 y asigna True o False a la columna 'B'
df

Unnamed: 0,A,B
0,1,False
1,2,False
2,3,False
3,4,True
4,5,True


In [41]:
# Ejemplo 4: Utilizando condiciones y el método loc[]
df = pd.DataFrame({'Variable': [120, 180, 90, 200, 140]})

df.loc[df['Variable'] > 150, 'Nueva_Variable'] = 'Alto'
df.loc[(df['Variable'] <= 150) & (df['Variable'] > 100), 'Nueva_Variable'] = 'Medio'
df.loc[df['Variable'] <= 100, 'Nueva_Variable'] = 'Bajo'

df

Unnamed: 0,Variable,Nueva_Variable
0,120,Medio
1,180,Alto
2,90,Bajo
3,200,Alto
4,140,Medio


En el ejemplo anterior, se crea una nueva columna llamada 'Nueva_Variable' en base a las siguientes condiciones:

* Si el valor de 'Variable' es mayor que 150, se asigna el valor 'Alto' a 'Nueva_Variable'.
* Si el valor de 'Variable' es menor o igual a 150 pero mayor que 100, se asigna el valor 'Medio' a 'Nueva_Variable'.
* Si el valor de 'Variable' es menor o igual a 100, se asigna el valor 'Bajo' a 'Nueva_Variable'.

Tambien podemos utilizar el método `apply()` que se utiliza para aplicar una función a lo largo de un eje de un DataFrame o una Serie. La sintaxis básica del método es la siguiente:
```python
dataframe.apply(func, axis=0)
```
* **func** es la función que se aplicará a los elementos del DataFrame o Serie.
* **axis** indica el eje a lo largo del cual se aplicará la función. Si se establece en 0, se aplicará a cada columna, y si se establece en 1, se aplicará a cada fila.


##### Ejemplo 1

In [42]:
#Ejemplo 1: Aplicando a todos los elementos
# Creamos un DataFrame de ejemplo
data = {'A': [1, 2, 3, 4, 5],
        'B': [6, 7, 8, 9, 10]}
df = pd.DataFrame(data)

df

Unnamed: 0,A,B
0,1,6
1,2,7
2,3,8
3,4,9
4,5,10


In [43]:
# Definimos una función que suma 1 a cada elemento
def add_one(x):
    return x + 1

In [44]:
# Aplicamos la función a cada elemento del DataFrame
df = df.apply(add_one)
df

Unnamed: 0,A,B
0,2,7
1,3,8
2,4,9
3,5,10
4,6,11


##### Ejemplo 2

In [45]:
# Ejemplo 2: Creando una variable defciendo uan función
df = pd.DataFrame({'Variable': [120, 180, 90, 200, 140]})
df

Unnamed: 0,Variable
0,120
1,180
2,90
3,200
4,140


In [46]:
# Definimos una función
def categorizar_valor(valor):
    if valor > 150:
        return 'Alto'
    elif valor > 100:
        return 'Medio'
    else:
        return 'Bajo'


In [47]:
# Aplicamos la función para crear una nueva variable
df['Categoría'] = df['Variable'].apply(categorizar_valor)
df

Unnamed: 0,Variable,Categoría
0,120,Medio
1,180,Alto
2,90,Bajo
3,200,Alto
4,140,Medio


##### Ejemplo 3

In [48]:
# Ejemplo 3: Utilizando una función anonima (lambda)
# Creamos un DataFrame de ejemplo
data = {'A': [1, 2, 3, 4, 5],
        'B': [6, 7, 8, 9, 10]}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B
0,1,6
1,2,7
2,3,8
3,4,9
4,5,10


In [49]:
# Aplicamos uan funcion lambda
df['B2'] = df['B'].apply(lambda x: x ** 2)
df

Unnamed: 0,A,B,B2
0,1,6,36
1,2,7,49
2,3,8,64
3,4,9,81
4,5,10,100


## 3.5.2. Eliminando columnas

Para eliminar columnas en Pandas, puedes utilizar el método `drop()` o la palabra clave `del`. 

### Utilizando el método `drop()`:

In [50]:
# Crear un DataFrame de ejemplo
data = {'A': [1, 2, 3],
        'B': [4, 5, 6],
        'C': [7, 8, 9]}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [51]:
# Eliminar la columna 'B'
df = df.drop('B', axis=1)
df

Unnamed: 0,A,C
0,1,7
1,2,8
2,3,9


En el ejemplo anterior, utilizamos el método `drop()` especificando el nombre de la columna que queremos eliminar y el argumento `axis=1` para indicar que se trata de una columna. El resultado impreso será el DataFrame sin la columna `'B'`.

### Utilizando la palabra clave `del`:

In [52]:
# Crear un DataFrame de ejemplo
data = {'A': [1, 2, 3],
        'B': [4, 5, 6],
        'C': [7, 8, 9]}

df = pd.DataFrame(data)
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [53]:
# Eliminar la columna 'B'
del df['B']
df

Unnamed: 0,A,C
0,1,7
1,2,8
2,3,9


En el ejemplo anterior, utilizamos la palabra clave `del` seguida del nombre de la columna que queremos eliminar. El resultado impreso será el DataFrame sin la columna `'B'`.

## 3.5.3. Eliminando filas
Para eliminar filas en Pandas, puedes utilizar el método `drop()` especificando el índice de las filas que deseas eliminar.

#### Eliminando filas por índices

In [54]:
# Creando un DataFrame de ejemplo
data = {'A': [1, 2, 3],
        'B': [4, 5, 6],
        'C': [7, 8, 9]}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [55]:
# Eliminar la primera fila (índice 0)
df = df.drop(0)
df

Unnamed: 0,A,B,C
1,2,5,8
2,3,6,9


#### Eliminando filas por etiquetas

In [56]:
# Creaando un DataFrame 
data = {'A': [1, 2, 3],
        'B': [4, 5, 6],
        'C': [7, 8, 9]}
df = pd.DataFrame(data, index=['Fila1', 'Fila2', 'Fila3'])

df

Unnamed: 0,A,B,C
Fila1,1,4,7
Fila2,2,5,8
Fila3,3,6,9


In [57]:
# Eliminar filas con etiquetas 'Fila1' y 'Fila3'
df = df.drop(['Fila1', 'Fila3'])
df

Unnamed: 0,A,B,C
Fila2,2,5,8


#### Eliminando filas que cumplan ciertas condiciones

In [58]:
# Crear un DataFrame de ejemplo
data = {'A': [1, 2, 3, 4, 5],
        'B': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B
0,1,10
1,2,20
2,3,30
3,4,40
4,5,50


In [59]:
# Eliminar filas donde el valor en la columna 'B' sea mayor que 30
df = df.drop(df[df['B'] > 30].index)
df

Unnamed: 0,A,B
0,1,10
1,2,20
2,3,30


En el ejemplo anterior, creamos un DataFrame con dos columnas `'A' y 'B'`. Luego, utilizamos una máscara booleana `df['B'] > 30` para seleccionar las filas donde el valor en la columna `'B'` sea mayor que 30. A continuación, utilizamos el método `drop()` junto con el índice de las filas seleccionadas `(df[df['B'] > 30].index)` para eliminar esas filas del DataFrame.

## 3.6. Valores Nulo: `NaN`
En Pandas, los valores nulos se representan como `NaN` (Not a Number) y se utilizan para indicar datos faltantes o ausentes en un DataFrame. Puedes verificar la presencia de valores nulos en un DataFrame utilizando el método `isnull()` o `isna()`.

In [60]:
import numpy as np # Importamos Numpy para generar valroes nulos

# Crear un DataFrame de ejemplo con valores nulos
data = {'A': [1, 2, np.nan, 4],
        'B': [5, np.nan, 7, 8],
        'C': [9, 10, 11, np.nan]}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B,C
0,1.0,5.0,9.0
1,2.0,,10.0
2,,7.0,11.0
3,4.0,8.0,


In [61]:
# Verificar los valores nulos en el DataFrame
df.isnull()

Unnamed: 0,A,B,C
0,False,False,False
1,False,True,False
2,True,False,False
3,False,False,True


El resultado impreso será un DataFrame con el mismo tamaño que el original, pero con valores booleanos que indican si cada elemento es nulo `(True)` o no nulo `(False)`.

También se puede contar la cantidad de valores nulos en cada columna utilizando el método `sum()` después de aplicar `isnull()`

In [62]:
df.isnull().sum()

A    1
B    1
C    1
dtype: int64

## 3.6.1. Eliminando valores nulos
Para eliminar los valores nulos de un DataFrame en Pandas, puedes utilizar el método `dropna()`. Este método eliminará cualquier fila o columna que contenga al menos un valor nulo.


In [63]:
# Creando un DataFrame de ejemplo con valores nulos
data = {'A': [1, 2, 3, 4],
        'B': [5, np.nan, 7, 8],
        'C': [9, 10, 11, np.nan]}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B,C
0,1,5.0,9.0
1,2,,10.0
2,3,7.0,11.0
3,4,8.0,


In [64]:
# Ejemplo1: Elimina filas con valores nulos
df_sin_nulos = df.dropna()
df_sin_nulos

Unnamed: 0,A,B,C
0,1,5.0,9.0
2,3,7.0,11.0


In [65]:
# Ejemplo 2: Elimina columnas con valores nulos
df_sin_columnas_nulas = df.dropna(axis=1)
df_sin_columnas_nulas

Unnamed: 0,A
0,1
1,2
2,3
3,4


En este ejemplo, se utilioza el método `dropna()` especificando el argumento `axis=1` para indicar que queremos eliminar columnas en lugar de filas. El resultado impreso será un nuevo DataFrame que solo contiene las columnas sin valores nulos.

In [66]:
# Ejemplo 3: Elimina filas con valroes nulos de una columna especifica
df_sin_columna_nula = df.dropna(subset=['B'], axis=0)
df_sin_columna_nula

Unnamed: 0,A,B,C
0,1,5.0,9.0
2,3,7.0,11.0
3,4,8.0,


## 3.7. Filtrando DataFrame

En Pandas, puedes filtrar un DataFrame utilizando la función `loc[]` o mediante el uso de operadores lógicos en combinación con condiciones.

### Filtrar utilizando `loc[]`:

In [67]:
# Se crear un DataFrame de ejemplo
data = {'A': [1, 2, 3, 4, 5],
        'B': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e


In [68]:
# Filtrar utilizando loc[]
filtro = df.loc[df['A'] > 3]
filtro

Unnamed: 0,A,B
3,4,d
4,5,e


En el ejemplo anterior, estamos filtrando el DataFrame df utilizando `loc[]` y la condición `df['A'] > 3`. Esto nos devuelve un nuevo DataFrame que solo contiene las filas donde el valor en la columna `'A'` es mayor que 3.

Se puede agregar múltiples condiciones utilizando operadores lógicos como `&` (AND) o `|` (OR).

In [69]:
filtro = df.loc[(df['A'] > 2) & (df['B'] == 'c')]
filtro

Unnamed: 0,A,B
2,3,c


En este caso, estamos filtrando el DataFrame para seleccionar las filas donde el valor en la columna `'A'` es mayor que 2 y el valor en la columna `'B'` es igual a 'c'.

### Filtrar utilizando operadores lógicos y condiciones

In [70]:
# Se crear un DataFrame de ejemplo
data = {'A': [1, 2, 3, 4, 5],
        'B': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e


In [71]:
# Filtrar utilizando operadores lógicos y condiciones
filtro = df[(df['A'] > 2) & (df['B'] != 'b')]
filtro

Unnamed: 0,A,B
2,3,c
3,4,d
4,5,e


En el ejemplo anterior, utilizamos los operadores `>` (mayor que) y `!=` (distinto de) para establecer las condiciones en las columnas `'A'` y `'B'` respectivamente. Al combinar estas condiciones con el operador `&` (AND), estamos filtrando el DataFrame para seleccionar las filas donde el valor en la columna `'A'` es mayor que 2 y el valor en la columna `'B'` no es igual a `'b'`.

También se puede utilizar el operador `|` (OR) para combinar condiciones y seleccionar filas que cumplan con alguna de las condiciones. 

In [72]:
filtro = df[(df['A'] > 3) | (df['B'] == 'c')]
filtro

Unnamed: 0,A,B
2,3,c
3,4,d
4,5,e


En este caso, estamos filtrando el DataFrame para seleccionar las filas donde el valor en la columna `'A'` es mayor que 3 o el valor en la columna `'B'` es igual a `'c'`.

## 3.8. Reemplazando valores, cambiando formatos y renombrando variables

## 3.8.1 Reemplazando valores

Para reemplazar valores numéricos y de cadenas en un DataFrame de Pandas, puedes utilizar el método `replace()`.

In [73]:
# Crear un DataFrame de ejemplo
data = {'A': [1, 2, 3, 4, 5],
        'B': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e


In [74]:
# Reemplazar valores numéricos
df.replace(3, 10, inplace=True)
df

Unnamed: 0,A,B
0,1,a
1,2,b
2,10,c
3,4,d
4,5,e


Para reemplazar el valor numérico 3 por 10, utilizamos `df.replace(3, 10, inplace=True)`. Con el argumento `inplace=True`, el DataFrame original se modifica directamente.

In [75]:
# Reemplazar valores de cadenas
df.replace('d', 'z', inplace=True)
df

Unnamed: 0,A,B
0,1,a
1,2,b
2,10,c
3,4,z
4,5,e


Para reemplazar la cadena 'd' por 'z', utilizamos `df.replace('d', 'z', inplace=True)`. De nuevo, con el argumento `inplace=True`, el DataFrame original se modifica directamente.

## 3.8.2 Cambiando formatos de variables

Para cambiar los formatos de variables en un DataFrame de Pandas, puedes utilizar el métodos `astype()`. este método permite convertir una columna de un tipo de datos a otro, como por ejemplo de entero a flotante, de cadena a fecha, etc.

In [76]:
# Crear un DataFrame de ejemplo
data = {'A': [1, 2, 3, 4, 5],
        'B': ['10.5', '20.3', '30.7', '40.2', '50.9'],
        'C': [100.0, 200.0, 300.0, 400.0, 500.0]}
df = pd.DataFrame(data)
print(df.dtypes)
df

A      int64
B     object
C    float64
dtype: object


Unnamed: 0,A,B,C
0,1,10.5,100.0
1,2,20.3,200.0
2,3,30.7,300.0
3,4,40.2,400.0
4,5,50.9,500.0


In [77]:
# Ejemplo 1: Cambiar el tipo de datos de la columna 'B' a flotante
df['B'] = df['B'].astype(float)
print(df.dtypes)
df

A      int64
B    float64
C    float64
dtype: object


Unnamed: 0,A,B,C
0,1,10.5,100.0
1,2,20.3,200.0
2,3,30.7,300.0
3,4,40.2,400.0
4,5,50.9,500.0


In [78]:
# Ejemplo 2: Cambiar el tipo de datos de la columna 'A' a cadena
df['A'] = df['A'].astype(str)
print(df.dtypes)
df

A     object
B    float64
C    float64
dtype: object


Unnamed: 0,A,B,C
0,1,10.5,100.0
1,2,20.3,200.0
2,3,30.7,300.0
3,4,40.2,400.0
4,5,50.9,500.0


In [79]:
# Ejemplo 3: Cambiar el tipo de datos de la columna 'C' a enteros
df['C'] = df['C'].astype(int)
print(df.dtypes)
df

A     object
B    float64
C      int32
dtype: object


Unnamed: 0,A,B,C
0,1,10.5,100
1,2,20.3,200
2,3,30.7,300
3,4,40.2,400
4,5,50.9,500


## 3.8.3 Renombrando columnas

Para renombrar las columnas de un DataFrame en Pandas, puedes utilizar el método `rename()`. Este método te permite cambiar los nombres de una o varias columnas en función de tus necesidades.

In [80]:
# Crear un DataFrame de ejemplo
data = {'A': [1, 2, 3, 4, 5],
        'B': ['10.5', '20.3', '30.7', '40.2', '50.9']}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B
0,1,10.5
1,2,20.3
2,3,30.7
3,4,40.2
4,5,50.9


In [81]:
# Renombrar la columnas
df = df.rename(columns={'A': 'Columna1', 'B': 'Columna2'})
df

Unnamed: 0,Columna1,Columna2
0,1,10.5
1,2,20.3
2,3,30.7
3,4,40.2
4,5,50.9


En este ejemplo, utilizamos el método `rename()` para cambiar los nombres de las columnas `'A' y 'B'` a `'Columna1' y 'Columna2'`, respectivamente. El argumento columns de `rename()` recibe un diccionario donde las claves son los nombres actuales de las columnas y los valores son los nuevos nombres que deseas asignar.

# 4. Ejemplo Práctico

Los datos oara este ejemplo provienen de las **Naciones Unidas**. Son dos baes de datos distintas, la primera muestra el **Índice de Desarrollo Humano (HDI por sus siglas en íngles)** y la segunda muestra **Emisión de CO2 Per Cápita** para los países del mundo. La columna`code` es el codigo iso del país; `country` es el nombre del país; y las columnas con el prefijo `hdi_` muestra el HDI en su respectivo año en el caso de la priemra base de datos, y las columnas con el prefijo `co2_` muestra el la emisión de co2 en su respectivo año para el caso de las segunda base de datos..

Los datos estan en el material del curso, pero se pueden descargar los datos en el siguiente enlace: https://hdr.undp.org/data-center/documentation-and-downloads

In [95]:
# Importamos las librerias
import pandas as pd
import numpy as np

#### Leemos los datos

In [96]:
# Leemos los datos de HDI
hdi_world = pd.read_excel('Datos/HDI.xlsx', sheet_name = 'hdi')
hdi_world.head()

Unnamed: 0,code,country,hdi_2010,hdi_2011,hdi_2012,hdi_2013,hdi_2014,hdi_2015,hdi_2016,hdi_2017,hdi_2018,hdi_2019,hdi_2020
0,AFG,Afghanistan,0.448,0.456,0.466,0.474,0.479,0.478,0.481,0.482,0.483,0.488,0.483
1,AGO,Angola,0.51,0.526,0.541,0.552,0.563,0.582,0.596,0.597,0.595,0.595,0.59
2,ALB,Albania,0.754,0.766,0.778,0.785,0.792,0.795,0.798,0.802,0.806,0.81,0.794
3,AND,Andorra,0.848,0.849,0.869,0.864,0.871,0.867,0.871,0.868,0.872,0.873,0.848
4,ARE,United Arab Emirates,0.835,0.84,0.846,0.852,0.859,0.865,0.87,0.897,0.909,0.92,0.912


In [97]:
# Leemos los datos de CO2
co2_world = pd.read_excel('Datos/co2_production.xlsx', sheet_name = 'co2')
co2_world.head()

Unnamed: 0,code,country,co2_prod_2010,co2_prod_2011,co2_prod_2012,co2_prod_2013,co2_prod_2014,co2_prod_2015,co2_prod_2016,co2_prod_2017,co2_prod_2018,co2_prod_2019,co2_prod_2020
0,AFG,Afghanistan,0.287739,0.401954,0.327922,0.261571,0.232967,0.22968,0.190617,0.188995,0.224492,0.319299,0.312376
1,AGO,Angola,1.235836,1.252224,1.346212,1.277248,1.235861,1.205736,1.088803,0.953168,0.791171,0.737992,0.67541
2,ALB,Albania,1.508842,1.717788,1.601835,1.697127,1.940611,1.555329,1.556278,1.838242,1.642153,1.688178,1.575754
3,AND,Andorra,6.117538,5.862658,5.912019,5.896947,5.828084,5.964928,6.067376,6.043168,6.423396,6.505535,6.034945
4,ARE,United Arab Emirates,21.125375,21.571042,22.047365,22.330116,21.914832,23.381781,22.932086,17.795688,16.01124,15.780701,15.193336


#### Exploramos las bases de datos

In [98]:
# Información de la base del HDI
hdi_world.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 195 entries, 0 to 194
Data columns (total 13 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   code      195 non-null    object 
 1   country   195 non-null    object 
 2   hdi_2010  189 non-null    float64
 3   hdi_2011  190 non-null    float64
 4   hdi_2012  190 non-null    float64
 5   hdi_2013  190 non-null    float64
 6   hdi_2014  190 non-null    float64
 7   hdi_2015  190 non-null    float64
 8   hdi_2016  190 non-null    float64
 9   hdi_2017  190 non-null    float64
 10  hdi_2018  191 non-null    float64
 11  hdi_2019  191 non-null    float64
 12  hdi_2020  191 non-null    float64
dtypes: float64(11), object(2)
memory usage: 19.9+ KB


In [99]:
# Información de la base del CO2
co2_world.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 195 entries, 0 to 194
Data columns (total 13 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   code           195 non-null    object 
 1   country        195 non-null    object 
 2   co2_prod_2010  193 non-null    float64
 3   co2_prod_2011  193 non-null    float64
 4   co2_prod_2012  193 non-null    float64
 5   co2_prod_2013  193 non-null    float64
 6   co2_prod_2014  193 non-null    float64
 7   co2_prod_2015  193 non-null    float64
 8   co2_prod_2016  193 non-null    float64
 9   co2_prod_2017  193 non-null    float64
 10  co2_prod_2018  193 non-null    float64
 11  co2_prod_2019  193 non-null    float64
 12  co2_prod_2020  193 non-null    float64
dtypes: float64(11), object(2)
memory usage: 19.9+ KB


Con el método `info()` podemso ver lso tipos de datos, los valores nulos y la dimensión de las bases de datos

#### Algunas estadísticas descriptivas

In [100]:
# Base del HDI
hdi_world.describe()

Unnamed: 0,hdi_2010,hdi_2011,hdi_2012,hdi_2013,hdi_2014,hdi_2015,hdi_2016,hdi_2017,hdi_2018,hdi_2019,hdi_2020
count,189.0,190.0,190.0,190.0,190.0,190.0,190.0,190.0,191.0,191.0,191.0
mean,0.689185,0.694589,0.699416,0.704153,0.708463,0.712258,0.716058,0.719547,0.723927,0.727497,0.721524
std,0.156691,0.154363,0.153326,0.153183,0.15238,0.151868,0.151512,0.151377,0.150751,0.150415,0.149417
min,0.338,0.346,0.354,0.362,0.37,0.376,0.383,0.39,0.395,0.393,0.386
25%,0.553,0.5615,0.572,0.57325,0.58325,0.59125,0.596,0.5975,0.6025,0.6105,0.606
50%,0.721,0.7205,0.725,0.7265,0.7295,0.736,0.7415,0.744,0.746,0.746,0.736
75%,0.812,0.81175,0.8165,0.8185,0.82225,0.8285,0.833,0.83375,0.84,0.8435,0.8315
max,0.942,0.944,0.946,0.949,0.952,0.954,0.956,0.959,0.962,0.962,0.959


In [101]:
# Base del HDI
co2_world.describe()

Unnamed: 0,co2_prod_2010,co2_prod_2011,co2_prod_2012,co2_prod_2013,co2_prod_2014,co2_prod_2015,co2_prod_2016,co2_prod_2017,co2_prod_2018,co2_prod_2019,co2_prod_2020
count,193.0,193.0,193.0,193.0,193.0,193.0,193.0,193.0,193.0,193.0,193.0
mean,4.696316,4.661528,4.704025,4.596764,4.541478,4.479665,4.433634,4.480503,4.476795,4.50599,4.161565
std,6.147448,6.070297,6.168997,5.796302,5.771848,5.664442,5.468515,5.531716,5.549887,5.739985,5.354412
min,0.030387,0.036544,0.034139,0.02636,0.027907,0.036628,0.025563,0.030392,0.033065,0.03098,0.02766
25%,0.62045,0.636023,0.628697,0.684494,0.667882,0.675339,0.697118,0.697596,0.714657,0.737992,0.67541
50%,2.448768,2.462896,2.500455,2.50596,2.521287,2.558051,2.506867,2.539342,2.524293,2.569611,2.498281
75%,6.294993,6.490075,6.544431,6.250287,6.18757,5.964928,6.023375,5.887613,6.027754,5.945324,5.241223
max,38.743282,39.122174,42.031162,35.392331,36.767515,35.131562,33.494338,36.611801,38.439692,40.619378,37.019451


#### Eliminamos una columna: `code`

In [102]:
# En la base 'HDI'
hdi_world.drop('code', axis=1, inplace=True)
hdi_world.head()

Unnamed: 0,country,hdi_2010,hdi_2011,hdi_2012,hdi_2013,hdi_2014,hdi_2015,hdi_2016,hdi_2017,hdi_2018,hdi_2019,hdi_2020
0,Afghanistan,0.448,0.456,0.466,0.474,0.479,0.478,0.481,0.482,0.483,0.488,0.483
1,Angola,0.51,0.526,0.541,0.552,0.563,0.582,0.596,0.597,0.595,0.595,0.59
2,Albania,0.754,0.766,0.778,0.785,0.792,0.795,0.798,0.802,0.806,0.81,0.794
3,Andorra,0.848,0.849,0.869,0.864,0.871,0.867,0.871,0.868,0.872,0.873,0.848
4,United Arab Emirates,0.835,0.84,0.846,0.852,0.859,0.865,0.87,0.897,0.909,0.92,0.912


In [103]:
# En la base 'CO2'
co2_world.drop('code', axis=1, inplace=True)
co2_world.head()

Unnamed: 0,country,co2_prod_2010,co2_prod_2011,co2_prod_2012,co2_prod_2013,co2_prod_2014,co2_prod_2015,co2_prod_2016,co2_prod_2017,co2_prod_2018,co2_prod_2019,co2_prod_2020
0,Afghanistan,0.287739,0.401954,0.327922,0.261571,0.232967,0.22968,0.190617,0.188995,0.224492,0.319299,0.312376
1,Angola,1.235836,1.252224,1.346212,1.277248,1.235861,1.205736,1.088803,0.953168,0.791171,0.737992,0.67541
2,Albania,1.508842,1.717788,1.601835,1.697127,1.940611,1.555329,1.556278,1.838242,1.642153,1.688178,1.575754
3,Andorra,6.117538,5.862658,5.912019,5.896947,5.828084,5.964928,6.067376,6.043168,6.423396,6.505535,6.034945
4,United Arab Emirates,21.125375,21.571042,22.047365,22.330116,21.914832,23.381781,22.932086,17.795688,16.01124,15.780701,15.193336


#### Reshape a los Dataframe

Como podemos ver los DataFrame estan en formato ancho (wide), pero para un mejor manejo de estos los pasaremos a formato largo (long). Para tal fin, utilizamos `melt()`.

In [107]:
# En la base 'HDI'
hdi_world = hdi_world.melt(id_vars='country', var_name = 'year', value_name = 'hdi')
hdi_world.head()

Unnamed: 0,country,year,hdi
0,Afghanistan,hdi_2010,0.448
1,Angola,hdi_2010,0.51
2,Albania,hdi_2010,0.754
3,Andorra,hdi_2010,0.848
4,United Arab Emirates,hdi_2010,0.835


In [114]:
# reemplazamos el prefijo 'hdi_' de la variable year
hdi_world['year'] = hdi_world['year'].str.replace('hdi_','')
hdi_world.head()

Unnamed: 0,country,year,hdi
0,Afghanistan,2010,0.448
1,Angola,2010,0.51
2,Albania,2010,0.754
3,Andorra,2010,0.848
4,United Arab Emirates,2010,0.835


In [115]:
# Cambiamos de la columnas 'year'
hdi_world.dtypes # Vemos eque es una cadena de texto

country     object
year        object
hdi        float64
dtype: object

In [116]:
# realizamos el cambio de formato por un entero
hdi_world['year'] = hdi_world['year'].astype(int)
hdi_world.dtypes

country     object
year         int32
hdi        float64
dtype: object

In [117]:
# realizamos el mismo procedimeinto para la base de 'CO2'

# Reshape
co2_world = co2_world.melt(id_vars='country', var_name = 'year', value_name = 'co2')

# Cambio de valores
co2_world['year'] = co2_world['year'].str.replace('co2_prod_','')

# Cambio de formato
co2_world['year'] = co2_world['year'].astype(int)

#### ¿Como se ven los datos?

In [118]:
# Base de 'HDI'
hdi_world.head(10)

Unnamed: 0,country,year,hdi
0,Afghanistan,2010,0.448
1,Angola,2010,0.51
2,Albania,2010,0.754
3,Andorra,2010,0.848
4,United Arab Emirates,2010,0.835
5,Argentina,2010,0.834
6,Armenia,2010,0.746
7,Antigua and Barbuda,2010,0.79
8,Australia,2010,0.923
9,Austria,2010,0.902


In [119]:
# Base de 'CO2'
co2_world.head(10)

Unnamed: 0,country,year,co2
0,Afghanistan,2010,0.287739
1,Angola,2010,1.235836
2,Albania,2010,1.508842
3,Andorra,2010,6.117538
4,United Arab Emirates,2010,21.125375
5,Argentina,2010,4.566076
6,Armenia,2010,1.478008
7,Antigua and Barbuda,2010,5.161312
8,Australia,2010,18.259493
9,Austria,2010,8.561324


Podemos ver que los datos tiene un formato de Panel, es decir, tiene observaciones repetidas (columna 'country') a lo largo del tiempo (columna 'year')

#### Unimos horizontamenlte los datos: unión `outer` con `merge()`

Vemos que las dos variables identificadoras son `'country'` y `year`


In [134]:
# Unión de las bases
merge_df = pd.merge(hdi_world, co2_world, on = ['country', 'year'], how = 'outer')
merge_df.head(10)

Unnamed: 0,country,year,hdi,co2
0,Afghanistan,2010,0.448,0.287739
1,Angola,2010,0.51,1.235836
2,Albania,2010,0.754,1.508842
3,Andorra,2010,0.848,6.117538
4,United Arab Emirates,2010,0.835,21.125375
5,Argentina,2010,0.834,4.566076
6,Armenia,2010,0.746,1.478008
7,Antigua and Barbuda,2010,0.79,5.161312
8,Australia,2010,0.923,18.259493
9,Austria,2010,0.902,8.561324


In [135]:
# Vemos la nueva dimensción de este DataFrame
merge_df.shape

(2145, 4)

#### Eliminamos filas con valores nulos

In [136]:
# Vemos cuandos valroes nulos tiene el nuevo DataFrame
merge_df.isnull().sum()

country     0
year        0
hdi        53
co2        22
dtype: int64

In [137]:
# Eliminamos las filas que contengan al menos un valos nulo
merge_df = merge_df.dropna(subset=['hdi', 'co2'])
merge_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2089 entries, 0 to 2144
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   country  2089 non-null   object 
 1   year     2089 non-null   int32  
 2   hdi      2089 non-null   float64
 3   co2      2089 non-null   float64
dtypes: float64(2), int32(1), object(1)
memory usage: 73.4+ KB


Vemos que ya no tenemos valores nulos.

#### Aplicamos un Índice Múltiple

Como tenemso los datos en formato panel, le asignamos un índice múltiple en el que el primer grupo es el la columna 'country' y el segundo grupo sea la columna 'year'.

In [139]:
# Se asignal los índices
merge_df.set_index(['country', 'year'], inplace=True)

In [126]:
merge_df.head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,hdi,co2
country,year,Unnamed: 2_level_1,Unnamed: 3_level_1
Afghanistan,2010,0.448,0.287739
Angola,2010,0.51,1.235836
Albania,2010,0.754,1.508842
Andorra,2010,0.848,6.117538
United Arab Emirates,2010,0.835,21.125375
Argentina,2010,0.834,4.566076
Armenia,2010,0.746,1.478008
Antigua and Barbuda,2010,0.79,5.161312
Australia,2010,0.923,18.259493
Austria,2010,0.902,8.561324


# Referencias

* El Libro de Python: https://ellibrodepython.com/
* Learn Python Programming: https://www.programiz.com/python-programming/
* Charles R. Severance: “Python for Everybody: Exploring Data Using Python 3”. Libro de version libre: https://www.py4e.com/html3/
* Pandas: powerful Python data analysis toolkit. Libro versión PDF: https://pandas.pydata.org/pandas-docs/version/1.4.4/pandas.pdf

# Referencias adicionales
* Libro sobre los elementos básicos de Python: https://learnpythontherightway.com/ 
* Curso EdX sobre exploración de datos con Python y R: https://www.edx.org/es/course/analisis-exploratorio-de-datos-con-python-y-r 
* Curso interactivo introductorio a Python de DataCamp: https://www.datacamp.com/courses/intro-to-python-for-data-science