# **Introducción al análisis de datos en Python** 
#### Profesor: Juan Pablo Salas

## Clase 3. Pandas
Una de las habilidades más relevantes para un Data Analyst o un Data Scientist es el manejo de datos estructurados. En este tutorial aprenderá cómo importar archivos a Python para crear `DataFrames` y de esta forma manipularlos para que estos queden en el formato más conveniente para su análisis.

## Introducción a Pandas

###  ¿Qué es Pandas?
Pandas es una librería de código abierto para Python que proporciona herramientas de análisis de datos de alto rendimiento y fáciles de usar. Está construida sobre la biblioteca NumPy y proporciona estructuras de datos de alto nivel para trabajar con datos estructurados y tabulares, como hojas de cálculo y bases de datos relacionales.

Algunas de las características más importantes de Pandas son:

- Ofrece estructuras de datos para trabajar con datos tabulares, como el DataFrame y la Serie.
- Proporciona herramientas para la lectura y escritura de datos desde y hacia una variedad de formatos de archivo, como CSV, Excel, SQL, entre otros.
- Permite realizar operaciones de limpieza y preprocesamiento de datos, como la eliminación de valores perdidos o la normalización de datos.
- Ofrece una amplia variedad de métodos para el análisis de datos, como el agrupamiento, la agregación, la selección y el filtrado de datos.
- Permite la visualización de datos con la integración con otras bibliotecas de Python, como Matplotlib.

Pandas es ampliamente utilizado en ciencia de datos, finanzas, ingeniería y otras disciplinas que requieren la manipulación y el análisis de grandes conjuntos de datos. Es una de las herramientas más populares en Python para el análisis de datos debido a su facilidad de uso y su amplia gama de funciones.

En el siguiente diagrama se puede ver la estructura general de un `dataframe`, es muy similar a un Excel pero solo con una hoja. En este caso las filas representan observaciones y las columnas representan variables.

<center>
<img src="img/dataframe.png" alt="dataframe" width="500" height="300">
</center>

Comenzaremos nuestra introducción a `Pandas` creando nuestro primer `dataframe` con un diccionario.

In [1]:
import pandas as pd

In [2]:
# Cada variable de nuestro dataframe partirá de una lista
nombres = ["Jose", "Sebastian", "Hamadys", "Carlos", "Julian", "Juan"]
sexo = ["M", "M", "F", "M", "M", None]
edad = [24, 25, 32, 45, 52, 20]
peso = [75, 80, 60, 86, 72, 70]

In [3]:
# Creamos un diccionario con toda la información
un_diccionario = {
    "nombres": nombres,
    "sexo": sexo,
    "edad": edad,
    "peso": peso
}

In [None]:
un_diccionario

In [5]:
# Construimos nuestro primer dataframe
data = pd.DataFrame(un_diccionario)

In [None]:
# Visualizamos nuestro dataframe
data

El `dataframe` es un objeto en Python que tiene unos atributos especiales. Estos atributos nos sirven para estudiar las características de nuestro objeto. Los principales se listan a continuación: 

- `.index`: es una propiedad que devuelve una lista con los nombres de fila del dataframe.

- `.columns`: es una propiedad que devuelve una lista con los nombres de las columnas del dataframe.

- `.shape`: es una propiedad que devuelve una tupla que indica el número de filas y columnas en el dataframe. Por ejemplo, un dataframe con 100 filas y 5 columnas tendría una forma de (100, 5).

- `.size`: es una propiedad que devuelve la cantidad de datos o celdas del dataframe. Por ejemplo, un dataframe con 100 filas y 5 columnas tendría un `size` de $100\times5=500$.

- `.count()`: este método cuenta la cantidad de valores no nulos por columna o fila.

- `.values`: es una propiedad que devuelve un array NumPy que contiene los valores del dataframe.

- `.T`: es un atributo que devuelve la base traspuesta.

- `.dtypes`: es una propiedad que devuelve un objeto que describe los tipos de datos de cada columna.

- `.head(n)`: es un método que devuelve las primeras n filas del dataframe.

- `.tail(n)`: es un método que devuelve las últimas n filas del dataframe.

- `.info()`: es un método que muestra información sobre el dataframe, incluyendo su forma, los tipos de datos de cada columna y la cantidad de valores no nulos.

- `.describe()`: es un método que muestra estadísticas descriptivas sobre el dataframe, incluyendo la media, la mediana, la desviación estándar, etc.

A continuación estudiaremos a detalle cada uno de estos métodos y atributos.


In [None]:
data

In [None]:
# .index Estudiamos los nombres del índice
data.index

In [None]:
# .columns ¿Cuáles son los nombres de las columnas?
data.columns

In [None]:
# .shape ¿Cuáles son las dimensiones del dataframe?
data.shape

In [None]:
# .size ¿Cuántos datos tengo?
data.size

In [None]:
# .count() ¿Cuántos datos no nulos tengo por columna?
data.count()

In [None]:
# .count() ¿Cuántos datos no nulos tengo por fila/observación/individuo?
data.count(axis = 1)

In [None]:
# axis = 0 calcula las funciones por columna. Esta es la opción por default
# axis = 1 calcula las funciones por fila
data.count(axis = 0)

In [None]:
# .values Convierte el dataframe en un np.array de dos dimensiones
data.values

In [None]:
# .T Trasponer
data.T

In [17]:
data_transpuesta = data.T

In [None]:
data.T.index

In [None]:
data.T.columns

In [None]:
# .dtypes ¿Cuál es el tipo de cada variable?
data.dtypes

In [None]:
# .head() por defecto entrega las primeras 5 filas
data.head()

In [None]:
# Primera fila
data.head(1)

In [None]:
# Primeras dos filas
data.head(2)

In [None]:
# .tail() Por defecto devuelve las últimas 5 filas
data.tail()

In [None]:
# Última fila
data.tail(1)

In [None]:
# Últimas dos filas
data.tail(2)

In [None]:
data

In [None]:
# .info() descripción general de la estructura de la base
data.info()

In [None]:
# .describe() Estadísticas descriptivas de la data
data.describe()

In [None]:
data.describe(include = "object")

In [None]:
data.describe(include = "all")

### Indexación y ejes
Adicionalmente, para manipular los dataframes es importante aprender como extraer fracciones de nuestra información. A esto se le conoce generalmente como *slicing*. En esta sección aprenderemos a filtrar la data por columnas y por filas. Los métodos que veremos serán.

- `[{nombre de la columna}]` y `.{nombre de la columna}`: Extracción de columnas.

- `set_index()`: Convertir una columna como índice.

- `.loc[]`: es un método para acceder a filas y columnas del dataframe por etiquetas de fila y columna.

- `.iloc[]`: es un método para acceder a filas y columnas del dataframe por índice entero.

- `.groupby()`: es un método para agrupar los datos por una o más columnas y realizar cálculos sobre los grupos resultantes.

- `.reset_index()`: Reiniciar el índice para que sea una enumeración de las filas.

- `.sort_values()`: Re-ordenar las filas.

- `.rename()`: Cambiarle el nombre a una fila o una columna.

- `.unique()`: Devuelve los valores únicos de la columna.

- `.value_counts()`: Cuenta la cantidad de valores únicos por columna.


**Extraer columnas**

Para extraer columnas tenemos dos métodos.
1. El primero consiste escribir entre corchetes cuadrados (`[]`) el nombre de la columna que se desea extraer entre comillas. Este método también permite extraer más de una columnas. Si ese es el caso, se pondría entre los corchetes cuadrados una lista con los nombres de las columnas deseadas entre comillas y separadas por comas.
2. El segundo método consiste en poner el nombre de la columna que se quiere extraer después de un punto `.`. Este método solo sirve si el nombre no está separado por espacios o caracteres especiales. 

In [None]:
data

In [None]:
# Método 1
data["nombres"]

In [None]:
# Método 1
data[["nombres", "peso"]]

In [None]:
columnas_deseadas = ['nombres', "peso"]
data[columnas_deseadas]

In [None]:
# Método 2
data.nombres

In [None]:
data

In [38]:
# Convertir una columna como un índice
data_con_indice_nombre = data.set_index('nombres')

In [None]:
# Si no sobreescribimos el objeto, no se guardan los cambios
data 

In [None]:
# Si no sobreescribimos el objeto, no se guardan los cambios
data = data.set_index('nombres')
data

In [None]:
# Otra forma de sobreescribir el objeto sin necesidad de asignarlo es usando el argumento inplace = True, dentro
# de las funciones de Pandas
data.set_index("sexo", append = True, inplace = True)
data

In [None]:
# Para resetar el índice usamos .reset_index()
data.reset_index(inplace = True)
data

In [43]:
# Vuelva nombres el índice
data.set_index("nombres", inplace = True)

In [None]:
data

In [None]:
# Ordene por edad de menor a mayor. No guarde el valor
data.sort_values(['sexo','peso'])

In [None]:
# Ordene por edad de mayor a menor. No guarde el valor
data.sort_values('edad', ascending = False)

# Note que los índices se movieron!

In [None]:
# Cambie el nombre de la columna sexo a género
data.rename(columns = {"sexo": "género"})

In [None]:
# Valores únicos de la columna sexo
data.sexo.unique()

In [None]:
# ¿Cuántos hombres y mujeres tenemos?
data["sexo"].value_counts()

In [None]:
data['edad'].value_counts()

In [None]:
# Incluya los valores faltantes en el conteo
#dropna: drop nan - eliminar los valores nulos
data["sexo"].value_counts(dropna = False)

In [None]:
# ¿Cuál es la proporción de hombres y mujeres tenemos?
data["sexo"].value_counts(normalize = True)

In [None]:
data['sexo'].value_counts()

In [None]:
data.groupby('sexo').mean()

In [None]:
data.groupby('sexo').sum()

In [None]:
data.groupby('sexo').count()

In [57]:
import numpy as np

In [None]:
None, np.nan, pd.NA
#NAN - Not A Number

Los métodos `.iloc` y ``.loc`` son utilizados en Pandas para acceder a los datos de un dataframe de diferentes maneras.

`.iloc` se utiliza para acceder a los datos del dataframe mediante índices enteros. Permite seleccionar filas y columnas utilizando números enteros en lugar de etiquetas de fila y columna. La sintaxis general para utilizar `.iloc` es la siguiente:

```python
dataframe.iloc[filas, columnas]
```

Donde `filas` y `columnas` son listas o arrays de números enteros que indican las filas y columnas que se desean seleccionar, respectivamente.

<center>
<div>
<img src="img/iloc2.png" width="500"/>
</div>
</center>

Por ejemplo, para seleccionar las primeras 3 filas y las primeras 2 columnas de un dataframe, se puede utilizar el siguiente código:

```python 
dataframe.iloc[:3, :2]
```

Recuerde que la indexación en python empieza en 0. A continuación puede encontrar una referencia gráfica:
<center>
<img src="img/iloc1.png" alt="indexación" width="450" height="200">
</center>

Por otro lado, `.loc` se utiliza para acceder a los datos del dataframe mediante etiquetas de fila y columna. Permite seleccionar filas y columnas utilizando las etiquetas de fila y columna en lugar de índices enteros. La sintaxis general para utilizar `.loc` es la siguiente:

```python
dataframe.loc[filas, columnas]
```

Donde `filas` y `columnas` son listas o arrays de etiquetas de fila y columna que indican las filas y columnas que se desean seleccionar, respectivamente.

<center>
<div>
<img src="img/iloc3.png" width="500"/>
</div>
</center>

Por ejemplo, para seleccionar todas las filas donde la columna "edad" es mayor o igual a 30, se puede utilizar el siguiente código:

```python
dataframe.loc[dataframe['edad'] >= 30, :]
```

En resumen, `.iloc` se utiliza para acceder a los datos mediante índices enteros, mientras que `.loc` se utiliza para acceder a los datos mediante etiquetas de fila y columna. Ambos métodos son muy útiles para la selección y manipulación de datos en Pandas.

In [None]:
data

In [None]:
data.iloc[1:3,1:]

In [None]:
# Extraiga la fila de Hamadys usando .loc
data.loc['Hamadys',['edad','sexo']]

In [None]:
data.loc['Hamadys',:]

In [63]:
datos_transpuesto = data.T

In [None]:
datos_transpuesto

In [65]:
datos_transpuesto['Gelver'] = ['M',32,78]

In [None]:
# Extraiga la columna de edad usando .loc
data.loc[:,'edad']

In [None]:
# Extraiga los pesos de Juan y Carlos usando .loc
data.loc[['Juan', 'Carlos'], ['peso','edad']]

In [None]:
data

In [None]:
data['edad']>30

In [None]:
data.loc[data['edad']>30,:]

In [None]:
data.loc[data['peso']>70]

In [None]:
data.loc[(data['edad'] > 30) & (data['sexo'] == 'M'),:]

In [None]:
# Extraiga a todas las personas de sexo masculino mayores a 30 años
data.loc[(data['edad'] > 30) | (data['sexo'] == 'M'),:]

In [None]:
data.loc[(data['edad'] > 30) & (data['sexo'] == 'M')]

In [None]:
data

In [None]:
# Extraiga la segunda fila usando .iloc
data.iloc[1]

In [None]:
data.iloc[1,]

In [None]:
# Extraiga la segunda y tercera columna usando .iloc
data.iloc[:,[1,2]]

In [None]:
# Extraiga la primera y última fila y segunda columna usando .iloc
data.iloc[[0,-1],[1]]

In [None]:
# Reinicie el índice
data.reset_index(inplace = True, drop = False) 
data

In [None]:
data.loc[data['nombres']=='Hamadys',:]

## Ejercicio 1

Para el siguiente ejercicio, usted importará el archivo `consumo_masivo_col.xslx`. Este dataset contiene los productos disponibles en los dos supermercados más grandes de Colombia, en el se incluye la marca, producto, precio en diferentes puntos de corte durante el año 2019. Primero, una introducción a como leer este archivo.

In [168]:
ruta_archivo = '/content/consumo_masivo_col.xlsx' #Para GoogleColab
#ruta_archivo = './data/consumo_masivo_col.xlsx' #Para local
productos_consumo_masivo = pd.read_excel(ruta_archivo)

### Trabajando con fechas al importar un archivo de excel

In [None]:
productos_consumo_masivo['date'].head()

In [170]:
productos_consumo_masivo['date'] = pd.to_datetime(productos_consumo_masivo['date'],format='%Y%m%d')

### Trabajando con valores numéricos al importar un archivo de excel

In [None]:
productos_consumo_masivo['prod_unit_price'].head()

In [None]:
productos_consumo_masivo['prod_unit_price'].dtype

In [None]:
productos_consumo_masivo['prod_unit_price'] = pd.to_numeric(productos_consumo_masivo['prod_unit_price'].astype(str).str.replace(',', '.'),errors='coerce')

In [None]:
productos_consumo_masivo.head()

A partir del dataframe anterior, responda las siguientes preguntas:

1. Antes de iniciar, trate de familiarizarse un poco con la base de datos. ¿Cuántos valores de `subcategory` existen? ¿A qué corresponden? ¿Cuántos valores de `prod_units` existen? ¿A qué corresponden?
2. ¿Cuál es el rango de precios que se encuentra en esta base de datos?
3. ¿Cuál es el precio promedio de los artículos de cuidado personal?
4. ¿Cuáles son  las cinco `Galletas dulces` más costosas del mercado? ¿A qué marcas corresponden?
5. ¿Cuáles son las cinco marcas que tienen más productos por debajo de los $10,000 pesos? ¿Cuáles son? Encuentre algunos ejemplos de estos productos.
6. Construya el dataframe con las desviaciones estándar de los precios promedios y desviaciones estándar de todas las **botellas** de licor en el mercado? El resultado debe ser algo similar a la siguiente tabla:

| **tags**    | **promedio** | **std**      |
|-------------|--------------|--------------|
| Aguardiente | 34904.14966  | 19728.620641 |
| Aperitivos  | 38928.155738 | 32223.129149 |
| ...         | ...          | ...          |
| Whisky      | 97422.382114 | 62723.513287 |

7. ¿Cuántos productos tienen como fecha Febrero de 2020? ¿Cuáles son las dos marcas con más productos en esta fecha?

## Pandas avanzado

### Modificación de valores
Las columnas dentro de un dataframe a su vez son un objeto. Estos se conocen como `Series` y son una estructura de datos unidimensional que contiene una secuencia de valores y una etiqueta de índice para cada uno de ellos. Se puede pensar en una serie como una columna en una hoja de cálculo o como un array unidimensional con etiquetas de índice.

Una serie de Pandas se puede crear a partir de una lista, un array NumPy, un diccionario o incluso otro objeto de serie. La etiqueta de índice por defecto para cada elemento de la serie es simplemente un rango de números enteros de 0 a n-1, donde n es el número de elementos en la serie. Sin embargo, se puede especificar etiquetas de índice personalizadas para cada elemento de la serie.

In [None]:
type(data["nombres"])

In [None]:
data

Podemos comenzar editando valores o celdas particulares. Por ejemplo, el sexooo de Juan está como nulo. Vamos a definirlo como masculino

In [None]:
data.loc[data.nombres == "Juan", "sexo"]

In [None]:
data.loc[data.nombres == "Juan", "sexo"] = "M"

In [None]:
data

Del mismo modo, también podemos editar columnas. Actualmente tenemos la edad en años, pasemosla a días.

In [None]:
data["edad"]*365

In [None]:
data["edad"] = data["edad"]*365

In [None]:
data

También podemos crear una nueva variable

In [None]:
data["nueva_variable"] = [1,2,3,np.nan,np.nan,np.nan]

In [None]:
data

Otro método para crear una nueva variable es usando el método `.assign()`

In [None]:
data = data.assign(nueva_variable2 = np.nan)
data

In [None]:
data['edad'] = data['edad']/365
data['edad_dias'] = data['edad']*365

In [None]:
data

In [None]:
data.loc[data.edad<=24,'nueva_variable'] = 'Rango 1: 18-24'

In [None]:
data.loc[data.edad<=24,'nueva_variable'] = 'Rango 1: 18-24'
data.loc[(data.edad>=25) & (data.edad<=32),'nueva_variable'] = 'Rango 2: 25-32'
data.loc[(data.edad>=33) & (data.edad<=54),'nueva_variable'] = 'Rango 3: 33-54'
data.loc[(data.edad>=55),'nueva_variable'] = 'Rango 4: 55+'
data

El valor con el que se modifica cada variable no tiene que ser el mismo para todas.

In [None]:
apellido = ["Urrutia", "Carvajal", "Gómez", "Tobón", "Pardo", "Lopez"]

In [None]:
data["nombres"] = data["nombres"] + " " + apellido

In [None]:
data

### Estadísticas descriptivas
Anteriormente pudimos ver como el método `.describe()` me daba un resumen de toda la base. Sin embargo, en esta sección veremos cada una de las principales funciones para sacar las estadísticas

In [None]:
data.describe()

In [None]:
# Suma de todas las columnas
data.sum(axis=0)

In [None]:
data

In [None]:
# Suma por fila
data.sum(axis = 1, numeric_only = True)

In [None]:
# Suma de toda la columna peso
data["peso"].sum()

In [None]:
# Dato mínimo por columna
data.min()

In [None]:
# Dato máximo por columna
data.max()

In [None]:
data

In [None]:
# ¿Cuál es el id de la persona que tiene la edad mínima?
data.edad.idxmin()

In [None]:
# Juan López tiene la edad mínima
data.iloc[data.edad.idxmin(),]

In [None]:
# ¿Cuál es el índice de la persona con mayor peso?
data.peso.idxmax()

In [None]:
data.loc[data.peso.idxmax(),]

In [None]:
# Media de las variables
data.mean(numeric_only = True)

In [None]:
data

In [None]:
# Datos medianos
data.median(numeric_only = True)

In [None]:
data.reset_index(inplace=True)

In [None]:
data['nombres'] = data['nombres'] + ' López'

In [None]:
data

In [None]:
data.set_index('nombres')

### Aplicar funciones a las columnas
En Pandas, el método `apply` se utiliza para aplicar una función a una serie o a un dataframe. El método `apply` toma como argumento una función y la aplica a cada elemento de la serie o del dataframe, devolviendo una nueva serie o dataframe con los resultados de la función aplicada a cada elemento.

La función que se aplica en el método `apply` puede ser una función lambda o una función definida por el usuario. Esta función debe tomar como argumento un elemento de la serie o dataframe y devolver el resultado de aplicar la función al elemento.

El método `apply` se puede aplicar de varias formas en un dataframe:

- Aplicar una función a una columna específica: Se puede utilizar el método `apply` en una columna específica de un dataframe utilizando la siguiente sintaxis:

```python
dataframe["nombre_columna"].apply(funcion)
```

Donde "nombre_columna" es el nombre de la columna en la que se desea aplicar la función y "funcion" es la función que se desea aplicar a cada elemento de la columna.

- Aplicar una función a un dataframe completo: Se puede utilizar el método `apply` en un dataframe completo utilizando la siguiente sintaxis:

```python
dataframe.apply(funcion)
```

Donde "funcion" es la función que se desea aplicar a cada elemento del dataframe.

- Aplicar una función a una fila específica: Se puede utilizar el método `apply` en una fila específica de un dataframe utilizando la siguiente sintaxis:

```python
dataframe.loc[etiqueta_fila].apply(funcion)
```

Donde "etiqueta_fila" es la etiqueta de la fila en la que se desea aplicar la función y "funcion" es la función que se desea aplicar a cada elemento de la fila.

- el método `apply` también puede ser utilizado con funciones **lambda**, que son funciones anónimas y pequeñas que se definen dentro de una línea de código. Por ejemplo, si se quisiera aplicar una función **lambda** que tome como entrada una cadena de caracteres y devuelva la versión en mayúsculas de la misma, se podría utilizar el método apply de la siguiente manera:

```python
dataframe['nombre_columna'].apply(lambda x: x.upper())
```

<center>
<div>
<img src="img/lambda.png" width="200"/>
</div>

<div>
<img src="img/lambda1.png" width="200"/>
</div>
</center>

El método `apply` también puede aplicarse a múltiples columnas o filas utilizando la opción axis. Si `axis=0`, la función se aplicará a cada columna del dataframe. Si `axis=1`, la función se aplicará a cada fila del dataframe.

En resumen, el método `apply` se utiliza en Pandas para aplicar una función a una serie o dataframe, y puede utilizarse de diferentes maneras para aplicar la función.



In [None]:
data

In [None]:
# Multiplicar x 2 todas las celdas
data.apply(lambda i: i*2)

In [None]:
# Convertir la edad de días a años
data["edad_dias"].apply(lambda x: x/365)

In [None]:
def funcion_ayuda(x):
    return x/365

In [None]:
data.edad_dias.apply(funcion_ayuda)

In [None]:
data[['edad','peso']].apply(np.mean)

In [None]:
data[['edad','peso']].max()

### Eliminar filas y columnas

In [None]:
data

In [None]:
# Borre la fila identificada como 1
data.drop(1) 

In [None]:
# Borre la columna nueva_variable y nueva_variable2
data.drop(columns = ["index", "nueva_variable2"], inplace = True) 

In [None]:
data

In [None]:
# Creemos un valor faltante
data.loc[0, "nombres"] = np.nan

In [None]:
data

In [None]:
# Eliminamos las filas con valores faltantes
data.dropna()

La función `pd.concat` en Pandas se utiliza para concatenar dos o más objetos de Pandas a lo largo de un eje específico. Los objetos de Pandas pueden ser dataframes o series. La concatenación implica unir los objetos uno al lado del otro o uno debajo del otro, dependiendo del eje especificado.

La sintaxis básica de `pd.concat` es la siguiente:
```python
pd.concat(objetos, axis = 0, join = 'outer', ignore_index = False)
```
Donde:

- `objetos`: es una lista o tupla de objetos de Pandas que se desea concatenar.
- `axis`: especifica el eje a lo largo del cual se realizará la concatenación. Si `axis=0`, se concatenarán los objetos uno debajo del otro (verticalmente). Si `axis=1`, se concatenarán los objetos uno al lado del otro (horizontalmente).
- `join`: especifica el tipo de unión que se desea realizar. Puede ser `'inner'` (intersección de los índices), `'outer'` (unión de los índices) o `'left'` (unión de los índices del objeto en el lado izquierdo).
- `ignore_index`: especifica si se deben ignorar los índices originales y crear nuevos índices. Si es `True`, se crearán nuevos índices.

La función `pd.concat` **es muy útil para combinar dataframes o series que tienen columnas o índices en común**. Por ejemplo, si se tienen dos dataframes que comparten las mismas columnas y se desea combinarlos verticalmente, se podría utilizar el siguiente código:

In [None]:
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df1

In [None]:
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})
df2

In [None]:
nuevo_df = pd.concat([df1, df2], axis=0)
nuevo_df.reset_index(drop=True)

En este caso, se utilizará `axis=0` para concatenar los dataframes verticalmente. Los índices de los dataframes originales se conservarán en el nuevo dataframe.

La función `pd.concat` también puede ser utilizada para combinar dataframes o series que no tienen columnas o índices en común. En este caso, las columnas o índices faltantes se rellenarán con valores nulos. Por ejemplo, si se quisiera combinar horizontalmente dos dataframes que tienen diferentes columnas, se podría utilizar el siguiente código:

In [None]:
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df1

In [None]:
df2 = pd.DataFrame({'C': [5, 6], 'D': [7, 8]})
df2

In [None]:
nuevo_df = pd.concat([df1, df2], axis=1)
nuevo_df

En este caso, se utilizará `axis=1` para concatenar los dataframes horizontalmente. Como los dataframes no tienen columnas en común, se crearán nuevas columnas con valores nulos.

En resumen, la función `pd.concat` en Pandas es una herramienta muy útil para combinar dataframes o series a lo largo de un eje específico. Se puede utilizar con diferentes parámetros para personalizar la unión de los objetos y crear un nuevo dataframe o serie.

In [None]:
data

In [None]:
# Creemos una nueva fila
nueva_fila = pd.DataFrame({"nombres": "Andrea Saldarriaga", "sexo": "F", "edad": 32, "peso": 60,'nueva_variable':'Rango 2: 25-32','edad_dias':12000}, index = [0])

In [None]:
nueva_fila

In [None]:
data = pd.concat((data, nueva_fila), axis = 0)
data

In [None]:
# Creemos una fila duplicada
data = pd.concat((data, data.iloc[1:2,]), axis = 0)

In [None]:
data

In [None]:
# Eliminemos duplicados. Conserva la primera observación
data = data.drop_duplicates()
data

In [None]:
data.reset_index(drop=True,inplace=True)
data

In [None]:
data2 = pd.DataFrame({'direccion':['Cra 14','Calle 3','Carrera 4','Calle 72','Carrera 24','Calle 127']})

In [None]:
data2

In [None]:
pd.concat([data,data2],axis=1)

In [None]:
data.drop_duplicates(subset='sexo')

In [None]:
data

In [None]:
data2

In [None]:
pd.concat([data,data2],axis=1)