# [DataFrames](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)

Un DataFrame de Pandas es una estructura de datos bidimensional altamente flexible y potentec. Esencialmente, un DataFrame es una tabla con filas y columnas, similar a una hoja de cálculo o una tabla en una base de datos relacional. Cada columna en un DataFrame de Pandas puede contener diferentes tipos de datos, como números, cadenas de texto, fechas, etc. 

Algunas características clave de un DataFrame de Pandas incluyen: 

- **Organización de datos tabulares**: Los datos se organizan en filas y columnas, lo que facilita la representación y manipulación de datos en forma de tabla. 
- **Etiquetas**: Tanto las filas como las columnas pueden tener etiquetas, lo que permite un acceso más intuitivo a los datos. 
- **Flexibilidad**: Los DataFrames pueden manejar una amplia variedad de tipos de datos en cada columna y ofrecen numerosas operaciones para manipular, filtrar y analizar los datos. 
- **Alto rendimiento**: Pandas está diseñado para un rendimiento eficiente en la manipulación de datos, lo que lo hace adecuado para trabajar con conjuntos de datos grandes. 
- **Integración con otras bibliotecas**: Los DataFrames de Pandas se utilizan comúnmente junto con bibliotecas como NumPy, Matplotlib y Scikit-Learn para análisis de datos y visualización. 

Los DataFrames de Pandas son una herramienta esencial en la ciencia de datos y el análisis de datos en Python, lo que permite a los usuarios cargar, limpiar, transformar y analizar datos de manera efectiva.

In [1]:
import pandas as pd 

data = pd.Series([1, 2, 3, 4, 5])
data 

0    1
1    2
2    3
3    4
4    5
dtype: int64

&nbsp;  


![](../../../images/pandas/01.png)

&nbsp;


## Crear un DataFrame
Para crear un DataFrame en Pandas, primero debes importar la biblioteca Pandas y luego proporcionar los datos que deseas incluir en el DataFrame. A continuación, se muestra cómo crear un DataFrame desde cero utilizando varias formas comunes:

In [2]:
import pandas as pd 

data = [ 

    {"Nombre": "Alice", "Edad": 25, "Ciudad": "Nueva York"}, 
    {"Nombre": "Charlie", "Edad": 35, "Ciudad": "Chicago"}, 
    {"Nombre": "Bob", "Edad": 30, "Ciudad": "Los Ángeles"}, 
   ] 

df = pd.DataFrame(data) 
df

SyntaxError: invalid non-printable character U+202F (3794560419.py, line 5)

En este ejemplo, cada diccionario representa una fila y las claves del diccionario se convierten en nombres de columnas.

In [None]:
import pandas as pd 

data = [ 
    ["Alice", 25, "Nueva York"], 
    ["Bob", 30, "Los Ángeles"], 
    ["Charlie", 35, "Chicago"] 
] 

column_names = ["Nombre", "Edad", "Ciudad"] 
df = pd.DataFrame(data, columns=column_names) 
df

Aquí, proporcionamos una lista de listas para los datos y una lista separada para los nombres de las columnas.

In [None]:
import pandas as pd 

df = pd.read_csv('archivo.csv') 

Solo asegúrate de que el archivo CSV esté en el mismo directorio o proporciona la ruta correcta al archivo. Podemos abrir otros tipos de archivos, como los parquet, optimizados para guardar la información, o ficheros excel. Mira la documentación de pandas para obtener más información.

In [None]:
import pandas as pd 

df = pd.DataFrame() 
df['Nombre'] = ["Alice", "Bob", "Charlie"] 
df['Edad'] = [25, 30, 35] 
df['Ciudad'] = ["Nueva York", "Los Ángeles", "Chicago"]
df 

La última manera para crear un DataFrame pasa por crear uno vacío e ir añadiéndole datos.  

## Exportar DataFrames a ficheros
Pandas ofrece varias formas de exportar DataFrames a archivos para guardar los datos en diferentes formatos, como CSV, Excel, JSON, SQL, y más. A continuación, se describe cómo exportar un DataFrame a algunos formatos comunes. 

 ### Exportar a ficheros CSV
 Para guardar un DataFrame en un archivo CSV, puedes utilizar el método to_csv de Pandas:

In [None]:
import pandas as pd 

df.to_csv('mi_archivo.csv', index=False) 

El argumento index=False evita que se guarde el índice del DataFrame como una columna adicional en el archivo CSV. 

### Exportar a un fichero Excel
Para exportar un DataFrame a un archivo de Excel, puedes usar el método to_excel:

In [None]:
import pandas as pd 

df.to_excel('mi_archivo.xlsx', index=False) 

Este código guardará el DataFrame en un archivo de Excel sin incluir el índice. 

### Exportar a un fichero JSON
De igual manera, un DataFrame puede exportar su información a ficheros JSON:

In [None]:
import pandas as pd 

df.to_json('mi_archivo.json', orient='records')  

El argumento orient='records' especifica cómo se deben organizar los datos en el archivo JSON. 

### Exportar a base de datos SQL 
Pandas permite exportar un DataFrame directamente a una base de datos SQL utilizando la función to_sql:

In [None]:
import pandas as pd 
from sqlalchemy import create_engine 

engine = create_engine('sqlite:///mi_base_de_datos.db') 
df.to_sql('mi_tabla', con=engine, if_exists='replace', index=False) 

En este ejemplo, create_engine se utiliza para establecer una conexión con una base de datos SQL (en este caso, SQLite). El DataFrame se guarda en la tabla especificada en la base de datos. 

## Atributos de un DataFrame
Un DataFrame cuenta con varias propiedades o atributos que permiten manipular u obtener información de sus datos. A continuación, se muestran algunas de estas propiedades: 

- **index**: El índice es una etiqueta para las filas del DataFrame. Puede ser un conjunto de etiquetas únicas que identifican cada fila de manera única. El índice facilita el acceso y la manipulación de filas específicas. 
- **columns**: Las columnas son las etiquetas para las variables o características en el DataFrame. Cada columna representa una variable y tiene un nombre único que la identifica. Pueden contener datos de diferentes tipos. 
- **shape**: Este atributo muestra las dimensiones del DataFrame en términos de filas y columnas.  
- **dtypes**: Describe los tipos de datos de cada columna en el DataFrame.  
- **size**: El número total de elementos en el DataFrame, que es igual al producto del número de filas y columnas. 
- **T**: El atributo .T te permite transponer el DataFrame, es decir, intercambiar filas y columnas. 

## Métodos de un DataFrame
A su vez, un DataFrame de Pandas cuenta con múltiples métodos que nos permiten realizar operaciones sobre los datos o mostrar información relevante. Vamos a ver algunos de ellos: 

- **head() y tail()**: Estos métodos te permiten ver las primeras filas (usando head()) y las últimas filas (usando tail()) del DataFrame. Son útiles para obtener una vista previa de los datos. 
- **info()**: Este método proporciona información sobre el DataFrame, incluyendo la cantidad de valores no nulos en cada columna, el uso de memoria y los tipos de datos de las columnas. 
- **describe()**: Devuelve estadísticas descriptivas básicas para columnas numéricas, como la media, la desviación estándar, el mínimo, el máximo y los cuartiles. 
- **iloc y loc**: Estos métodos permiten la selección de datos basada en la posición (iloc) o etiquetas (loc) en el DataFrame. Son fundamentales para acceder a datos específicos.
- **select_dtypes(include=None, exclude=None)**: Permite seleccionar las columnas indicando los tipos de las columnas que queremos obtener. 
- **drop()**: Permite eliminar filas o columnas del DataFrame. Puedes especificar los elementos a eliminar mediante etiquetas y especificar si deseas eliminar filas o columnas. 
- **sort_values(by=[cols])**: Ordena el DataFrame en función de los valores en una o más columnas. 
- **groupby(by=[cols])**: Se utiliza para agrupar filas basadas en los valores de una o más columnas, lo que permite realizar operaciones de agregación en grupos de datos. 
- **merge() y join()**: Estos métodos permiten combinar dos DataFrames en función de una o más columnas comunes. 
- **fillna()**: Rellena valores faltantes (NaN) en el DataFrame con un valor especificado o mediante una estrategia de llenado. 
- **drop_duplicates()**: Elimina filas duplicadas en el DataFrame. 
- **apply() y applymap()**: Estos métodos se utilizan para aplicar funciones a filas o columnas, o a cada elemento del DataFrame, respectivamente. 
- **plot()**: Permite crear gráficos directamente desde un DataFrame para visualizar los datos. 

## Acceso a los elementos de un DataFrame 
Existen distintas formas para poder acceder a los datos de un DataFrame. A continuación, vamos a mostrar algunas de ellas partiendo del siguiente DataFrame:

In [None]:
import pandas as pd 

df = pd.DataFrame() 
df['Nombre'] = ["Alice", "Bob", "Charlie"] 
df['Edad'] = [25, 30, 35] 
df['Ciudad'] = ["Nueva York", "Los Ángeles", "Chicago"]
df 

Lo primero que vamos a seleccionar datos en base a su posición en el DataFrame:

In [None]:
df.iloc[1,2]

La función **iloc** nos permite seleccionar elementos en base a su posición. En el ejemplo anterior, estamos seleccionado los elementos de la fila 1 y columna 2, lo cual nos da como resultado “Los ángeles”. Cabe destacar que también podemos indicar un número de filas y columnas mayor a uno, es decir, indicar un rango de filas o columnas:

In [None]:
df.iloc[1,:2]

Por último, podemos indicar la fila que queremos obtener y nos devolverá una Serie con los datos de esa fila:

In [None]:
df.iloc[1]

Por otro lado, podemos acceder a los elementos de un DataFrame a través de los nombres de sus elementos:

In [None]:
df["Nombre"]

Esto nos devuelve una serie con los elementos correspondientes a la columna seleccionada. Si el nombre de la columna no tiene espacios, podemos acceder a ella de forma directa tal y como se muestra en el siguiente ejemplo:

In [None]:
df.Nombre 

Por último, podemos crear un nuevo sub-DataFrame, indicando el nombre de las columnas que queremos incluir:

In [None]:
df[['Nombre', 'Edad']] 

## Renombrar elementos de un DataFrame
Para renombrar elementos en un DataFrame de Pandas, se pueden utilizar varios métodos según las necesidades. Vamos a partir del mismo DataFrame anterior para mostrar el funcionamiento de los métodos:

In [None]:
import pandas as pd 

df = pd.DataFrame() 
df['Nombre'] = ["Alice", "Bob", "Charlie"] 
df['Edad'] = [25, 30, 35] 
df['Ciudad'] = ["Nueva York", "Los Ángeles", "Chicago"]
df 

Lo primero que podemos hacer es renombrar una o varias columnas utilizando el método **rename**:

In [None]:
df = df.rename(columns = {"Nombre": "Nombre corto", "Edad": "Age"})

También podemos cambiar el índice de las filas. Para ello, se debe indicar mediante un diccionario los anteriores índices y los nuevos:

In [None]:
df = df.rename(index={1: 1000, 2:2000})

## Reindexar un DataFrame
Reindexar un DataFrame en Pandas implica cambiar el índice (etiquetas de filas) y, opcionalmente, reordenar las filas en un nuevo orden. Puedes utilizar el método **reindex** para llevar a cabo esta operación. Aquí tienes un ejemplo de cómo reindexar un DataFrame:

In [None]:
df = df.reindex(index=[0,1000, 3000, 2000], columns=["Nombre corto", "Age", "Ciudad"], fill_value=0)

## Trabajar con columnas de un DataFrame
Para trabajar con las columnas de un DataFrame en Pandas, puedes realizar diversas operaciones, como acceder a columnas específicas, realizar cálculos, modificar datos o crear nuevas columnas. A continuación, se mostrarán algunas de las operaciones comunes que se pueden realizar:

### Añadir columnas
Puedes agregar una nueva columna al DataFrame simplemente asignándole valores. Por ejemplo, para agregar una columna 'Sueldo':

In [None]:
#df["Sueldo"] = [1000, 2000], fallaría, la lista debe tener el mismo número de elementos.
df["Sueldo"] = [1000, 2000, 3000]

También podemos crear una nueva columna asignado esta a una serie:

In [None]:
df["Hijos"] = pd.Series([1,0])

También podemos crear nuevas columnas en base a valores de otras columnas. Por ejemplo:

In [None]:
df["Tiene hijos"] = df["Hijos"] > 0

### Operaciones sobre columnas
Puedes realizar operaciones matemáticas en una columna y asignar el resultado a una nueva columna. Por ejemplo:

In [None]:
df["Edad"] = df["Edad"] + 1

Puedes cambiar los valores de una columna específica utilizando la notación de corchetes. Por ejemplo, para cambiar el valor de la primera fila en la columna 'Edad' a 18:

In [None]:
df["Edad"][0] = 18

Otra operación bastante interesante es aplicar una función a una columna a través del método apply:

In [None]:
def concatenar_datos(nombre, edad):
    return "La persona " + nombre + " tiene " + str(edad) + " años."

df["Concatenacion"] = df.apply(lambda x: concatenar_datos(x['Nombre'], x['Edad']), axis=1)

Finalmente, puedes eliminar una columna utilizando el método drop. Por ejemplo, para eliminar la columna 'Ciudad':

In [None]:
df = df.drop('Ciudad', axis=1)