Un ***dataframe*** en pandas es una estructura de datos bidimencional similar a una tabla, con filas y columnas, lo que lo hace ideal para el análisis de datos.

In [1]:
import pandas as pd

In [6]:
file_path = 'online_retail.csv'
df_sales_data = pd.read_csv(file_path, encoding='latin1')
print(df_sales_data.head())


  InvoiceNo StockCode                          Description  Quantity  \
0    536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1    536365     71053                  WHITE METAL LANTERN         6   
2    536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3    536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4    536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   

    InvoiceDate  UnitPrice  CustomerID         Country  
0  12/1/10 8:26       2.55     17850.0  United Kingdom  
1  12/1/10 8:26       3.39     17850.0  United Kingdom  
2  12/1/10 8:26       2.75     17850.0  United Kingdom  
3  12/1/10 8:26       3.39     17850.0  United Kingdom  
4  12/1/10 8:26       3.39     17850.0  United Kingdom  


Podemos crear un DataFrame a partir de un array multidimencional, aclarando sus columnas (A - B - C):

In [None]:
import numpy as np
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
dt_from_array = pd.DataFrame(data, columns=['A', 'B', 'C'])
dt_from_array

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


Crear dataframe desde una lista de `listas`:

In [12]:
data = [[1, 'Jhon', 22], [2, 'Ana', 24]]
df_from_lista = pd.DataFrame(data, columns=['ID', 'NOMBRE', 'EDAD'])
df_from_lista

Unnamed: 0,ID,NOMBRE,EDAD
0,1,Jhon,22
1,2,Ana,24


Creación de una dataframe desde un `diccionario` que se encuentra dentro de una lista:

In [15]:
data = [{'ID': 1, 
         'Name': 'Jhon',
         'Edad': 22}]
df_from_dict_list = pd.DataFrame(data) # Nótese como en este caso no es necesario aclarar las columnas 
df_from_dict_list

Unnamed: 0,ID,Name,Edad
0,1,Jhon,22


Claves como nombre de columna siendo cada valor una `lista`:

In [18]:
data = {'ID': [1, 2, 3],
        'Name': ['John', 'Ana', 'Mike'],
        'Age': [22, 24, 21]}
df_from_dict = pd.DataFrame(data)
df_from_dict

Unnamed: 0,ID,Name,Age
0,1,John,22
1,2,Ana,24
2,3,Mike,21


También podemos descomponer un datafrase (bidimencional) a una serie (unidimencional):

- **Serie**: es una estructura de datos unidimensional, similar a una lista o array de una sola columna. Cada elemento en una Serie tiene un índice asociado, que por defecto es un número entero, pero puede personalizarse. Podrías pensarlo como una columna de un DataFrame.

- **Dataframe**: es una estructura de datos bidimensional que puede considerarse como una tabla con filas y columnas, donde cada columna es una Serie. Es más versátil y se utiliza para almacenar y manipular datos tabulares.


In [19]:
data = {'ID': pd.Series([1, 2, 3]),
        'Name': pd.Series(['John', 'Anna', 'Mike']),
        'Age': pd.Series([22, 24, 21])}
df_from_series_dict = pd.DataFrame(data)
df_from_series_dict

Unnamed: 0,ID,Name,Age
0,1,John,22
1,2,Anna,24
2,3,Mike,21
