<a href="https://colab.research.google.com/github/yshungria-uniandes/Data-Science-Fundamentals-/blob/main/Introducci%C3%B3n_a_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [16]:
# configurar carpeta de drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# Introdución a Pandas

En este módulo, profundizaremos en el análisis de datos utilizando la biblioteca Pandas. Pandas es una herramienta poderosa y flexible para la manipulación y análisis de datos en Python. Este módulo se centrará en técnicas avanzadas de manipulación de datos, limpieza, transformación y análisis exploratorio. Continuaremos desarrollando nuestro proyecto de análisis de ventas, aplicando lo aprendido en Pandas para obtener insights más profundos.





## ¿Qué es Pandas?

Pandas es una biblioteca de código abierto de Python que proporciona estructuras de datos de alto rendimiento y herramientas de análisis de datos fáciles de usar. Su nombre es una combinación de «panel data» y «Python data analysis library». Pandas es ideal para trabajar con datos tabulares y series temporales.

In [None]:
import pandas as pd

### Estructuras de Datos en Pandas

Pandas introduce dos estructuras de datos principales: Series y DataFrames.

Series: Una Serie es una estructura de datos unidimensional que puede contener cualquier tipo de datos. Es similar a un array de NumPy, pero con etiquetas de índice que permiten un acceso más conveniente a los datos.

Creación de una Serie: Puedes crear una Serie a partir de una lista, un array de NumPy, un diccionario o un valor escalar.

In [None]:
# Creando una Serie a partir de una lista
lista = [1, 2, 3, 4, 5]
serie = pd.Series(lista)

print(serie)


0    1
1    2
2    3
3    4
4    5
dtype: int64


In [None]:
print(serie[0])

1


In [None]:
dict = {'a': 1, 'b': 2, 'c': 3}
serie_dicc = pd.Series(dict)
print(serie)

a    1
b    2
c    3
dtype: int64


In [None]:
print(serie_dicc['a'])

1


In [None]:
import numpy as np
array = np.array([1, 2, 3, 4, 5])
serie = pd.Series(array)
print(serie)

0    1
1    2
2    3
3    4
4    5
dtype: int64


In [None]:
scalar = 5
serie = pd.Series(scalar, index=[0, 1, 2, 3, 4])
print(serie)

0    5
1    5
2    5
3    5
4    5
dtype: int64


In [None]:
# Creando una Serie a partir de un valor escalar
valor_escalar = 5
serie_escalar = pd.Series(valor_escalar, index=['x', 'y', 'z'])
print(serie_escalar)

x    5
y    5
z    5
dtype: int64


DataFrame: Un DataFrame es una estructura de datos bidimensional, similar a una tabla en una base de datos o una hoja de cálculo. Un DataFrame tiene ejes etiquetados (filas y columnas) y puede contener diferentes tipos de datos (numéricos, cadenas, etc.).

Creación de un DataFrame: Puedes crear un DataFrame a partir de un diccionario de listas, un array de NumPy, una lista de diccionarios o una Serie de Pandas.

In [1]:
import pandas as pd


In [2]:
# Creando un DataFrame a partir de un diccionario de listas
data = {
    'Producto': ['Manzanas', 'Naranjas', 'Bananas'],
    'Ventas': [50, 30, 20]
}
df = pd.DataFrame(data)
print(df)

   Producto  Ventas
0  Manzanas      50
1  Naranjas      30
2   Bananas      20


In [3]:
import numpy as np

array = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df_array = pd.DataFrame(array, columns=['A', 'B', 'C'])
print(df_array)


   A  B  C
0  1  2  3
1  4  5  6
2  7  8  9


In [4]:

# Creando un DataFrame a partir de una lista de diccionarios
lista_dicc = [
    {'Producto': 'Manzanas', 'Ventas': 50},
    {'Producto': 'Naranjas', 'Ventas': 30},
    {'Producto': 'Bananas', 'Ventas': 20}
]
df_lista_dicc = pd.DataFrame(lista_dicc)
print(df_lista_dicc)


   Producto  Ventas
0  Manzanas      50
1  Naranjas      30
2   Bananas      20


In [7]:
# Acceso a columnas
print(df['Producto'])  # Acceder a una columna
  # Acceder a múltiples columnas

0    Manzanas
1    Naranjas
2     Bananas
Name: Producto, dtype: object


In [6]:
print(df[['Producto', 'Ventas']])

   Producto  Ventas
0  Manzanas      50
1  Naranjas      30
2   Bananas      20


In [8]:
# Acceso a filas por índice
print(df.loc[0])  # Primera fila

Producto    Manzanas
Ventas            50
Name: 0, dtype: object


In [9]:
print(df.iloc[1])  # Segunda fila

Producto    Naranjas
Ventas            30
Name: 1, dtype: object


In [10]:
# Acceso a un elemento específico
print(df.loc[0, 'Producto'])  # Primera fila, columna 'Producto'

Manzanas


In [11]:
print(df.iloc[1, 1])  # Segunda fila, segunda columna


30


Métodos y Operaciones en DataFrames: Los DataFrames tienen muchos métodos útiles para realizar operaciones como agregar filas, eliminar columnas, filtrar datos y más.

In [12]:
# Agregar una nueva columna
df['Precio'] = [0.5, 0.75, 0.3]
print(df)


   Producto  Ventas  Precio
0  Manzanas      50    0.50
1  Naranjas      30    0.75
2   Bananas      20    0.30


In [13]:
# Eliminar una columna
df = df.drop('Precio', axis=1)
print(df)

   Producto  Ventas
0  Manzanas      50
1  Naranjas      30
2   Bananas      20


In [14]:
# Filtrar datos
filtro = df['Ventas'] > 20
df_filtrado = df[filtro]
print(df_filtrado)

   Producto  Ventas
0  Manzanas      50
1  Naranjas      30


Operaciones Básicas con Pandas
Cargar Datos: Pandas ofrece funciones fáciles de usar para cargar datos desde diferentes fuentes, como archivos CSV, Excel, SQL, entre otros.


Cargar Datos desde un Archivo CSV


In [19]:
import pandas as pd

# Cargar datos desde un archivo CSV
df = pd.read_csv('/content/drive/MyDrive/DataSets/retail_sales_dataset.csv')

# Mostrar las primeras filas del DataFrame
print(df.head())


   Transaction ID        Date Customer ID  Gender  Age Product Category  \
0               1  2023-11-24     CUST001    Male   34           Beauty   
1               2  2023-02-27     CUST002  Female   26         Clothing   
2               3  2023-01-13     CUST003    Male   50      Electronics   
3               4  2023-05-21     CUST004    Male   37         Clothing   
4               5  2023-05-06     CUST005    Male   30           Beauty   

   Quantity  Price per Unit  Total Amount  
0         3              50           150  
1         2             500          1000  
2         1              30            30  
3         1             500           500  
4         2              50           100  


Exploración de Datos

Ver las Primeras y Últimas Filas: Los métodos head() y tail() son útiles para ver las primeras y últimas filas del DataFrame, respectivamente.

In [23]:
# Ver las primeras 5 filas del DataFrame
print(df.head())
# Ver las primeras 10 filas del DataFrame
print(df.head(10))
# Ver las últimas 5 filas del DataFrame
print(df.tail())
# Ver las últimas 10 filas del DataFrame
print(df.tail(10))


   Transaction ID        Date Customer ID  Gender  Age Product Category  \
0               1  2023-11-24     CUST001    Male   34           Beauty   
1               2  2023-02-27     CUST002  Female   26         Clothing   
2               3  2023-01-13     CUST003    Male   50      Electronics   
3               4  2023-05-21     CUST004    Male   37         Clothing   
4               5  2023-05-06     CUST005    Male   30           Beauty   

   Quantity  Price per Unit  Total Amount  
0         3              50           150  
1         2             500          1000  
2         1              30            30  
3         1             500           500  
4         2              50           100  
   Transaction ID        Date Customer ID  Gender  Age Product Category  \
0               1  2023-11-24     CUST001    Male   34           Beauty   
1               2  2023-02-27     CUST002  Female   26         Clothing   
2               3  2023-01-13     CUST003    Male   50      

Obtener Información General sobre el DataFrame: El método info() proporciona un resumen conciso del DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos, y el uso de memoria.


In [24]:
# Información general del DataFrame
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Transaction ID    1000 non-null   int64 
 1   Date              1000 non-null   object
 2   Customer ID       1000 non-null   object
 3   Gender            1000 non-null   object
 4   Age               1000 non-null   int64 
 5   Product Category  1000 non-null   object
 6   Quantity          1000 non-null   int64 
 7   Price per Unit    1000 non-null   int64 
 8   Total Amount      1000 non-null   int64 
dtypes: int64(5), object(4)
memory usage: 70.4+ KB
None


Estadísticas Descriptivas: El método describe() genera estadísticas descriptivas que resumen la tendencia central, dispersión y forma de la distribución de un conjunto de datos.

In [26]:
# Estadísticas descriptivas del DataFrame
print(df.describe())

       Transaction ID         Age     Quantity  Price per Unit  Total Amount
count     1000.000000  1000.00000  1000.000000     1000.000000   1000.000000
mean       500.500000    41.39200     2.514000      179.890000    456.000000
std        288.819436    13.68143     1.132734      189.681356    559.997632
min          1.000000    18.00000     1.000000       25.000000     25.000000
25%        250.750000    29.00000     1.000000       30.000000     60.000000
50%        500.500000    42.00000     3.000000       50.000000    135.000000
75%        750.250000    53.00000     4.000000      300.000000    900.000000
max       1000.000000    64.00000     4.000000      500.000000   2000.000000


Inspeccionar los Tipos de Datos de las Columnas: El atributo dtypes permite inspeccionar los tipos de datos de cada columna en el DataFrame.


In [28]:
# Tipos de datos de las columnas
print(df.dtypes)

Transaction ID       int64
Date                object
Customer ID         object
Gender              object
Age                  int64
Product Category    object
Quantity             int64
Price per Unit       int64
Total Amount         int64
dtype: object


Conteo de Valores Únicos: El método value_counts() es útil para contar las ocurrencias de cada valor único en una columna.

In [30]:
# Conteo de valores únicos en una columna específica
print(df['Customer ID'].value_counts())

Customer ID
CUST001     1
CUST672     1
CUST659     1
CUST660     1
CUST661     1
           ..
CUST339     1
CUST340     1
CUST341     1
CUST342     1
CUST1000    1
Name: count, Length: 1000, dtype: int64


Resumen de Datos Categóricos: El método unique() devuelve una lista de todos los valores únicos en una columna, y el método nunique() devuelve el número de valores únicos.


In [35]:
# Valores únicos en una columna específica
print(df['Customer ID'].unique())


['CUST001' 'CUST002' 'CUST003' 'CUST004' 'CUST005' 'CUST006' 'CUST007'
 'CUST008' 'CUST009' 'CUST010' 'CUST011' 'CUST012' 'CUST013' 'CUST014'
 'CUST015' 'CUST016' 'CUST017' 'CUST018' 'CUST019' 'CUST020' 'CUST021'
 'CUST022' 'CUST023' 'CUST024' 'CUST025' 'CUST026' 'CUST027' 'CUST028'
 'CUST029' 'CUST030' 'CUST031' 'CUST032' 'CUST033' 'CUST034' 'CUST035'
 'CUST036' 'CUST037' 'CUST038' 'CUST039' 'CUST040' 'CUST041' 'CUST042'
 'CUST043' 'CUST044' 'CUST045' 'CUST046' 'CUST047' 'CUST048' 'CUST049'
 'CUST050' 'CUST051' 'CUST052' 'CUST053' 'CUST054' 'CUST055' 'CUST056'
 'CUST057' 'CUST058' 'CUST059' 'CUST060' 'CUST061' 'CUST062' 'CUST063'
 'CUST064' 'CUST065' 'CUST066' 'CUST067' 'CUST068' 'CUST069' 'CUST070'
 'CUST071' 'CUST072' 'CUST073' 'CUST074' 'CUST075' 'CUST076' 'CUST077'
 'CUST078' 'CUST079' 'CUST080' 'CUST081' 'CUST082' 'CUST083' 'CUST084'
 'CUST085' 'CUST086' 'CUST087' 'CUST088' 'CUST089' 'CUST090' 'CUST091'
 'CUST092' 'CUST093' 'CUST094' 'CUST095' 'CUST096' 'CUST097' 'CUST098'
 'CUST

In [38]:
# Número de valores únicos en una columna específica
print(df['Customer ID'].nunique())

1000


Operaciones Adicionales

Renombrar Columnas: El método rename() permite renombrar las columnas del DataFrame.

In [43]:
# Renombrar columnas
df.rename(columns={'ID Cliente': 'Cliente ID'}, inplace=True)
print(df.head())

   Transaction ID        Date Cliente ID  Gender  Age Product Category  \
0               1  2023-11-24    CUST001    Male   34           Beauty   
1               2  2023-02-27    CUST002  Female   26         Clothing   
2               3  2023-01-13    CUST003    Male   50      Electronics   
3               4  2023-05-21    CUST004    Male   37         Clothing   
4               5  2023-05-06    CUST005    Male   30           Beauty   

   Quantity  Price per Unit  Total Amount  
0         3              50           150  
1         2             500          1000  
2         1              30            30  
3         1             500           500  
4         2              50           100  


Cambiar el Índice del DataFrame: El método set_index() permite establecer una columna como el índice del DataFrame.

In [50]:
# # Cambiar el índice del DataFrame
# df.set_index('Cliente ID', inplace=True)
# print(df.head())

In [51]:
df


Unnamed: 0_level_0,Transaction ID,Date,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
Cliente ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
CUST001,1,2023-11-24,Male,34,Beauty,3,50,150
CUST002,2,2023-02-27,Female,26,Clothing,2,500,1000
CUST003,3,2023-01-13,Male,50,Electronics,1,30,30
CUST004,4,2023-05-21,Male,37,Clothing,1,500,500
CUST005,5,2023-05-06,Male,30,Beauty,2,50,100
...,...,...,...,...,...,...,...,...
CUST996,996,2023-05-16,Male,62,Clothing,1,50,50
CUST997,997,2023-11-17,Male,52,Beauty,3,30,90
CUST998,998,2023-10-29,Female,23,Beauty,4,25,100
CUST999,999,2023-12-05,Female,36,Electronics,3,50,150


Ordenar Datos:  El método sort_values() permite ordenar el DataFrame por una o más columnas.

In [54]:
# Ordenar el DataFrame por una columna
df_ordenado = df.sort_values(by='Date')
print(df_ordenado.head())

            Transaction ID        Date  Gender  Age Product Category  \
Cliente ID                                                             
CUST522                522  2023-01-01    Male   46           Beauty   
CUST180                180  2023-01-01    Male   41         Clothing   
CUST559                559  2023-01-01  Female   40         Clothing   
CUST303                303  2023-01-02    Male   19      Electronics   
CUST979                979  2023-01-02  Female   19           Beauty   

            Quantity  Price per Unit  Total Amount  
Cliente ID                                          
CUST522            3             500          1500  
CUST180            3             300           900  
CUST559            4             300          1200  
CUST303            3              30            90  
CUST979            1              25            25  


In [58]:
# Ordenar el DataFrame por múltiples columnas
df_ordenado = df.sort_values(by=['Date', 'Age'], ascending=[True, False])

print(df_ordenado.head())

            Transaction ID        Date  Gender  Age Product Category  \
Cliente ID                                                             
CUST522                522  2023-01-01    Male   46           Beauty   
CUST180                180  2023-01-01    Male   41         Clothing   
CUST559                559  2023-01-01  Female   40         Clothing   
CUST163                163  2023-01-02  Female   64         Clothing   
CUST421                421  2023-01-02  Female   37         Clothing   

            Quantity  Price per Unit  Total Amount  
Cliente ID                                          
CUST522            3             500          1500  
CUST180            3             300           900  
CUST559            4             300          1200  
CUST163            3              50           150  
CUST421            3             500          1500  


Cargar Datos desde un Archivo Excel

In [53]:
# Cargar datos desde un archivo Excel
df_excel = pd.read_excel('/content/drive/MyDrive/DataSets/Data_Set_Test.xlsx')
print(df_excel.head())

                 Nombres  Apellidos   Edad
0  Yojan Stiben Hungria          NaN    18
1         Carlos Andres       Perea     23
2            Lina Maria   Rodriguez     19


Cargar Datos desde una Base de Datos SQL

In [22]:
# import sqlite3
# import pandas as pd

# # Conectar a la base de datos
# conexion = sqlite3.connect('ruta/al/archivo.db')

# # Leer datos desde una tabla SQL
# df_sql = pd.read_sql_query("SELECT * FROM nombre_tabla", conexion)
# print(df_sql.head())

# # Cerrar la conexión
# conexion.close()