<a href="https://colab.research.google.com/github/jserrataylor/cursoAI/blob/main/Tema_Concatenar_Archivos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Tema: Concatenar Datos, DataFrame, Series y Archivos**

## **1. Introducción**

Los **científicos de datos pasan alrededor del 80% de su tiempo limpiando y organizando datos** Por ello, aprender a gestionar datos es una habilidad esencial.

### **¿Por Qué es Importante la Manipulación de Datos?**

Para desarrollar modelos de IA, necesitaremos alimentar esos modelos con datos. Pero los datos rara vez vienen en el formato perfecto para nuestros propósitos. A menudo, tendremos que modificarlos, limpiarlos y, lo que exploraremos hoy: **concatenarlos**.

### **¿Qué es Concatenar?**

Imaginen que tienen varios archivos de datos, cada uno con información que desean unir para crear un único conjunto de datos más grande y más informativo. Eso es, en esencia, concatenar. Tomamos varios conjuntos de datos (o "archivos") y los unimos para formar uno solo.

### **¿Por Qué Concatenar Archivos en IA y Ciencia de Datos?**

- **Completitud**: A veces, la información está dispersa en varios archivos o bases de datos. Concatenar nos permite reunir toda esta información en un solo lugar.
- **Mejor Análisis**: Con más datos, podemos realizar análisis más completos y robustos.
- **Entrenamiento de Modelos**: Los modelos de IA se benefician de tener más datos para el entrenamiento, ayudándolos a aprender patrones más generalizables.

### **¿Qué Habilidades que Aprenderemos Hoy?**

- **Leer Archivos**: Cómo cargar archivos de datos en nuestro entorno de programación.
- **Explorar Datos**: Utilizar herramientas básicas para explorar y entender nuestros datos.
- **Concatenar**: Unir múltiples conjuntos de datos en uno.
- **Guardar Datos**: Guardar nuestro nuevo conjunto de datos unificado para uso futuro.

## Elementos importantes al Concatenar archivos

Cuando concatenas DataFrames en Pandas usando `pd.concat()`, hay varios elementos y parámetros que son importantes y que pueden afectar el resultado de la operación. Algunos de los más relevantes incluyen:

### 1. `objs`:
- **Descripción**: La lista o secuencia de objetos a concatenar. Estos objetos pueden ser `Series` o `DataFrames`.
- **Importancia**: Es fundamental proporcionar los objetos correctos para concatenar, en el orden en que se deseen concatenar.

### 2. `axis`:
- **Descripción**: El eje a lo largo del cual se realizará la concatenación. `0` indica que la concatenación será a lo largo de las filas (vertical), y `1` indica que será a lo largo de las columnas (horizontal).
- **Importancia**: Define la dirección de la concatenación y puede afectar significativamente la estructura del DataFrame resultante.

### 3. `keys`:
- **Descripción**: Secuencia para etiquetar los diferentes objetos que están siendo concatenados.
- **Importancia**: Utilizando `keys` puedes crear un MultiIndex (índice jerárquico) en el eje de concatenación. Esto es útil para identificar de dónde proviene cada parte del DataFrame concatenado.
- Supongamos que tienes varios DataFrames que deseas concatenar. Utilizando keys, puedes asignar identificadores únicos a cada fragmento de datos concatenados para poder referenciarlos más fácilmente después.
- **Multi-índice** Creación de un DataFrame Multi-índice con keys
- **Parametro keys**: keys = ['x', 'y']
- **Acceder a los datos asociados con la clave 'x'**: **print(df_concat.loc['x']**. Esto imprimirá solo las filas de `df_concat` que originalmente pertenecían a `df1`, ya que `df1` fue asociado con la clave 'x' durante la concatenación.

### 4. `ignore_index`:
- **Descripción**: Si es `True`, no utiliza los índices de los objetos que se están concatenando.
- **Importancia**: Puede ser útil si los índices originales no tienen un significado en el contexto del nuevo DataFrame concatenado.

### 5. `join`:
- **Descripción**: Define cómo manejar los ejes que están presentes en los objetos que se están concatenando pero no en el objeto resultante. Puede ser `'inner'` o `'outer'`.
- **Importancia**: `'outer'` tomará la unión de todos los ejes (llenando con `NaN` los valores faltantes), mientras que `'inner'` tomará solo los ejes que son comunes a todos los objetos que se están concatenando.

### 6. `verify_integrity`:
- **Descripción**: Si es `True`, verifica que el nuevo eje concatenado no contiene duplicados.
- **Importancia**: Útil para evitar la concatenación de DataFrames con índices solapados o duplicados, lo cual podría generar errores en análisis posteriores.

### 7. `sort`:
- **Descripción**: Si es `True`, ordena las columnas resultantes (solo si `axis=1`).
- **Importancia**: Puede ser útil si deseas que las columnas del DataFrame resultante estén ordenadas. Sin embargo, ten en cuenta que el ordenamiento puede aumentar el tiempo de computación.

### Ejemplo de Uso:
A continuación un pequeño ejemplo usando algunos de los parámetros mencionados:

```python
import pandas as pd

df1 = pd.DataFrame({'A': ['A0', 'A1'],
                    'B': ['B0', 'B1']},
                    index=['K0', 'K1'])

df2 = pd.DataFrame({'C': ['C0', 'C1'],
                    'D': ['D0', 'D1']},
                    index=['K0', 'K2'])

# Concatenando y utilizando keys
result = pd.concat([df1, df2], axis=1, keys=['level1', 'level2'], join='outer', ignore_index=False, sort=False)

print(result)
```

## **2. Importación de Librerías**

In [1]:
# Importar las bibliotecas necesarias
import pandas as pd  # Pandas para manipulación de datos en dataframes
import os  # os para interactuar con el sistema operativo
import numpy as np # Numpy para el desarrollo de matrices y arreglos

import re  # re para trabajar con expresiones regulares
import datetime as dt  # datetime para trabajar con fechas y horas

import matplotlib.pyplot as plt  # Matplotlib para visualizaciones
import seaborn as sns  # Seaborn para visualizaciones estadísticas

import itertools
from itertools import combinations #genera el conjutno de combinaciones
import collections
from collections import Counter #simplemente para realizar conteos

## **3. Carga y Explorar de Datos**

- Mencionar la ubicación y el formato de los archivos a concatenar.

In [2]:
# Acceder al directorio de Google Drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Si desean subir archivos directamente a Colab
from google.colab import files
uploaded = files.upload()


## **GitHub a Google Colab**

### 1. **Clonar un Repositorio Completo:**
Si deseas clonar un repositorio completo de GitHub a tu entorno Colab, puedes usar el comando `!git clone`.

Por ejemplo:
```bash
!git clone https://github.com/usuario/repositorio.git
```
Luego, puedes navegar al directorio clonado y acceder a los archivos.

### 2. **Descargar un Archivo Individual:**
Si solo necesitas un archivo específico y quieres evitar clonar todo el repositorio, puedes descargarlo directamente si tienes la URL del archivo raw.

Por ejemplo:
```bash
!wget https://raw.githubusercontent.com/usuario/repositorio/rama/nombre_del_archivo
```
Si es un archivo de datos, ya podrías comenzar a utilizarlo. Si es un script de Python, puedes importarlo si está en el mismo directorio que tu notebook de Colab.


In [None]:
# Clonar repositorio en Github
!git clone https://github.com/jserrataylor/cursoAI

In [4]:
## Importar datos directamente de un archivo zip
import zipfile
import os

zip_path = '/content/cursoAI/files_ventas_concatenar.zip'  # Ruta al archivo ZIP
extract_folder = '/content/files_ventas'  # Carpeta donde se extraerán los archivos

with zipfile.ZipFile(zip_path, 'r') as zip_ref:
    zip_ref.extractall(extract_folder)


In [5]:
## Importar datos directamente de un archivo zip
import zipfile
import os

zip_path = '/content/cursoAI/datos_calidad_aire.zip'  # Ruta al archivo ZIP
extract_folder = '/content/calidad_aire'  # Carpeta donde se extraerán los archivos

with zipfile.ZipFile(zip_path, 'r') as zip_ref:
    zip_ref.extractall(extract_folder)

In [6]:
## Importar datos directamente de un archivo zip
import zipfile
import os

zip_path = '/content/cursoAI/datos_titanic.zip'  # Ruta al archivo ZIP
extract_folder = '/content/titanic'  # Carpeta donde se extraerán los archivos

with zipfile.ZipFile(zip_path, 'r') as zip_ref:
    zip_ref.extractall(extract_folder)

In [7]:
## Importar datos directamente de un archivo zip
import zipfile
import os

zip_path = '/content/cursoAI/datos_ventas_anuales.zip'  # Ruta al archivo ZIP
extract_folder = '/content/ventas_anuales'  # Carpeta donde se extraerán los archivos

with zipfile.ZipFile(zip_path, 'r') as zip_ref:
    zip_ref.extractall(extract_folder)

## DATOS DE VENTAS

In [None]:
# DataFrame llamado ventas, pero cargando el archivo en excel.
# Parámetro para que lea todas las hojas y devuelve un diccionario, pero no es un DataFrame: sheet_name=None
# Parámetro para que lea una hoja en específico sheet_name='2021'
# Parámetro para eliminar la primera linea: skiprows=1
# Parámetro paa convertir la primera columna en indice: index_col=0
# Método para unir DataFrame es: df_unido = pd.concat([df1, df2])

# Cargas el archivo excel: ventas_anuales.xlsx, que tiene 2 horas(sheets) (2020 y 2021)
ventas_1 = pd.read_excel("/content/ventas_anuales/ventas_anuales.xlsx", sheet_name='2020', skiprows=1, index_col=0)
ventas_2 = pd.read_excel("/content/ventas_anuales/ventas_anuales.xlsx", sheet_name='2021', skiprows=1, index_col=0)

# Visualización de datos de las ventas por trimestres en los años 2020 y 2021
ventas_1, ventas_2


#### Concatenar los datos de las Ventas

In [None]:
# Concatenar los DataFrame y Series con el método: df = pd.concat([df_1, df_2])
# Parámetro para etiquetar los DataFrame de acuerdo a su origen de datos: keys=['x', 'y']

df_ventas = pd.concat([ventas_1, ventas_2], keys=['2020', '2021']) # Creación de DataFrame concatenado
df_ventas

# Guardar el DataFrame creado
#df_ventas.to_csv('ventas_2020_y_2021.csv') # Guardar DataFrame en archivo: ventas_2020_y_2021.csv


In [None]:
# Visualizar datos
#df_ventas.head()
df_ventas.loc['2020'], df_ventas.loc['2021']

In [None]:
# Función shape para saber de que se compone el DataFrame creado
df_ventas.shape

In [None]:
# Filtrar por columnas
df_ventas = df_ventas[['Trimestre 2', 'Trimestre 4']]
df_ventas.head()

In [None]:
# Filtrado de registro (fila) para un índice específico 3
# df_ventas.loc['Sucursal Oeste']
df_ventas.loc['2020']

In [None]:
# Ordenar datos por indice
df_ventas = df_ventas.sort_index()
df_ventas

In [None]:
# Acceder a los datos asociados con la key (clave) 'x'
print(df_ventas.loc['2021'])

### Concatenar objetos por filas o por columnas

In [None]:
# Función concat para unir los DataFrame por filas o registros
# Parámetro para etiquetar los DataFrame de acuerdo a su origen de datos: keys=['x', 'y']

df_ventas_1 = pd.concat([ventas_1, ventas_2], axis=0)
df_ventas_1

In [None]:
# Función concat para unir los DataFrame por columnas
# Parámetro para etiquetar los DataFrame de acuerdo a su origen de datos: keys=['x', 'y']

df_ventas_2 = pd.concat([ventas_1, ventas_2], axis=1) #, keys=['2020', '2021'])
df_ventas_2

## DATOS DE CALIDAD DEL AIRE

In [None]:
# Métodos para cargar los datos: pd.read_csv
# Parametro index_col para asignar indice: Asignamos las fechas de los datos como índice: index_col = 2

# Cargar datos no2 = air_quality_no2_long.csv
aq_no2 = pd.read_csv('/content/calidad_aire/air_quality_no2_long.csv') #, index_col = 2)

# Cargar datos pm25 = air_quality_pm25_long.csv
aq_pm25 = pd.read_csv('/content/calidad_aire/air_quality_pm25_long.csv') #, index_col = 2)

# Visualización de los datos de calidad del aire
aq_no2.head(), aq_pm25.head()

#### Concatenar los datos de la Calidad del Aire en Ciudades Europeas

In [None]:
# Concatenar los DataFrame y Series con el método: df = pd.concat([df_1, df_2])
# Parámetro para etiquetar los DataFrame de acuerdo a su origen de datos: keys=['x', 'y']

df_aq = pd.concat([aq_no2, aq_pm25], keys=['aq_no2', 'aq_pm25']) # Creación de DataFrame concatenado
df_aq

In [None]:
# Visualizar datos
df_aq.head()

In [22]:
# Función shape para saber de que se compone el DataFrame creado
df_aq.shape

(3178, 7)

In [None]:
# Filtrado de registro (fila) para un índice específico cuando no tienen indice los DataFrame sería: df_aq.loc[3],
# pero si tiene Keys: df_aq.loc['aq_no2'] o df_aq.loc['aq_pm25']
# df_aq.loc[3]

# Si se desean análisis específicos por DataFrame Concatenados
# df_aq.loc['aq_no2']
df_aq.loc['aq_pm25']

In [None]:
# Filtrar por columnas
df_aq = df_aq[['city', 'parameter', 'value']]
df_aq

In [None]:
# Filtrado columnas utilizando el Método iloc
df_aq.iloc[2:4]

In [None]:
# Ordenar datos por indice
df_aq = df_aq.sort_index()
df_aq

In [None]:
# Acceder a los datos asociados con la key (clave) 'x'
print(df_aq.loc['aq_pm25'])

### Concatenar objetos por filas o por columnas

In [None]:
# Función concat para unir los DataFrame por filas o registros
df_aq_1 = pd.concat([aq_no2, aq_pm25], axis=0)
df_aq_1


In [None]:
# Función concat para unir los DataFrame por columnas
df_aq_2 = pd.concat([aq_no2, aq_pm25], axis=0)
df_aq_2

## Concatenar (Unir) datos creados mediante Series (concat)

## Creación de DataSeries (2) de datos

In [29]:
# Creación de dataseries
serie_1 = pd.Series(['A', 'B', 'C']) #, index=[1, 2, 3])
serie_2 = pd.Series(['D', 'E', 'F']) #, index=[4, 5, 6])

### Concatenar los DataSeries

In [None]:
# Concatenar dataseries
df_c = pd.concat([serie_1, serie_2])
df_c

## Concatenar datos almacenados en distintos DataFrame

![texto alternativo](https://www.blogodisea.com/wp-content/uploads/2011/02/diagrama-de-venn-Teoria-de-los-Conjuntos-matematicas.jpg)





## Supongamos que estamos estudiando en la universidad, y a la vez conseguimos una jornada de trabajo parcial, ya sea por estudio y trabajo o por jornal

No dieron dos listas de nombres del personal y de estudiantes para que los unamos

In [None]:
import pandas as pd

# Método para asignar indice: df.set_index('nombre indice')

# Crear DataFrames del personal
Personal = pd.DataFrame([{'Nombre': 'Maria', 'Empleo': 'Directora'},
                         {'Nombre': 'Pedro', 'Empleo': 'Profesor'},
                         {'Nombre': 'Manuela', 'Empleo': 'Asistente'}])

## ASEGURARSE DE COLOCAR EL MISMO INDICE A LOS DATAFRAME
# indexamos por nombre
#Personal = Personal.set_index('Nombre') # Establecemos nombre como el indice
Personal

In [None]:
# Crear Dataframe de estudiantes
Estudiantes = pd.DataFrame([{'Nombre': 'Manuela', 'Facultad': 'Empresas'},
                           {'Nombre': 'Miguel', 'Facultad': 'Derecho'},
                           {'Nombre': 'Fernando', 'Facultad': 'Humanidades'},
                            {'Nombre': 'Maria', 'Facultad': 'Ciencias Naturales'}])

## ASEGURARSE DE COLOCAR EL MISMO INDICE A LOS DATAFRAME
# indexamos por nombre
#Estudiantes = Estudiantes.set_index('Nombre') #Establecemos nombre como el indice
Estudiantes

## METODO CONCAT (outer)

### A = PERSONAL que trabaja en la universidad y B = ESTUDIANTES que estudian y trabajan en la universidad

![Elmentos independientes](https://www.smartick.es/blog/wp-content/uploads/142.png)

In [None]:
# Concatenar (unir) por filas
# Parámetro key para identificar la etiqueta origen de la unión de esos datos: keys=['Personal', 'Estudiantes']

df3 = pd.concat([Estudiantes, Personal], axis=0, join='outer')
df3

In [None]:
# Concatenar (unir) por columnas
# Parámetro key para identificar la etiqueta origen de la unión de esos datos: keys=['Personal', 'Estudiantes']

df4 = pd.concat([Estudiantes, Personal], axis=1, join='outer')
df4

# METODO CONCAT (inner)

![Elmentos independientes](https://www.smartick.es/blog/wp-content/uploads/142.png)

### Inter = sería el personal ya sea estudiantes que trabaja o personal que estudia en la universidad

In [None]:
# función inner, Solo se filtra los que cumplen con la condición de ambos en el DataFrame
# Parámetro key para identificar la etiqueta origen de la unión de esos datos: keys=['Personal', 'Estudiantes']

df5 = pd.concat([Estudiantes, Personal], axis=1, join='inner')
df5

## ¿QUE OCURRE AQUÍ?

# Concatenación de Archivos y otras dependencias

In [None]:
# Importar las bibliotecas necesarias
import pandas as pd  # Pandas para manipulación de datos en dataframes
import os  # os para interactuar con el sistema operativo

import re  # re para trabajar con expresiones regulares
import datetime as dt  # datetime para trabajar con fechas y horas

import matplotlib.pyplot as plt  # Matplotlib para visualizaciones
import seaborn as sns  # Seaborn para visualizaciones estadísticas

# Configurar el estilo de los gráficos
plt.style.use('seaborn')  # Usar el estilo 'seaborn' para los gráficos de matplotlib
sns.set_style('darkgrid')  # Usar el fondo 'darkgrid' para los gráficos de seaborn


## Comentarios previos sobre las funciones para lectura de múltiples archivos
La línea `os.listdir('files')` utiliza la función `listdir` del módulo `os` para obtener una lista de los nombres de los archivos en el directorio especificado, que en este caso es `'files'`.

- `os`: Es el módulo de Python que proporciona una manera de usar funcionalidades dependientes del sistema operativo, como la lectura o escritura en el sistema de archivos.
  
- `listdir`: Es una función dentro del módulo `os` que devuelve una lista conteniendo los nombres de las entradas en el directorio dado por el argumento path (ruta). Si path es una cadena de texto o bytes, se devolverá una lista de tipo correspondiente, es decir, una lista de cadenas de texto o una lista de bytes.

- `'files'`: Es el argumento que se pasa a `listdir`, y representa el nombre del directorio del que queremos obtener los nombres de los archivos. La función buscará este directorio en la ruta actual del script a menos que se proporcione una ruta completa.

Por lo tanto, `os.listdir('files')` muestra una lista de nombres de todos los archivos y subdirectorios en el directorio `'files'`. Si el directorio no existe, se lanzará un error `FileNotFoundError`.

In [None]:
# La función listdir del módulo os para obtener una lista de los nombres de los archivos en el directorio especificado: 'files'

os.listdir('/content/files_ventas') # files represente el nombre del directorio

# Dirección en Drive: /content/drive/MyDrive/Colab Notebooks/Curso_AI/Pandas/Ventas/sales/

In [32]:
#leactura de csv de pandas
df=pd.DataFrame()

In [33]:
# Lectura y Creación del DataFrame Concatenado con múltiple archivos csv.
# 1. files: Es una lista que almacena estos nombres de archivo.
# 2. os.listdir('files'): Obtiene una lista de todos los nombres de los archivos en el directorio llamado 'files'
# 3. for x in files: Inicia un bucle que recorre cada nombre de archivo en la lista files, almacenando el nombre del archivo actual en la variable x en cada iteración.
# 4. 'files/' + x: Crea la ruta completa al archivo actual concatenando la carpeta
# 5. 'files/' con el nombre del archivo x.
# 6. pd.read_csv('files/' + x): Lee el archivo CSV en la ruta especificada y lo convierte en un DataFrame.
# 7. file: Almacena este DataFrame en la variable file.
# 8. [file, df]: Crea una lista que contiene el DataFrame recién leído (file) y el DataFrame df (que no está definido en el fragmento de código proporcionado, por lo que asumiré que ha sido definido previamente en el script).
# 9. pd.concat([file, df]): Concatena los DataFrames en la lista a lo largo de las filas (uno debajo del otro).
# 10. df: Almacena el DataFrame concatenado de nuevo en la variable df.

files=os.listdir('files_ventas')
for x in files:
    file=pd.read_csv('files_ventas/' + x)
    df=pd.concat([file,df])


In [None]:
df.head()

In [None]:
#df.to_csv('sales.csv')
df.shape, df.info(), df.dtypes

In [None]:
# Función para Contar los datos nulos

df['Order ID'].isnull().value_counts()

In [37]:
## Función para Eliminar datos nulos

df=df[df['Order ID'].notnull()]

In [None]:
# Conteo de datos nulos
df.isnull().value_counts()

In [None]:
#definir el tipo de cada variable
df.dtypes

### Elimar datos de los encabezados no deseados
La línea de código `df = df[df['Product'] != 'Product']` está utilizando una técnica en Pandas conocida como "Boolean Indexing" para filtrar el DataFrame `df`. Vamos a desglosarla:

- `df['Product'] != 'Product'`: Esta parte crea una Serie de valores booleanos (True/False) al comparar cada elemento en la columna 'Product' con la cadena 'Product'. Si el elemento es igual a la cadena 'Product', el correspondiente valor booleano será `False`, de lo contrario será `True`.

- `df[df['Product'] != 'Product']`: Aquí, esta Serie booleana se utiliza para indexar el DataFrame original `df`. Esencialmente, para cada `True` en la Serie booleana, la correspondiente fila en `df` será seleccionada, y para cada `False`, la fila será excluida.

- `df =`: Finalmente, el DataFrame filtrado se asigna de nuevo a `df`, efectivamente sobrescribiendo el DataFrame original con la versión filtrada.

Esta línea de código elimina todas las filas del DataFrame `df` donde la columna 'Product' es igual a la cadena 'Product'. Este tipo de operación es útil para eliminar filas que contienen encabezados de columnas en los datos, lo cual puede ocurrir si se han concatenado varios archivos CSV que contienen encabezados en medio de los datos.

In [40]:
#Eliminar (filtrar) elementos no deseados que aparecen en el DataFrame
df=df[df['Product']!='Product']

In [41]:
df['Quantity Ordered']=df['Quantity Ordered'].astype('int64')
df['Price Each']=df['Price Each'].astype('float')
df['Order Date']=pd.to_datetime(df['Order Date']) #, format='%m-%m-%Y'


In [None]:
df.info(), df.dtypes

# CUAL FUE EL MES CON LA VENTA MAS ALTA

In [43]:
#Crea una columna del resultado de la multiplicacion de precio por cantidad
df['Total_Ventas']=df['Quantity Ordered']*df['Price Each']

In [None]:
#agrupaciones primero por mes
df['Mes']=df['Order Date'].dt.month\

df_mes=df.groupby('Mes').sum()

#resetear el indice
df_mes=df_mes.reset_index()
df_mes.head()

In [None]:
#agrupacion la voy haver por fecha
df_week=df.groupby('Order Date').sum()

In [None]:
df_week=df_week.resample('W').sum()
df_week.head()

In [None]:
#subplot de graficos
fig, axes=plt.subplots(1,2, figsize=(16,7))
ax1=plt.subplot(1,2,1)
ax2=plt.subplot(1,2,2)
bars=ax1.bar(df_mes['Mes'], df_mes['Total_Ventas'])
ax2.plot(df_week['Total_Ventas'])
ax1.set_xticks(df_mes['Mes'])
ax1.set_title('Ventas por Mes', size=18)
ax2.set_title('Tendencia de Ventas Por Semana', size=18)

ax1.set_xlabel('Meses')
ax1.set_ylabel('Ventas en Millones')
bars[11].set_color('#005f73')

ax2.set_xlabel('Semanas')
ax2.set_ylabel('Ventas en Millones')

plt.show()

In [None]:
df.head()

# CUAL ES LA CIUDAD CON MAYOR VENTA

## **Función anonima lamda**:

La función `lambda` en Python se utiliza para crear funciones anónimas en línea. Estas son funciones que se declaran y se utilizan en el mismo lugar, y generalmente sirven para operaciones simples que no requieren una definición de función completa usando `def`. La sintaxis básica de una función `lambda` es:

```python
lambda argumentos: expresion
```

## Linea de Código

```python
df['Ciudad'] = df['Purchase Address'].apply(lambda x: x.split(',')[1])
```

La línea de código utiliza la función `apply()` junto con una función `lambda` para crear o modificar una columna (`'Ciudad'`) en un DataFrame `df` de `pandas`. Veamos cada parte de esta línea de código:

### Desglose:

- **`df['Purchase Address']`**: Selecciona la columna `'Purchase Address'` del DataFrame `df`.
  
- **`.apply()`**: Aplica una función a cada elemento de la columna seleccionada. En este caso, se aplica una función `lambda` a cada entrada de la columna `'Purchase Address'`.

- **`lambda x: x.split(',')[1]`**: Esta es una función anónima (o `lambda`), que toma un argumento `x` y devuelve `x.split(',')[1]`.
  - **`x.split(',')`**: Divide la cadena `x` en una lista de subcadenas cada vez que encuentra una coma (`,`).
  - **`[1]`**: Selecciona el segundo elemento de la lista resultante.

- **`df['Ciudad'] = ...`**: Asigna los resultados de la operación `apply()` a una nueva columna llamada `'Ciudad'` en el DataFrame `df`.

### Ejemplo:

Si tuviéramos un DataFrame con una columna `'Purchase Address'` que tiene el siguiente formato:

```
123 Main St, Springfield, IL 62704
```

La función `lambda x: x.split(',')[1]` tomará cada dirección, la dividirá en partes utilizando la coma como delimitador, y seleccionará la segunda parte (índice `[1]`), que en este caso es el nombre de la ciudad (`' Springfield'`).

Así que después de aplicar esta línea de código, el DataFrame `df` tendrá una nueva columna llamada `'Ciudad'` que contiene los nombres de las ciudades extraídos de la columna `'Purchase Address'`.

In [None]:
# Ver explicación anterior relacionado a función lamda
df['Ciudad']=df['Purchase Address'].apply(lambda x: x.split(',')[1])
df.head()

In [None]:
#grafica para ver la ciudad
df_ciudad=df.groupby('Ciudad').sum()

df_ciudad=df_ciudad.reset_index()


In [None]:
bars=plt.bar(df_ciudad['Ciudad'], df_ciudad['Total_Ventas'])
plt.xticks(rotation=90)
bars[7].set_color('r')
plt.show()

# CUAL ES LA HORA A QUE MAS SE VENDEN PRODUCTOS

In [52]:
df.head()

Unnamed: 0,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address,Total_Ventas,Mes,Ciudad
0,141234,iPhone,1,700.0,2019-01-22 21:25:00,"944 Walnut St, Boston, MA 02215",700.0,1,Boston
1,141235,Lightning Charging Cable,1,14.95,2019-01-28 14:15:00,"185 Maple St, Portland, OR 97035",14.95,1,Portland
2,141236,Wired Headphones,2,11.99,2019-01-17 13:33:00,"538 Adams St, San Francisco, CA 94016",23.98,1,San Francisco
3,141237,27in FHD Monitor,1,149.99,2019-01-05 20:33:00,"738 10th St, Los Angeles, CA 90001",149.99,1,Los Angeles
4,141238,Wired Headphones,1,11.99,2019-01-25 11:59:00,"387 10th St, Austin, TX 73301",11.99,1,Austin


In [53]:
df['Hora']=df['Order Date'].apply(lambda x: x.hour)
df.head()

Unnamed: 0,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address,Total_Ventas,Mes,Ciudad,Hora
0,141234,iPhone,1,700.0,2019-01-22 21:25:00,"944 Walnut St, Boston, MA 02215",700.0,1,Boston,21
1,141235,Lightning Charging Cable,1,14.95,2019-01-28 14:15:00,"185 Maple St, Portland, OR 97035",14.95,1,Portland,14
2,141236,Wired Headphones,2,11.99,2019-01-17 13:33:00,"538 Adams St, San Francisco, CA 94016",23.98,1,San Francisco,13
3,141237,27in FHD Monitor,1,149.99,2019-01-05 20:33:00,"738 10th St, Los Angeles, CA 90001",149.99,1,Los Angeles,20
4,141238,Wired Headphones,1,11.99,2019-01-25 11:59:00,"387 10th St, Austin, TX 73301",11.99,1,Austin,11


In [54]:
#agrupacion por las horas
df_hour=df.groupby('Hora').sum()
df_hour=df_hour.reset_index()

  df_hour=df.groupby('Hora').sum()


In [None]:
#grafica de lineas
plt.plot(df_hour['Total_Ventas'], marker='o')
plt.xticks(df_hour['Hora'])
plt.title('Ventas por hora del día')

plt.show()

# CUALES SON LOS PRODUCTOS QUE SE VENDEN JUNTOS

In [56]:
df=df[df['Order ID'].duplicated(keep=False)]

df['agrupado']=df.groupby(['Order ID'])['Product'].transform(lambda x: ','.join(x))

df=df[['Order ID', 'agrupado']].drop_duplicates()

In [None]:
df.head()

In [58]:
import itertools
from itertools import combinations #genera el conjutno de combinaciones
import collections
from collections import Counter #simplemente para realizar conteos

In [59]:
count = Counter()

for r in df['agrupado']:
    filas= r.split(',')
    count.update(Counter(combinations(filas, 3)))

In [None]:
count

In [None]:
comunes=count.most_common(10)
comunes