# Carga y exportación de archivos CSV

## Contexto

En esta actividad, los estudiantes aprenderán a importar datos desde archivos CSV, adaptarlos a las necesidades del análisis y luego exportarlos nuevamente con las configuraciones adecuadas.

## Consigna

Utiliza pandas para cargar un archivo CSV sin encabezado, renombrar las columnas, limpiar los datos y los valores nulos, y exportar el resultado a un nuevo archivo CSV con un delimitador personalizado.

## Paso a paso

- Abre tu entorno de trabajo preferido.

- Importa pandas (`import pandas as pd`).

- Lee el archivo `datos.csv` usando `header=None` y asigna nombres personalizados con `names=['nombre', 'edad', 'ciudad']`.

- Reemplaza valores nulos o símbolos como `?` usando `na_values` y `fillna()`.

- Elimina filas duplicadas, si las hubiera, con `drop_duplicates()`.

- Exporta el DataFrame limpio con `to_csv()` usando `sep=';'` y `encoding='utf-8'`.


In [None]:
import pandas as pd
from google.colab import files
uploaded = files.upload()

# Cargar el archivo CSV sin encabezado (como ejemplo)
# Aquí uso el archivo 'all_cars_datset_final.csv' que ya tienes cargado

df = pd.read_csv('all_cars_datset_final.csv', header=None,
                 names=['Brand', 'Car Name', 'Price', 'Rating', 'Safety'])

# Mostrar primeras filas para inspección rápida
print(df.head())

# Reemplazar valores nulos o símbolos '?'
df.replace('?', pd.NA, inplace=True)
df.fillna(method='ffill', inplace=True)  # Ejemplo: rellenar valores nulos hacia adelante

# Eliminar filas duplicadas
df.drop_duplicates(inplace=True)

# Exportar el DataFrame limpio a un nuevo CSV con delimitador ';' y codificación utf-8
df.to_csv('all_cars_clean.csv', sep=';', encoding='utf-8', index=False)

print("Archivo exportado como 'all_cars_clean.csv' con delimitador ';'.")


Saving all_cars_datset_final.csv to all_cars_datset_final.csv
                                            Brand       Car Name       Price  \
Brand         Car Name      Price          Rating         Safety     Mileage   
Maruti Suzuki Maruti Brezza Rs. 8.69 Lakh   4.5/5  4 Star Safety  17-25 kmpl   
              Maruti Fronx  Rs. 7.54 Lakh   4.6/5  3 Star Safety  20-28 kmpl   
              Maruti Swift  Rs. 6.49 Lakh   4.6/5  2 Star Safety  24-32 kmpl   
              Maruti Dzire  Rs. 6.84 Lakh   4.7/5  5 Star Safety  24-33 kmpl   

                                                Rating         Safety  
Brand         Car Name      Price          Power (BHP)  FY2024(sales)  
Maruti Suzuki Maruti Brezza Rs. 8.69 Lakh   87-102 bhp       1,69,897  
              Maruti Fronx  Rs. 7.54 Lakh    76-99 bhp       1,34,735  
              Maruti Swift  Rs. 6.49 Lakh    69-80 bhp       1,95,321  
              Maruti Dzire  Rs. 6.84 Lakh    69-80 bhp       1,64,517  
Archivo exportado como 'a

  df.fillna(method='ffill', inplace=True)  # Ejemplo: rellenar valores nulos hacia adelante


# 📊 Lectura de datos desde Excel y extracción web

### 🧠 Contexto  
Comprender cómo obtener datos desde archivos Excel y páginas web, y cómo unificarlos en un solo DataFrame para análisis conjunto.

---

### 🎯 Consigna  
Lee datos desde un archivo `.xlsx` y desde una tabla HTML de una web, combina ambos conjuntos en un solo DataFrame y exporta el resultado como archivo Excel con múltiples hojas.

---

### 🪜 Paso a paso  
1. Asegúrate de tener instalada la librería `openpyxl`.  
2. Carga un archivo Excel con `read_excel('archivo.xlsx', sheet_name='ventas')`.  
3. Usa `read_html()` para extraer la primera tabla de una web (por ejemplo, una página de estadísticas).  
4. Unifica ambos conjuntos con `concat()` o `merge()` según el caso.  
5. Exporta el resultado a un archivo `resumen.xlsx` con `to_excel()`, incluyendo ambos DataFrames en hojas diferentes usando `ExcelWriter`.


In [20]:
import pandas as pd
from google.colab import files

# Paso 1: Subir archivo Excel
uploaded = files.upload()
nombre_archivo = list(uploaded.keys())[0]

# Paso 2: Leer el Excel subido
df_excel = pd.read_excel(nombre_archivo, sheet_name='Sheet1')  # Cambia 'Sheet1' si tu hoja tiene otro nombre

# Paso 3: URL válida con tabla de producción de vehículos por país
url = 'https://es.wikipedia.org/wiki/Anexo:Pa%C3%ADses_por_producci%C3%B3n_de_veh%C3%ADculos_de_motor'

# Paso 4: Leer la tabla HTML
tablas = pd.read_html(url)
df_html = tablas[0]  # Primera tabla de la página

# Paso 5: Unir DataFrames (ajusta si las columnas no coinciden)
df_combinado = pd.concat([df_excel, df_html], ignore_index=True, sort=False)

# Paso 6: Exportar a Excel con varias hojas
with pd.ExcelWriter('resumen_carros.xlsx', engine='openpyxl') as writer:
    df_excel.to_excel(writer, sheet_name='Datos Excel', index=False)
    df_html.to_excel(writer, sheet_name='Datos Web', index=False)
    df_combinado.to_excel(writer, sheet_name='Combinado', index=False)

print("Archivo 'resumen_carros.xlsx' exportado correctamente.")
df_combinado.head()

Saving all_cars_dataset_final.xlsx to all_cars_dataset_final (15).xlsx
Archivo 'resumen_carros.xlsx' exportado correctamente.


Unnamed: 0,Brand,Car Name,Price,Rating,Safety,Mileage,Power (BHP),FY2024(sales),Rango,País/Región,2022[1]​,2018,2014[2]​,2012[3]​,2010[4]​,2008[5]​,2005[6]​,2000[7]​
0,Maruti Suzuki,Maruti Brezza,Rs. 8.69 Lakh,4.5/5,4 Star Safety,17-25 kmpl,87-102 bhp,169897,,,,,,,,,,
1,Maruti Suzuki,Maruti Fronx,Rs. 7.54 Lakh,4.6/5,3 Star Safety,20-28 kmpl,76-99 bhp,134735,,,,,,,,,,
2,Maruti Suzuki,Maruti Swift,Rs. 6.49 Lakh,4.6/5,2 Star Safety,24-32 kmpl,69-80 bhp,195321,,,,,,,,,,
3,Maruti Suzuki,Maruti Dzire,Rs. 6.84 Lakh,4.7/5,5 Star Safety,24-33 kmpl,69-80 bhp,164517,,,,,,,,,,
4,Maruti Suzuki,Maruti Baleno,Rs. 6.70 Lakh,4.5/5,4 Star Safety,22-30 kmpl,76-88 bhp,195607,,,,,,,,,,
