### Exploración de archivos CSV

**Contexto**  
Aprender a importar datos desde archivos CSV, comprender su estructura y aplicar buenas prácticas para la carga de datos tabulares en Python utilizando la librería **pandas**.

---

**Consigna**  
Usa `pandas` para cargar un archivo CSV, inspecciona su contenido y exporta una versión modificada del archivo aplicando algunas transformaciones básicas.

---

**Paso a paso**

1. Importa la librería `pandas` con `import pandas as pd`.

2. Lee un archivo CSV utilizando `pd.read_csv()` y asígnalo a una variable llamada `df`.

3. Visualiza las primeras filas con `df.head()` y revisa la estructura general con `df.info()`.

4. Si el archivo no tiene encabezados, utiliza los parámetros `header=None` y `names=[]` para asignar nombres personalizados a las columnas.

5. Detecta valores nulos con `df.isnull().sum()` y reemplázalos si es necesario usando métodos como `fillna()` o `dropna()`.

6. Exporta el DataFrame modificado a un nuevo archivo CSV usando `df.to_csv()`.



In [1]:
from google.colab import files
uploaded = files.upload()


Saving all_cars_datset_final.csv to all_cars_datset_final.csv


In [3]:
import pandas as pd

# Reemplaza 'nombre_archivo.csv' por el nombre real del archivo que subiste
df = pd.read_csv('all_cars_datset_final.csv')



In [5]:
# 1. Importar pandas
import pandas as pd

# 2. Cargar el archivo CSV
df = pd.read_csv('all_cars_datset_final.csv')

# 3. Visualizar las primeras filas
print("Primeras filas del archivo:")
print(df.head())

# 4. Revisar la estructura general
print("\nInformación general del DataFrame:")
print(df.info())


# Renombrar una columna del DataFrame
df.rename(columns={"Car Name": "Model"}, inplace=True)

# Verificar el cambio
print(df.head())

# 6. Detectar valores nulos
print("\nValores nulos por columna:")
print(df.isnull().sum())

# 7. Reemplazar valores nulos si es necesario (aquí ejemplo rellenando con "Desconocido")
# df.fillna("Desconocido", inplace=True)

# 8. Exportar el DataFrame modificado a un nuevo archivo CSV
df.to_csv('cars_dataset_cleaned.csv', index=False)
print("\nArchivo exportado como 'cars_dataset_cleaned.csv'")


Primeras filas del archivo:
           Brand       Car Name          Price Rating         Safety  \
0  Maruti Suzuki  Maruti Brezza  Rs. 8.69 Lakh  4.5/5  4 Star Safety   
1  Maruti Suzuki   Maruti Fronx  Rs. 7.54 Lakh  4.6/5  3 Star Safety   
2  Maruti Suzuki   Maruti Swift  Rs. 6.49 Lakh  4.6/5  2 Star Safety   
3  Maruti Suzuki   Maruti Dzire  Rs. 6.84 Lakh  4.7/5  5 Star Safety   
4  Maruti Suzuki  Maruti Baleno  Rs. 6.70 Lakh  4.5/5  4 Star Safety   

      Mileage Power (BHP) FY2024(sales)  
0  17-25 kmpl  87-102 bhp      1,69,897  
1  20-28 kmpl   76-99 bhp      1,34,735  
2  24-32 kmpl   69-80 bhp      1,95,321  
3  24-33 kmpl   69-80 bhp      1,64,517  
4  22-30 kmpl   76-88 bhp      1,95,607  

Información general del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 248 entries, 0 to 247
Data columns (total 8 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Brand          248 non-null    object
 1   Car Name     

In [6]:
from google.colab import files
files.download('cars_dataset_cleaned.csv')


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# Lectura desde Excel y extracción de tablas web

## Contexto

Experimentaremos con la importación de datos desde diferentes fuentes: un archivo Excel y una tabla HTML, usando pandas como herramienta central.

## Consigna

Lee un archivo de Excel desde tu equipo y extrae una tabla HTML desde una página web. Utilizando pandas, explora ambos conjuntos de datos y guarda una copia en archivos locales.

## Paso a paso

- Asegúrate de tener instalada la librería `openpyxl` para poder leer archivos `.xlsx`.
- Lee un archivo Excel con `pd.read_excel('archivo.xlsx')`.
- Si hay múltiples hojas, prueba cargarlas usando el parámetro `sheet_name=`.
- Busca una URL que contenga una tabla HTML simple.
- Utiliza `pd.read_html('url')` para importar la tabla (recuerda que devuelve una lista con DataFrames).
- Explora los datos con `.head()` y `.describe()`.
- Exporta ambos conjuntos de datos como nuevos archivos `.xlsx` y `.csv`.


In [12]:
import pandas as pd

url = 'https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/'

# read_html devuelve una lista de tablas
tablas = pd.read_html(url)

# Imprimimos cuántas tablas se extrajeron
print(f"Se encontraron {len(tablas)} tablas.")

# Seleccionamos la primera tabla
df_bancos = tablas[0]

# Mostramos las primeras filas
print(df_bancos.head())

print(df_bancos.describe())

# Exportar a CSV (sin índice)
df_bancos.to_csv('bancos_fallidos.csv', index=False)

# Exportar a Excel (sin índice)
df_bancos.to_excel('bancos_fallidos.xlsx', index=False)

print("Archivos exportados correctamente.")


Se encontraron 1 tablas.
                               Bank Name          City         State   Cert  \
0           The Santa Anna National Bank    Santa Anna         Texas   5520   
1                   Pulaski Savings Bank       Chicago      Illinois  28611   
2     The First National Bank of Lindsay       Lindsay      Oklahoma   4134   
3  Republic First Bank dba Republic Bank  Philadelphia  Pennsylvania  27332   
4                          Citizens Bank      Sac City          Iowa   8758   

                Acquiring Institution      Closing Date  Fund  Sort ascending  
0           Coleman County State Bank     June 27, 2025                 10549  
1                     Millennium Bank  January 17, 2025                 10548  
2  First Bank & Trust Co., Duncan, OK  October 18, 2024                 10547  
3   Fulton Bank, National Association    April 26, 2024                 10546  
4           Iowa Trust & Savings Bank  November 3, 2023                 10545  
               Cert 

In [13]:
from google.colab import files

# Descargar CSV
files.download('bancos_fallidos.csv')

# Descargar Excel
files.download('bancos_fallidos.xlsx')


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>