# Importación de datos desde diferentes fuentes de datos

#### Autores: Cristina Gómez Alonso, Carlos Tessier

## 0. Importación de las librería Pandas y os de Python

`pandas` es una librería de Python especializada en el **análisis y manipulación de datos**, que proporciona estructuras como **Series** (unidimensional) y **DataFrame** (tablas tipo Excel) para trabajar de forma rápida y eficiente con datos estructurados. 🚀


La librería `os` de Python permite interactuar con el sistema operativo para manejar rutas, archivos, directorios y variables de entorno.

In [None]:
import pandas as pd
import os

## 1. Consulta de datasets precargados
Existen datasets  dentro de la librería scikit-learn que podemos cargar de forma simple para hacer pruebas

El **dataset Iris** que viene en **scikit-learn** es uno de los conjuntos de datos más clásicos y utilizados en **aprendizaje automático** y **estadística**.

Sirve principalmente como **ejemplo educativo** y de **prueba de algoritmos** porque es pequeño, fácil de entender y ya viene preprocesado.

### Características principales:

* Contiene **150 muestras** de flores de iris.
* Cada muestra tiene **4 características numéricas**:

  1. Largo del sépalo (sepal length)
  2. Ancho del sépalo (sepal width)
  3. Largo del pétalo (petal length)
  4. Ancho del pétalo (petal width)
* Las muestras pertenecen a **3 clases** (50 ejemplos de cada una):

  * *Iris setosa*
  * *Iris versicolor*
  * *Iris virginica*

### ¿Para qué se usa?

* **Clasificación**: entrenar modelos para predecir la especie de una flor según sus medidas.
* **Visualización**: como solo tiene 4 variables, se presta muy bien a gráficos 2D y 3D.
* **Práctica con algoritmos**: regresión logística, k-NN, SVM, árboles de decisión, redes neuronales, etc.
* **Evaluación de técnicas de preprocesamiento**: normalización, reducción de dimensionalidad (PCA), validación cruzada, etc.

En pocas palabras: el dataset Iris es un **"hola mundo" del machine learning** 🏵️.

¿Quieres que te muestre un ejemplo práctico en Python con `scikit-learn`, cargando el dataset y entrenando un modelo simple?


In [None]:
from sklearn.datasets import load_iris

# 1. Cargar el dataset Iris
iris_data = load_iris()
iris_data.data


Un **DataFrame** es una **tabla de datos en Python** (de la librería **pandas**) que se parece a una hoja de Excel:

* Tiene **filas** (observaciones, registros).
* Tiene **columnas** (variables, características).
* Cada columna puede tener un tipo de dato diferente (números, texto, fechas, etc.).

👉 Es la estructura más usada en análisis de datos porque permite **organizar, filtrar, calcular y visualizar datos** de forma muy sencilla.

Vamos a convertir el dataset Iris en un DataFrame de pandas, añadiendo también la columna con el nombre de la especie en texto

In [None]:
# Crear un DataFrame con las características (columnas: sépalo y pétalo)
iris = pd.DataFrame(iris_data.data,columns=iris_data.feature_names)

# Agregar una nueva columna 'species' con el nombre de la especie
iris['species'] = pd.Series(iris_data.target_names[iris_data.target])

# Mostrar las primeras 5 filas de la tabla para ver cómo queda
iris.head()

Vamos a dibujar un **gráfico de dispersión** (scatter plot) usando el **DataFrame `iris`** que creamos antes.

* Este gráfico es muy útil porque el **largo y ancho del pétalo** son las variables que mejor diferencian a las especies.
* Verás que **Iris setosa** queda separada claramente de las otras dos especies en esta proyección.
* En cambio, **versicolor** y **virginica** se solapan un poco.

In [None]:
# Creamos un grafico de dispersión (scatter plot) usando el DataFrame iris creado antes
iris.plot.scatter(x='petal length (cm)',
                  y='petal width (cm)')

<div style="background-color:green;">

## *Ejercicio 1*

<div style="background-color:green;">

Consulta la librería wine. ¿De qué trata? ¿Qué columnas tiene? Muestra un gráfico de puntos de dos features relevantes.

### To-do



## 2. Lectura de datos desde un fichero CSV


`pd.read_csv(...)`: Es una función de **pandas** que lee un archivo en formato **CSV** (valores separados por comas).



In [None]:
import pandas as pd  # Librería para trabajar con DataFrames (tablas de datos)

ruta_csv =  "data/CSV_EX_1.csv"

# Leemos el archivo CSV y lo cargamos en un DataFrame de pandas
df1 = pd.read_csv(ruta_csv)

# Mostramos el DataFrame para ver el contenido
df1


### CSV con las cabeceras desconocidas (missing headers)


Cuando lees un archivo **CSV sin cabeceras** (es decir, no tiene fila de títulos de columnas), `pandas` por defecto **interpretará la primera fila como si fueran nombres de columnas**, lo que puede ser un problema porque en realidad son datos.




In [None]:

ruta_csv2 = "data/CSV_EX_2.csv"

df2 = pd.read_csv(ruta_csv2)
df2

Cuando lees un archivo **CSV sin cabeceras** (es decir, no tiene fila de títulos de columnas), `pandas` por defecto **interpretará la primera fila como si fueran nombres de columnas**, lo que puede ser un problema porque en realidad son datos.


### 🔹 Solución: usar `header=None`

Si no tienes cabeceras, debes indicarlo explícitamente:

```python
df = pd.read_csv("datos.csv", header=None)
print(df)
```

* Se crean nombres de columna automáticos: `0, 1, 2, ...`
* Ahora los datos están intactos.

In [None]:
ruta_csv2 = "data/CSV_EX_2.csv"

df2 = pd.read_csv(ruta_csv2, header=None)
df2

### Añadir nombres personalizados

Puedes poner tus propios nombres de columnas con `names`:

```python
df = pd.read_csv("datos.csv", header=None, names=["A", "B", "C"])
print(df)
```



In [None]:
ruta_csv2 =  "data/CSV_EX_2.csv"

df2 = pd.read_csv(ruta_csv2, header=None, names=['Bedroom','Sq.ft','Locality','Price($)'])
df2

###  CSV con separadores (delimiters) que no son comas

Por defecto, **`pandas.read_csv()` usa la coma (`,`) como separador** ✅

Es decir, si no le pasas el argumento `sep`, asume que el archivo es un **CSV estándar** (Comma-Separated Values).


🔹 Si el archivo en realidad usa otro separador (como `;`, `\t`, `|`), pero no lo indicas, el DataFrame probablemente te salga con **una sola columna** (toda la fila leída como texto).


In [None]:
ruta_csv3 = "data/CSV_EX_3.csv"

df3 = pd.read_csv(ruta_csv3)
df3



In [None]:
ruta_csv3 =  "data/CSV_EX_3.csv"

# Indicamos explícitamente que el separador (delimiter) es el punto y coma (;)
df3 = pd.read_csv(ruta_csv3,sep=';')
df3

### Sustitución de cabeceras

Si ya tiene una cabecera y llamamos a names, en vez de sustituir la cabecera original tendrás la fila de texto duplicada en los datos

In [None]:
ruta_csv1 =  "data/CSV_EX_1.csv"

df4 = pd.read_csv(ruta_csv1,names=['A','B','C','D'])
df4

In [None]:
ruta_csv1 =  "data/CSV_EX_1.csv"

 # Leemos usando la primera fila como cabecera
df4 = pd.read_csv(ruta_csv1,header=0,names=['A','B','C','D']) 
df4

### Sustracción de las filas iniciales (Skip initial rows)

A veces los archivos CSV tienen filas de información al inicio que no pertenecen a la tabla (ejemplo: "Filetype: CSV" o "Info about some houses").

Por defecto, pandas.read_csv() intenta leer desde la primera fila, por eso esas líneas aparecen en el DataFrame como basura.

In [None]:
ruta_csv =  "data/CSV_EX_skiprows.csv"


df5 = pd.read_csv(ruta_csv)
df5


### 🔹 Solución: usar `skiprows`

Con el argumento `skiprows` puedes indicarle a pandas **cuántas filas debe saltar al inicio**:

In [None]:
ruta_csv =  "data/CSV_EX_skiprows.csv"

df5 = pd.read_csv(ruta_csv,skiprows=2)
df5

### Sustracción de las últimas filas (Skip footers)

Algunos archivos pueden tener tanto “ruido” tanto al inicio como al final, como en este ejemplo:


In [None]:
ruta_csv = "data/CSV_EX_skipfooter.csv"

df6 = pd.read_csv(ruta_csv)
df6

Además de `skiprows` (para saltar filas al inicio), en `pandas.read_csv()` también puedes usar **`skipfooter`** para eliminar filas al final del archivo.


In [None]:
ruta_csv = "data/CSV_EX_skipfooter.csv"

df6 = pd.read_csv(ruta_csv,skiprows=2,skipfooter=1,engine='python')
df6

### Lectura de las primeras *n* filas

Cuando trabajas con **CSV muy grandes**, a veces no quieres cargarlos completos en memoria (pueden pesar gigas).
Para eso, `pandas.read_csv()` tiene el parámetro **`nrows`**, que permite leer solo las primeras *n* filas.

---

Esto es especialmente útil para:

* **Inspeccionar la estructura** del archivo antes de procesarlo entero.
* **Prototipar análisis rápidos** con datasets muy grandes.




In [None]:
ruta_csv =  "data/CSV_EX_1.csv"


df7 = pd.read_csv(ruta_csv,nrows=2)
df7

### Sustracción de líneas en blanco con skip_blank_lines

En `pandas.read_csv()` existe el parámetro **`skip_blank_lines`**, que sirve  para **ignorar líneas en blanco** dentro de un CSV.

Por defecto está en `True`, es decir, pandas **ya elimina automáticamente las filas vacías**.
Si lo pones en `False`, las líneas en blanco se conservarán y se mostrarán como filas llenas de `NaN`.



In [None]:
ruta_csv =  "data/CSV_EX_blankline.csv"


df9 = pd.read_csv(ruta_csv)
df9

In [None]:
ruta_csv =  "data/CSV_EX_blankline.csv"

df9 = pd.read_csv(ruta_csv,skip_blank_lines=False)
df9

### Lectura de un CSV desde un fichero comprimido 


Una de las ventajas de **pandas** es que puede leer archivos CSV **directamente desde ficheros comprimidos** como `.zip`, `.gz`, `.bz2` o `.xz` sin que tengas que descomprimirlos manualmente.

```python
df = pd.read_csv("datos.zip", compression="zip")
```

Pandas detecta el tipo de compresión automáticamente en muchos casos, así que en muchos entornos **no necesitas poner `compression`**:

Si el `.zip` contiene **más de un archivo**, debes usar `zipfile` o `pyzipper` para listar y seleccionar el que quieres leer:


```python
import zipfile

with zipfile.ZipFile("datos.zip", "r") as z:
    print(z.namelist())  # Lista de archivos dentro del ZIP
    with z.open("CSV_EX_1.csv") as f:   # abrimos  el archivo
        df = pd.read_csv(f)
```


---



In [None]:
ruta_csv = "data/CSV_EX_1.zip"

df10 = pd.read_csv(ruta_csv)
df10

<div style="background-color:green;">

## *Ejercicio 2*

Consulta la web oficial de [Datos abertos de la junta de Castilla y León](https://analisis.datosabiertos.jcyl.es/explore/?sort=modified) e intenta cargar un dataset de tu interés en formato CSV.


### To-do


## 3. Lectura de datos desde un fichero Excel (uso de sheet_name)

Cuando trabajamos con **ficheros Excel**, no siempre nos encontramos con un único conjunto de datos. Muchas veces un archivo contiene **varias hojas** (por ejemplo, “Enero”, “Febrero”, “Marzo”) y queremos analizarlas todas en Python.

La librería **pandas** nos permite hacerlo fácilmente con la función `pd.read_excel()`.

---

## Lectura de una hoja concreta

Lo más habitual es leer una sola hoja especificando el nombre o índice:

```python
import pandas as pd

# Cargar la hoja llamada "Ventas"
df = pd.read_excel("datos.xlsx", sheet_name="Ventas")

# O la primera hoja (índice 0)
df = pd.read_excel("datos.xlsx", sheet_name=0)
```

Esto devuelve un único **DataFrame**.

---



In [None]:
!pip install openpyxl

ruta_csv = "data/Housing_data.xlsx"


df11_1 = pd.read_excel(ruta_csv,sheet_name='Data_Tab_1')
df11_2 = pd.read_excel(ruta_csv,sheet_name='Data_Tab_2')
df11_3 = pd.read_excel(ruta_csv,sheet_name='Data_Tab_3')

In [None]:
# Filas y columnas de la hoja
df11_1.shape

In [None]:
df11_2.shape

In [None]:
df11_3.shape

## Lectura de todas las hojas con `sheet_name=None`

Si queremos **leer todas las hojas de un Excel de una sola vez**, basta con pasar `sheet_name=None`:

```python
all_sheets = pd.read_excel("datos.xlsx", sheet_name=None)
```

En este caso, lo que se devuelve es un **diccionario ordenado** (`OrderedDict`) en el que:

* Cada **clave** es el nombre de la hoja del Excel.
* Cada **valor** es un **DataFrame** con los datos de esa hoja.

---

## Ejemplo práctico

In [None]:
ruta_csv = "data/Housing_data.xlsx"

dict_df = pd.read_excel(ruta_csv,sheet_name=None)

# Ver los nombres de las hojas
print(dict_df.keys())

# Acceder al DataFrame de "Febrero"
Data_Tab_2 = dict_df["Data_Tab_2"]

# Ver las primeras filas
print(Data_Tab_2.head())

## Iterar sobre todas las hojas

Podemos recorrer el diccionario y trabajar con cada hoja:


## Conclusión

El parámetro `sheet_name=None` es muy útil cuando necesitamos **cargar varias hojas de Excel de una sola vez**. Nos evita tener que llamar a `pd.read_excel()` repetidamente y nos da un acceso más organizado a los datos, ya que podemos trabajar con cada hoja como si fuera un **DataFrame** dentro de un diccionario.

---

In [None]:
for nombre, df in dict_df.items():
    print(f"Hoja: {nombre}, Tamaño: {df.shape}")

<div style="background-color:green;">

## *Ejercicio 3*

Consulta el mismo dataset de [Datos abertos de la junta de Castilla y León](https://analisis.datosabiertos.jcyl.es/explore/?sort=modified), pero ahora cárgalo desde un fichero Excel. Si no buscar otro que si tenga opción de cargarlo en excel.

## 4. Lectura de datos en un fichero delimitado TXT

Los ficheros de texto **delimitados** (por tabulador, espacio, `|`, etc.) se leen en **pandas** igual que un CSV, solo que cambiando el parámetro `sep` en `pd.read_csv()`.

---

Ejemplo con tabulador (`\t`)

Si tu archivo TXT usa **tabulaciones** para separar columnas:

```python
import pandas as pd

df = pd.read_csv("incendios.txt", sep="\t")

print(df.head())
```

---

Ejemplo con barra vertical (`|`)

Si los datos están separados por `|`:

```python
df = pd.read_csv("incendios.txt", sep="|")
```

---

 Ejemplo con espacio(s)

Si los campos están separados por **uno o más espacios**:

```python
df = pd.read_csv("incendios.txt", delim_whitespace=True)
```

(`delim_whitespace=True` detecta automáticamente bloques de espacios como delimitador).

---

## pandas.read_table()

`pandas.read_table()` es básicamente un **atajo** de `pd.read_csv()` donde el separador por defecto es el **tabulador** (`\t`).
Esto es muy útil cuando trabajamos con ficheros `.txt` delimitados por tabulaciones.

---


### Si el separador es otro (ej. `|` o `;`)

También puedes usar `read_table` especificando `sep`:

```python
# Con barra vertical
df = pd.read_table("incendios.txt", sep="|")

# Con punto y coma
df = pd.read_table("incendios.txt", sep=";")
```

---

### Con nombres de columnas personalizados

```python
df = pd.read_table("incendios.txt", sep="\t", header=None,
                   names=["Fecha", "Provincia", "Hectareas"])
```






In [None]:
ruta_txt =  "data/Table_EX_1.txt"


df13 = pd.read_table(ruta_txt)
df13

In [None]:
ruta_txt =  "data/Table_EX_1.txt"


df13 = pd.read_table(ruta_txt,sep=',')
df13


In [None]:
ruta_txt = "data/Table_tab_separated.txt"

df13 = pd.read_table(ruta_txt,)
df13

<div style="background-color:green;">

## *Ejercicio 4*
Consulta ahora la web oficial del INE (Instituto Nacional de Estadística) y descarga y carga un fichero plano TXT con los datos sobre la [población por provincias](https://www.ine.es/dynt3/inebase/es/index.htm?padre=517&capsel=522)

## 5. Lectura de tablas HTML desde una URL y ajustes para encontrar la tabla deseada

Con `pandas` puedes leer tablas HTML directamente desde una URL con `pd.read_html`. En páginas como la de Wikipedia suele haber **varias tablas**, así que conviene usar algunos “ajustes” para quedarnos con la **tabla de medallas** concreta.

## Opción rápida (inspeccionar y elegir)

```python
import pandas as pd

url = "https://en.wikipedia.org/wiki/2024_Summer_Olympics_medal_table"

# Lee TODAS las tablas que pandas encuentre
tablas = pd.read_html(url)

# Echa un vistazo a cuántas hay y a sus cabeceras
print(len(tablas))
for i, t in enumerate(tablas):
    print(i, list(t.columns)[:6])
```

Con esto ves el índice de cada tabla y sus columnas para elegir la que te interesa:

```python
df = tablas[ÍNDICE_QUE_CORRESPONDA]
```

## Opción filtrando por el contenido de columnas (recomendada)

Wikipedia suele usar columnas tipo **Gold, Silver, Bronze, Total**. Podemos pedir solo tablas que contengan esos nombres:

```python
import pandas as pd
import re

url = "https://en.wikipedia.org/wiki/2024_Summer_Olympics_medal_table"

# match acepta regex; buscamos una tabla con estas columnas típicas
dfs = pd.read_html(url, match=re.compile(r"Gold|Silver|Bronze|Total"))

# Suele devolver 1 tabla (la principal). Si hay más, nos quedamos con la que tenga todas las columnas
def es_tabla_medallas(x):
    cols = set([str(c).lower() for c in x.columns])
    return {"gold","silver","bronze"}.issubset(cols) or {"gold","silver","bronze","total"}.issubset(cols)

df = next((x for x in dfs if es_tabla_medallas(x)), dfs[0])

print(df.head())
```

## Opción por atributos HTML (cuando conoces la clase)

Muchas tablas de Wikipedia tienen clase `wikitable sortable`. Puedes usarla:

```python
dfs = pd.read_html(url, attrs={"class": "wikitable"})
# ahora filtra por columnas como arriba:
df = next((x for x in dfs if es_tabla_medallas(x)), dfs[0])
```

## Limpieza típica

Las tablas de Wikipedia traen notas al pie, filas de totales, símbolos, etc. Aquí un bloque para dejar la tabla lista para análisis:

```python
import numpy as np

# Renombrar columnas típicas a un formato homogéneo
ren = {c:str(c).strip().lower() for c in df.columns}
df.columns = [ren[c] for c in df.columns]

# Algunas versiones usan 'noc' o 'nation'
col_pais = "noc" if "noc" in df.columns else ("nation" if "nation" in df.columns else None)
if col_pais is None:
    # en ocasiones hay multi-índice, intenta aplanarlo:
    df.columns = [c[-1].lower() if isinstance(c, tuple) else str(c).lower() for c in df.columns]
    col_pais = "noc" if "noc" in df.columns else ("nation" if "nation" in df.columns else df.columns[1])

# Quitar filas que no son países (totales, etc.)
filt_no_pais = df[col_pais].astype(str).str.contains("total", case=False) | df[col_pais].isna()
df = df[~filt_no_pais].copy()

# Columnas numéricas que nos interesan
num_cols = [c for c in ["gold","silver","bronze","total"] if c in df.columns]

# Eliminar notas/superíndices tipo “20[a]” y convertir a número
for c in num_cols:
    df[c] = (
        df[c]
        .astype(str)
        .str.replace(r"[^\d\.\-]", "", regex=True)   # quita caracteres no numéricos
        .replace({"": np.nan})
        .astype(float)
    )

# A veces hay columna 'rank' con notas; la limpiamos si existe
if "rank" in df.columns:
    df["rank"] = (
        df["rank"].astype(str)
        .str.replace(r"[^\d]", "", regex=True)
        .replace({"": np.nan})
        .astype(float)
    )

# Resultado limpio
print(df.head())
```

## Ejemplos de análisis en 1–2 líneas (sin matplotlib explícito)

Top 10 por oros:

```python
(df.sort_values("gold", ascending=False)
   .head(10)[[col_pais, "gold"]]
   .plot(kind="bar", x=col_pais, y="gold", title="Top 10 por oros"))
```

Top 10 por total de medallas:

```python
(df.sort_values("total", ascending=False)
   .head(10)[[col_pais, "total"]]
   .plot(kind="barh", x=col_pais, y="total", title="Top 10 por total de medallas"))
```

Distribución de medallas (tarta) para un país concreto:

```python
pais = "Spain"  # cambia por el país que te interese
fila = df[df[col_pais].str.contains(pais, case=False, na=False)][num_cols].sum()
fila.plot(kind="pie", autopct="%1.1f%%", title=f"Distribución de medallas - {pais}")
```

## Guardar a CSV

```python
df.to_csv("medallero_2024_limpio.csv", index=False)
```

> Tip: si en algún momento `pd.read_html` falla por cambios de la página, puedes usar `match=...` o `attrs={"class":"wikitable"}` como en los ejemplos, o inspeccionar `tablas[i].columns` para localizar la correcta.


In [None]:
import pandas as pd
import requests

url = "https://en.wikipedia.org/wiki/2024_Summer_Olympics_medal_table"

# Simula un navegador real
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"}

# Descarga el HTML de la página
response = requests.get(url, headers=headers)
response.raise_for_status()  # lanza error si algo falla

# Lee todas las tablas del HTML descargado
list_of_df = pd.read_html(response.text, header=0)

print(len(list_of_df))

# Opcional: ver la primera tabla
list_of_df[0].head()


In [None]:


# Echa un vistazo a cuántas hay y a sus cabeceras
for t in list_of_df:
    print(t.shape)




In [None]:
for i, t in enumerate(list_of_df):
    print(i, list(t.columns)[:6])

In [None]:
df15=list_of_df[3]
df15.head()

<div style="background-color:green;">

## *Ejercicio 5*
4.1. Consulta la tabla de medallas de Paris y recupera los primeros 15 países con más medallas conseguidas. ¿Cómo harías para obtener los 15 últimos?
4.2. Consulta otra página de tu interés e intenta recuperar los datos almacenados en diferentes tablas

## 6. Lectura de datos desde un fichero JSON


---


`read_json` es una función de **pandas** que convierte directamente un archivo o cadena en formato **JSON** a un **DataFrame**, de forma muy similar a `read_csv` pero para JSON.

```python
import pandas as pd

df = pd.read_json("archivo.json")
```

---

# 📌 Parámetros principales

### 1. **path\_or\_buf**

* Puede ser:

  * Una **ruta a fichero**: `"datos.json"`
  * Una **URL**: `"https://.../data.json"`
  * Una **cadena en memoria** con JSON.


---

### 2. **orient**

Indica cómo está estructurado el JSON y cómo interpretarlo:

* `"records"` → Lista de diccionarios (lo más común).

  ```json
  [{"id":1,"edad":34},{"id":2,"edad":28}]
  ```

  → DataFrame con columnas `id`, `edad`.

* `"index"` → Diccionario con índices.

  ```json
  {"1":{"edad":34}, "2":{"edad":28}}
  ```

  → Filas indexadas por 1 y 2.

* `"columns"` → Diccionario por columnas.

  ```json
  {"edad": {"1":34,"2":28}}
  ```

  → Columna `edad` con índice 1 y 2.

* `"split"` → Diccionario con keys `"index"`, `"columns"`, `"data"`.
  → Útil para exportar/importar entre pandas y JSON.

Ejemplo:

```python
df = pd.read_json("datos.json", orient="records")
```

---

### 3. **lines**

Cuando cada fila del archivo JSON está en **una línea separada** (formato *JSONL*).

Archivo `datos.jsonl`:

```
{"id":1,"edad":34}
{"id":2,"edad":28}
```

Lectura:

```python
df = pd.read_json("datos.jsonl", lines=True)
```

---

### 4. **chunksize**

Permite leer el JSON por partes (muy útil en datasets grandes).

```python
for chunk in pd.read_json("grande.jsonl", lines=True, chunksize=100000):
    print(chunk.shape)
```

---

### 5. **dtype / convert\_dates**

* `dtype` → forzar tipos de columnas.
* `convert_dates` → intentar convertir a `datetime`.

```python
df = pd.read_json("datos.json", convert_dates=True)
```




In [None]:


ruta_json =  "data/movies.json"

df16 = pd.read_json(ruta_json)

In [None]:
df16.head()

In [None]:
df16[df16['title']=="American Beauty"]['year']

In [None]:
cast_of_americanbeauty=df16[(df16['title']=="American Beauty") & (df16['year']==1999)]['actors']

In [None]:
print(list(cast_of_americanbeauty))

<div style="background-color:green;">

## *Ejercicio 6*
Consulta el repositorio de [Public web APIs de Todd Motto](https://github.com/public-apis/public-apis) y descárgate un JSON de tu interés. Consulta a ver qué datos puedes recuperar.

Si quieres, también puedes hacer una petición HTTP request para recuperar el fichero online con la siguiente notación:

In [None]:
import requests
response = requests.get('https://anapioficeandfire.com/api/books')
response_data = response.json()
response_data

In [None]:
df17 = pd.DataFrame.from_dict(response_data)
df17


# 📌 7. Lectura de datos desde una base de datos

### 1) Conexión a bases de datos SQL con `pandas.read_sql`

`pandas` permite ejecutar consultas SQL directamente y obtener los resultados como un `DataFrame`.

```python
import pandas as pd
import sqlite3  # Ejemplo con SQLite, pero puede ser cualquier motor SQL

# 1. Crear conexión
conexion = sqlite3.connect("mi_base.db")

# 2. Leer tabla completa
df = pd.read_sql("SELECT * FROM clientes", conexion)

# 3. O ejecutar una consulta
df_filtrado = pd.read_sql("SELECT nombre, edad FROM clientes WHERE edad > 30", conexion)

print(df.head())
```

---

### 2) Usando **SQLAlchemy** (más flexible)

SQLAlchemy permite conectar a distintos motores: SQLite, MySQL, PostgreSQL, SQL Server, Oracle…

```python
from sqlalchemy import create_engine
import pandas as pd

# Ejemplo con PostgreSQL
engine = create_engine("postgresql+psycopg2://usuario:password@localhost:5432/mibase")

# Leer una tabla
df = pd.read_sql("SELECT * FROM ventas", engine)
```

---

### 3) Conexión a MySQL o MariaDB

```python
import pandas as pd
from sqlalchemy import create_engine

engine = create_engine("mysql+pymysql://usuario:password@localhost:3306/mibase")

df = pd.read_sql("SELECT * FROM productos", engine)
```

---

### 4) Conexión a bases de datos grandes

Cuando la tabla es enorme:

* Usa consultas SQL con `WHERE` o `LIMIT`.
* Procesa en **chunks**:

```python
query = "SELECT * FROM logs"
for chunk in pd.read_sql(query, engine, chunksize=50000):
    print(chunk.shape)
    # procesar por partes
```

---

### 5) Bases NoSQL

* **MongoDB** → se conecta con `pymongo` y luego se transforma en DataFrame:

```python
import pandas as pd
from pymongo import MongoClient

client = MongoClient("mongodb://localhost:27017/")
db = client["mi_base"]
coleccion = db["usuarios"]

datos = list(coleccion.find({}, {"_id":0}))  # quitar el campo _id
df = pd.DataFrame(datos)
```

---

 **Resumen**

* `pd.read_sql(query, conexion)` → para SQL clásico.
* `SQLAlchemy` → conexión universal a muchos motores.
* `chunksize` → datasets grandes.
* Para NoSQL (ej. MongoDB), primero obtén un `dict/list` y luego conviértelo con `pd.DataFrame`.

---



In [None]:
import sqlite3
import pandas as pd


# cargamos la base de datos de https://www.kaggle.com/datasets/shahjhanalam/movie-data-analytics-dataset?resource=download
ruta_sqlite = os.getcwd() + "/data/movie.sqlite"

# 1. Crear conexión a un archivo SQLite (si no existe se crea)
conexion = sqlite3.connect(ruta_sqlite)

# 2. Consultar tablas disponibles
tablas = pd.read_sql("SELECT name FROM sqlite_master WHERE type='table';", conexion)
print(tablas)




In [None]:
# 3. Leer una tabla
df_imdb = pd.read_sql("SELECT * FROM IMDB", conexion)
print(df_imdb)

<div style="background-color:green;">

## *Ejercicio 6*

6.1. Consulta la base de datos y muestras las películas más taquilleras en el mundo

6.2. Consulta cual es el género más popular de la base de datos

## 8. ¿Y dónde encontrar datasets interesantes para análisis de datos?

---

##  Repositorios generales

* **[Kaggle](https://www.kaggle.com/datasets)** → Miles de datasets en múltiples formatos (CSV, JSON, SQLite, imágenes…).
* **[Google Dataset Search](https://datasetsearch.research.google.com/)** → Buscador universal de datasets públicos.
* **[Data.world](https://data.world/)** → Comunidad colaborativa de datos.

---

##  Repositorios académicos y de ML

* **[UCI ML Repository](https://archive.ics.uci.edu/ml/index.php)** → Uno de los más clásicos en machine learning (Iris, Wine, Adult, etc.).
* **[Papers with Code – Datasets](https://paperswithcode.com/datasets)** → Datasets asociados a papers de investigación.
* **[OpenML](https://www.openml.org/)** → Colección de datasets preparados para ML, listos para descargar y usar.

---

##  Recopilaciones

* **[GitHub Awesome Datasets](https://github.com/awesomedata/awesome-public-datasets)** → Gran lista categorizada por dominios (clima, biología, economía, imágenes, NLP, etc.).
* **[FiveThirtyEight Datasets](https://data.fivethirtyeight.com/)** → Datos de artículos periodísticos (política, deportes, sociedad).

---

##  Datos abiertos de instituciones

* **[data.gov](https://www.data.gov/)** → Portal de datos abiertos de EE. UU.
* **[datos.gob.es](https://datos.gob.es/)** → Portal oficial de España.
* **[World Bank Data](https://data.worldbank.org/)** → Indicadores económicos y sociales globales.
* **[Eurostat](https://ec.europa.eu/eurostat/)** → Estadísticas europeas.
* **[UN Data](https://data.un.org/)** → Datos de Naciones Unidas.

---

##  Datasets temáticos y divertidos

* **[IMDb Datasets](https://www.imdb.com/interfaces/)** → Información sobre cine y series.
* **[Spotify Dataset en Kaggle](https://www.kaggle.com/datasets)** → Música y playlists.
* **[Sports Reference](https://www.sports-reference.com/)** → Estadísticas de deportes (NBA, NFL, MLB, etc.).
* **[Pokémon Dataset (Kaggle)](https://www.kaggle.com/abcsds/pokemon)** → Información de Pokémon 😄.
* **[Video Game Sales (Kaggle)](https://www.kaggle.com/gregorut/videogamesales)** → Ventas globales de videojuegos.




[Kaggle](https://www.kaggle.com/datasets)
[Github AwesomeDatasets](https://github.com/awesomedata/awesome-public-datasets)
[Papers with code](https://paperswithcode.com/datasets)
[UCI (University of California Irvine) ML repository](https://archive.ics.uci.edu/ml/index.php)


# Webgrafía



##  Documentación oficial

* **[Pandas – IO Tools (Input/Output)](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)**
  Explicación completa de todas las funciones de entrada/salida: `read_csv`, `read_json`, `read_sql`, `read_excel`, etc.
* **[Pandas API Reference – Input/Output](https://pandas.pydata.org/pandas-docs/stable/reference/io.html)**
  Lista detallada de parámetros y ejemplos de uso.

---

## Cursos y tutoriales

* **[Kaggle Learn: Pandas](https://www.kaggle.com/learn/pandas)**
  Curso gratuito y práctico, con notebooks interactivos.
* **[W3Schools – Pandas Read Files](https://www.w3schools.com/python/pandas/pandas_ref_io.asp)**
  Ejemplos rápidos de importación desde CSV, JSON, Excel, SQL.
* **[GeeksforGeeks – Reading data in Pandas](https://www.geeksforgeeks.org/python-pandas-dataframe/)**
  Tutorial con múltiples ejemplos de carga de datos.
* **[Real Python – Pandas Tutorials](https://realpython.com/search?q=pandas)**
  Artículos prácticos sobre carga y análisis de datos.

---
##  Repositorios y notebooks de práctica

* **[Awesome Public Datasets (GitHub)](https://github.com/awesomedata/awesome-public-datasets)**
  Gran recopilación de datasets para practicar importación en distintos formatos.
* **[UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/index.php)**
  Fuente clásica de datasets para practicar con `read_csv` y `read_table`.
* **[Papers with Code – Datasets](https://paperswithcode.com/datasets)**
  Colección de datasets modernos asociados a papers de ML.
* **[Kaggle Datasets](https://www.kaggle.com/datasets)**
  Miles de datasets listos para probar en notebooks con pandas.

---

##  Videos y MOOCs

* **[freeCodeCamp – Pandas Tutorial (YouTube)](https://www.youtube.com/watch?v=vmEHCJofslg)**
  Curso completo de 4 horas con ejemplos de carga de datos.
* **[Coursera – Data Analysis with Python](https://www.coursera.org/learn/data-analysis-with-python)**
  Curso oficial de IBM, con módulos sobre importación de datos.

---



# Licencia

[![Licencia: CC BY-SA 4.0](https://licensebuttons.net/l/by-sa/4.0/88x31.png)](https://creativecommons.org/licenses/by-sa/4.0/)



