# Universidad Autónoma del Estado de México
## Centro Universitario UAEM Zumpango
### Ingeniería en Computación
#### UA: Ciencia de los Datos

**Profesor:** Dr. Asdrubal López Chau

**Alumno:** Eric Carmen Soto

**Fecha:** 20 de Agosto de 2024

**Reporte de:** Laboratorio: Recuperación de datos


# Creación y Manipulación de DataFrames con Pandas

## 1. Importar la Biblioteca Pandas

Primero, necesitamos importar la biblioteca `pandas` para trabajar con DataFrames.


In [137]:
import pandas as pd

## 2. Crear un DataFrame
A continuación, vamos a crear un DataFrame con datos ficticios. `Un DataFrame es una estructura de datos bidimensional que puede almacenar datos de diferentes tipos.` 

El código `df = pd.DataFrame(data)` crea un nuevo DataFrame en pandas usando los datos que se proporcionan en `data`. 

In [138]:
# Crear un DataFrame
data = {
    'Nombre': ['Ana', 'Luis', 'Pedro'],
    'Edad': [28, 34, 45]
}
df = pd.DataFrame(data)


## 3. Impresion del DataFrame

In [139]:
# Mostrar el DataFrame
print(df)
print("\n\n\n\n")

  Nombre  Edad
0    Ana    28
1   Luis    34
2  Pedro    45







## 4. Leer archivo CSV

Un archivo CSV (Comma-Separated Values, en inglés) es un formato de archivo utilizado para almacenar datos tabulares en texto plano. En un archivo CSV, cada línea representa una fila de la tabla, y los valores en cada fila están separados por comas (o a veces por otros delimitadores, como punto y coma `;`).

**Características clave de un archivo CSV:**

1. **Formato de Texto Plano:** Los datos se almacenan en formato de texto sin formato, lo que facilita su visualización y edición con un editor de texto.

2. **Separadores:** Los valores en cada fila están separados por un delimitador, que por lo general es una coma `,`. Sin embargo, en algunos casos puede ser un punto y coma `;` o un tabulador `\t`.

3. **Encabezados:** La primera línea de un archivo CSV suele contener los nombres de las columnas, lo que facilita la comprensión de los datos.

4. **Compatibilidad:** Los archivos CSV son ampliamente compatibles con muchos programas de software, incluidos programas de hojas de cálculo como Microsoft Excel, Google Sheets, y herramientas de análisis de datos como pandas en Python.

- `pd.read_csv('bank.csv', delimiter=';')`: Lee un archivo CSV llamado `bank.csv`, usando el punto y coma (`;`) como delimitador de valores, y carga los datos en un DataFrame de pandas.

- `print(df.head())`: Muestra las primeras cinco filas del DataFrame `df` para visualizar una muestra rápida de los datos cargados.

Para mostrar más filas o toda la información del DataFrame, se puede usar:

- `df.head(n)`: Donde `n` es el número de filas que quieres ver. Por ejemplo, `df.head(10)` muestra las primeras 10 filas.

- `df.tail(n)`: Muestra las últimas `n` filas del DataFrame.

- `print(df)`: Imprime todo el DataFrame, aunque esto puede no ser ideal para archivos grandes.


In [140]:
# Leer un archivo CSV
df = pd.read_csv('bank.csv', delimiter=';')
print(df.head())


   age          job  marital  education default  balance housing loan  \
0   30   unemployed  married    primary      no     1787      no   no   
1   33     services  married  secondary      no     4789     yes  yes   
2   35   management   single   tertiary      no     1350     yes   no   
3   30   management  married   tertiary      no     1476     yes  yes   
4   59  blue-collar  married  secondary      no        0     yes   no   

    contact  day month  duration  campaign  pdays  previous poutcome   y  
0  cellular   19   oct        79         1     -1         0  unknown  no  
1  cellular   11   may       220         1    339         4  failure  no  
2  cellular   16   apr       185         1    330         1  failure  no  
3   unknown    3   jun       199         4     -1         0  unknown  no  
4   unknown    5   may       226         1     -1         0  unknown  no  


# Realización de Solicitudes HTTP con Requests

## 1. Importar la Biblioteca Requests

Primero, necesitamos importar la biblioteca requests para realizar solicitudes HTTP.


In [141]:
import requests


## 2. Realizar una Solicitud GET


## ¿Qué es una API?

**API** (Interfaz de Programación de Aplicaciones) es un conjunto de reglas y protocolos que permite que diferentes aplicaciones se comuniquen entre sí. Una API define cómo se deben solicitar y recibir datos entre un cliente y un servidor. En otras palabras, es un puente que facilita la interacción entre software.

## ¿Qué es un Endpoint?

Un **endpoint** es una URL específica en una API donde se puede acceder a ciertos datos o servicios. Cada endpoint representa un recurso particular o una acción en la API. Por ejemplo, en la API de GitHub, un endpoint podría ser `/users` para obtener información sobre los usuarios.

## ¿Qué Hace el Método GET de Requests?

El método **GET** de la biblioteca `requests` se utiliza para solicitar datos de un servidor. Cuando haces una solicitud GET a un endpoint, estás pidiendo al servidor que te envíe la información correspondiente a ese recurso o acción. En el caso de la API pública de GitHub, al hacer una solicitud GET a `https://api.github.com`, estás solicitando información sobre la API de GitHub.


### La informacion de esta API `https://api.github.com` se guarda en la variable `response`

In [142]:
response = requests.get('https://api.github.com')

- `print(response.status_code)`: Muestra el código de estado HTTP de la respuesta, que indica el resultado de la solicitud (por ejemplo, 200 para éxito, 404 para no encontrado).




In [143]:
print(response.status_code)  # Código de estado


200


- `print(response.json())`: Muestra el contenido de la respuesta en formato JSON, que suele ser un diccionario o lista de datos.

In [144]:
print(response.json())       # Contenido JSON de la respuesta

{'current_user_url': 'https://api.github.com/user', 'current_user_authorizations_html_url': 'https://github.com/settings/connections/applications{/client_id}', 'authorizations_url': 'https://api.github.com/authorizations', 'code_search_url': 'https://api.github.com/search/code?q={query}{&page,per_page,sort,order}', 'commit_search_url': 'https://api.github.com/search/commits?q={query}{&page,per_page,sort,order}', 'emails_url': 'https://api.github.com/user/emails', 'emojis_url': 'https://api.github.com/emojis', 'events_url': 'https://api.github.com/events', 'feeds_url': 'https://api.github.com/feeds', 'followers_url': 'https://api.github.com/user/followers', 'following_url': 'https://api.github.com/user/following{/target}', 'gists_url': 'https://api.github.com/gists{/gist_id}', 'hub_url': 'https://api.github.com/hub', 'issue_search_url': 'https://api.github.com/search/issues?q={query}{&page,per_page,sort,order}', 'issues_url': 'https://api.github.com/issues', 'keys_url': 'https://api.git

# Uso de SQLite en Python

## 1. Importar la Biblioteca SQLite

Primero, necesitamos importar la biblioteca `sqlite3`, que proporciona una interfaz para trabajar con bases de datos SQLite en Python.

In [145]:
import sqlite3


## 2. Conectar a una Base de Datos

A continuación, nos conectamos a una base de datos SQLite. Si la base de datos no existe, `sqlite3` la creará automáticamente.

In [146]:
conn = sqlite3.connect('mibdatos.db')


## 3. Crear un Cursor

Un **cursor** es un objeto que permite ejecutar comandos SQL en la base de datos. Usamos el cursor para interactuar con la base de datos.

In [147]:
cursor = conn.cursor()


## 4. Crear una Tabla

Creamos una tabla llamada `usuarios` si no existe ya. La tabla tiene tres columnas: `id` (clave primaria que se incrementa automáticamente), `nombre` (texto) y `edad` (entero).


In [148]:
cursor.execute('''CREATE TABLE IF NOT EXISTS usuarios (
                    id INTEGER PRIMARY KEY AUTOINCREMENT,
                    nombre TEXT,
                    edad INTEGER)''')


<sqlite3.Cursor at 0x21e08c9b6c0>

## 5. Insertar Datos

Insertamos dos registros en la tabla `usuarios`. Cada registro tiene un `nombre` y una `edad`.

In [149]:
cursor.execute('''INSERT INTO usuarios (nombre, edad)
                  VALUES ('Ana', 28), ('Luis', 34)''')


<sqlite3.Cursor at 0x21e08c9b6c0>

## 6. Consultar Datos

Consultamos todos los datos de la tabla `usuarios` y mostramos el resultado. `fetchall()` devuelve una lista de tuplas, cada una representando una fila de la tabla.


In [150]:
cursor.execute('SELECT * FROM usuarios')
print(cursor.fetchall())


[(1, 'Ana', 28), (2, 'Luis', 34), (3, 'Ana', 28), (4, 'Luis', 34), (5, 'Ana', 28), (6, 'Luis', 34)]


## 7. Cerrar la Conexión

Finalmente, guardamos los cambios realizados en la base de datos con `commit()` y cerramos la conexión.

In [151]:
conn.commit()
conn.close()


# Extracción de Datos Web con BeautifulSoup

## 1. Importar las Bibliotecas

Primero, importamos las bibliotecas necesarias: `BeautifulSoup` para el análisis HTML y `requests` para realizar solicitudes HTTP.

In [152]:
from bs4 import BeautifulSoup
import requests


## 2. Hacer una Solicitud GET

Realizamos una solicitud HTTP GET al sitio web que queremos analizar. En este caso, solicitamos la página de `https://es.wikipedia.org`.

In [153]:
response = requests.get('https://es.wikipedia.org')



## 3. Analizar gramaticalmente el Contenido HTML

Convertimos el contenido HTML de la respuesta en un objeto BeautifulSoup para facilitar su análisis y manipulación. Usamos el analizador `html.parser`.

In [154]:
soup = BeautifulSoup(response.text, 'html.parser')


## 4. Extraer y Mostrar el Título de la Página

Obtenemos el título de la página HTML y lo mostramos. `soup.title.text` extrae el texto del elemento `<title>` de la página.

In [155]:
print(soup.title.text)


Wikipedia, la enciclopedia libre


## 5. Extraer Todos los Enlaces

Buscamos todos los elementos `<a>` en la página, que generalmente representan enlaces. Luego, imprimimos el valor del atributo `href` de cada enlace, que contiene la URL a la que apunta el enlace.

In [156]:
for link in soup.find_all('a'):
    print(link.get('href'))


#bodyContent
/wiki/Wikipedia:Portada
/wiki/Portal:Comunidad
/wiki/Portal:Actualidad
/wiki/Especial:CambiosRecientes
/wiki/Especial:P%C3%A1ginasNuevas
/wiki/Especial:Aleatoria
/wiki/Ayuda:Contenidos
//donate.wikimedia.org/wiki/Special:FundraiserRedirector?utm_source=donate&utm_medium=sidebar&utm_campaign=C13_es.wikipedia.org&uselang=es
/wiki/Wikipedia:Informes_de_error
/wiki/Wikipedia:Portada
/wiki/Especial:Buscar
/w/index.php?title=Especial:Crear_una_cuenta&returnto=Wikipedia%3APortada
/w/index.php?title=Especial:Entrar&returnto=Wikipedia%3APortada
/w/index.php?title=Especial:Crear_una_cuenta&returnto=Wikipedia%3APortada
/w/index.php?title=Especial:Entrar&returnto=Wikipedia%3APortada
/wiki/Ayuda:Introducci%C3%B3n
/wiki/Especial:MisContribuciones
/wiki/Especial:MiDiscusi%C3%B3n
/wiki/Wikipedia:Portada
/wiki/Wikipedia_discusi%C3%B3n:Portada
/wiki/Wikipedia:Portada
/w/index.php?title=Wikipedia:Portada&action=edit
/w/index.php?title=Wikipedia:Portada&action=history
/wiki/Wikipedia:Portada


Este código muestra cómo usar BeautifulSoup y `requests` para hacer una solicitud web, analizar el HTML recibido, y extraer información útil como el título de la página y los enlaces presentes en ella.

# IRIS
1. Entra al sitio de UCI Repository y dedica un momento a explorarlo:
   [https://archive.ics.uci.edu/](https://archive.ics.uci.edu/)

2. Localiza el conjunto de datos "iris" en UCI Repository.

3. Busca en la página cómo importar conjuntos directamente de UCI Repository con Python.

4. Importa el conjunto de datos iris desde [https://archive.ics.uci.edu/](https://archive.ics.uci.edu/).

5. Imprime el conjunto de datos.


In [157]:
import pandas as pd
  
path = './iris/iris.data'
df = pd.read_csv(path, header=None)#si hubiese un encabezado sería  df = pd.read_csv(path)

#Agregamos nombres a las comlumnas:
names = ['sepal_length', 'sepal_width', 'petal_lenght', 'petal_width', 'class']
df.columns = names
print(df)

     sepal_length  sepal_width  petal_lenght  petal_width           class
0             5.1          3.5           1.4          0.2     Iris-setosa
1             4.9          3.0           1.4          0.2     Iris-setosa
2             4.7          3.2           1.3          0.2     Iris-setosa
3             4.6          3.1           1.5          0.2     Iris-setosa
4             5.0          3.6           1.4          0.2     Iris-setosa
..            ...          ...           ...          ...             ...
145           6.7          3.0           5.2          2.3  Iris-virginica
146           6.3          2.5           5.0          1.9  Iris-virginica
147           6.5          3.0           5.2          2.0  Iris-virginica
148           6.2          3.4           5.4          2.3  Iris-virginica
149           5.9          3.0           5.1          1.8  Iris-virginica

[150 rows x 5 columns]


# Bank

1. Dirígete al sitio de UCI Repository:
   [https://archive.ics.uci.edu/](https://archive.ics.uci.edu/)

2. Localiza el conjunto de datos "Bank Marketing" en UCI Repository.

3. Descarga el conjunto de datos.

4. Importa el conjunto de datos en Python.

5. Imprime el conjunto de datos.


In [158]:
import pandas as pd

path = './bank+marketing/bank/bank-full.csv'


# Lee el archivo CSV especificando el delimitador y el carácter de comillas
datos = pd.read_csv(path, delimiter=';', quotechar='"')

# Agrega nombres a las columnas si es necesario
names = ['edad', 'empleo', 'estado_civil', 'educación', 'impago', 'saldo', 'hipoteca', 'préstamo', 'contacto', 'día', 'mes', 'duración', 'campaña', 'pdays', 'previous', 'poutcome', 'suscripción']
datos.columns = names

# Imprime las primeras filas del DataFrame
print(datos)


       edad        empleo estado_civil  educación impago  saldo hipoteca  \
0        58    management      married   tertiary     no   2143      yes   
1        44    technician       single  secondary     no     29      yes   
2        33  entrepreneur      married  secondary     no      2      yes   
3        47   blue-collar      married    unknown     no   1506      yes   
4        33       unknown       single    unknown     no      1       no   
...     ...           ...          ...        ...    ...    ...      ...   
45206    51    technician      married   tertiary     no    825       no   
45207    71       retired     divorced    primary     no   1729       no   
45208    72       retired      married  secondary     no   5715       no   
45209    57   blue-collar      married  secondary     no    668       no   
45210    37  entrepreneur      married  secondary     no   2971       no   

      préstamo   contacto  día  mes  duración  campaña  pdays  previous  \
0           

# Para convertir un archivo JSON en un DataFrame de pandas, puedes usar el siguiente código:

1. **Importación de bibliotecas**:
   - `import requests`: Importa la biblioteca `requests`, que permite hacer solicitudes HTTP para obtener datos de una URL.
   - `import pandas as pd`: Importa la biblioteca `pandas`, que es útil para el manejo y análisis de datos en Python.

2. **Primer bloque de código**:
   - `url = 'https://jsonplaceholder.typicode.com/users'`: Define la URL de la API desde la cual se obtendrán los datos. En este caso, se trata de una API pública de ejemplo que proporciona datos de usuarios.
   - `respuesta = requests.get(url)`: Realiza una solicitud GET a la URL especificada para obtener datos.
   - `print(respuesta.json())`: Imprime la respuesta de la solicitud en formato JSON, lo que permite ver los datos obtenidos de la API.

3. **Segundo bloque de código**:
   - `respuesta = requests.get(url)`: Realiza nuevamente una solicitud GET a la misma URL para obtener datos.
   - `if respuesta.status_code == 200`: Verifica si la solicitud fue exitosa. El código de estado 200 indica que la solicitud fue procesada correctamente.
   - `datos = respuesta.json()`: Convierte la respuesta en formato JSON a un diccionario de Python para facilitar el manejo de los datos.
   - `df = pd.DataFrame(datos)`: Convierte el diccionario en un DataFrame de `pandas`, una estructura de datos tabular que facilita el análisis y manipulación de datos.
   - `print(df.head())`: Imprime las primeras filas del DataFrame para mostrar una vista previa de los datos.
   - `else: print(f"Error al obtener los datos: {respuesta.status_code}")`: Imprime un mensaje de error con el código de estado si la solicitud no fue exitosa.



In [162]:
import requests  

url = 'https://jsonplaceholder.typicode.com/users' 
respuesta = requests.get(url) 
print(respuesta.json())  

import pandas as pd

respuesta = requests.get(url)
if respuesta.status_code == 200:
    datos = respuesta.json()
    df = pd.DataFrame(datos)
    print(df.head())
else:
    print(f"Error al obtener los datos: {respuesta.status_code}")


[{'id': 1, 'name': 'Leanne Graham', 'username': 'Bret', 'email': 'Sincere@april.biz', 'address': {'street': 'Kulas Light', 'suite': 'Apt. 556', 'city': 'Gwenborough', 'zipcode': '92998-3874', 'geo': {'lat': '-37.3159', 'lng': '81.1496'}}, 'phone': '1-770-736-8031 x56442', 'website': 'hildegard.org', 'company': {'name': 'Romaguera-Crona', 'catchPhrase': 'Multi-layered client-server neural-net', 'bs': 'harness real-time e-markets'}}, {'id': 2, 'name': 'Ervin Howell', 'username': 'Antonette', 'email': 'Shanna@melissa.tv', 'address': {'street': 'Victor Plains', 'suite': 'Suite 879', 'city': 'Wisokyburgh', 'zipcode': '90566-7771', 'geo': {'lat': '-43.9509', 'lng': '-34.4618'}}, 'phone': '010-692-6593 x09125', 'website': 'anastasia.net', 'company': {'name': 'Deckow-Crist', 'catchPhrase': 'Proactive didactic contingency', 'bs': 'synergize scalable supply-chains'}}, {'id': 3, 'name': 'Clementine Bauch', 'username': 'Samantha', 'email': 'Nathan@yesenia.net', 'address': {'street': 'Douglas Exten

# Libro Fuente Ovejuna
1. Acceder al sitio [https://www.gutenberg.org](https://www.gutenberg.org).

2. Una vez ahí, se busca esta obra: "Fuente Ovejuna", autor: Lope de Vega (puedes elegir otra).

3. Se scribe el código de Python para descargar el contenido del libro.


In [160]:
import requests

# URL del libro en formato de texto plano
url = "https://www.gutenberg.org/cache/epub/60198/pg60198.txt"

# Realizar la solicitud HTTP para obtener el contenido del libro
response = requests.get(url)

# Verificar que la solicitud fue exitosa
if response.status_code == 200:
    # Almacenar el contenido del libro como una cadena
    book_content = response.text
    # Dividir el contenido en líneas
    lines = book_content.splitlines()

    # Imprimir las primeras 100 líneas
    for line in lines[:100]:
        print(line)
   # print(book_content)#imprime todo el libro
    
    
    """
    # Imprimir las primeras 500 líneas (o todo el contenido si hay menos de 200 líneas)
    for line in lines[:500]:
        print(line)
    """
else:
    print(f"Error {response.status_code}: No se pudo descargar el libro.")


﻿The Project Gutenberg eBook of Fuente Ovejuna
    
This ebook is for the use of anyone anywhere in the United States and
most other parts of the world at no cost and with almost no restrictions
whatsoever. You may copy it, give it away or re-use it under the terms
of the Project Gutenberg License included with this ebook or online
at www.gutenberg.org. If you are not located in the United States,
you will have to check the laws of the country where you are located
before using this eBook.

Title: Fuente Ovejuna

Author: Lope de Vega

Release date: August 30, 2019 [eBook #60198]
                Most recently updated: August 28, 2020

Language: Spanish

Credits: Roberto Marabini, Carlos Colon, and the Online Distributed Proofreading Team (http://www.pgdp.net) from page images generously made available by Internet Archive (https://archive.org)


*** START OF THE PROJECT GUTENBERG EBOOK FUENTE OVEJUNA ***


E-text prepared by Roberto Marabini, Carlos Colon, and the Online
Distributed Proo

# Data Frame de 10 libros

1. Acceder al sitio [https://www.gutenberg.org](https://www.gutenberg.org) y seleccionar 10 libros que desees incluir en tu DataFrame.

2. Descargar el contenido de los libros seleccionados.

3. Se escribe el código de Python para crear un DataFrame con los datos descargados. La primera columna del DataFrame debe contener el texto del libro, y la segunda columna debe contener el título del libro.


1. **Importación de bibliotecas**:
   - `import requests`: Importa la biblioteca `requests`, que permite hacer solicitudes HTTP para obtener datos de una URL.
   - `import pandas as pd`: Importa la biblioteca `pandas`, que es útil para el manejo y análisis de datos en Python.

2. **Lista de URLs de libros**:
   - `book_urls`: Una lista de URLs que apunta a los archivos de texto de libros en el sitio de Project Gutenberg.

3. **Crear listas para almacenar los textos y los títulos**:
   - `texts`: Lista para almacenar el contenido de los libros.
   - `titles`: Lista para almacenar los títulos de los libros.

4. **Descargar el contenido de cada libro y extraer el título**:
   - `for url in book_urls`: Recorre cada URL en la lista `book_urls`.
   - `response = requests.get(url)`: Realiza una solicitud GET para obtener el contenido del libro desde la URL.
   - `if response.status_code == 200`: Verifica si la solicitud fue exitosa (código de estado 200).
     - `book_content = response.text`: Almacena el contenido del libro como una cadena de texto.
     - `start_index = book_content.find('Title: ')`: Encuentra la posición inicial de la línea que contiene el título del libro.
     - `end_index = book_content.find('\n', start_index)`: Encuentra la posición final de la línea del título.
     - `title = book_content[start_index + len('Title: '):end_index].strip()`: Extrae y limpia el título del libro.
     - `texts.append(book_content)`: Añade el contenido del libro a la lista `texts`.
     - `titles.append(title)`: Añade el título del libro a la lista `titles`.
   - `else`: Si la solicitud no fue exitosa.
     - `texts.append(None)`: Añade `None` a la lista `texts`.
     - `titles.append(None)`: Añade `None` a la lista `titles`.

5. **Crear el DataFrame**:
   - `df = pd.DataFrame({ "Title": titles, "Text": texts })`: Crea un DataFrame de `pandas` con dos columnas, "Title" y "Text", utilizando las listas `titles` y `texts`.

6. **Mostrar el DataFrame**:
   - `print(df)`: Imprime el DataFrame para mostrar el resultado.


In [161]:

import requests
import pandas as pd

# Lista de URLs de libros
book_urls = [
    "https://www.gutenberg.org/cache/epub/74282/pg74282.txt",
    "https://www.gutenberg.org/cache/epub/74273/pg74273.txt",
    "https://www.gutenberg.org/cache/epub/74274/pg74274.txt",
    "https://www.gutenberg.org/cache/epub/74275/pg74275.txt",
    "https://www.gutenberg.org/cache/epub/74276/pg74276.txt",
    "https://www.gutenberg.org/cache/epub/74277/pg74277.txt",
    "https://www.gutenberg.org/cache/epub/74278/pg74278.txt",
    "https://www.gutenberg.org/cache/epub/74279/pg74279.txt",
    "https://www.gutenberg.org/cache/epub/74280/pg74280.txt",
    "https://www.gutenberg.org/cache/epub/74281/pg74281.txt",
]

# Crear listas para almacenar los textos y los títulos
texts = []
titles = []

# Descargar el contenido de cada libro y extraer el título
for url in book_urls:
    response = requests.get(url)
    if response.status_code == 200:
        # Almacenar el contenido del libro como una cadena
        book_content = response.text
        
        # Buscar la línea que contiene el título
        start_index = book_content.find('Title: ')
        end_index = book_content.find('\n', start_index)
        title = book_content[start_index + len('Title: '):end_index].strip()
        
        # Almacenar el contenido y el título en las listas
        texts.append(book_content)
        titles.append(title)
    else:
        texts.append(None)
        titles.append(None)

# Crear el DataFrame
df = pd.DataFrame({
    "Title": titles,
    "Text": texts
})

# Mostrar el DataFrame
print(df)  # Imprime las primeras filas del DataFrame para ver el resultado


                                               Title  \
0                                    I miei racconti   
1                                   Jylhänmäkeläiset   
2                                          Onnen tie   
3  Theology in romance: or the catechism and the ...   
4                               Arthur's inheritance   
5                               Beauty and the beast   
6                           Tuonen ahventa onkimassa   
7                                         Lukukammio   
8  Rambles in Germany and Italy in 1840, 1842, an...   
9        Seven years in South Africa volume 1 (of 2)   

                                                Text  
0  ﻿The Project Gutenberg eBook of I miei raccont...  
1  ﻿The Project Gutenberg eBook of Jylhänmäkeläis...  
2  ﻿The Project Gutenberg eBook of Onnen tie\r\n ...  
3  ﻿The Project Gutenberg eBook of Theology in ro...  
4  ﻿The Project Gutenberg eBook of Arthur's inher...  
5  ﻿The Project Gutenberg eBook of Beauty and the... 

# Diferencias entre Tipos de Datos Estructurados y No Estructurados

**Datos Estructurados:**
- **Definición:** Son datos organizados en un formato fijo, lo que facilita su entrada, consulta y análisis. Se suelen almacenar en bases de datos relacionales y tienen una estructura predefinida.
- **Ejemplos:** Tablas en bases de datos SQL, hojas de cálculo, y archivos CSV.
- **Características:** 
  - **Organización:** Están organizados en tablas, con filas y columnas.
  - **Facilidad de Consulta:** Se pueden consultar fácilmente mediante SQL u otros lenguajes de consulta.
  - **Ejemplo de uso:** Un sistema de gestión de ventas donde los datos de clientes, productos y transacciones están organizados en tablas relacionadas.

**Datos No Estructurados:**
- **Definición:** Son datos que no siguen un formato o estructura predefinida, lo que dificulta su organización y análisis automático.
- **Ejemplos:** Texto libre, correos electrónicos, imágenes, videos y publicaciones en redes sociales.
- **Características:** 
  - **Desorganización:** No tienen una estructura fija y no se organizan en tablas o columnas.
  - **Dificultad de Consulta:** Requieren procesamiento y análisis adicionales para extraer información útil.
  - **Ejemplo de uso:** Documentos de texto, comentarios en redes sociales o transcripciones de audio.

### Ventajas de Usar Pandas para Ciencia de Datos

**Pandas** es una biblioteca en Python muy utilizada en ciencia de datos debido a varias razones:

- **Estructuras de Datos Flexibles:** Ofrece dos estructuras de datos principales, `Series` (para datos unidimensionales) y `DataFrame` (para datos bidimensionales), que permiten manejar y analizar datos de manera eficiente.
- **Manejo de Datos Faltantes:** Facilita la limpieza de datos, incluyendo el manejo y la imputación de valores faltantes.
- **Operaciones de Datos:** Proporciona herramientas para filtrar, agregar, agrupar y transformar datos, lo que simplifica el análisis de datos complejos.
- **Integración con Otras Herramientas:** Se integra bien con otras bibliotecas de Python como NumPy, Matplotlib y SciPy, lo que permite realizar análisis numéricos y visualización de datos.
- **Facilidad de Importación y Exportación:** Permite leer y escribir datos desde diversos formatos como CSV, Excel, SQL y JSON de manera sencilla.
- **Funcionalidades Avanzadas:** Incluye funcionalidades avanzadas para manejo de fechas y horarios, operaciones de pivote y agregaciones.

### Resumen sobre Cómo Leer Datos desde Diversas Fuentes y Tipos de Archivos

**1. Archivos CSV (Comma-Separated Values):**
- **Uso de Pandas:** `pandas.read_csv('archivo.csv', delimiter=',')`
- **Descripción:** Los archivos CSV son simples archivos de texto donde cada línea representa una fila y los valores están separados por comas (o cualquier otro delimitador). 

**2. Bases de Datos SQL:**
- **Uso de Pandas:** `pandas.read_sql_query('SELECT * FROM tabla', con=conexion)`
- **Descripción:** Permite leer datos directamente desde una base de datos SQL ejecutando consultas SQL. Se necesita una conexión a la base de datos.

**3. Archivos JSON (JavaScript Object Notation):**
- **Descripción:** Los archivos JSON contienen datos en formato de texto que usa una estructura de pares clave-valor. Son comunes para intercambiar datos en aplicaciones web.
