### Actividad: Tipos de Datos y Adquisición deDatos en Python

### Parte 1: Tipos de Datos (Estructurados y No Estructurados)
Objetivos:
- Comprender la diferencia entre datos estructurados y no estructurados.
- Aprender a trabajar con ambos tipos de datos en Python.

### Instrucciones Paso a Paso

### 1. Investigación Teórica

### Objetivo: Investigar y entender las diferencias entre datos estructurados y no estructurados.


### 1. Lee y resume la siguiente información sobre los tipos de datos:
- Datos estructurados: Son aquellos datos organizados en un formato claro y predecible, como bases de datos o archivos CSV. Se pueden organizar en filas y columnas (tablas).
- Datos no estructurados: Son datos que no tienen un formato específico o rígido, como textos, imágenes, videos, etc.

### 2. Responde las siguientes preguntas en tu informe:
- ¿Cuáles son las principales características de los datos estructurados y no estructurados?
    -Principales características de los datos estructurados: 
        - Puede modelar datos estructurados como una tabla con filas y columnas. Cada columna tiene un atributo (como la hora, la ubicación y el nombre) y cada fila es un registro único con valores de datos asociados a cada atributo. 
        - Los datos estructurados siempre deben cumplir con un formato estricto, conocido como modelo o esquema de datos predefinido.
    - Principales características de los datos no estructurados:
        - Los datos no estructurados no se ajustan a un esquema. El formato prescrito para los datos no estructurados puede ser tan simple como exigir que todas las grabaciones de las reuniones estén en formato MP3 o que todos los eventos del sistema se recopilen en un almacén determinado.
        - Los datos no estructurados no siguen ninguna regla predeterminada.

- ¿Cuáles son las ventajas y desventajas de trabajar con cada tipo de dato?
    - Ventajas y desventajas de trabajar con cada tipo de dato:
        -  Datos estructurados
            En cualquier organización o grupo complejo, los datos estructurados se vuelven difíciles de administrar cuando el número de relaciones en una base de datos relacional aumenta de forma significativa. Con tantos enlaces entre bases de datos y puntos de datos, el desarrollo de consultas para los datos puede resultar bastante complejo. Otros desafíos incluyen:

                ## Cambios en el esquema de datos
                ## Ajuste de los datos asociados del mundo real a un formato estructurado
                ## Integración de múltiples orígenes de datos estructurados diferentes
        - Datos no estructurados
            - Los datos no estructurados suelen plantear dos grandes desafíos: 

             - Almacenamiento, porque los datos suelen ser más grandes que los datos estructurados.
             - Análisis, porque no es tan sencillo como analizar datos estructurados.

        - Otros desafíos pueden incluir:

            - Procesamiento previo para extraer datos estructurados o semiestructurados
            - Procesamiento multiformato
            - Potencia de procesamiento requerida para el análisis

- Da ejemplos de datos no estructurados más allá de texto (por ejemplo, audio o imágenes).
    - Audio:

        - Grabaciones de entrevistas periodísticas
        - Notas de voz de WhatsApp
    - Imágenes:

        - Fotografías tomadas por drones
        - Escaneos de obras de arte para restauración
    - Video:

        - Grabaciones de partidos de fútbol para análisis táctico
        - Clips de cámaras corporales en fuerzas de seguridad
    - Datos de Sensores / IoT:

        - Lecturas de presión arterial de un smartwatch
        - Datos de vibración en maquinaria industrial para mantenimiento predictivo
    - Modelos 3D y Gráficos:

        - Representaciones en 3D de órganos humanos para cirugía
        - Modelos arquitectónicos en software de diseño
    - Registros Biométricos:

        - Escaneo de huellas digitales para desbloqueo de teléfonos
        - Reconocimiento facial en aeropuertos para control de pasaportes



- ¿Qué desafíos existen al trabajar con cada tipo de dato?
    - Audio:
        -Ruido y calidad: Grabaciones con ruido de fondo pueden dificultar el análisis.
        - Reconocimiento y segmentación: Convertir audio en texto (speech-to-text) puede ser complicado con diferentes acentos, tonos o idiomas.
    - Imágenes:
        - Procesamiento y etiquetado: Es difícil clasificar imágenes sin modelos de IA entrenados.
        -Almacenamiento y tamaño: Las imágenes de alta resolución ocupan mucho espacio y requieren gran capacidad de procesamiento.
    - Video:
        - Alto consumo de recursos: Los videos requieren gran almacenamiento y poder de cómputo para procesamiento en tiempo real.
        - Análisis y búsqueda: Encontrar información específica dentro de un video sin etiquetas es un reto.
    - Datos de Sensores / IoT:
        - Volumen de datos: Sensores generan datos en tiempo real que pueden ser difíciles de gestionar.
        - Integridad y ruido: Sensores defectuosos pueden dar datos erróneos o incompletos.
    - Modelos 3D y Gráficos:
        - Compatibilidad de formatos: Diferentes software pueden usar formatos incompatibles.
        - Alta demanda computacional: Renderizar modelos 3D requiere hardware especializado.
    - Registros Biométricos:
        - Privacidad y seguridad: Datos como huellas dactilares o reconocimiento facial requieren protección contra fraudes.
        - Variabilidad humana: Cambios en iluminación, posición o expresiones pueden afectar la precisión del reconocimiento.

### 2. Actividad Práctica
- Objetivo: Cargar y explorar datos estructurados y no estructurados en Python.
### 1. Trabajando con Datos Estructurados:
- Paso 1: Descarga un conjunto de datos en formato CSV desde un sitio web como Kaggle o datos sintéticos.
- Paso 2: Carga el archivo CSV en un DataFrame de Pandas. Abre una terminal o un Jupyter Notebook y ejecuta el siguiente código:


In [7]:
import pandas as pd
# Carga de archivo CSV
df = pd.read_csv('vgsales.csv')
# Ver las primeras filas
print(f'Primeras filas\n {df.head()}')
# Información general del DataFrame
print(f'Información general del dataframe\n {df.info()}')

Primeras filas
    Rank                      Name Platform    Year         Genre Publisher  \
0     1                Wii Sports      Wii  2006.0        Sports  Nintendo   
1     2         Super Mario Bros.      NES  1985.0      Platform  Nintendo   
2     3            Mario Kart Wii      Wii  2008.0        Racing  Nintendo   
3     4         Wii Sports Resort      Wii  2009.0        Sports  Nintendo   
4     5  Pokemon Red/Pokemon Blue       GB  1996.0  Role-Playing  Nintendo   

   NA_Sales  EU_Sales  JP_Sales  Other_Sales  Global_Sales  
0     41.49     29.02      3.77         8.46         82.74  
1     29.08      3.58      6.81         0.77         40.24  
2     15.85     12.88      3.79         3.31         35.82  
3     15.75     11.01      3.28         2.96         33.00  
4     11.27      8.89     10.22         1.00         31.37  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16598 entries, 0 to 16597
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype

### 2. Trabajando con Datos No Estructurados (Texto):
- Paso 1: Descarga un archivo de texto (puede ser un archivo de tweets o comentarios en un foro).
- Paso 2: Carga el archivo de texto en Python y realiza un análisis simple. Puedes usar el siguiente código:

In [None]:
with open('Comentarios.txt', 'r') as file:
    text_data = file.read()
# Muestra las primeras líneas
print(f'Las primeras líneas:\n {text_data[:500]}')


Las primeras líneas:
 —Deberíamos volver ya —instó Gared mientras los bosques se tornaban más
y más oscuros a su alrededor—. Los salvajes están muertos.
—¿Te dan miedo los muertos? —preguntó ser Waymar Roy ce, insinuando
apenas una sonrisa.
—Los muertos están muertos —contestó Gared. No había mordido el anzuelo.
Era un anciano de más de cincuenta años, y había visto ir y venir a muchos
jóvenes señores—. No tenemos nada que tratar con ellos.
—¿Y de veras están muertos? —preguntó Royce delicadamente—. ¿Qué
prueba tenem


- Paso 3: Usa herramientas de procesamiento de texto básicas como split() para dividir el texto en palabras:

In [16]:
words = text_data.split()
print(f'Las primeras 20 palabras:\n{words[:20]}') # Muestra las primeras 20 palabras

Las primeras 20 palabras:
['—Deberíamos', 'volver', 'ya', '—instó', 'Gared', 'mientras', 'los', 'bosques', 'se', 'tornaban', 'más', 'y', 'más', 'oscuros', 'a', 'su', 'alrededor—.', 'Los', 'salvajes', 'están']


### 3. Entregable:
● Escribe un informe que incluya:
- Respuestas a las preguntas teóricas.
- El código utilizado para cargar y explorar los datos (tanto estructurados como no estructurados).
- Una breve interpretación de los datos y cualquier hallazgo interesante que hayas observado.