# Actividad 1 No evaluada Exploración de datos en Python

- **Profesor:** Francisco Perez Galarce
- **Ayudante:** Yesenia Salinas

**Integrante:**
- Jorge Troncoso

# Lectura y analisis exploratorio de datos

In [1]:
import pandas as pd

# 1. Cargar la base de datos
# Exploración de opciones del método pd.read_csv
# Algunos argumentos útiles de pd.read_csv:
# - sep: especifica el separador de columnas (por ejemplo, ',' o '\t').
# - header: especifica qué fila usar como encabezado (por defecto, la primera fila).
# - na_values: define valores que se deben interpretar como NaN.
# - dtype: permite definir tipos de datos iniciales por columna.
# - parse_dates: convierte columnas a tipo datetime automáticamente.
# - encoding: especifica la codificación del archivo (por ejemplo, 'utf-8' o 'latin-1').

data = pd.read_csv(
    "ejemplo_data.csv",  # Nombre del archivo
    delimiter=",",       # Separador de columnas
    encoding="utf-8",    # Codificación del archivo
    dtype=str            # Todas las columnas se cargan inicialmente como texto
)

# Mostrar las primeras filas para verificar la estructura de la base
print("Primeras filas de la base de datos:")
print(data.head())

# 2. Identificar los tipos de variables disponibles
print("\nTipos de datos originales:")
print(data.info())  # Muestra los tipos de datos y valores no nulos por columna

# Verificar valores nulos por columna
print("\nValores nulos por columna:")
print(data.isnull().sum())  # Muestra cuántos valores faltantes tiene cada columna

# 3. Transformaciones de tipo
# Convertir ID a entero
if 'ID' in data.columns:
    try:
        data['ID'] = data['ID'].astype(int)
        print("\n'ID' convertido exitosamente a entero.")
    except ValueError:
        print("\nError: 'ID' contiene valores no convertibles a entero.")

# Convertir Activo a booleano
if 'Activo' in data.columns:
    try:
        data['Activo'] = data['Activo'].astype(bool)
        print("'Activo' convertido exitosamente a booleano.")
    except ValueError:
        print("\nError: 'Activo' contiene valores no convertibles a booleano.")

print("\nTipos de datos después de las primeras transformaciones:")
print(data.info())

# 4. Limpieza y conversión de columnas específicas
# Limpiar y convertir 2016 a flotante
if '2016' in data.columns:
    try:
        data['2016'] = data['2016'].str.replace(r'[\$,]', '', regex=True).astype(float)
        print("\n'2016' limpiado y convertido exitosamente a flotante.")
    except ValueError:
        print("\nError: '2016' contiene valores no convertibles a flotante.")

# Limpiar y convertir Unidades a entero
if 'Unidades' in data.columns:
    try:
        data['Unidades'] = pd.to_numeric(data['Unidades'], errors='coerce').fillna(0).astype(int)
        print("'Unidades' limpiado y convertido exitosamente a entero.")
    except ValueError:
        print("\nError: 'Unidades' contiene valores no convertibles a entero.")

# Verificar tipos después de las conversiones
print("\nTipos de datos después de la limpieza y conversiones:")
print(data.info())

# Mostrar las primeras filas después de la transformación
print("\nDatos después de la transformación:")
print(data.head())

# 5. Resumen adicional de los datos
# - Estadísticas descriptivas de variables numéricas
print("\nResumen estadístico de las variables numéricas:")
print(data.describe(include=[float, int]))

# - Verificación de valores únicos en columnas clave
if 'Activo' in data.columns:
    print("\nValores únicos en la columna 'Activo':")
    print(data['Activo'].unique())


Primeras filas de la base de datos:
       ID        Nombre         2016          2017 Crecimiento Unidades  \
0   10002     Verde Mar  $125,000.00    $162500.00      30.00%      500   
1  552278  Manantial sa  $920,000.00  $101,2000.00      10.00%      700   
2   23477          ACME   $50,000.00      62500.00      25.00%      125   
3   24900     Andes sur  $350,000.00     490000.00       4.00%       75   
4  651029     San Pablo   $15,000.00     $12750.00     -15.00%       No   

        fecha Activo  
0   1-10-2015      1  
1   6-23-2014      0  
2   3-12-2016      1  
3  10-28-2015      1  
4   2-15-2014      0  

Tipos de datos originales:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   ID           5 non-null      object
 1   Nombre       5 non-null      object
 2   2016         5 non-null      object
 3   2017         5 non-null      object
 

# Lectura y analisis exploratorio de datos 2

In [2]:
import pandas as pd

# 1. Cargar la base de datos
try:
    data = pd.read_csv(
        "ecommerce_data.csv",  # Nombre del archivo
        delimiter=",",         # Separador de columnas
        encoding="latin-1",    # Codificación alternativa
        dtype=str              # Carga inicial de todas las columnas como texto
    )
    print("Archivo cargado exitosamente con 'latin-1'.")
except UnicodeDecodeError as e:
    print(f"Error de codificación: {e}")
    print("Intentando cargar el archivo con 'ISO-8859-1'...")
    data = pd.read_csv(
        "ecommerce_data.csv",
        delimiter=",",
        encoding="ISO-8859-1",
        dtype=str
    )
    print("Archivo cargado exitosamente con 'ISO-8859-1'.")

# Mostrar las primeras filas
print("Primeras filas de la base de datos:")
print(data.head())

# Transformaciones de tipo
if 'InvoiceNo' in data.columns:
    data['InvoiceNo'] = data['InvoiceNo'].astype(str)  # Convertir a str
if 'Description' in data.columns:
    data['Description'] = data['Description'].astype(str)  # Convertir a str
if 'Quantity' in data.columns:
    data['Quantity'] = data['Quantity'].astype(int)  # Convertir a int
if 'UnitPrice' in data.columns:
    data['UnitPrice'] = data['UnitPrice'].astype(float)  # Convertir a float

# Separar InvoiceDate
if 'InvoiceDate' in data.columns:
    data['InvoiceDate'] = pd.to_datetime(data['InvoiceDate'])
    data['InvoiceDate_Date'] = data['InvoiceDate'].dt.date
    data['InvoiceDate_Time'] = data['InvoiceDate'].dt.time

# Crear columna TotalAmount
if 'Quantity' in data.columns and 'UnitPrice' in data.columns:
    data['TotalAmount'] = data['Quantity'] * data['UnitPrice']

# Exportar base procesada
data.to_csv("ecommerce_data_processed.csv", index=False)

# Exploración avanzada
grouped = data.groupby('InvoiceNo')['TotalAmount'].sum()
sorted_data = data.sort_values(by='TotalAmount', ascending=False)
indexed_data = data.set_index('InvoiceNo')
sampled_data = data.sample(n=5)
pivot_table = data.pivot_table(values='TotalAmount', index='InvoiceDate_Date', aggfunc='sum')
reset_data = grouped.reset_index()

# Crear tabla auxiliar para merge
other_data = pd.DataFrame({
    'InvoiceNo': [123456, 654321],
    'ExtraInfo': ['Info1', 'Info2']
})
other_data['InvoiceNo'] = other_data['InvoiceNo'].astype(str)  # Convertir a str

# Realizar el merge
merged_data = pd.merge(data, other_data, on='InvoiceNo', how='left')
print("\nDatos después de realizar un merge:")
print(merged_data.head())

Archivo cargado exitosamente con 'latin-1'.
Primeras filas de la base de datos:
  InvoiceNo StockCode                          Description Quantity  \
0    536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER        6   
1    536365     71053                  WHITE METAL LANTERN        6   
2    536365    84406B       CREAM CUPID HEARTS COAT HANGER        8   
3    536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE        6   
4    536365    84029E       RED WOOLLY HOTTIE WHITE HEART.        6   

      InvoiceDate UnitPrice CustomerID         Country  
0  12/1/2010 8:26      2.55      17850  United Kingdom  
1  12/1/2010 8:26      3.39      17850  United Kingdom  
2  12/1/2010 8:26      2.75      17850  United Kingdom  
3  12/1/2010 8:26      3.39      17850  United Kingdom  
4  12/1/2010 8:26      3.39      17850  United Kingdom  

Datos después de realizar un merge:
  InvoiceNo StockCode                          Description  Quantity  \
0    536365    85123A   WHITE HANGING HEAR

# Estadisticas descriptivas

In [3]:
import pandas as pd
import numpy as np

# 1. Crear un diccionario con 50 datos y tres atributos continuos
np.random.seed(42)  # Para reproducibilidad
data_dict = {
    "Atributo1": np.random.uniform(10, 100, 50),  # Valores entre 10 y 100
    "Atributo2": np.random.uniform(0, 500, 50),   # Valores entre 0 y 500
    "Atributo3": np.random.uniform(1000, 2000, 50)  # Valores entre 1000 y 2000
}

# 2. Transformar el diccionario a un DataFrame de Pandas
df = pd.DataFrame(data_dict)

# Mostrar las primeras filas del DataFrame
print("Primeras filas del DataFrame:")
print(df.head())

# 3. Obtener estadísticas descriptivas de tendencia central
central_tendency = df.agg({
    "Atributo1": ['mean', 'median'],
    "Atributo2": ['mean', 'median'],
    "Atributo3": ['mean', 'median']
})
print("\nEstadísticas de tendencia central:")
print(central_tendency)

# 4. Obtener estadísticas descriptivas de dispersión
# Calculamos las estadísticas comunes: std, var, min, max
dispersion_stats = df.agg({
    "Atributo1": ['std', 'var', 'min', 'max'],
    "Atributo2": ['std', 'var', 'min', 'max'],
    "Atributo3": ['std', 'var', 'min', 'max']
})

# Añadir el rango calculado manualmente
range_values = pd.Series(df.max() - df.min(), name='range')
dispersion_stats = pd.concat([dispersion_stats, range_values.to_frame().T])

print("\nEstadísticas de dispersión:")
print(dispersion_stats)

Primeras filas del DataFrame:
   Atributo1   Atributo2    Atributo3
0  43.708611  484.792314  1031.429186
1  95.564288  387.566412  1636.410411
2  75.879455  469.749471  1314.355981
3  63.879264  447.413675  1508.570691
4  24.041678  298.949989  1907.566474

Estadísticas de tendencia central:
        Atributo1   Atributo2    Atributo3
mean    50.133151  247.218791  1478.299917
median  49.244388  254.132106  1422.259396

Estadísticas de dispersión:
        Atributo1     Atributo2     Atributo3
std     25.999488    153.420755    297.539299
var    675.973381  23537.928095  88529.634678
min     11.852604      2.761059   1006.952131
max     97.291887    493.443468   1971.782083
range   85.439282    490.682410    964.829952


# **Análisis Resumido**

## **1. Datos Iniciales**
- **Atributo1:** Rango de 11.85 a 97.29.
- **Atributo2:** Rango de 2.76 a 493.44.
- **Atributo3:** Rango de 1006.95 a 1971.78.

## **2. Estadísticas de Tendencia Central**
|               | Atributo1 | Atributo2 | Atributo3  |
|---------------|-----------|-----------|------------|
| **Media**     | 50.13     | 247.22    | 1478.30    |
| **Mediana**   | 49.24     | 254.13    | 1422.26    |

- Valores distribuidos de manera simétrica en todos los atributos.

## **3. Estadísticas de Dispersión**
|               | Atributo1 | Atributo2 | Atributo3  |
|---------------|-----------|-----------|------------|
| **Desv. Est.** | 25.99     | 153.42    | 297.54     |
| **Rango**     | 85.44     | 490.68    | 964.83     |

- **Atributo1:** Baja dispersión.
- **Atributo2 y Atributo3:** Alta variabilidad con amplios rangos.

- **Atributo1:** Menor variabilidad y rango moderado.
- **Atributo2 y Atributo3:** Mayor dispersión y rangos amplios, representando alta diversidad de valores.


# Transformación e imputación de datos

In [4]:
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer

# 1. Cargar las bases de datos con manejo de delimitadores y codificación
ratings_data = pd.read_csv("ratings_data.csv", encoding='latin-1')
books_data = pd.read_csv("books_data.csv", encoding='latin-1', sep=';')

# 2. Normalizar los nombres de las columnas
ratings_data.columns = ratings_data.columns.str.strip().str.upper()
books_data.columns = books_data.columns.str.strip().str.upper()

# 3. Diagnóstico de números perdidos en "ratings_data"
print("Diagnóstico de valores perdidos en 'ratings_data':")
print(ratings_data.isnull().sum())

# 4. Imputar valores solo en las columnas numéricas
numeric_columns = ratings_data.select_dtypes(include=['number']).columns
imputer_mean = SimpleImputer(strategy='mean')
ratings_data[numeric_columns] = imputer_mean.fit_transform(ratings_data[numeric_columns])

# 5. Generar una nueva variable: promedio de rating para cada ISBN
ratings_data['MEANRATING'] = ratings_data.groupby('ISBN')['BOOK-RATING'].transform('mean')

print("\nDataFrame con promedio de rating por ISBN:")
print(ratings_data[['ISBN', 'MEANRATING']].drop_duplicates().head())

# 6. Consolidar las bases de datos utilizando ISBN
merged_data = pd.merge(books_data, ratings_data, on='ISBN', how='inner')

print("\nBase de datos consolidada (primeras filas):")
print(merged_data.head())

# 7. Exportar la base de datos consolidada al directorio actual
output_path = "consolidated_books_ratings.csv"
merged_data.to_csv(output_path, index=False)
print(f"\nBase de datos consolidada exportada como '{output_path}'.")

Diagnóstico de valores perdidos en 'ratings_data':
UNNAMED: 0     0
USER-ID        0
ISBN           0
BOOK-RATING    0
MEANRATING     0
dtype: int64

DataFrame con promedio de rating por ISBN:
         ISBN  MEANRATING
0  034545104X    2.933333
1  0155061224    2.500000
2  0446520802    4.060345
3  052165615X    3.000000
4  0521795028    6.000000

Base de datos consolidada (primeras filas):
         ISBN           BOOK-TITLE           BOOK-AUTHOR  YEAR-OF-PUBLICATION  \
0  0195153448  Classical Mythology    Mark P. O. Morford                 2002   
1  0002005018         Clara Callan  Richard Bruce Wright                 2001   
2  0002005018         Clara Callan  Richard Bruce Wright                 2001   
3  0002005018         Clara Callan  Richard Bruce Wright                 2001   
4  0002005018         Clara Callan  Richard Bruce Wright                 2001   

                 PUBLISHER                                        IMAGE-URL-S  \
0  Oxford University Press  http://ima