# 📘 Sesión 2.1: Acceso y Lectura de Datos en Python

### 🎯 Objetivos de aprendizaje
- Comprender cómo acceder a datos desde múltiples fuentes.
- Leer datos en formatos estructurados (CSV, Excel, JSON) y semiestructurados (APIs, SQL).
- Aplicar limpieza básica: nombres de columnas, tipos de datos, valores faltantes.

## 1️⃣ Introducción a pandas y lectura de archivos CSV

In [1]:
import pandas as pd

# Leer CSV desde URL
url_csv = 'https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv'
df_csv = pd.read_csv(url_csv)
df_csv.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


Hemos cargado un dataset común llamado `tips` que contiene información sobre propinas en un restaurante. Usamos `pd.read_csv()` para leerlo desde una URL directamente.

### ****Tarea Adicional para el Estudiante (Compartir Código y Criterios):****

*   **Lectura de Otro Dataset:** Utiliza `pd.read_csv()` para cargar otro dataset, por ejemplo, el dataset `iris` o `titanic` (puedes buscar sus URLs en repositorios como Kaggle o directamente en Seaborn).
¿Qué parámetros adicionales de `pd.read_csv()` crees que podrían ser útiles en diferentes escenarios (ej. `sep`, `header`, `encoding`)?  

In [None]:
# Tu código para cargar otro dataset y tus comentarios aquí

## 2️⃣ Exploración inicial del dataset

In [2]:
# Mostrar las primeras 5 filas
print("Primeras 5 filas del dataset:")
print(df_csv.head())


Primeras 5 filas del dataset:
   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4


In [3]:
# Mostrar información general (tipos de datos, nulos)
print("\nInformación general del dataset:")
df_csv.info()


Información general del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   total_bill  244 non-null    float64
 1   tip         244 non-null    float64
 2   sex         244 non-null    object 
 3   smoker      244 non-null    object 
 4   day         244 non-null    object 
 5   time        244 non-null    object 
 6   size        244 non-null    int64  
dtypes: float64(2), int64(1), object(4)
memory usage: 13.5+ KB


In [4]:
# Mostrar estadísticas descriptivas
print("\nEstadísticas descriptivas:")
df_csv.describe()


Estadísticas descriptivas:


Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


In [5]:
# Contar valores nulos por columna
print("\nConteo de valores nulos por columna:")
df_csv.isnull().sum()


Conteo de valores nulos por columna:


total_bill    0
tip           0
sex           0
smoker        0
day           0
time          0
size          0
dtype: int64

**Explicación:**
Hemos utilizado `head()` para ver las primeras filas, `info()` para entender los tipos de datos y la presencia de nulos, `describe()` para estadísticas básicas y `isnull().sum()` para cuantificar los nulos.



### **Tarea Adicional para el Estudiante (Compartir Código y Criterios):**

*   **Exploración Personalizada:** Elige una columna del dataset `df_tips` que te parezca interesante (ej. `total_bill`, `tip`, `day`) y realiza una exploración más profunda. Por ejemplo:
    *   Si es numérica: obtén la media, mediana, desviación estándar manualmente si no usaste `describe()`.
    *   Si es categórica: obtén el conteo de valores únicos y la frecuencia de cada categoría.
*   ¿Qué métrica o información adicional crees que sería valiosa obtener de la columna que elegiste, y por qué?


In [None]:
# Tu código de exploración personalizada y comentarios aquí


## 3️⃣ Limpieza de datos: nombres, tipos, valores nulos

In [6]:
# Renombrar columnas: minúsculas y sin espacios
df_csv.columns = [col.lower().strip() for col in df_csv.columns]
print("\nColumnas renombradas:", df_csv.columns)



Columnas renombradas: Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size'], dtype='object')


In [7]:
# Convertir tipo de dato de la columna 'tip' a float
df_csv['tip'] = df_csv['tip'].astype(float)
print("\nTipo de dato de 'tip' actualizado:", df_csv['tip'].dtype)



Tipo de dato de 'tip' actualizado: float64


In [8]:
# Eliminar filas con valores nulos (si los hubiera identificado antes)
print(f"\nFilas antes de dropna: {len(df_csv)}")

df_csv.dropna(inplace=True)
print("\nDataset después de limpieza básica:")
df_csv.head()


Filas antes de dropna: 244

Dataset después de limpieza básica:


Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


**Explicación:**
Hemos limpiado los nombres de las columnas para facilitar su uso y asegurado que la columna `tip` sea un número flotante. También eliminamos filas con datos faltantes para evitar problemas en análisis posteriores.


### **Tarea Adicional para el Estudiante (Compartir Código y Criterios):**

*   **Manejo de Nulos Alternativo:** En lugar de `dropna()`, ¿cómo podrías haber manejado los valores nulos de la columna `tip` si hubieran sido muchos? (Pista: piensa en imputación de valores). Escribe el código para imputar la media de la columna `tip` a los valores nulos.
*   ¿Cuándo preferirías imputar valores en lugar de eliminarlos, y viceversa?


In [None]:
# Tu código para imputar valores nulos y comentarios aquí

## 4️⃣ Lectura de archivos Excel

Pandas puede leer directamente archivos Excel utilizando el motor `openpyxl`. Esto es muy útil para datos que provienen de hojas de cálculo.

In [20]:
# Cargar un archivo Excel desde una URL (requiere la librería openpyxl)
try:
    df_customers = pd.read_excel(
        "https://api.slingacademy.com/v1/sample-data/files/customers.xlsx",
        engine="openpyxl"
    )
    print("Archivo Excel cargado exitosamente.")
    print("Primeras 5 filas del archivo Excel:")
    print(df_customers.head())

    
except Exception as e:
    print(f"Error al cargar el archivo Excel: {e}")
    print("Asegúrate de tener instalada la librería 'openpyxl' (pip install openpyxl)")


Archivo Excel cargado exitosamente.
Primeras 5 filas del archivo Excel:
  first_name last_name                               email  \
0     Joseph      Rice      josephrice131@slingacademy.com   
1       Gary     Moore       garymoore386@slingacademy.com   
2       John    Walker      johnwalker944@slingacademy.com   
3       Eric    Carter      ericcarter176@slingacademy.com   
4    William   Jackson  williamjackson427@slingacademy.com   

                  phone                                   address gender  age  \
0  +1-800-040-3135x6208    91773 Miller Shoal\nDiaztown, FL 38841   male   43   
1     221.945.4191x8872       6450 John Lodge\nTerriton, KY 95945   male   71   
2     388-142-4883x5370  27265 Murray Island\nKevinfort, PA 63231   male   44   
3         (451)259-5402                 USNS Knight\nFPO AA 76532   male   38   
4      625.626.9133x374   170 Jackson Loaf\nKristenland, AS 48876   male   58   

  registered  orders   spent       job                      hobbies 

In [21]:
df_customers.head()

Unnamed: 0,first_name,last_name,email,phone,address,gender,age,registered,orders,spent,job,hobbies,is_married
0,Joseph,Rice,josephrice131@slingacademy.com,+1-800-040-3135x6208,"91773 Miller Shoal\nDiaztown, FL 38841",male,43,2019-05-05,7,568.29,Artist,Playing sports,False
1,Gary,Moore,garymoore386@slingacademy.com,221.945.4191x8872,"6450 John Lodge\nTerriton, KY 95945",male,71,2020-05-20,11,568.92,Artist,Swimming,True
2,John,Walker,johnwalker944@slingacademy.com,388-142-4883x5370,"27265 Murray Island\nKevinfort, PA 63231",male,44,2020-04-04,11,497.12,Clerk,Painting,False
3,Eric,Carter,ericcarter176@slingacademy.com,(451)259-5402,USNS Knight\nFPO AA 76532,male,38,2019-01-30,17,834.6,Butcher,Playing musical instruments,False
4,William,Jackson,williamjackson427@slingacademy.com,625.626.9133x374,"170 Jackson Loaf\nKristenland, AS 48876",male,58,2022-07-01,14,151.59,Engineer,Reading,False


### **Tarea Adicional para el Estudiante (Compartir Código y Criterios):**


*   **Inspección del Excel:** Observa las columnas y los tipos de datos del `df_customers` cargado. Si alguna columna no tiene el tipo de dato correcto, o si hay valores faltantes, aplica una corrección básica (ej. renombrar una columna, convertir un tipo, o eliminar filas nulas si es necesario).

*    ¿Qué información adicional te gustaría poder extraer o transformar de este archivo Excel, y qué función de Pandas podrías usar para ello?

*    **Limpieza básica:** 

        Normalizar columnas con lower() y strip().
        Convertir fechas (registered) a tipo datetime.
        Manejar valores nulos (dropna() o fillna()).

*    **Análisis y agregaciones:**

        Agrupar por edad, país, empleo o estado civil.
        Calcular métricas como promedio de gasto (spent) o número de órdenes (orders).

*    **Visualización:**

        Usar seaborn para gráficos de distribución por edad y gasto.
        Visualizar correlaciones mediante pairplot o scatterplot.

In [None]:
# Tu código de inspección/corrección del Excel y comentarios aquí

## 5️⃣ Lectura y manipulación de datos JSON

Pandas puede leer directamente datos JSON desde una URL de API. La columna `address` es un ejemplo de estructura anidada que podríamos necesitar "aplanar" o procesar.

In [22]:
# API de ejemplo: Usuarios de JSONPlaceholder
try:
    json_url = 'https://jsonplaceholder.typicode.com/users'
    df_json = pd.read_json(json_url)
    print("Datos JSON de usuarios cargados exitosamente.")
    print("Columnas relevantes (name, email, address):")
    # Seleccionar y mostrar algunas columnas clave
    print(df_json[['name', 'email', 'address']].head())

    # Explorar la estructura de la columna 'address'
    print("\nEstructura de la columna 'address':")
    print(df_json['address'].iloc[0]) # Muestra el primer registro de la columna address

except Exception as e:
    print(f"Error al cargar datos JSON desde la API: {e}")


Datos JSON de usuarios cargados exitosamente.
Columnas relevantes (name, email, address):
               name                      email  \
0     Leanne Graham          Sincere@april.biz   
1      Ervin Howell          Shanna@melissa.tv   
2  Clementine Bauch         Nathan@yesenia.net   
3  Patricia Lebsack  Julianne.OConner@kory.org   
4  Chelsey Dietrich   Lucio_Hettinger@annie.ca   

                                             address  
0  {'street': 'Kulas Light', 'suite': 'Apt. 556',...  
1  {'street': 'Victor Plains', 'suite': 'Suite 87...  
2  {'street': 'Douglas Extension', 'suite': 'Suit...  
3  {'street': 'Hoeger Mall', 'suite': 'Apt. 692',...  
4  {'street': 'Skiles Walks', 'suite': 'Suite 351...  

Estructura de la columna 'address':
{'street': 'Kulas Light', 'suite': 'Apt. 556', 'city': 'Gwenborough', 'zipcode': '92998-3874', 'geo': {'lat': '-37.3159', 'lng': '81.1496'}}


**Tarea Adicional para el Estudiante (Compartir Código y Criterios):**

*   **Aplanar la Columna 'address':** Crea nuevas columnas para la `calle` y la `ciudad` extrayéndolas del diccionario de la columna `address`. Utiliza el método `.apply()` con una función lambda o `.str.get()` si la estructura es consistente.
*   ¿Qué otras formas podrías usar para obtener información de estructuras de datos anidadas en Python (más allá de `apply` con lambda)? Menciona una técnica o librería.


In [None]:
# Tu código para aplanar 'address' y comentarios aquí

## 6️⃣ Conexión y consulta básica en SQLite

Hemos usado la librería `sqlite3` para crear una base de datos en memoria, definir una tabla, insertar datos y realizar una consulta básica.

In [24]:
import sqlite3

# Conectar a una base de datos en memoria (no se guarda al cerrar)
conn = sqlite3.connect(':memory:')
print("Conexión a base de datos SQLite en memoria establecida.")

# Crear una tabla simple
cursor = conn.cursor()
cursor.execute("CREATE TABLE IF NOT EXISTS empleados (id INTEGER PRIMARY KEY, nombre TEXT, puesto TEXT)")
print("Tabla 'empleados' creada.")

# Insertar algunos datos
empleados_data = [
    ('Alice', 'Data Scientist'),
    ('Bob', 'Data Engineer'),
    ('Charlie', 'Analista BI')
]
cursor.executemany("INSERT INTO empleados (nombre, puesto) VALUES (?, ?)", empleados_data)
conn.commit() # Guardar los cambios
print("Datos insertados en la tabla 'empleados'.")

# Realizar una consulta
print("\nConsulta de todos los empleados:")
cursor.execute("SELECT nombre, puesto FROM empleados")
# Fetchall recupera todos los resultados de la consulta
resultados_sqlite = cursor.fetchall()
print(resultados_sqlite)

# Cerrar la conexión
conn.close()
print("\nConexión a SQLite cerrada.")



Conexión a base de datos SQLite en memoria establecida.
Tabla 'empleados' creada.
Datos insertados en la tabla 'empleados'.

Consulta de todos los empleados:
[('Alice', 'Data Scientist'), ('Bob', 'Data Engineer'), ('Charlie', 'Analista BI')]

Conexión a SQLite cerrada.


**Tarea Adicional para el Estudiante (Compartir Código y Criterios):**

*   **Consulta Filtrada:** Modifica la consulta SQL para obtener solo los empleados cuyo `puesto` sea 'Data Scientist'. Luego, usa `pd.read_sql_query()` para leer el resultado directamente en un DataFrame de Pandas.
*   ¿Cuándo preferirías usar `sqlite3` directamente vs. usar `pd.read_sql_query()`? ¿Qué ventajas ves en cada enfoque?


In [None]:
# Tu código para la consulta filtrada y comentarios aquí

In [25]:
# Conectar a una base de datos en memoria (no se guarda al cerrar)
conn = sqlite3.connect(':memory:')
print("Conexión a base de datos SQLite en memoria establecida.")
df_csv.to_sql('tips', conn, index=False)
consulta = pd.read_sql_query('SELECT sex, AVG(total_bill) as avg_bill FROM tips GROUP BY sex', conn)
print("Tabla 'empleados' creada.")
consulta

Conexión a base de datos SQLite en memoria establecida.
Tabla 'empleados' creada.


Unnamed: 0,sex,avg_bill
0,Female,18.056897
1,Male,20.744076


🔍 **Explicación línea por línea:**

   **✅ conn = sqlite3.connect(':memory:')**
    
>   - ¿Qué hace? Crea una base de datos SQLite temporal en memoria RAM (no se guarda en disco).

>   - ¿Por qué usar :memory:? Es útil para pruebas, demostraciones o procesamiento rápido sin necesidad de un archivo físico.

>    - Devuelve un objeto Connection llamado conn, que se usará para interactuar con la base de datos.

   **✅ df_csv.to_sql('tips', conn, index=False)**
        
>   -    ¿Qué hace?  Toma el DataFrame df_csv (por ejemplo, tips.csv) y lo convierte en una tabla llamada tips dentro de la base de datos creada.
>   -    conn: es la conexión que creamos previamente.
>   -    'tips': es el nombre de la tabla SQL que se creará.
>   -    index=False: evita que se agregue la columna de índice de pandas a la tabla SQL.

   **✅ consulta = pd.read_sql_query('SELECT sex, AVG(total_bill) as avg_bill FROM tips GROUP BY sex', conn)**

>   -     ¿Qué hace? Ejecuta una consulta SQL sobre la base SQLite y devuelve el resultado como un nuevo DataFrame de pandas.
>   -     SELECT sex, AVG(total_bill) as avg_bill: selecciona la columna sex y calcula el promedio de la columna total_bill, renombrándola como avg_bill.
>   -     FROM tips: indica que la consulta se hace sobre la tabla tips.
>   -     GROUP BY sex: agrupa los registros por género (sex), por lo que obtendrás una fila por cada género (Male, Female, etc.) con su respectivo promedio de cuenta.

### **Tarea Adicional para el Estudiante (Compartir Código y Criterios):**

- Leer un archivo JSON desde una URL.
- Crear una tabla SQLite con los datos.
- Consultar promedio de alguna columna agrupada por una categoría textual.

In [None]:
# Tu código y comentarios aquí