# Sesión 2: Lectura de Datos y Análisis con Pandas en Ciencias Ambientales

## Parte 1: Lectura de Archivos y Consumo de APIs

### 1.1 Lectura de Archivos CSV


In [4]:
import pandas as pd
# Leer un archivo CSV con datos de calidad del agua
df_water_quality = pd.read_csv('/Users/gonzalezulises/Documents/GitHub/101_Data_Analytics_Rizoma/data/yelp.csv')
print(df_water_quality.head())

ModuleNotFoundError: No module named 'pandas'

In [None]:
### 1.2 Lectura de Archivos Excel

# Leer un archivo Excel con datos meteorológicos
df_weather = pd.read_excel('weather_data.xlsx', sheet_name='daily_records')
print(df_weather.head())




In [None]:
### 1.3 Consumo de API

import requests

# Obtener datos de calidad del aire de una API
api_url = "https://api.openaq.org/v1/latest?country=ES&parameter=pm25"
response = requests.get(api_url)
air_quality_data = response.json()

# Convertir los datos de la API a un DataFrame
df_air_quality = pd.DataFrame(air_quality_data['results'])
print(df_air_quality.head())


In [None]:
## Parte 2: Análisis de Datos con Pandas

### 2.1 Exploración Inicial de Datos

# Usando el DataFrame de calidad del agua
print(df_water_quality.info())
print(df_water_quality.describe())

# Verificar valores nulos
print(df_water_quality.isnull().sum())

### 2.2 Selección y Filtrado de Datos

# Seleccionar columnas específicas
ph_and_temp = df_water_quality[['pH', 'Temperature']]

# Filtrar datos
high_ph = df_water_quality[df_water_quality['pH'] > 8]

In [None]:
### 2.3 Agrupación y Agregación

# Agrupar por ubicación y calcular promedios
avg_by_location = df_water_quality.groupby('Location').mean()
print(avg_by_location)

In [None]:
## 2.4 Operaciones con Series y DataFrames

# Añadir una nueva columna
df_water_quality['pH_category'] = pd.cut(df_water_quality['pH'], 
                                         bins=[0, 6.5, 7.5, 14],
                                         labels=['Acidic', 'Neutral', 'Alkaline'])

# Operaciones entre columnas
df_weather['temp_difference'] = df_weather['max_temp'] - df_weather['min_temp']

In [None]:
### 2.5 Manejo de Datos Faltantes

# Rellenar valores nulos
df_water_quality['Dissolved_Oxygen'].fillna(df_water_quality['Dissolved_Oxygen'].mean(), inplace=True)

# Eliminar filas con valores nulos
df_water_quality.dropna(subset=['pH'], inplace=True)

In [None]:
### 2.6 Visualización Básica con Pandas

# Gráfico de líneas para temperatura a lo largo del tiempo
df_weather.plot(x='date', y='avg_temp', kind='line')

# Histograma de pH
df_water_quality['pH'].hist(bins=20)



In [None]:

## Ejercicios Prácticos

#1. Carga un conjunto de datos de precipitaciones mensuales desde un archivo CSV y calcula la precipitación total anual por región.

#2. Utilizando datos de una API de calidad del aire, encuentra las 5 ciudades con los niveles más altos de PM2.5.

#3. Con un DataFrame de datos de ríos, agrupa por cuenca hidrográfica y calcula el caudal promedio, máximo y mínimo para cada una.

#4. Crea un gráfico de dispersión que muestre la relación entre la temperatura y la concentración de oxígeno disuelto en lagos.

#5. Utiliza datos meteorológicos para identificar los días con condiciones extremas (temperatura > 35°C o precipitación > 50mm) en el último año.