# "DATASETS" de Python y R en Google Colab

Este notebook nos introducirá en la obtención de datos a partir de diversos módulos de Python, destacando la importancia de los datos en la ciencia de datos y la estadística.

## **1. Introducción: La importancia de los datos en la Ciencia de Datos y la Estadística**

En la ciencia de datos y la estadística, los datos son el pilar fundamental sobre el cual se construye cualquier análisis o modelo. Sin datos precisos y de calidad, es imposible obtener conclusiones fiables o hacer predicciones útiles. Los datos proporcionan la base para comprender fenómenos, identificar patrones, y tomar decisiones informadas en prácticamente todas las disciplinas.

El manejo adecuado de los datos, desde su obtención, limpieza y exploración, es el primer paso en cualquier proyecto de análisis. Conocer las fuentes de datos disponibles y saber cómo acceder a ellas es crucial para un análisis efectivo. En este contexto, aprender a trabajar con datasets utilizando herramientas de programación como Python facilita la implementación de técnicas estadísticas avanzadas y el desarrollo de modelos predictivos.

**DATASETS: La base de la Ciencia de Datos**

La ciencia de datos y la estadística comienzan con los datos. Antes de aplicar cualquier técnica estadística o modelo, es fundamental obtener, limpiar y entender los datos con los que vamos a trabajar. En este notebook, exploraremos cómo obtener datasets desde diferentes fuentes utilizando módulos de Python.


## **2. Obtener datos con `vega_datasets`**

```python
# Importar el módulo vega_datasets
from vega_datasets import data

# Cargar un dataset de ejemplo
cars = data.cars()

# Mostrar los primeros registros del dataset
cars.head()
```

Explicación: `vega_datasets` proporciona acceso a una variedad de datasets usados comúnmente para visualización y análisis de datos.

---


In [None]:
from vega_datasets import data
dir(data)

In [None]:
carros = data.cars()
carros.info()

In [None]:
# Mostrar las primeras filas del DataFrame carros
carros.head()

In [None]:
from google.colab import sheets
sheet = sheets.InteractiveSheet(df=carros)

In [None]:
import pandas as pd
# Cargar el archivo de Excel llamado "/content/drive/MyDrive/2024_SEM_2/1_Estadística_2024_SEM_2/DataFrames/DataFrame carros del módulo vega_datasets.xlsx"
carros_excel = pd.read_excel("/content/drive/MyDrive/2024_SEM_2/1_Estadística_2024_SEM_2/DataFrames/DataFrame carros del módulo vega_datasets.xlsx")

# Mostrar las primeras filas del DataFrame cargado
carros_excel.head()

In [None]:
# Ejercicio caragr el dataframe "anscombe" del modulo vega_datasets
from vega_datasets import data
anscombe = data.anscombe()
anscombe.head(n=3)

In [None]:
# Mostrar las últimas filas de "anscombe"
anscombe.tail(n=3)

## **3. Obtener datos con `seaborn`**

```python
# Importar el módulo seaborn
import seaborn as sns

# Cargar el dataset 'iris'
iris = sns.load_dataset('iris')

# Mostrar los primeros registros del dataset
iris.head()
```

Explicación: `seaborn` es una biblioteca para visualización de datos que también incluye datasets populares como el de `iris`, `tips`, entre otros.

---

In [None]:
# Mostrar los datasets del módulo seaborn
import seaborn as sns
sns.get_dataset_names()

In [None]:
# Cargar el dataframe "mpg" del modulo seaborn y mostrar la información del dataframe
mpg = sns.load_dataset('mpg')
mpg.info()

In [None]:
# Mostrar las 3 primeros filas del dataframe mpg
mpg.head(n=3)


In [None]:
# @title mpg
# import matplotlib.pyplot as plt
from matplotlib import pyplot as plt
mpg['mpg'].plot(kind='hist', bins=20, title='mpg')
plt.gca().spines[['top', 'right',]].set_visible(False)

## Explicación del código de la grafica del histograma

```python
from matplotlib import pyplot as plt
mpg['mpg'].plot(kind='hist', bins=20, title='mpg')
plt.gca().spines[['top', 'right',]].set_visible(False)
```



Este código utiliza la librería `matplotlib` y el método `plot` de un DataFrame de Pandas para generar un histograma. A continuación te explico en detalle cada línea:

### 1. `from matplotlib import pyplot as plt`
Esta línea importa el módulo `pyplot` de la biblioteca `matplotlib` y lo nombra como `plt`. `pyplot` es una colección de funciones que permiten crear gráficos de manera similar a la funcionalidad de MATLAB.

### 2. `mpg['mpg'].plot(kind='hist', bins=20, title='mpg')`
Aquí se está utilizando el método `plot()` del DataFrame `mpg` para crear un gráfico. En este caso, se está generando un **histograma** de la columna `'mpg'` del DataFrame con los siguientes parámetros:
- **`kind='hist'`**: Especifica que el tipo de gráfico a crear es un histograma.
- **`bins=20`**: Define el número de barras o intervalos (bins) en el histograma. En este caso, el histograma tendrá 20 bins, lo que segmenta los datos en 20 intervalos.
- **`title='mpg'`**: Establece el título del gráfico como `'mpg'`.

### 3. `plt.gca().spines[['top', 'right',]].set_visible(False)`
Esta línea accede al **"Axis"** actual (sistema de coordenadas) del gráfico mediante `plt.gca()` (get current axis), y luego modifica la visibilidad de los **bordes** o **spines** del gráfico:
- **`spines[['top', 'right']]`**: Selecciona los bordes superior (`top`) y derecho (`right`) del gráfico.
- **`set_visible(False)`**: Establece estos bordes como no visibles, lo que significa que se ocultan para hacer el gráfico más limpio y estético.

### Resumen del Código
Este código genera un **histograma** que representa la distribución de la variable `mpg` (millas por galón) de un DataFrame, dividiéndola en 20 intervalos (bins). Además, se eliminan los bordes superior y derecho del gráfico para mejorar su presentación visual.

In [None]:
# Mostrar las tres ultimas filas
mpg.tail(n=3)

## Estadística descriptiva de los dataframes

Para generar la estadística descriptiva de un data frame se usa la función describe() de pandas

In [None]:
# Mostrar la estadística descriptiva del dataframe mpg
mpg.describe()

## Interpretación de la salida de la función describe() de pandas

La salida de la función `describe()` de Pandas proporciona estadísticas descriptivas básicas para cada columna del DataFrame `mpg`. Aquí te explico cada una de las métricas mostradas para las columnas:

1. **count**: Indica el número de valores no nulos en cada columna.
   - Todos los valores de las columnas tienen 398 observaciones, excepto la columna "horsepower" que tiene 392 valores, lo que sugiere que hay algunos valores nulos en esa columna.

2. **mean**: Es el promedio (media aritmética) de los valores en cada columna.
   - Por ejemplo, el consumo promedio (mpg) es 23.51, mientras que el número promedio de cilindros es 5.45.

3. **std**: Es la desviación estándar, que mide la dispersión de los valores alrededor de la media.
   - Para la columna `mpg`, la desviación estándar es 7.82, lo que indica que los valores de mpg están distribuidos con una variabilidad relativamente amplia en torno a la media.

4. **min**: Es el valor mínimo en cada columna.
   - El menor valor de `mpg` es 9, mientras que el peso mínimo es 1613.

5. **25%**: Este valor representa el primer cuartil o percentil 25. Indica que el 25% de los datos son menores o iguales a este valor.
   - Para `mpg`, el 25% de los vehículos tienen un consumo de combustible de 17.5 o menos.

6. **50%**: Este es el valor mediano, que divide los datos en dos mitades. El 50% de los datos son menores o iguales a este valor.
   - El valor mediano de `mpg` es 23, lo que significa que la mitad de los vehículos tienen un consumo de combustible de 23 mpg o menos.

7. **75%**: Es el tercer cuartil o percentil 75. Indica que el 75% de los datos son menores o iguales a este valor.
   - Para `mpg`, el 75% de los vehículos tienen un consumo de combustible de 29 mpg o menos.

8. **max**: Es el valor máximo en cada columna.
   - El consumo de combustible máximo (`mpg`) es 46.6, mientras que el valor máximo para la potencia (`horsepower`) es 230.

En resumen, esta salida te da una idea general de la distribución de cada variable. Puedes observar la media, la dispersión, y los rangos en los que caen los valores para características como el consumo de combustible (`mpg`), el número de cilindros, el desplazamiento del motor, la potencia, el peso, la aceleración y el año del modelo.

In [None]:
# Mostrar la documentación del dataframe mpg
mpg?

## **4. Obtener datos de R con `statsmodels`**

```python
# Importar el módulo statsmodels
import statsmodels.api as sm

# Obtener un dataset de R (por ejemplo, 'iris' desde R)
iris_r = sm.datasets.get_rdataset('iris')

# Convertir el dataset en un DataFrame de pandas
iris_r_data = iris_r.data

# Mostrar los primeros registros del dataset
iris_r_data.head()
```

Explicación: `statsmodels` permite acceder a datasets de R utilizando la función `get_rdataset`, lo que facilita la importación de datos desde paquetes de R a Python.

---

In [None]:
# Cargar el dataframe Boston del paquete MASS, utilizando el módulo statsmodels
import statsmodels.api as sm
boston = sm.datasets.get_rdataset('Boston',"MASS")
boston_data = boston.data
boston_data.head()

In [None]:
print(type(boston_data.info()))

In [None]:
# Cargar el dataframe Boston del paquete MASS, utilizando el módulo statsmodels
import statsmodels.api as sm
boston = sm.datasets.get_rdataset('Boston',"MASS").data
boston.head()


## Guía: Montar Google Drive y manipular archivos en Colab

## 1. Montar Google Drive en Google Colab

Primero, necesitamos acceder a los archivos de tu Google Drive desde el notebook de Google Colab. Para hacerlo, ejecutamos el siguiente código:

```python
# Montar Google Drive en Colab
from google.colab import drive

# Montar el drive en la carpeta '/content/drive'
drive.mount('/content/drive')
```

Al ejecutar este código, Colab solicitará autenticación para acceder a tu Google Drive. Sigue las instrucciones que aparecen en pantalla y otorga los permisos necesarios.

---

## 2. Navegar por los archivos en Google Drive

Después de montar Google Drive, puedes navegar por tus archivos como lo harías en tu computadora. Aquí te muestro cómo listar archivos en una carpeta específica:

```python
# Importar el módulo os para trabajar con rutas de archivos
import os

# Especificar la ruta a una carpeta en Google Drive
folder_path = '/content/drive/My Drive/NOMBRE_DE_TU_CARPETA'

# Listar los archivos en esa carpeta
os.listdir(folder_path)
```

---

## 3. Leer y manipular archivos de Excel

Para trabajar con archivos de Excel, usamos el módulo `pandas`. Asegúrate de que el archivo esté en tu Google Drive y luego puedes leerlo como se muestra:

```python
# Importar pandas
import pandas as pd

# Especificar la ruta del archivo de Excel
excel_file = '/content/drive/My Drive/NOMBRE_DE_TU_CARPETA/archivo.xlsx'

# Leer el archivo de Excel
df_excel = pd.read_excel(excel_file)

# Mostrar las primeras filas del archivo
df_excel.head()
```

---

## 4. Leer y manipular archivos CSV

Los archivos CSV son comunes en el análisis de datos y también se pueden leer fácilmente con `pandas`:

```python
# Especificar la ruta del archivo CSV
csv_file = '/content/drive/My Drive/NOMBRE_DE_TU_CARPETA/archivo.csv'

# Leer el archivo CSV
df_csv = pd.read_csv(csv_file)

# Mostrar las primeras filas del archivo
df_csv.head()
```

---

## 5. Leer y manipular archivos de texto (TXT)

Los archivos de texto también son útiles para almacenar datos, y `pandas` puede leer archivos delimitados por tabulaciones u otros separadores:

```python
# Especificar la ruta del archivo TXT
txt_file = '/content/drive/My Drive/NOMBRE_DE_TU_CARPETA/archivo.txt'

# Leer el archivo de texto (suponiendo que esté delimitado por comas)
df_txt = pd.read_csv(txt_file, delimiter='\t')  # Cambia el delimitador si es necesario

# Mostrar las primeras filas del archivo
df_txt.head()
```

---

## 6. Guardar archivos manipulados de vuelta en Google Drive

Puedes guardar tus archivos de nuevo en Google Drive después de manipularlos:

```python
# Especificar la ruta para guardar el archivo CSV manipulado
output_csv = '/content/drive/My Drive/NOMBRE_DE_TU_CARPETA/archivo_modificado.csv'

# Guardar el DataFrame como un nuevo archivo CSV
df_csv.to_csv(output_csv, index=False)

# Especificar la ruta para guardar el archivo Excel manipulado
output_excel = '/content/drive/My Drive/NOMBRE_DE_TU_CARPETA/archivo_modificado.xlsx'

# Guardar el DataFrame como un archivo Excel
df_excel.to_excel(output_excel, index=False)
```

## **5. Obtener datos desde archivos de Excel con `pandas`**

1. Carque Google Drive
2. Monte los archivos de Excel, csv y demás
3. Use pandas para cargar los distintos datasets

```python
# Importar pandas
import pandas as pd

# Leer un archivo de Excel con varias hojas (suponiendo que el archivo está en la misma carpeta)
# El archivo 'data.xlsx' tiene varias hojas, por ejemplo, 'Hoja1', 'Hoja2'
excel_file = 'data.xlsx'

# Cargar todas las hojas en un diccionario de DataFrames
all_sheets = pd.read_excel(excel_file, sheet_name=None)

# Mostrar las claves del diccionario (nombres de las hojas)
all_sheets.keys()

# Acceder a una de las hojas (por ejemplo, 'Hoja1')
hoja1 = all_sheets['Hoja1']

# Mostrar los primeros registros de la hoja1
hoja1.head()
```

Explicación: `pandas` permite la lectura de archivos de Excel con múltiples hojas mediante `read_excel` con el parámetro `sheet_name=None`.

---

## Conclusión

En este notebook hemos explorado diversas formas de obtener datos utilizando Python. Ya sea desde librerías especializadas, como `vega_datasets` y `seaborn`, desde paquetes de R con `statsmodels`, o desde archivos de Excel con `pandas`, contar con los datos correctos es el primer paso para cualquier análisis estadístico o científico de datos.
```

## Cargar un archivo csv de nombre:

"/content/drive/MyDrive/2024_SEM_2/1_Estadística_2024_SEM_2/Tema 2 Datasets: vega_datasets en Python y Paquetes de R/housing.csv"

In [None]:
# Cargar el archivo csv llamado "/content/drive/MyDrive/2024_SEM_2/1_Estadística_2024_SEM_2/Tema 2 Datasets: vega_datasets en Python y Paquetes de R/housing.csv"
import pandas as pd
housing = pd.read_csv("/content/drive/MyDrive/2024_SEM_2/1_Estadística_2024_SEM_2/Tema 2 Datasets: vega_datasets en Python y Paquetes de R/housing.csv")
housing.head()

In [None]:
housing.info()

In [None]:
# Mostrar las columnas del dataframe housing
housing.columns

In [None]:
# Graficar las columnas 'longitude', 'latitude'
housing.plot.scatter(x='longitude', y='latitude')

# **6. streamlit**

Streamlit es un marco de trabajo Python de código abierto para científicos de datos e ingenieros de IA/ML que les permite crear aplicaciones de datos dinámicas con solo unas pocas líneas de código. Cree e implemente aplicaciones de datos potentes en minutos. ¡Comencemos!

[Documentación de Streamlit](https://docs.streamlit.io/)

1. Instale Python
2. Instale Microsoft VsCode
3. Cree un ambiente de trabajo (Entorno Virtual) en un proyecto
4. Instale streamlit
5. Comience lanzando la orden:
```
streamlit hello
```
6. Inscribase y cree scripts de Python, por ejemplo: **app.py**
8. Implemente lanzando la orden:
```
streamlit run app.py
```



