# Data Science 101

## Qué es Data Science?

La ciencia de datos es un campo interdisciplinario que utiliza métodos, procesos, algoritmos y sistemas científicos para extraer conocimiento y comprensión de datos en diversas formas, tanto estructurados como no estructurados. Es un campo que combina estadísticas, análisis de datos y aprendizaje automático para interpretar y analizar grandes volúmenes de in

Qué necesitamos para hacer Data Science?
- Datos: Información que se puede analizar. procesar y extraer conocimiento de ellos.
- Herramientas: Software y lenguajes de programación que facilitan el análisis de datos.
- Conocimientos: Entender los conceptos básicos de estadística, programación y análisis de datos.

## Herramientas y Lenguajes de Programación
- **Python**: Un lenguaje de programación versátil y fácil de aprender, ampliamente utilizado en ciencia de datos.
- **R**: Un lenguaje especializado en análisis estadístico y visualización de datos.
- **SQL**: Un lenguaje de consulta para bases de datos relacionales, esencial para manipular y extraer datos.
- **Jupyter Notebooks**: Un entorno interactivo para escribir y ejecutar código, ideal para análisis exploratorio de datos.
- **Pandas**: Una biblioteca de Python para manipulación y análisis de datos, que proporciona estructuras de datos flexibles y eficientes.
- **NumPy**: Una biblioteca de Python para cálculos numéricos, que proporciona soporte para arreglos multidimensionales y funciones matemáticas.
- **Matplotlib y Seaborn**: Bibliotecas de visualización de datos en Python, que permiten crear gráficos y visualizaciones atractivas.
- **Scikit-learn**: Una biblioteca de Python para aprendizaje automático, que proporciona herramientas para construir y evaluar modelos predictivos.
- **PyTorch**: Biblioteca de Python para aprendizaje profundo, que permiten construir y entrenar redes neuronales complejas.

In [2]:
import cudf # Para trabajar con GPU
import pandas as pd # Para trabajar con CPU
import numpy as np # Para trabajar con arreglos y matrices
import matplotlib.pyplot as plt # Para visualización de datos
import seaborn as sns # Para visualización de datos
import pygwalker as pyg # Para visualización interactiva de datos

##  Introducción a Pandas

Pandas es una biblioteca de Python que proporciona estructuras de datos y herramientas de análisis de datos. Es especialmente útil para manipular y analizar datos tabulares, como hojas de cálculo o bases de datos, y es ampliamente utilizada en ciencia de datos.


### Estructuras de Datos en Pandas
- **Series**: Una estructura unidimensional similar a una lista o un arreglo, que puede contener cualquier tipo de datos y tiene etiquetas (índices).
- **DataFrame**: Una estructura bidimensional similar a una tabla, que contiene filas y columnas, donde cada columna puede tener un tipo de dato diferente. Es la estructura de datos más utilizada en Pandas.
- **Panel**: Una estructura tridimensional, menos utilizada, que puede ser vista como una colección de DataFrames. Sin embargo, en la práctica, los DataFrames son suficientes para la mayoría de las tareas de análisis de datos.
- **Categorías**: Una estructura que permite trabajar con datos categóricos, optimizando el uso de memoria y mejorando el rendimiento en ciertas operaciones.
- **Time Series**: Una estructura especializada para trabajar con datos temporales, que permite realizar operaciones específicas como resampling y rolling windows.
- **Sparse DataFrames**: Una estructura que permite trabajar con datos dispersos, donde la mayoría de los valores son nulos o cero, optimizando el uso de memoria.
- **MultiIndex**: Una estructura que permite trabajar con índices jerárquicos, facilitando el manejo de datos con múltiples niveles de agrupación.

<img src = "imagenes/img.png" width = "800">

# Conceptos Básicos de Pandas
- **Instalación**: Pandas se puede instalar utilizando pip o conda. Por ejemplo, `pip install pandas`.
- **Importación**: Para utilizar Pandas en un script de Python, se debe importar la biblioteca con `import pandas `
- **Creación de Series y DataFrames**:
  - Una Serie se puede crear a partir de una lista, un diccionario o un arreglo de NumPy.
  - Un DataFrame se puede crear a partir de un diccionario de listas, un diccionario de Series, una lista de diccionarios o un archivo.

In [3]:
# Creacion de una Serie
serie = pd.Series([1, 2, 3, 4, 5])
# Creacion de un DataFrame
data = pd.DataFrame({
    'columna1': [1, 2, 3],
    'columna2': ['a', 'b', 'c'],
    'columna3': [True, False, True]
})

In [4]:
# Mostrar la Serie y el DataFrame
print("Serie:")
print(serie)
print("\nDataFrame:")
print(data)

Serie:
0    1
1    2
2    3
3    4
4    5
dtype: int64

DataFrame:
   columna1 columna2  columna3
0         1        a      True
1         2        b     False
2         3        c      True


## Acceso a Datos en Pandas

De nada nos sirve tener datos si no podemos acceder a ellos. Pandas proporciona varias formas de acceder a los datos en Series y DataFrames.

- Slicing: Permite acceder a un subconjunto de datos utilizando índices o etiquetas `data[0:2]` o `data['columna1']`.
- Indexación: Permite acceder a datos específicos utilizando etiquetas o posiciones. Por ejemplo, `data.iloc[0]` para acceder a la primera fila o `data['columna1']` para acceder a una columna específica.
- Filtrado: Permite seleccionar filas que cumplen ciertas condiciones. Por ejemplo, `data[data['columna1'] > 1]` para seleccionar filas donde el valor de 'columna1' es mayor que 1.
- Métodos de acceso: Pandas proporciona métodos como `head()`, `tail()`, `loc[]` e `iloc[]` para acceder a datos de manera más flexible.
    - head(): Muestra las primeras n filas del DataFrame (por defecto 5).
    - tail(): Muestra las últimas n filas del DataFrame (por defecto 5).
    - loc[]: Permite acceder a filas y columnas por etiquetas.
    - iloc[]: Permite acceder a filas y columnas por posición entera.


In [19]:
# Slicing
sliced_data = data[0:2]  # Accede a las primeras 2 filas
# Indexación
indexed_data = data.iloc[0]  # Accede a la primera fila
# Filtrado
filtered_data = data[data['columna1'] > 1]  # Filtra filas donde 'columna1' es mayor que 1
# Métodos de acceso
print("Head:")
print(data.head())# Muestra las primeras 5 filas
print("Tail:")
print(data.tail())  # Muestra las últimas 5 filas

Head:
   columna1 columna2  columna3
0         1        a      True
1         2        b     False
2         3        c      True
Tail:
   columna1 columna2  columna3
0         1        a      True
1         2        b     False
2         3        c      True
Loc:
columna1       1
columna2       a
columna3    True
Name: 0, dtype: object
Iloc:
columna1       1
columna2       a
columna3    True
Name: 0, dtype: object


### Cargando Datos en Pandas
Pandas permite cargar datos desde diferentes fuentes, como archivos CSV, Excel, bases de datos SQL y más. Los métodos más comunes para cargar datos son:
- `read_csv()`: Carga datos desde un archivo CSV.
- `read_excel()`: Carga datos desde un archivo Excel.
- `read_sql()`: Carga datos desde una base de datos SQL.
- `read_json()`: Carga datos desde un archivo JSON.
- `read_html()`: Carga datos desde una tabla HTML.
- `read_parquet()`: Carga datos desde un archivo Parquet, un formato de almacenamiento columnar eficiente.
- `read_feather()`: Carga datos desde un archivo Feather, un formato de almacenamiento binario eficiente para DataFrames.
- `read_pickle()`: Carga datos desde un archivo pickle, que permite serializar objetos de Python.
- `read_clipboard()`: Carga datos desde el portapapeles, útil para copiar y pegar datos tabulares desde otras aplicaciones.

In [22]:
# Cargando datos desde un archivo CSV
data_csv = pd.read_csv('Melbourne_housing_FULL.csv')  # Reemplaza 'ruta/al/archivo.csv' con la ruta real del archivo
data_csv

FileNotFoundError: [Errno 2] No such file or directory: 'Melbourne_housing_FULL.csv'