# Data Science 101

## Qué es Data Science?

La ciencia de datos es un campo interdisciplinario que utiliza métodos, procesos, algoritmos y sistemas científicos para extraer conocimiento y comprensión de datos en diversas formas, tanto estructurados como no estructurados. Es un campo que combina estadísticas, análisis de datos y aprendizaje automático para interpretar y analizar grandes volúmenes de in

Qué necesitamos para hacer Data Science?
- Datos: Información que se puede analizar. procesar y extraer conocimiento de ellos.
- Herramientas: Software y lenguajes de programación que facilitan el análisis de datos.
- Conocimientos: Entender los conceptos básicos de estadística, programación y análisis de datos.

## Herramientas y Lenguajes de Programación
- **Python**: Un lenguaje de programación versátil y fácil de aprender, ampliamente utilizado en ciencia de datos.
- **R**: Un lenguaje especializado en análisis estadístico y visualización de datos.
- **SQL**: Un lenguaje de consulta para bases de datos relacionales, esencial para manipular y extraer datos.
- **Jupyter Notebooks**: Un entorno interactivo para escribir y ejecutar código, ideal para análisis exploratorio de datos.
- **Pandas**: Una biblioteca de Python para manipulación y análisis de datos, que proporciona estructuras de datos flexibles y eficientes.
- **NumPy**: Una biblioteca de Python para cálculos numéricos, que proporciona soporte para arreglos multidimensionales y funciones matemáticas.
- **Matplotlib y Seaborn**: Bibliotecas de visualización de datos en Python, que permiten crear gráficos y visualizaciones atractivas.
- **Scikit-learn**: Una biblioteca de Python para aprendizaje automático, que proporciona herramientas para construir y evaluar modelos predictivos.
- **PyTorch**: Biblioteca de Python para aprendizaje profundo, que permiten construir y entrenar redes neuronales complejas.

In [1]:
import cudf # Para trabajar con GPU
import pandas as pd # Para trabajar con CPU
import numpy as np # Para trabajar con arreglos y matrices
import matplotlib.pyplot as plt # Para visualización de datos
import seaborn as sns # Para visualización de datos
import pygwalker as pyg # Para visualización interactiva de datos

##  Introducción a Pandas

Pandas es una biblioteca de Python que proporciona estructuras de datos y herramientas de análisis de datos. Es especialmente útil para manipular y analizar datos tabulares, como hojas de cálculo o bases de datos, y es ampliamente utilizada en ciencia de datos.


### Estructuras de Datos en Pandas
- **Series**: Una estructura unidimensional similar a una lista o un arreglo, que puede contener cualquier tipo de datos y tiene etiquetas (índices).
- **DataFrame**: Una estructura bidimensional similar a una tabla, que contiene filas y columnas, donde cada columna puede tener un tipo de dato diferente. Es la estructura de datos más utilizada en Pandas.
- **Panel**: Una estructura tridimensional, menos utilizada, que puede ser vista como una colección de DataFrames. Sin embargo, en la práctica, los DataFrames son suficientes para la mayoría de las tareas de análisis de datos.
- **Categorías**: Una estructura que permite trabajar con datos categóricos, optimizando el uso de memoria y mejorando el rendimiento en ciertas operaciones.
- **Time Series**: Una estructura especializada para trabajar con datos temporales, que permite realizar operaciones específicas como resampling y rolling windows.
- **Sparse DataFrames**: Una estructura que permite trabajar con datos dispersos, donde la mayoría de los valores son nulos o cero, optimizando el uso de memoria.
- **MultiIndex**: Una estructura que permite trabajar con índices jerárquicos, facilitando el manejo de datos con múltiples niveles de agrupación.

<img src = "imagenes/img.png" width = "800">

# Conceptos Básicos de Pandas
- **Instalación**: Pandas se puede instalar utilizando pip o conda. Por ejemplo, `pip install pandas`.
- **Importación**: Para utilizar Pandas en un script de Python, se debe importar la biblioteca con `import pandas `
- **Creación de Series y DataFrames**:
  - Una Serie se puede crear a partir de una lista, un diccionario o un arreglo de NumPy.
  - Un DataFrame se puede crear a partir de un diccionario de listas, un diccionario de Series, una lista de diccionarios o un archivo.

In [3]:
# Creacion de una Serie
serie = pd.Series([1, 2, 3, 4, 5])
# Creacion de un DataFrame
data = pd.DataFrame({
    'columna1': [1, 2, 3],
    'columna2': ['a', 'b', 'c'],
    'columna3': [True, False, True]
})

In [4]:
# Mostrar la Serie y el DataFrame
print("Serie:")
print(serie)
print("\nDataFrame:")
print(data)

Serie:
0    1
1    2
2    3
3    4
4    5
dtype: int64

DataFrame:
   columna1 columna2  columna3
0         1        a      True
1         2        b     False
2         3        c      True


## Acceso a Datos en Pandas

De nada nos sirve tener datos si no podemos acceder a ellos. Pandas proporciona varias formas de acceder a los datos en Series y DataFrames.

- Slicing: Permite acceder a un subconjunto de datos utilizando índices o etiquetas `data[0:2]` o `data['columna1']`.
- Indexación: Permite acceder a datos específicos utilizando etiquetas o posiciones. Por ejemplo, `data.iloc[0]` para acceder a la primera fila o `data['columna1']` para acceder a una columna específica.
- Filtrado: Permite seleccionar filas que cumplen ciertas condiciones. Por ejemplo, `data[data['columna1'] > 1]` para seleccionar filas donde el valor de 'columna1' es mayor que 1.
- Métodos de acceso: Pandas proporciona métodos como `head()`, `tail()`, `loc[]` e `iloc[]` para acceder a datos de manera más flexible.
    - head(): Muestra las primeras n filas del DataFrame (por defecto 5).
    - tail(): Muestra las últimas n filas del DataFrame (por defecto 5).
    - loc[]: Permite acceder a filas y columnas por etiquetas.
    - iloc[]: Permite acceder a filas y columnas por posición entera.


In [19]:
# Slicing
sliced_data = data[0:2]  # Accede a las primeras 2 filas
# Indexación
indexed_data = data.iloc[0]  # Accede a la primera fila
# Filtrado
filtered_data = data[data['columna1'] > 1]  # Filtra filas donde 'columna1' es mayor que 1
# Métodos de acceso
print("Head:")
print(data.head())# Muestra las primeras 5 filas
print("Tail:")
print(data.tail())  # Muestra las últimas 5 filas

Head:
   columna1 columna2  columna3
0         1        a      True
1         2        b     False
2         3        c      True
Tail:
   columna1 columna2  columna3
0         1        a      True
1         2        b     False
2         3        c      True
Loc:
columna1       1
columna2       a
columna3    True
Name: 0, dtype: object
Iloc:
columna1       1
columna2       a
columna3    True
Name: 0, dtype: object


### Cargando Datos en Pandas
Pandas permite cargar datos desde diferentes fuentes, como archivos CSV, Excel, bases de datos SQL y más. Los métodos más comunes para cargar datos son:
- `read_csv()`: Carga datos desde un archivo CSV.
- `read_excel()`: Carga datos desde un archivo Excel.
- `read_sql()`: Carga datos desde una base de datos SQL.
- `read_json()`: Carga datos desde un archivo JSON.
- `read_html()`: Carga datos desde una tabla HTML.
- `read_parquet()`: Carga datos desde un archivo Parquet, un formato de almacenamiento columnar eficiente.
- `read_feather()`: Carga datos desde un archivo Feather, un formato de almacenamiento binario eficiente para DataFrames.
- `read_pickle()`: Carga datos desde un archivo pickle, que permite serializar objetos de Python.
- `read_clipboard()`: Carga datos desde el portapapeles, útil para copiar y pegar datos tabulares desde otras aplicaciones.

In [3]:
# Cargando datos desde un archivo CSV
data_csv = pd.read_csv('https://raw.githubusercontent.com/Lorex-xus/Herpetario/refs/heads/main/Melbourne_housing_FULL.csv')  # Reemplaza 'ruta/al/archivo.csv' con la ruta real del archivo
data_csv

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,68 Studley St,2,h,,SS,Jellis,3/09/2016,2.5,3067.0,...,1.0,1.0,126.0,,,Yarra City Council,-37.80140,144.99580,Northern Metropolitan,4019.0
1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,1.0,1.0,202.0,,,Yarra City Council,-37.79960,144.99840,Northern Metropolitan,4019.0
2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.0,Yarra City Council,-37.80790,144.99340,Northern Metropolitan,4019.0
3,Abbotsford,18/659 Victoria St,3,u,,VB,Rounds,4/02/2016,2.5,3067.0,...,2.0,1.0,0.0,,,Yarra City Council,-37.81140,145.01160,Northern Metropolitan,4019.0
4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.0,Yarra City Council,-37.80930,144.99440,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
34852,Yarraville,13 Burns St,4,h,1480000.0,PI,Jas,24/02/2018,6.3,3013.0,...,1.0,3.0,593.0,,,Maribyrnong City Council,-37.81053,144.88467,Western Metropolitan,6543.0
34853,Yarraville,29A Murray St,2,h,888000.0,SP,Sweeney,24/02/2018,6.3,3013.0,...,2.0,1.0,98.0,104.0,2018.0,Maribyrnong City Council,-37.81551,144.88826,Western Metropolitan,6543.0
34854,Yarraville,147A Severn St,2,t,705000.0,S,Jas,24/02/2018,6.3,3013.0,...,1.0,2.0,220.0,120.0,2000.0,Maribyrnong City Council,-37.82286,144.87856,Western Metropolitan,6543.0
34855,Yarraville,12/37 Stephen St,3,h,1140000.0,SP,hockingstuart,24/02/2018,6.3,3013.0,...,,,,,,Maribyrnong City Council,,,Western Metropolitan,6543.0


Como podemos observar, los datos se han cargado correctamente en un DataFrame de Pandas. Ahora podemos realizar diversas operaciones de análisis y manipulación de datos utilizando las herramientas que Pandas nos proporciona.

Pero antes de eso vamos a comprender un poco más sobre los DataFrames y cómo podemos manipularlos ya que estos son la base de la mayoría de las operaciones que realizaremos en ciencia de datos.


Los dataframes son estructuras de datos bidimensionales que pueden contener diferentes tipos de datos (números, cadenas, booleanos, etc.) y están organizados en filas y columnas. Cada columna puede tener un nombre (etiqueta) y cada fila puede ser identificada por un índice(Similar a una hoja de cálculo o una tabla en una base de datos).

| **Indice** | **Columna 1** | **Columna 2** | **Columna 3** |
|------------|---------------|---------------|---------------|
| 0          | 1             | a             | True          |
| 1          | 2             | b             | False         |
| 2          | 3             | c             | True          |

Como podemos observar, cada fila tiene un índice que la identifica de manera única, y cada columna tiene un nombre que la identifica. Esto nos permite acceder a los datos de manera eficiente y realizar operaciones sobre ellos.

Otra característica importante de los DataFrames es que pueden contener datos no admitidos  (*NaN*[Not a Number]*,null,None*), lo que significa que no hay un valor definido para esa celda. Pandas maneja estos valores faltantes y proporciona herramientas para tratarlos.


### Explorando los DataFrames
Para explorar un DataFrame, podemos utilizar varios métodos y atributos que nos permiten obtener información sobre su estructura y contenido. Algunos de los más comunes son:
- `shape`: Devuelve una tupla que representa las dimensiones del DataFrame (número de filas y columnas).
- `columns`: Devuelve una lista de los nombres de las columnas del DataFrame.
- `dtypes`: Devuelve una serie que muestra el tipo de dato de cada columna.
- `info()`: Muestra un resumen del DataFrame, incluyendo el número de entradas, el tipo de dato de cada columna y la cantidad de valores no nulos.
- `describe()`: Proporciona estadísticas descriptivas de las columnas numéricas del DataFrame, como la media, la desviación estándar, los valores mínimo y máximo, y los percentiles.
- `head(n)`: Muestra las primeras n filas del DataFrame (por defecto 5).
- `tail(n)`: Muestra las últimas n filas del DataFrame (por defecto 5).
- `sample(n)`: Muestra una muestra aleatoria de n filas del DataFrame (por defecto 1).
- `memory_usage()`: Devuelve la cantidad de memoria utilizada por cada columna del DataFrame.
- `isnull()`: Devuelve un DataFrame booleano que indica si cada valor es nulo (True) o no (False).
- `notnull()`: Devuelve un DataFrame booleano que indica si cada valor no es nulo (True) o es nulo (False).
- `value_counts()`: Devuelve una serie que muestra la cantidad de ocurrencias de cada valor único en una columna específica.
- `unique()`: Devuelve una lista de los valores únicos en una columna específica.
- `nunique()`: Devuelve el número de valores únicos en una columna específica.
- `sort_values(by, ascending=True)`: Ordena el DataFrame por los valores de una o más columnas especificadas.
- `sort_index(axis=0, ascending=True)`: Ordena el DataFrame por su índice.
- `reset_index(drop=False)`: Resetea el índice del DataFrame, opcionalmente eliminando el índice anterior.
- `set_index(keys, drop=True)`: Establece una o más columnas como el nuevo índice del DataFrame, opcionalmente eliminando las columnas originales.