#Introducción al Análisis de Datos
Rol del análisis de datos: Extraer información útil de datos crudos para tomar decisiones (sectores salud, finanzas, marketing, políticas públicas, etc).

Los datos transforman decisiones.

Evolución del análisis: Se pasó de estadísticas descriptivas simples a análisis predictivo y prescriptivo más complejos.

Análisis estadístico: media, mediana, moda, varianza y desviación estándar.

Minería de datos y análisis predictivo: Identificación de patrones y predicción de tendencias futuras.

Visualización de datos: gráficos y tablas para comunicar insights de forma clara.

Tendencias emergentes: Aprendizaje automático e inteligencia artificial como herramientas crecientes en el campo.

**inspeccionar, limpiar, transformar y modelar datos** para extraer información útil, tomar decisiones y generar conclusiones.

Pasos clave:
*   Recolección de datos: Obtener información relevante de distintas fuentes.
*   Limpieza de datos: Corregir errores y eliminar inconsistencias.
*   Exploración de datos: Identificar patrones, anomalías y relaciones entre variables.
*   Interpretación: Entender las implicancias de los patrones hallados.
*   Visualización: Mostrar datos en gráficos o tablas para facilitar la comprensión.
*   Reporte: Comunicar hallazgos a los interesados.

Para qué sirve:
*   Tomar decisiones basadas en datos en varios campos (negocios, ciencia, ingeniería y políticas públicas.)
*   Guiar estrategias de negocio, validar hipótesis científicas y formular políticas basadas en evidencia.



#Tipos de datos
Cualitativos: Datos no numéricos que pueden observarse pero no medirse, ej opiniones, descripciones, textos.
En Python - pandas, se suelen representar con el *object data type*.
```
qualitative_columns = data.select_dtypes(include=['object']).columns
```

Cuantitativos: numéricos, medibles y cuantificables (ventas, edad, temperatura).
En Python - pandas, se suelen representar con el *int64 para datos discretos y float64 para datos continuos*.
```
quantitative_columns = titanic_data.select_dtypes(include=['float64', 'int64']).columns
```


#4 técnicas principales de análisis:

Descriptivo: explica que pasó, describe las características principales de un conjunto de datos. Resume datos basado en medidas de frecuencia, de tendencia central, de dispersion y variabilidad (media, mediana, moda, desviación).

Inferencial: hace inferencias sobre una población a partir de una muestra.
Se usan las pruebas estadísticas y test de hipótesis.

Predictivo: usa datos históricos, algoritmos, aprendizaje automatico para predecir la probabilidad de resultados futuros basados ​​en datos históricos. ej riesgo de no pago ante la otorgacion de un crédito.

Prescriptivo: sugiere acciones para lograr los resultados predichos y muestra las implicaciones de cada decisión.
Por ejemplo, una empresa de servicios financieros aprovecha el análisis de big data para ofrecer asesoramiento de inversión personalizado. Al analizar las tendencias del mercado, el historial financiero de cada cliente y la situación económica actual, ofrecen recomendaciones personalizadas que satisfacen mejor las necesidades de sus clientes, diferenciándolos de la competencia.

#Decisiones basadas en datos, beneficios:

Más precisión y objetividad.

Predicción de tendencias futuras.

Mayor eficiencia y detección de áreas de mejora.

Ventaja competitiva al tomar decisiones estratégicas informadas.



# Intro to Data Manipulation with Pandas

Qué es Pandas: Librería de Python para manipulación y análisis de datos, especialmente estructurados (tablas).

Datos principales:

    Series: arreglo unidimensional (como una columna).
        data = pd.Series([1, 3, 5, 7, 9])

    DataFrames: estrucutura o tabla 2D con filas y columnas etiquetadas.
    data = {
    'Name': ['John', 'Anna', 'Peter', 'Linda'],
    'Age': [28, 34, 29, 32],
    'City': ['New York', 'Paris', 'Berlin', 'London']
    }
    df = pd.DataFrame(data)

Importar Pandas: import pandas as pd

Cargar datos: desde CSV, Excel o SQL

    pd.read_csv()
    df = pd.read_csv('path/to/your/csvfile.csv')

Ver y explorar datos:

    df.head() → primeras 5 filas

    df.describe() → resumen estadístico

    df.info() → resumen de columnas y tipos

Manipulación básica:

    Acceso: df['Columna']
    ages = df['Age']   # Access the 'Age' column


    Ordenar: df.sort_values(by='Columna')
    df.sort_values(by='Age')

    Filtrar: df[df['Columna'] > valor]
    df[df['Age'] > 30]  # Selects rows where age is greater than 30

    Agrupar: df.groupby('Columna')['OtraColumna'].mean()
    df.groupby('City')['Age'].mean()  # Groups data by city and calculates mean for each group

    Combinar datos de dferentes fuentes: pd.merge(df1, df2, on='Columna')


#Ejemplo práctico:
Tengo un Dataset con las ventas de una librería (columnas Book Title, Author, Genre, Price, Copies Sold).
Explorar el dataset...

In [None]:
#Importar Pandas y crear el dataset

import pandas as pd

data = {
'Book Title': ['The Great Gatsby', 'To Kill a Mockingbird', '1984', 'Pride and Prejudice', 'The Catcher in the Rye'],
'Author': ['F. Scott Fitzgerald', 'Harper Lee', 'George Orwell', 'Jane Austen', 'J.D. Salinger'],
'Genre': ['Classic', 'Classic', 'Dystopian', 'Classic', 'Classic'],
'Price': [10.99, 8.99, 7.99, 11.99, 9.99],
'Copies Sold': [500, 600, 800, 300, 450]
}

df = pd.DataFrame(data)

In [None]:
#Use head() to view the first few rows of the DataFrame.

df.head()  # Muestra las primeras 5 filas

Unnamed: 0,Book Title,Author,Genre,Price,Copies Sold
0,The Great Gatsby,F. Scott Fitzgerald,Classic,10.99,500
1,To Kill a Mockingbird,Harper Lee,Classic,8.99,600
2,1984,George Orwell,Dystopian,7.99,800
3,Pride and Prejudice,Jane Austen,Classic,11.99,300
4,The Catcher in the Rye,J.D. Salinger,Classic,9.99,450


In [None]:
#Resumen estadístico de columnas numéricas.
df.describe()  # Muestra media, min, max, desviación, etc.

Unnamed: 0,Price,Copies Sold
count,5.0,5.0
mean,9.99,530.0
std,1.581139,185.741756
min,7.99,300.0
25%,8.99,450.0
50%,9.99,500.0
75%,10.99,600.0
max,11.99,800.0


In [None]:
#Información general del DataFrame  --> concise summary of the DataFrame, including the number of non-null entries in each column.
df.info()  # Número de filas, columnas, tipos de datos y valores no nulos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Book Title   5 non-null      object 
 1   Author       5 non-null      object 
 2   Genre        5 non-null      object 
 3   Price        5 non-null      float64
 4   Copies Sold  5 non-null      int64  
dtypes: float64(1), int64(1), object(3)
memory usage: 332.0+ bytes


In [None]:
#Ordenar por Precio
df.sort_values(by='Price')  # Ordena de menor a mayor precio

Unnamed: 0,Book Title,Author,Genre,Price,Copies Sold
2,1984,George Orwell,Dystopian,7.99,800
1,To Kill a Mockingbird,Harper Lee,Classic,8.99,600
4,The Catcher in the Rye,J.D. Salinger,Classic,9.99,450
0,The Great Gatsby,F. Scott Fitzgerald,Classic,10.99,500
3,Pride and Prejudice,Jane Austen,Classic,11.99,300


In [None]:
#Ordenar por Sold
df.sort_values(by='Copies Sold', ascending=False)  # Ordena de mayor a menor ventas

Unnamed: 0,Book Title,Author,Genre,Price,Copies Sold
2,1984,George Orwell,Dystopian,7.99,800
1,To Kill a Mockingbird,Harper Lee,Classic,8.99,600
0,The Great Gatsby,F. Scott Fitzgerald,Classic,10.99,500
4,The Catcher in the Rye,J.D. Salinger,Classic,9.99,450
3,Pride and Prejudice,Jane Austen,Classic,11.99,300


In [None]:
# Filtrar solo los libros de género 'Classic'
df[df['Genre'] == 'Classic']

Unnamed: 0,Book Title,Author,Genre,Price,Copies Sold
0,The Great Gatsby,F. Scott Fitzgerald,Classic,10.99,500
1,To Kill a Mockingbird,Harper Lee,Classic,8.99,600
3,Pride and Prejudice,Jane Austen,Classic,11.99,300
4,The Catcher in the Rye,J.D. Salinger,Classic,9.99,450


In [None]:
# Filtrar libros con precio mayor a 10
df[df['Price'] > 10]

Unnamed: 0,Book Title,Author,Genre,Price,Copies Sold
0,The Great Gatsby,F. Scott Fitzgerald,Classic,10.99,500
3,Pride and Prejudice,Jane Austen,Classic,11.99,300


In [None]:
#Agrupar por autor y sumar las copias vendidas
df.groupby('Author')['Copies Sold'].sum()

Unnamed: 0_level_0,Copies Sold
Author,Unnamed: 1_level_1
F. Scott Fitzgerald,500
George Orwell,800
Harper Lee,600
J.D. Salinger,450
Jane Austen,300


#Jupyter Notebook (archivos .ipynb )

Escribir código en celdas de Python; agregar celdas de texto para notas.

local (desde Anaconda Navigator o jupyter notebook en terminal)

vs

Google Colab (Versión en la nube, ideal para colaboración con compañeros via link o correo, con permisos de Viewer o Editor.)

Hardware: permite usar GPU y TPU gratis para acelerar cálculos, ideal para machine learning.
*   GPU: procesamiento paralelo, más rápido que CPU para ciertos cálculos
*   TPU: optimizado para redes neuronales y ML, más rápido y eficiente en energía.

Se activa en Runtime → Change runtime type → Hardware accelerator.

**Beneficios generales:**

Combina código, texto y visualizaciones.

Facilita colaboración en tiempo real.

Acceso gratuito a hardware avanzado (GPU/TPU).

Ideal para aprendizaje, experimentación y proyectos de ciencia de datos.

In [None]:
#write a simple Python program to calculate and display your age in days. Calcula y muestra tu edad en días

#versión simple

edad_en_años = 41
edad_en_dias = edad_en_años * 365  # No contamos años bisiestos
print(f'Tu edad en días es: {edad_en_dias}')

Tu edad en días es: 14965


In [None]:
#versión exacta

from datetime import date

# Ingresa tu fecha de nacimiento
fecha_nacimiento = date(1984, 10, 24)

# Fecha actual
hoy = date.today()        #obtiene la fecha de hoy automáticamente.

# Calculamos la diferencia en días
edad_en_dias = (hoy - fecha_nacimiento).days    #calcula los días totales.

print(f'Tu edad en días es: {edad_en_dias}')


Tu edad en días es: 15071


In [None]:
# Programa para calcular el factorial de un número

numero = 5  # cambiá este valor
factorial = 1

for i in range(1, numero + 1):
    factorial *= i
    #factorial *= i e  es lo mismo que hacer factorial = factorial * i

print(f"El factorial de {numero} es {factorial}")


El factorial de 5 es 120


In [None]:
# Script colaborativo: ordenar una lista de números
# Creado por: Julieta
numeros = [5, 2, 9, 1, 7, 3]
print("Lista original:", numeros)
numeros_ordenados = sorted(numeros)
print("Lista ordenada:", numeros_ordenados)


Lista original: [5, 2, 9, 1, 7, 3]
Lista ordenada: [1, 2, 3, 5, 7, 9]


In [None]:
#Write a Python script to merge two dictionaries
dict1 = {'a': 1, 'b': 2}
dict2 = {'b': 3, 'c': 4}

merged_dict = dict1 | dict2

print(merged_dict)
#{'a': 1, 'b': 3, 'c': 4}
#La clave 'b' estaba en ambos, se queda con el valor de dict2. Claves repetidas → gana el segundo

{'a': 1, 'b': 3, 'c': 4}


#Kaggle

Plataforma para data science que combina competencias, datasets, notebooks (Kernels) y comunidad. Permite aprender, practicar y comparar soluciones reales de análisis de datos y machine learning.

Es ideal para experiencia práctica, aprendizaje continuo y trabajo colaborativo.

Para aprender haciendo, con datos reales, apoyo de la comunidad y herramientas listas para usar.

# Guía para principiantes sobre el proceso de análisis de datos


1.   Definir la pregunta = Problem Statement

Que problema estoy tratando de resolver?

Planteo de hipótesis + testeo de hipotesis

Para poder enmarcar el problema (darle un marco, un frame), el analista debe
- entender el negocio + los objetivos del negocio
- tener habilidades blandas y pensamiento lateral.
- Conocer las metricas de negocio ylos KPI.


2.   Data Collection

3. Limpieza de datos (pandas)

4. Analisis

5. Comunicar y compartir los resultados (reportes, dashboards, visualizaciones)