<p><img alt="Colaboratory logo" height="140px" src="https://upload.wikimedia.org/wikipedia/commons/thumb/c/c3/Python-logo-notext.svg/800px-Python-logo-notext.svg.png" align="left" hspace="10px" vspace="0px"></p>
<h1>Fundamentos de Python enfocado en el análisis y transformación de datos</h1>

<h2>Sesión 2: Manipulación de datos con Pandas y Numpy </h2>



<p><a name="contents"></a></p>
<h1> Tabla de contenidos : </h1>

- <a href="#PandasyNumpy">1. Introducción a las librería Pandas Y Numpy  <a><br>
- <a href="#visualizacion">2. Creación y visualización de Dataframes</a><br>
- <a href="#filtrado">3.Selección y filtrado de datos</a></br>
- <a href="#cargadatosarchivos">4. Carga de datos desde archivos</a></br>


<a href="#contents">Contenido<a><br>

 <p><a name="PandasyNumpy"></a></p>

 # 1. Introducción a las librerías pandas y Numpy

 ## ¿Qué es Pandas?

Es una librería de Python especializada en la manipulación y análisis de datos estructurados. Es decir están en un formato tabular con filas y columnas, similar a lo que ves en una hoja de cálculo o una base de datos. Cada columna tiene un tipo de dato específico `números, texto, fechas, etc.`

## ¿Por qué usar Pandas?

*   Series y DataFrames: Pandas introduce dos estructuras de datos principales: las Series (similares a los arrays de NumPy pero con etiquetas) y los DataFrames (tablas de datos con filas y columnas etiquetadas).

*   Manipulación de datos: Pandas ofrece funciones para filtrar, ordenar, agrupar, y realizar cálculos en los datos.

*   Análisis de datos: Pandas se integra bien con otras bibliotecas de visualización y aprendizaje automático, lo que lo convierte en una herramienta esencial para la ciencia de datos.




## Pasos iniciales

In [1]:
#Instalación de la librería Pandas (solo si es necesario)
!pip install pandas



In [2]:
# Importar la librería pandas
import pandas as pd

In [3]:
#Crear un dataFrame desde un diccionario
data = {'Nombre': ['Ana', 'Luis', 'Juan'], 'Edad': [23, 25, 22]}
datosPersonales= pd.DataFrame(data)
datosPersonales

Unnamed: 0,Nombre,Edad
0,Ana,23
1,Luis,25
2,Juan,22


## ¿Qué es Numpy?

Es una librería de Python especializada en el cálculo numérico y el análisis de datos, especialmente para un gran volumen de datos.

Incorpora una nueva clase de objetos o estructuras de código llamados arrays que permite representar colecciones de datos de un mismo tipo en varias dimensiones, y funciones muy eficientes para su manipulación. `Ejemplo: vectores y matrices`

###¿Por qué usar NumPy?

*   Velocidad: Las operaciones en NumPy son mucho más rápidas que las operaciones equivalentes en listas de Python, especialmente cuando trabajamos con grandes conjuntos de datos.

*  Facilidad de uso: NumPy ofrece funciones predefinidas para realizar cálculos matemáticos comunes, lo que simplifica enormemente nuestro código.

*  Estructuras de datos: El objeto principal en NumPy es el array (arreglo), que es una estructura de datos multidimensional similar a una matriz. Los arrays nos permiten realizar operaciones matemáticas de manera eficiente en bloques enteros de datos.

Fuentes: https://aprendeconalf.es/docencia/python/manual/numpy/

## Pasos iniciales

In [4]:
#Instalar la librería

!pip install numpy



In [5]:
import numpy as np

# Array de una dimensión
a1 = np.array([1, 2, 3])

# Array de dos dimensiones
a2 = np.array([[1, 2, 3], [4, 5, 6]])
print(a2)

# Array de tres dimensiones
a3 = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])




[[1 2 3]
 [4 5 6]]


<a href="#contents">Contenido<a><br>

 <p><a name="visualizacion"></a></p>

 ## 2. Creación y visualización de DataFrames

### ¿Qué es un DataFrame?

Es una estructura de datos tabular en Pandas con filas y columnas etiquetadas.(Tiene forma de hoja de cálculo)

### Pasos para crear un DataFrame

In [6]:
# Apartir de un diccionario

data = {
    'Producto': ['Manzanas', 'Peras', 'Naranjas'],
    'Precio': [1200, 1500, 1000]
}
df = pd.DataFrame(data)

In [7]:
df.describe()

Unnamed: 0,Precio
count,3.0
mean,1233.333333
std,251.661148
min,1000.0
25%,1100.0
50%,1200.0
75%,1350.0
max,1500.0


In [8]:
import numpy as np
# Apartir de un array de Numpy
array = np.array([[1, 2, 3], [4, 5, 6]])
df = pd.DataFrame(array, columns=['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6


### Funciones básicas y visualización del DataFrame

In [9]:
#Crear Dataframe
import pandas as pd

# Diccionario con datos
empleados = {
    'Nombre': ['Carlos', 'Marta', 'Lucía', 'Pedro', 'Ana', 'Luis', 'Juan',
               'María', 'Sofía', 'Pablo', 'Elena', 'Andrés', 'Camila', 'Jorge', 'Valeria'],
    'Departamento': ['Ventas', 'Marketing', 'RRHH', 'IT', 'Ventas', 'RRHH', 'Marketing',
                     'IT', 'Ventas', 'Marketing', 'RRHH', 'IT', 'Ventas', 'Marketing', 'RRHH'],
    'Salario': [3000, 3500, 3200, 4000, 2800, 3100, 3400, 4200, 2900, 3600, 3300, 4100, 2950, 3450, 3250],
    'Fecha de ingreso': ['2020-05-10', '2019-11-15', '2021-01-20', '2018-03-08', '2022-07-01',
                         '2020-08-12', '2021-09-05', '2017-12-22', '2023-01-10', '2019-06-30',
                         '2020-03-15', '2018-11-05', '2021-12-10', '2019-10-25', '2020-04-18']
}

# Crear el DataFrame
df_empleados = pd.DataFrame(empleados)
df_empleados

Unnamed: 0,Nombre,Departamento,Salario,Fecha de ingreso
0,Carlos,Ventas,3000,2020-05-10
1,Marta,Marketing,3500,2019-11-15
2,Lucía,RRHH,3200,2021-01-20
3,Pedro,IT,4000,2018-03-08
4,Ana,Ventas,2800,2022-07-01
5,Luis,RRHH,3100,2020-08-12
6,Juan,Marketing,3400,2021-09-05
7,María,IT,4200,2017-12-22
8,Sofía,Ventas,2900,2023-01-10
9,Pablo,Marketing,3600,2019-06-30


In [10]:
df_empleados.describe()
#df_empleados.info()

Unnamed: 0,Salario
count,15.0
mean,3383.333333
std,436.980985
min,2800.0
25%,3050.0
50%,3300.0
75%,3550.0
max,4200.0


In [11]:
orde=df_empleados["Salario"].sort_values()
orde

#Calculate the mediana

df_empleados["Salario"].median()

Q1=df_empleados["Salario"].iloc[0:5].median()
print(Q1)

3200.0


In [12]:
df_empleados.describe()
resume = df_empleados.describe(percentiles=[0.1, 0.9])
print(resume)

           Salario
count    15.000000
mean   3383.333333
std     436.980985
min    2800.000000
10%    2920.000000
50%    3300.000000
90%    4060.000000
max    4200.000000


In [13]:
#Visualizar primeras filas

df_empleados.head(10)
#df_empleados.head()
#df_empleados.head(3)


#Visualizar ultimas filas()
df_empleados.tail(2)

Unnamed: 0,Nombre,Departamento,Salario,Fecha de ingreso
13,Jorge,Marketing,3450,2019-10-25
14,Valeria,RRHH,3250,2020-04-18


In [14]:
#Información del dataframe

df_empleados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 4 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Nombre            15 non-null     object
 1   Departamento      15 non-null     object
 2   Salario           15 non-null     int64 
 3   Fecha de ingreso  15 non-null     object
dtypes: int64(1), object(3)
memory usage: 612.0+ bytes


In [15]:
#Descripción estadística del dataframe

df_empleados.describe()
#En el primer Quartil el 25% del los empleados tieno un sueldo menor o igual a 3050 y que el 75% gana más de ese valor


Unnamed: 0,Salario
count,15.0
mean,3383.333333
std,436.980985
min,2800.0
25%,3050.0
50%,3300.0
75%,3550.0
max,4200.0


In [16]:
# visualizar datos nulos

df_empleados.isnull()

Unnamed: 0,Nombre,Departamento,Salario,Fecha de ingreso
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False
5,False,False,False,False
6,False,False,False,False
7,False,False,False,False
8,False,False,False,False
9,False,False,False,False


In [17]:
# Creación de un diccionario con valores repetidos y nulos
data = {
    'ID': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] * 2,  # Valores repetidos
    'Nombre': ['Ana', 'Luis', 'Juan', 'Ana', 'Luis', 'Carlos', None, 'Ana', 'Carlos', 'Luis'] * 2,
    'Edad': [23, 25, None, 23, 25, 30, 29, 23, 30, None] * 2,
    'Salario': [2000, 2500, 3000, 2000, 2500, None, 4000, 2000, 4000, None] * 2
}

# Creación del DataFrame
new_df = pd.DataFrame(data)


new_df.isnull()


Unnamed: 0,ID,Nombre,Edad,Salario
0,False,False,False,False
1,False,False,False,False
2,False,False,True,False
3,False,False,False,False
4,False,False,False,False
5,False,False,False,True
6,False,True,False,False
7,False,False,False,False
8,False,False,False,False
9,False,False,True,True


In [18]:
#contar la cantida de datos nulos

new_df.isnull().sum()
new_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   ID       20 non-null     int64  
 1   Nombre   18 non-null     object 
 2   Edad     16 non-null     float64
 3   Salario  16 non-null     float64
dtypes: float64(2), int64(1), object(1)
memory usage: 772.0+ bytes


In [19]:
#Identificar datos duplicados
new_df.duplicated()
#new_df.tail(10)

Unnamed: 0,0
0,False
1,False
2,False
3,False
4,False
5,False
6,False
7,False
8,False
9,False


<a href="#contents">Contenido<a><br>

 <p><a name="filtrado"></a></p>

## 3. Selección y filtrado de datos

In [20]:
#Cambiar nombre de columnas

# Crear un DataFrame de ejemplo
data = {
    'Producto': ['Manzanas', 'Peras', 'Naranjas'],
    'Precio': [1200, 1500, 1000],
    'Cantidad': [10, 5, 8]
}

tienda = pd.DataFrame(data)
print("DataFrame original:")
tienda

DataFrame original:


Unnamed: 0,Producto,Precio,Cantidad
0,Manzanas,1200,10
1,Peras,1500,5
2,Naranjas,1000,8


In [21]:
tienda.columns=['Objeto','Valor','numero de elementos']
tienda

Unnamed: 0,Objeto,Valor,numero de elementos
0,Manzanas,1200,10
1,Peras,1500,5
2,Naranjas,1000,8


In [22]:
tienda['Objeto'].str.upper()

Unnamed: 0,Objeto
0,MANZANAS
1,PERAS
2,NARANJAS


## Filtración Con condiciones lógicas

Podemos filtrar filas aplicando condiciones a los valores de las columnas.

In [23]:
# Crear un DataFrame de ejemplo
data = {'Nombre': ['Ana', 'Luis', 'Carlos', 'Marta', 'Sofía'],
        'Edad': [25, 30, 22, 35, 28],
        'Ciudad': ['Madrid', 'Barcelona', 'Sevilla', 'Valencia', 'Bilbao']}

df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,25,Madrid
1,Luis,30,Barcelona
2,Carlos,22,Sevilla
3,Marta,35,Valencia
4,Sofía,28,Bilbao


In [24]:
# Filtrar personas con edad menor a 20

df2= df[df['Edad'] <25]
df2

# Filtrar personas que viven en Barcelona o Madrid
df_filtrado = df[df['Ciudad'].isin(['Barcelona', 'Madrid']) & (df["Edad"]>25)]
df_filtrado

#Filtrar personas cuya edad esté entre 25 y 30 años
#df3 = df[(df['Edad'] >= 25) & (df['Edad'] < 30)]
#df3

Unnamed: 0,Nombre,Edad,Ciudad
1,Luis,30,Barcelona


## Uso de `.loc[]`y `.iloc[]`

### `loc[]:` Selección por etiquetas (nombre de fila y columna)

In [25]:
# Seleccionar la fila con índice 2
df.loc[2]

# Seleccionar un rango de filas
df.loc[2:5]  # Incluye las filas del índice 1 al 3

# Seleccionar una celda específica
df.loc[2, 'Nombre']  # Devuelve el nombre en la fila con índice 2


'Carlos'

### `iloc[]:` Selección por posición (índices numéricos)

In [26]:
# Seleccionar la tercera fila
print(df.iloc[2])

# Seleccionar las dos primeras filas
print(df.iloc[:2])

# Seleccionar una celda específica
print(df.iloc[2, 0])  # Devuelve el valor en la tercera fila y primera columna


Nombre     Carlos
Edad           22
Ciudad    Sevilla
Name: 2, dtype: object
  Nombre  Edad     Ciudad
0    Ana    25     Madrid
1   Luis    30  Barcelona
Carlos


### Ejercicios Prácticos

1. Seleccionar columnas específicas:

*  Crea un DataFrame con al menos 6 filas y 4 columnas.
*  Selecciona solo las columnas 2 y 4 usando [].
*  Luego, usa loc[] para seleccionar las mismas columnas.


2. Crea un DataFrame con nombres, edades y ciudades.

*  Filtra solo los registros donde la edad sea mayor a 30.
*  Filtra solo las personas que viven en "Madrid" o "Sevilla".


3. Crea un DataFrame con nombres, edades y salarios.

*  Usa loc[] para seleccionar las personas con salarios mayores a 3000.
*  Usa iloc[] para seleccionar las filas de la 2 a la 4.

4. Combinar múltiples condiciones:

*  Filtra personas cuya edad esté entre 25 y 40 años y vivan en "Barcelona".

5. Crea un DataFrame con información de productos (nombre, precio, stock).

*  Aumenta en 10% el precio de los productos cuyo stock sea menor a 5.
Cambia el nombre de un producto específico.

<a href="#contents">Contenido<a><br>

 <p><a name="cargadatosarchivos"></a></p>

 ## 4. Carga de datos desde archivos

## 1. Cargar un archivo CSV desde almacenamiento local


Un archivo CSV (Comma-Separated Values) es un formato de datos donde cada línea representa un registro y los valores están separados por comas. Pandas facilita la lectura de estos archivos con `pd.read_csv()`.

In [29]:
# Paso a paso para cargar archivos desde el ordenador
from google.colab import files
import pandas as pd

# Subir el archivo manualmente
uploaded = files.upload()

#Leer el archivo como dataFrame
df = pd.read_csv("Inventory_v2.csv")



Saving Inventory_v2.csv to Inventory_v2.csv


### Opciones comunes de `read_csv()`


*  `delimiter=";" `: Si los valores están separados por ; en vez de ,.
*  `encoding="utf-8`: Asegura que los caracteres especiales sean leídos correctamente.
*  `header=0`: Indica que la primera fila contiene los nombres de las columnas.
* `skiprow:n`: Indica el numoro de la fila donde estab los nombres de las columnas donde $n$ es el número de filas.

Archivos de CSV para prácticar:

https://www.ibm.com/docs/en/scis?topic=samples-sample-csv-files

In [33]:
#Cargar desde archivos publicados en la web



In [34]:
import pandas as pd

# Crear un DataFrame con fechas en formato de texto
data = {"fecha": ["2024-02-04", "2024/02/03", "04-02-2024", "Feb 1, 2024"]}
df = pd.DataFrame(data)

# Convertir la columna a formato datetime
df["fecha"] = pd.to_datetime(df["fecha"], format="mixed")

df.dtypes # Verificamos que ahora la columna es tipo datetime64

Unnamed: 0,0
fecha,datetime64[ns]


In [37]:
import pandas as pd
import numpy as np

df1=pd.read_csv("https://docs.google.com/spreadsheets/d/e/2PACX-1vTLsKZ4bSHsONfeyzLIp-uaa6Ffttth_xbLZQUEFOfGzOBR-9kByYFQVQwAfB12cMtOwK4MJKF9-9zi/pub?output=csv",skiprows=2)



In [38]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 23 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Estado de la campaña        21 non-null     object
 1   Campaña                     17 non-null     object
 2   Nombre de presupuesto       17 non-null     object
 3   Código de moneda            21 non-null     object
 4   Presupuesto                 17 non-null     object
 5   Tipo de presupuesto         17 non-null     object
 6   Estado                      17 non-null     object
 7   Motivos del estado          17 non-null     object
 8   Nivel de optimización       17 non-null     object
 9   Tipo de campaña             19 non-null     object
 10  Impr.                       21 non-null     int64 
 11  Interacciones               21 non-null     int64 
 12  Tasa de interacción         21 non-null     object
 13  Coste medio                 21 non-null     object
 

##Ejercicios Propuestos

1.  Dataset Pinguins:

```
import seaborn as sns
import pandas as pd

# Cargar dataset
penguins = sns.load_dataset("penguins")

 ```


*  Filtra todas las observaciones donde la especie sea "Adelie".
*  Encuentra los pingüinos con una masa corporal superior a 4000 g.
*  Extrae todas las filas donde la isla sea "Dream" y la masa corporal supere los 3500 g.

2.  Dataset Titanic
````
titanic = sns.load_dataset("titanic")
````

*  Filtra el dataset para obtener solo las personas que sobrevivieron y determina si la edad de los sobrevivientes está más dispersa que la de los no sobrevivientes, usando la desviación estándar.

*  Filtra el dataset para las personas que viajaban en primera clase (Pclass == 1) y compara la media de la tarifa entre los pasajeros más jóvenes (edad < 30) y los mayores (edad >= 30).

*  Fltra el dataset para las personas que no sobrevivieron y determina si la edad de los no sobrevivientes tiene una dispersión mayor o menor que la de los sobrevivientes.

*  Filtra el dataset para las personas que sobrevivieron y calcula si la tarifa media es superior a la media general de todos los pasajeros.

*  Filtra el dataset para las personas que tienen edades superiores a 50 años y calcula si su desviación estándar de tarifa es mayor que la de los pasajeros más jóvenes.

*  Filtra el dataset para los hombres (Sex == 'male') y analiza si su edad tiene una dispersión mayor en comparación con las mujeres, basándote en la desviación estándar.

*  Filtra el dataset para las personas que viajaban en tercera clase (Pclass == 3) y compara la tarifa media de los pasajeros que están por debajo y por encima del percentil 50 de la edad.

*  Filtra el dataset para las mujeres (Sex == 'female') y analiza si la media de la tarifa es superior al percentil 25 de las tarifas para este grupo.

*  Filtra el dataset para las personas que no sobrevivieron y determina si la edad de este grupo está más concentrada (menor desviación estándar) que la de los sobrevivientes.

*   Filtra el dataset para las personas que viajaban en el Titanic con una tarifa mayor a 50 y analiza si la edad media de estos pasajeros es superior al percentil 75 de la edad en el dataset.