# Código Clase 6 



## Biblioteca Pandas


In [None]:
#!pip install pandas

In [1]:
# Verificar la versión de pandas
import pandas as pd
print(pd.__version__)

2.2.3


## Introducción

* Ideal para trabajar con archivos tipo Excel, CSV o bases de datos.

* Facilita el trabajo con estructuras tipo tablas (Series y DataFrames).

* Se basa en NumPy pero es más flexible para análisis de datos reales.

## `Series` en Pandas

* Las Series son estructuras unidimensionales similares a arrays de NumPy, pero con un índice asociado. 
* Puede ser creado desde una lista:

In [6]:
# Creación desde una lista
s1 = pd.Series([10, 20, 30, 40, 50])
s1


0    10
1    20
2    30
3    40
4    50
dtype: int64

In [7]:
data = pd.Series([0.25, 0.5, 0.75, 1.0, 1.3])
data

0    0.25
1    0.50
2    0.75
3    1.00
4    1.30
dtype: float64

* Una ``Series`` encapsula tanto una secuencia de valores como una de índices.
* Podemos acceder a ellos con los atributos `values` e `index`

In [None]:
data.values   #internamente usa array para guardar los datos 

array([0.25, 0.5 , 0.75, 1.  , 1.3 ])

* Un `index` es un objeto similar a un array.

In [9]:
data.index

RangeIndex(start=0, stop=5, step=1)

In [11]:
type(data)

pandas.core.series.Series

* Podemos acceder a una `Series` a través del índice asociado de forma similar a los arrays de Numpy: con los `[]` 


In [69]:
data[1]

0.5

In [5]:
data[2:]

2    0.75
3    1.00
4    1.30
dtype: float64

* Pueden ser `strings` 

In [18]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'], name='proporciones', dtype='float64')
data

a    0.25
b    0.50
c    0.75
d    1.00
Name: proporciones, dtype: float64

In [11]:
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

* Y podemos acceder simplemente:

In [7]:
data['b']

0.5

### ``Series`` como un `dict` especializado

* Un `dict` es una estructura que mapea un set de keys arbitrarias a un set de valores de un tipo.
* Puede hacerse, entonces, una analogía entre una `Series` y un `dict`

In [12]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}

population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [13]:
population.values

array([38332521, 26448193, 19651127, 19552860, 12882135], dtype=int64)

In [14]:
population.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

* Puede crearse una `Series` a partir de un `dict`: el índice se toma de las keys.
* Así, puede accederse de forma análoga a un `dict`.

In [15]:
population['California']

38332521

* A diferencia de un `dict` una `Series` soporta algunas operaciones del estilo de un array, como por ejemplo, slicing:

In [14]:
population['Texas':'New York']

Texas       26448193
New York    19651127
dtype: int64

## Objeto `DataFrame`

* Otra estructura fundamental. 
* 2D, filas y columnas, representa una tabla. 
* Vamos a verlo armandolo nosotros, o trayendonos los datos desde un archivo (csv, xls, json)

### Construyendo objetos `DataFrame`

In [19]:
# Creación desde un diccionario de listas
data = {
    'Nombre': ['Juan', 'Ana', 'Carlos', 'María', 'Pedro'],
    'Edad': [28, 34, 29, 42, 31],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 'Bilbao'],
    'Puntuación': [8.5, 9.0, 7.5, 8.0, 9.5]
}

In [None]:
df1= pd.DataFrame(data)
df1

Unnamed: 0,Nombre,Edad,Ciudad,Puntuación
0,Juan,28,Madrid,8.5
1,Ana,34,Barcelona,9.0
2,Carlos,29,Valencia,7.5
3,María,42,Sevilla,8.0
4,Pedro,31,Bilbao,9.5


In [58]:
# Creación desde una lista de diccionarios
personas = [
    {'Nombre': 'Juan', 'Edad': 28, 'Ciudad': 'Madrid'},
    {'Nombre': 'Ana', 'Edad': 34, 'Ciudad': 'Barcelona'},
    {'Nombre': 'Carlos', 'Edad': 29, 'Ciudad': 'Valencia'}
]

df = pd.DataFrame(personas)
print("DataFrame desde lista de diccionarios:")
print(df)
df

DataFrame desde lista de diccionarios:
   Nombre  Edad     Ciudad
0    Juan    28     Madrid
1     Ana    34  Barcelona
2  Carlos    29   Valencia


Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,28,Madrid
1,Ana,34,Barcelona
2,Carlos,29,Valencia


In [None]:
# Información general
df.info()  # Muestra información sobre el DataFrame, como columnas, tipos de datos y valores no nulos.   dtypes
df.describe()  # Estadísticas descriptivas para columnas numéricas.
df.shape  # Dimensiones del DataFrame (filas, columnas).
df.columns  # Nombres de las columnas.
df.index  # Índices del DataFrame.

# Selección y acceso
df.head(n)  # Muestra las primeras 'n' filas (por defecto 5).
df.tail(n)  # Muestra las últimas 'n' filas (por defecto 5).
df['columna']  # Acceso a una columna.
df[['columna1', 'columna2']]  # Acceso a múltiples columnas.
df.loc[fila, columna]  # Selección por etiquetas.
df.iloc[fila, columna]  # Selección por posición/indices


In [40]:
df.iloc[1,0]


'Ana'

In [49]:
df.loc[0, 'Nombre']

'Juan'

Funciones basicas de pandas

In [None]:
# Operaciones básicas
df.sort_values(by='columna', ascending=True)  # Ordenar por una columna.
df.drop('columna', axis=1)  # Eliminar una columna.
df.drop(index, axis=0)  # Eliminar una fila.
df['nueva_columna'] = valores  # Crear o modificar una columna.
df.isnull()  # Identificar valores nulos.
df.fillna(valor)  # Rellenar valores nulos.
df.dropna()  # Eliminar filas con valores nulos.

# Estadísticas
df['columna'].unique()  # Valores únicos en una columna.
df['columna'].value_counts()  # Conteo de valores únicos.
df.corr()  # Correlación entre columnas numéricas.

Otro ejemplo desde un diccionario de listas

In [65]:
datos = {
    'cliente': ['Ana', 'Luis', 'Carla', 'Pedro', 'Lucía', 'Luis'],
    'edad': [25, 40, 35, 50, 28, 40],
    'saldo': [10000, 50000, 30000, None, 15000, 50000],
    'creditos': [1, 2, 1, 3, 2, 2]
}

df2 = pd.DataFrame(datos)
df2

Unnamed: 0,cliente,edad,saldo,creditos
0,Ana,25,10000.0,1
1,Luis,40,50000.0,2
2,Carla,35,30000.0,1
3,Pedro,50,,3
4,Lucía,28,15000.0,2
5,Luis,40,50000.0,2


In [None]:
# Ordenar por saldo
df2.sort_values(by='saldo', ascending=True)

Unnamed: 0,cliente,edad,saldo,creditos
0,Ana,25,10000.0,1
4,Lucía,28,15000.0,2
2,Carla,35,30000.0,1
1,Luis,40,50000.0,2
5,Luis,40,50000.0,2
3,Pedro,50,,3


In [None]:
# Eliminar la columna 'creditos'
df2.drop('creditos', axis=1)

Unnamed: 0,cliente,edad,saldo
0,Ana,25,10000.0
1,Luis,40,50000.0
2,Carla,35,30000.0
3,Pedro,50,
4,Lucía,28,15000.0
5,Luis,40,50000.0


In [67]:
# Eliminar la fila con índice 3
df2.drop(3, axis=0)

Unnamed: 0,cliente,edad,saldo,creditos
0,Ana,25,10000.0,1
1,Luis,40,50000.0,2
2,Carla,35,30000.0,1
4,Lucía,28,15000.0,2
5,Luis,40,50000.0,2


In [68]:
# Crear nueva columna "saldo_promedio" como saldo dividido por edad
df2['saldo_promedio'] = df2['saldo'] / df2['edad']

In [69]:
df2

Unnamed: 0,cliente,edad,saldo,creditos,saldo_promedio
0,Ana,25,10000.0,1,400.0
1,Luis,40,50000.0,2,1250.0
2,Carla,35,30000.0,1,857.142857
3,Pedro,50,,3,
4,Lucía,28,15000.0,2,535.714286
5,Luis,40,50000.0,2,1250.0


In [71]:
# Identificar valores nulos
df2.isnull()

Unnamed: 0,cliente,edad,saldo,creditos,saldo_promedio
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,True,False,True
4,False,False,False,False,False
5,False,False,False,False,False


In [72]:
# Rellenar nulos con 0
df2.fillna(0)

Unnamed: 0,cliente,edad,saldo,creditos,saldo_promedio
0,Ana,25,10000.0,1,400.0
1,Luis,40,50000.0,2,1250.0
2,Carla,35,30000.0,1,857.142857
3,Pedro,50,0.0,3,0.0
4,Lucía,28,15000.0,2,535.714286
5,Luis,40,50000.0,2,1250.0


In [None]:
# Eliminar filas con nulos
df2.dropna()   #inplace=True

Unnamed: 0,cliente,edad,saldo,creditos,saldo_promedio
0,Ana,25,10000.0,1,400.0
1,Luis,40,50000.0,2,1250.0
2,Carla,35,30000.0,1,857.142857
4,Lucía,28,15000.0,2,535.714286
5,Luis,40,50000.0,2,1250.0


In [81]:
df2

Unnamed: 0,cliente,edad,saldo,creditos,saldo_promedio
0,Ana,25,10000.0,1,400.0
1,Luis,40,50000.0,2,1250.0
2,Carla,35,30000.0,1,857.142857
3,Pedro,50,,3,
4,Lucía,28,15000.0,2,535.714286
5,Luis,40,50000.0,2,1250.0


In [76]:
df2.dtypes

cliente            object
edad                int64
saldo             float64
creditos            int64
saldo_promedio    float64
dtype: object

In [78]:
df2['cliente'].unique()         # Nombres únicos

array(['Ana', 'Luis', 'Carla', 'Pedro', 'Lucía'], dtype=object)

In [80]:
df2['cliente'].value_counts() 

cliente
Luis     2
Ana      1
Carla    1
Pedro    1
Lucía    1
Name: count, dtype: int64

In [None]:
# Ver filas duplicadas completas
df2.duplicated()        #.sum() cuantos hay

np.int64(1)

In [86]:
# Ver solo las filas duplicadas
df2[df2.duplicated()]

Unnamed: 0,cliente,edad,saldo,creditos,saldo_promedio
5,Luis,40,50000.0,2,1250.0


In [None]:
df2.drop_duplicates()#elimina cuando toda la fila esta duplicada     #### df.drop_duplicates(subset=['cliente'])

Unnamed: 0,cliente,edad,saldo,creditos,saldo_promedio
0,Ana,25,10000.0,1,400.0
1,Luis,40,50000.0,2,1250.0
2,Carla,35,30000.0,1,857.142857
3,Pedro,50,,3,
4,Lucía,28,15000.0,2,535.714286


In [117]:
filtro1=df2[df2['edad'] > 30]  # Filtrar filas donde la edad es mayor a 30
filtro1

Unnamed: 0,cliente,edad,saldo,creditos,saldo_promedio
1,Luis,40,50000.0,2,1250.0
2,Carla,35,30000.0,1,857.142857
3,Pedro,50,,3,
5,Luis,40,50000.0,2,1250.0


In [None]:
filtro2=df2[(df2['edad'] > 30) & (df2['creditos']==2)]  # Filtrar filas donde la edad es mayor a 30 y los creditos son 2
filtro2

Unnamed: 0,cliente,edad,saldo,creditos,saldo_promedio
1,Luis,40,50000.0,2,1250.0
5,Luis,40,50000.0,2,1250.0


In [121]:
# Renombrar columnas
renombrar = df2.rename(columns={'saldo_promedio': 'saldo_prom', 'edad': 'años'})
renombrar

Unnamed: 0,cliente,años,saldo,creditos,saldo_prom
0,Ana,25,10000.0,1,400.0
1,Luis,40,50000.0,2,1250.0
2,Carla,35,30000.0,1,857.142857
3,Pedro,50,,3,
4,Lucía,28,15000.0,2,535.714286
5,Luis,40,50000.0,2,1250.0


In [122]:
# Reordenar columnas
df_reordered = df2[['saldo', 'edad', 'cliente', 'creditos', 'saldo_promedio']]
df_reordered

Unnamed: 0,saldo,edad,cliente,creditos,saldo_promedio
0,10000.0,25,Ana,1,400.0
1,50000.0,40,Luis,2,1250.0
2,30000.0,35,Carla,1,857.142857
3,,50,Pedro,3,
4,15000.0,28,Lucía,2,535.714286
5,50000.0,40,Luis,2,1250.0


In [125]:
dfnuevo=df2[['cliente','saldo']].copy()
dfnuevo

Unnamed: 0,cliente,saldo
0,Ana,10000.0
1,Luis,50000.0
2,Carla,30000.0
3,Pedro,
4,Lucía,15000.0
5,Luis,50000.0


DataFrames

### Cargando datos

In [None]:
##paso 1 importacion 
#CSV
clientes= pd.read_csv('clientes_banco.csv')  #, sep=',', encoding='latin1', header=0, index_col=None)
                                            # Opciones comunes de read_csv
                                            # pd.read_csv('archivo.csv', sep=';')  # Cambiar separador
                                            # pd.read_csv('archivo.csv', header=None)  # Sin encabezados
                                            # pd.read_csv('archivo.csv', usecols=['col1', 'col3'])  # Solo ciertas columnas
                                            # pd.read_csv('archivo.csv', nrows=100)  # Limitar número de filas


In [148]:
clientes.head()

Unnamed: 0,ID_cliente,Nombre,Apellido,Edad,Provincia,Ocupacion,Saldo_cuenta,Limite_credito,Tiene_tarjeta,Producto_principal,Fecha_alta,Nivel_satisfaccion
0,1,Diego,Fernández,67,Tucumán,Desempleado,,123027.71,True,Tarjeta de crédito,2017-01-23,6.0
1,2,Lucía,García,77,Santa Fe,Empresario,112856.92,182542.98,True,Caja de ahorro,2017-01-16,8.0
2,3,Ana,Sánchez,60,Salta,Desempleado,175554.01,,True,Plazo fijo,2016-11-18,5.0
3,4,Carlos,Díaz,54,Santa Fe,Empleado,-6681.79,142505.72,False,Cuenta corriente,2016-12-23,2.0
4,5,Diego,Gómez,32,Salta,,22934.41,171855.97,False,Caja de ahorro,2019-04-16,4.0


In [None]:
#pd.set_option('display.max_columns', None)
#pd.set_option('display.max_rows', None)

In [None]:
clientesxls=pd.read_excel('clientes_banco.xlsx')  #, sheet_name='nombre')

In [99]:
clientesxls.head()

Unnamed: 0,ID_cliente,Nombre,Apellido,Edad,Provincia,Ocupación,Saldo_cuenta,Limite_credito,Tiene_tarjeta,Producto_principal,Fecha_alta,Nivel_satisfacción
0,1,Diego,Fernández,67,Tucumán,Desempleado,,123027.71,True,Tarjeta de crédito,2017-01-23,6.0
1,2,Lucía,García,77,Santa Fe,Empresario,112856.92,182542.98,True,Caja de ahorro,2017-01-16,8.0
2,3,Ana,Sánchez,60,Salta,Desempleado,175554.01,,True,Plazo fijo,2016-11-18,5.0
3,4,Carlos,Díaz,54,Santa Fe,Empleado,-6681.79,142505.72,False,Cuenta corriente,2016-12-23,2.0
4,5,Diego,Gómez,32,Salta,,22934.41,171855.97,False,Caja de ahorro,2019-04-16,4.0


In [101]:
clientesjson=pd.read_json('clientes_banco.json', lines=True)  # Use lines=True for newline-delimited JSON

In [102]:
clientesjson.head()

Unnamed: 0,ID_cliente,Nombre,Apellido,Edad,Provincia,Ocupación,Saldo_cuenta,Limite_credito,Tiene_tarjeta,Producto_principal,Fecha_alta,Nivel_satisfacción
0,1,Diego,Fernández,67,Tucumán,Desempleado,,123027.71,True,Tarjeta de crédito,1485129600000,6.0
1,2,Lucía,García,77,Santa Fe,Empresario,112856.92,182542.98,True,Caja de ahorro,1484524800000,8.0
2,3,Ana,Sánchez,60,Salta,Desempleado,175554.01,,True,Plazo fijo,1479427200000,5.0
3,4,Carlos,Díaz,54,Santa Fe,Empleado,-6681.79,142505.72,False,Cuenta corriente,1482451200000,2.0
4,5,Diego,Gómez,32,Salta,,22934.41,171855.97,False,Caja de ahorro,1555372800000,4.0


In [None]:

# Nota: También puede importar desde:
# - SQL: pd.read_sql()
# - HTML: pd.read_html()
# - Clipboard: pd.read_clipboard()

## Análisis descriptivo en Pandas
### Ejemplo clientes. Ejercicio practico.
 



¿Que tipos de datos tiene el DF? ¿Cuántos registros y columnas hay?

¿Qué tipo de datos hay en cada columna? ¿Hay nulos, duplicados? ¿Como los manejo?

In [105]:
clientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   ID_cliente          2000 non-null   int64  
 1   Nombre              2000 non-null   object 
 2   Apellido            2000 non-null   object 
 3   Edad                2000 non-null   int64  
 4   Provincia           2000 non-null   object 
 5   Ocupacion           1800 non-null   object 
 6   Saldo_cuenta        1800 non-null   float64
 7   Limite_credito      1800 non-null   float64
 8   Tiene_tarjeta       2000 non-null   bool   
 9   Producto_principal  2000 non-null   object 
 10  Fecha_alta          2000 non-null   object 
 11  Nivel_satisfaccion  1800 non-null   float64
dtypes: bool(1), float64(3), int64(2), object(6)
memory usage: 174.0+ KB


In [150]:
clientes.shape

(2002, 12)

In [151]:
clientes.columns

Index(['ID_cliente', 'Nombre', 'Apellido', 'Edad', 'Provincia', 'Ocupacion',
       'Saldo_cuenta', 'Limite_credito', 'Tiene_tarjeta', 'Producto_principal',
       'Fecha_alta', 'Nivel_satisfaccion'],
      dtype='object')

In [161]:
clientes.head(20)

Unnamed: 0,ID_cliente,Nombre,Apellido,Edad,Provincia,Ocupacion,Saldo_cuenta,Limite_credito,Tiene_tarjeta,Producto_principal,Fecha_alta,Nivel_satisfaccion
0,1,Diego,Fernández,67,Tucumán,Desempleado,0.0,123027.71,True,Tarjeta de crédito,2017-01-23,6.0
1,2,Lucía,García,77,Santa Fe,Empresario,112856.92,182542.98,True,Caja de ahorro,2017-01-16,8.0
2,3,Ana,Sánchez,60,Salta,Desempleado,175554.01,0.0,True,Plazo fijo,2016-11-18,5.0
3,4,Carlos,Díaz,54,Santa Fe,Empleado,-6681.79,142505.72,False,Cuenta corriente,2016-12-23,2.0
4,5,Diego,Gómez,32,Salta,0,22934.41,171855.97,False,Caja de ahorro,2019-04-16,4.0
5,6,Marta,Sánchez,45,Salta,Jubilado,133780.5,123626.87,False,Tarjeta de crédito,2017-01-16,0.0
6,7,Pedro,Romero,35,Mendoza,Desempleado,168198.39,191757.87,True,Tarjeta de crédito,2015-08-30,0.0
7,8,Diego,Rodríguez,51,Buenos Aires,Desempleado,75505.36,149290.36,False,Caja de ahorro,2022-06-05,6.0
10,9,Ana,López,39,Tucumán,Empresario,87.97,89675.23,False,Tarjeta de crédito,2016-12-08,2.0
11,10,Carlos,Fernández,28,Mendoza,Estudiante,171596.21,123199.89,False,Cuenta corriente,2016-03-10,6.0


In [153]:
clientes.tail(4)

Unnamed: 0,ID_cliente,Nombre,Apellido,Edad,Provincia,Ocupacion,Saldo_cuenta,Limite_credito,Tiene_tarjeta,Producto_principal,Fecha_alta,Nivel_satisfaccion
1998,1997,Diego,García,21,Chubut,Estudiante,156444.58,219933.48,True,Cuenta corriente,2020-08-21,2.0
1999,1998,Carlos,Fernández,68,Buenos Aires,Estudiante,173200.68,71142.03,False,Tarjeta de crédito,2018-04-29,1.0
2000,1999,María,Romero,71,Chubut,Desempleado,101537.86,128138.04,True,Plazo fijo,2018-11-24,3.0
2001,2000,Pedro,López,36,Salta,Empresario,81985.54,174885.53,True,Caja de ahorro,2019-04-10,8.0


In [154]:
# Verificar valores nulos en cada columna
clientes.isnull().sum()

ID_cliente              0
Nombre                  0
Apellido                0
Edad                    0
Provincia               0
Ocupacion             200
Saldo_cuenta          200
Limite_credito        200
Tiene_tarjeta           0
Producto_principal      0
Fecha_alta              0
Nivel_satisfaccion    200
dtype: int64

In [None]:
clientes.fillna(0, inplace=True)  # con 0  o # Eliminar filas con nulos df.dropna()

In [155]:
# Verificar valores únicos en cada columna
clientes.nunique()

ID_cliente            2000
Nombre                  10
Apellido                10
Edad                    62
Provincia                8
Ocupacion                5
Saldo_cuenta          1800
Limite_credito        1800
Tiene_tarjeta            2
Producto_principal       5
Fecha_alta            1454
Nivel_satisfaccion      10
dtype: int64

In [156]:
# Verificar duplicados
clientes.duplicated().sum()

np.int64(2)

In [159]:
clientes[clientes.duplicated()]

Unnamed: 0,ID_cliente,Nombre,Apellido,Edad,Provincia,Ocupacion,Saldo_cuenta,Limite_credito,Tiene_tarjeta,Producto_principal,Fecha_alta,Nivel_satisfaccion
8,8,Diego,Rodríguez,51,Buenos Aires,Desempleado,75505.36,149290.36,False,Caja de ahorro,2022-06-05,6.0
9,8,Diego,Rodríguez,51,Buenos Aires,Desempleado,75505.36,149290.36,False,Caja de ahorro,2022-06-05,6.0


In [160]:
clientes.drop_duplicates(inplace=True)  # Eliminar duplicados

¿Cuál es el rango de edades de los clientes?

In [162]:
edad_min = clientes['Edad'].min()
edad_max = clientes['Edad'].max()
print(f"Los clientes tienen entre {edad_min} y {edad_max} años.")

Los clientes tienen entre 18 y 79 años.


¿Cuántos clientes están desempleados?

In [163]:
desempleados = clientes[clientes['Ocupacion'] == 'Desempleado']
print(f"Hay {desempleados.shape[0]} clientes desempleados.")

Hay 355 clientes desempleados.


¿Cuales son los clientes menores de 21 años?

In [191]:
menoresde21= clientes[clientes['Edad'] < 21]
menoresde21

Unnamed: 0,ID_cliente,Nombre,Apellido,Edad,Provincia,Ocupacion,Saldo_cuenta,Limite_credito,Tiene_tarjeta,Producto_principal,Fecha_alta,Nivel_satisfaccion
25,24,Sofía,Díaz,18,Santa Fe,Desempleado,112935.51,164345.14,True,Cuenta corriente,2015-02-01,4.0
27,26,Juan,López,20,Neuquén,Empleado,128468.30,177812.90,True,Plazo fijo,2023-02-12,7.0
32,31,Luis,Romero,18,Mendoza,Empleado,162714.24,206084.87,False,Plazo fijo,2022-03-29,4.0
45,44,Luis,García,20,Córdoba,Desempleado,64139.37,180666.15,False,Caja de ahorro,2021-03-07,7.0
53,52,Juan,Fernández,18,Tucumán,Desempleado,76249.84,225221.39,False,Préstamo personal,2022-03-27,2.0
...,...,...,...,...,...,...,...,...,...,...,...,...
1970,1969,Diego,García,20,Mendoza,Jubilado,55609.52,97788.30,True,Caja de ahorro,2015-03-22,5.0
1971,1970,Marta,Rodríguez,18,Buenos Aires,Empleado,57016.04,128447.39,False,Tarjeta de crédito,2020-11-04,6.0
1975,1974,Lucía,Fernández,18,Mendoza,Empleado,73653.75,131878.01,True,Préstamo personal,2015-07-04,6.0
1977,1976,Juan,Gómez,19,Mendoza,Empleado,133817.71,199459.50,False,Préstamo personal,2022-07-08,6.0


In [None]:
# si quisiera guardar el resultado en un csv
#menoresde21.to_csv('menores.csv', index=False)  # Guardar en CSV sin índice

In [193]:
menores4col= menoresde21[['Nombre','Apellido', 'Edad', 'Provincia']].copy()
menores4col

Unnamed: 0,Nombre,Apellido,Edad,Provincia
25,Sofía,Díaz,18,Santa Fe
27,Juan,López,20,Neuquén
32,Luis,Romero,18,Mendoza
45,Luis,García,20,Córdoba
53,Juan,Fernández,18,Tucumán
...,...,...,...,...
1970,Diego,García,20,Mendoza
1971,Marta,Rodríguez,18,Buenos Aires
1975,Lucía,Fernández,18,Mendoza
1977,Juan,Gómez,19,Mendoza


Creo una nueva columna con el nombre completo

In [194]:
clientes['Nombre_Completo'] = clientes['Nombre'] + ' ' + clientes['Apellido']
clientes.head()

Unnamed: 0,ID_cliente,Nombre,Apellido,Edad,Provincia,Ocupacion,Saldo_cuenta,Limite_credito,Tiene_tarjeta,Producto_principal,Fecha_alta,Nivel_satisfaccion,Nombre_Completo
0,1,Diego,Fernández,67,Tucumán,Desempleado,0.0,123027.71,True,Tarjeta de crédito,2017-01-23,6.0,Diego Fernández
1,2,Lucía,García,77,Santa Fe,Empresario,112856.92,182542.98,True,Caja de ahorro,2017-01-16,8.0,Lucía García
2,3,Ana,Sánchez,60,Salta,Desempleado,175554.01,0.0,True,Plazo fijo,2016-11-18,5.0,Ana Sánchez
3,4,Carlos,Díaz,54,Santa Fe,Empleado,-6681.79,142505.72,False,Cuenta corriente,2016-12-23,2.0,Carlos Díaz
4,5,Diego,Gómez,32,Salta,0,22934.41,171855.97,False,Caja de ahorro,2019-04-16,4.0,Diego Gómez


In [None]:
#clientes.drop(['Nombre', 'Apellido'], axis=1, inplace=True)

¿De qué provincias son los clientes? ¿Cuántos hay por provincia?

In [170]:
provincias = clientes['Provincia'].value_counts()
print(provincias)

Provincia
Córdoba         279
Neuquén         256
Tucumán         253
Salta           253
Chubut          244
Buenos Aires    243
Mendoza         237
Santa Fe        235
Name: count, dtype: int64


 ¿Cuál es el producto principal más común entre los clientes?

In [174]:
producto_mas_comun = clientes['Producto_principal'].value_counts()
print(producto_mas_comun)

Producto_principal
Cuenta corriente      437
Caja de ahorro        405
Plazo fijo            404
Tarjeta de crédito    382
Préstamo personal     372
Name: count, dtype: int64


¿Cómo se distribuyen los productos principales por provincia?

In [None]:
productos_por_provincia =clientes.groupby(['Provincia', 'Producto_principal']).size().unstack(fill_value=0) ##el size cuenta filas por cada grupo, el unstack convierte el resultado en un DataFrame pivotea la tabla
print(productos_por_provincia)

Producto_principal  Caja de ahorro  Cuenta corriente  Plazo fijo  \
Provincia                                                          
Buenos Aires                    49                56          47   
Chubut                          49                56          51   
Córdoba                         67                58          54   
Mendoza                         45                52          45   
Neuquén                         50                52          47   
Salta                           57                57          54   
Santa Fe                        43                54          39   
Tucumán                         45                52          67   

Producto_principal  Préstamo personal  Tarjeta de crédito  
Provincia                                                  
Buenos Aires                       47                  44  
Chubut                             40                  48  
Córdoba                            44                  56  
Mendoza            

¿Cuáles son los clientes más antiguos en el banco?

In [181]:
clientes['Fecha_alta'] = pd.to_datetime(clientes['Fecha_alta']) ### convertimos el tipo de dato de object a datetime
clientes_antiguos = clientes.sort_values('Fecha_alta').head(5)
print(clientes_antiguos[['ID_cliente', 'Nombre','Apellido', 'Fecha_alta']])

      ID_cliente Nombre  Apellido Fecha_alta
922          921  Pedro      Díaz 2015-01-01
686          685  Marta  Martínez 2015-01-01
63            62  Sofía     López 2015-01-02
314          313   Luis   Sánchez 2015-01-07
1170        1169   Juan     Gómez 2015-01-08


In [182]:
clientes['Fecha_alta'].max() 

Timestamp('2023-03-19 00:00:00')

In [186]:
antiguo = clientes[clientes['Fecha_alta'] == clientes['Fecha_alta'].min()]
antiguo

Unnamed: 0,ID_cliente,Nombre,Apellido,Edad,Provincia,Ocupacion,Saldo_cuenta,Limite_credito,Tiene_tarjeta,Producto_principal,Fecha_alta,Nivel_satisfaccion
686,685,Marta,Martínez,77,Tucumán,Empresario,109931.93,12968.19,False,Cuenta corriente,2015-01-01,9.0
922,921,Pedro,Díaz,67,Tucumán,Empresario,77251.48,172590.37,True,Tarjeta de crédito,2015-01-01,0.0


¿Cuál es el promedio de satisfacción por ocupación?

In [188]:
satisfaccion_ocupacion = clientes.groupby('Ocupacion')['Nivel_satisfaccion'].mean().sort_values(ascending=False)
print(satisfaccion_ocupacion)

Ocupacion
Desempleado    5.008451
0              4.970000
Jubilado       4.947826
Estudiante     4.843478
Empresario     4.841432
Empleado       4.747253
Name: Nivel_satisfaccion, dtype: float64


¿Qué porcentaje de clientes tiene tarjeta de crédito?

In [189]:
porcentaje_tarjeta =clientes['Tiene_tarjeta'].mean() * 100
print(f"El {porcentaje_tarjeta:.2f}% de los clientes tiene tarjeta de crédito.")

El 51.20% de los clientes tiene tarjeta de crédito.


¿Cuántos clientes tienen tarjeta y cuántos no?

In [190]:
tarjeta_counts = clientes['Tiene_tarjeta'].value_counts()
print(tarjeta_counts)

# Si querés verlo más claro:
print(f"\nClientes con tarjeta: {tarjeta_counts[True]}")
print(f"Clientes sin tarjeta: {tarjeta_counts[False]}")

Tiene_tarjeta
True     1024
False     976
Name: count, dtype: int64

Clientes con tarjeta: 1024
Clientes sin tarjeta: 976


tipos de datos

In [None]:
# Supongamos que tienes una columna llamada 'columna_str' con valores de tipo str
df['columna_str'] = ['1', '2', '3', '4', '5']

# Convertir la columna de str a int
df['columna_str'] = df['columna_str'].astype(int)

# Verificar el cambio de tipo
print(df.dtypes)

### concat y append 

In [126]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                    index=[0, 1, 2, 3])
   

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                    index=[4, 5, 6, 7])


df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11']},
                    index=[8, 9, 10, 11])

frames = [df1, df2, df3]


In [127]:
df3

Unnamed: 0,A,B,C
8,A8,B8,C8
9,A9,B9,C9
10,A10,B10,C10
11,A11,B11,C11


In [128]:
pd.concat(frames)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,
9,A9,B9,C9,


In [129]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                     index=[2, 3, 6, 7])
df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [130]:
frames = [df1, df2, df3, df4]
pd.concat(frames)

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,A4,B4,C4,D4,
5,A5,B5,C5,D5,
6,A6,B6,C6,D6,
7,A7,B7,C7,D7,
8,A8,B8,C8,,
9,A9,B9,C9,,


In [73]:
pd.concat([df1, df4], axis=1) # Concatenación horizontal

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [134]:
pd.concat([df1, df4], axis=1, join='inner') # Cambiando la forma de concatenar con join

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [135]:
df1.append(df2) # Append es otra forma de fácilmente concatenerar

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


### Merge

In [131]:
left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})


right = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                    'C': ['C0', 'C1', 'C2'],
                    'D': ['D0', 'D1', 'D2']})


pd.merge(left, right, on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2


### Join

In [132]:
# Crear dos DataFrames de ejemplo
df_left = pd.DataFrame({
    'A': ['A0', 'A1', 'A2'],
    'B': ['B0', 'B1', 'B2']
}, index=['K0', 'K1', 'K2'])

df_right = pd.DataFrame({
    'C': ['C0', 'C1', 'C2'],
    'D': ['D0', 'D1', 'D2']
}, index=['K0', 'K2', 'K3'])

# Realizar el join
result = df_left.join(df_right, how='inner')
print(result)

     A   B   C   D
K0  A0  B0  C0  D0
K2  A2  B2  C1  D1


In [133]:
df_left

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


In [134]:
df_right

Unnamed: 0,C,D
K0,C0,D0
K2,C1,D1
K3,C2,D2
